このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230829となっている論文です。

PDF登録状況(公開日: 20230829)

TitleAuthorsAbstract論文公表日・翻訳日
# より良いプレフィックス認証

Better Prefix Authentication ( http://arxiv.org/abs/2308.15058v1 )

ライセンス: Link先を確認
Aljoscha Meyer, (参考訳) 我々は,プレフィックス認証と相対的タイムスタンプの確保のための新しい手法を提案する。 アンチモノトンリンク方式に新たな光を当てることで,プレフィックス認証における最先端と,境界長のラウンドによるタイムスタンプの改善を実現した。 私たちの設計は、証明書の透明性ログのより効率的な代替手段として機能します。

We present new schemes for solving prefix authentication and secure relative timestamping. By casting a new light on antimonotone linking schemes, we improve upon the state of the art in prefix authentication, and in timestamping with rounds of bounded length. Our designs can serve as more efficient alternatives to certificate transparency logs.
翻訳日:2024-03-19 07:22:30 公開日:2023-08-29
# 任意静的モジュールのためのハードウェアにおける領域効率のよいモジュラー削減

Area Efficient Modular Reduction in Hardware for Arbitrary Static Moduli ( http://arxiv.org/abs/2308.15079v1 )

ライセンス: Link先を確認
Robin Müller, Willi Meier, Christoph F. Wildfeuer, (参考訳) モジュラーリダクションは、キー交換法やディリシウムシグネチャスキームを含む多くの後量子暗号スキームにおいて重要な操作である。 しかし、計算コストが高く、ハードウェア実装のパフォーマンスボトルネックを引き起こす可能性がある。 この問題に対処するため,任意の静的変調のためのハードウェアにおいて,モジュールリダクションを効率的に計算するための新しい手法を提案する。 バレットやモンゴメリー還元のような他の一般的な方法とは異なり、この方法は乗法を必要としない。 優れた性能と低面積消費のために、特定のモジュラー選択の特性に依存しない。 その最大の強みは低面積の消費であり、最適化により60%、KyberとDilithium向けの一般的なBarrett実装では90%まで削減された。 さらに、並列化やパイプライニングに適しており、演算幅を増大させながら、ハードウェアリソース消費において線形にスケールする。 すべての演算は、減数される数ではなく、モジュラーのビット幅で行うことができる。 これにより鎖を運ぶことができ、より高速なクロックが可能となる。 さらに,シークレットキーに関する情報を取得するためにタイミング攻撃を使用できる暗号アプリケーションにおいて,本手法は一定時間で実行可能である。

Modular reduction is a crucial operation in many post-quantum cryptographic schemes, including the Kyber key exchange method or Dilithium signature scheme. However, it can be computationally expensive and pose a performance bottleneck in hardware implementations. To address this issue, we propose a novel approach for computing modular reduction efficiently in hardware for arbitrary static moduli. Unlike other commonly used methods such as Barrett or Montgomery reduction, the method does not require any multiplications. It is not dependent on properties of any particular choice of modulus for good performance and low area consumption. Its major strength lies in its low area consumption, which was reduced by 60% for optimized and up to 90% for generic Barrett implementations for Kyber and Dilithium. Additionally, it is well suited for parallelization and pipelining and scales linearly in hardware resource consumption with increasing operation width. All operations can be performed in the bit-width of the modulus, rather than the size of the number being reduced. This shortens carry chains and allows for faster clocking. Moreover, our method can be executed in constant time, which is essential for cryptography applications where timing attacks can be used to obtain information about the secret key.
翻訳日:2024-03-19 07:22:30 公開日:2023-08-29
# FedChain: ブロックチェーンのための効果的なフェデレーション学習の証明に基づく、効率的でセキュアなコンセンサスプロトコル

FedChain: An Efficient and Secure Consensus Protocol based on Proof of Useful Federated Learning for Blockchain ( http://arxiv.org/abs/2308.15095v1 )

ライセンス: Link先を確認
Peiran Wang, (参考訳) ブロックチェーンは、ゼロトラスト環境において、さまざまなアプリケーションのための一般的な分散パラダイムになっています。 ブロックチェーンの中核はコンセンサスプロトコルであり、すべての参加者の間でコンセンサスを確立する。 PoW(Proof-of-Work)は、最も一般的なコンセンサスプロトコルの1つである。 しかし、参加者に無意味なハッシュパズルを解くためにコンピュータパワーを使用するよう促すPoWコンセンサスプロトコルは、常にエネルギー浪費として疑問視されている。 これらの問題に対処するため,ブロックチェーン(FedChain)の有用なフェデレーション学習の証明に基づく,効率的かつセキュアなコンセンサスプロトコルを提案する。 私たちはまず、フェデレートされた学習タスクを作業の証明として利用する、セキュアで堅牢なブロックチェーンアーキテクチャを提案します。 次に、FedChainアーキテクチャの効率を改善するためにプールアグリゲーション機構を統合する。 マイニングプール内の各参加者のモデルパラメータのプライバシを保護するために、秘密共有ベースのリングオールリデュースアーキテクチャを設計する。 また、FedChainのモデル性能を改善するために、データ分散に基づくフェデレーション学習モデル最適化アルゴリズムを導入する。 最後に、ゼロ知識証明に基づくフェデレーション学習モデルの検証を導入し、フェデレーション学習参加者のモデル性能を証明しつつ、フェデレーション学習参加者のプライバシを保存する。 当社のアプローチは広範な実験を通じて検証され,その性能を実証している。

Blockchain has become a popular decentralized paradigm for various applications in the zero-trust environment. The core of the blockchain is the consensus protocol, which establishes consensus among all the participants. PoW (Proof-of-Work) is one of the most popular consensus protocols. However, the PoW consensus protocol which incentives the participants to use their computing power to solve a meaningless hash puzzle is continuously questioned as energy-wasting. To address these issues, we propose an efficient and secure consensus protocol based on proof of useful federated learning for blockchain (called FedChain). We first propose a secure and robust blockchain architecture that takes federated learning tasks as proof of work. Then a pool aggregation mechanism is integrated to improve the efficiency of the FedChain architecture. To protect model parameter privacy for each participant within a mining pool, a secret sharing-based ring-all reduce architecture is designed. We also introduce a data distribution-based federated learning model optimization algorithm to improve the model performance of FedChain. At last, a zero-knowledge proof-based federated learning model verification is introduced to preserve the privacy of federated learning participants while proving the model performance of federated learning participants. Our approach has been tested and validated through extensive experiments, demonstrating its performance.
翻訳日:2024-03-19 07:12:46 公開日:2023-08-29
# LoVeは空中にいる --分散公開センサを用いたADS-B信号の位置検証

LoVe is in the Air -- Location Verification of ADS-B Signals using Distributed Public Sensors ( http://arxiv.org/abs/2308.15104v1 )

ライセンス: Link先を確認
Johanna Ansohn McDougall, Alessandro Brighente, Willi Großmann, Ben Ansohn McDougall, Joshua Stock, Hannes Federrath, (参考訳) Automatic Dependant Surveillance-Broadcast (ADS-B) メッセージスキームは、メッセージの認証や暗号化なしに設計された。 したがって、スプーフされたメッセージを注入したり、送信されたグローバルナビゲーション衛星システム(GNSS)の座標を変更することで、簡単に攻撃することができる。 受信した情報の完全性を検証するため,マルチレイタレーション,カルマンフィルタの使用,グループ認証など,様々な手法が提案されている。 しかしながら、標準の変更に基づくソリューションは、法的および規制上の問題により、実装が困難で遅すぎる可能性がある。 はるかに調査の少ないバンテージは、公開センサーデータを用いた位置検証である。 本稿では,空間的指標を用いた軽量なメッセージ検証手法であるLoVeを提案する。 LoVeでは、データ駆動で軽量なアプローチを使用して、報告された座標の妥当性を、位置プライバシー保護の方法で評価することができる。 2つのオープンデータセットでアプローチをテストすることで、LoVeは非常に低い偽陽性率(0と0.00106)と非常に低い偽陰性率(0.00065と0.00334)を達成し、大きなセンサーセットでもうまくスケール可能なリアルタイム互換アプローチを提供することを示した。 既存のアプローチと比較して、LoVeは大量のセンサーを必要としたり、位置情報の請求を確認するために可能な限り多くのセンサーがメッセージを同時に記録する必要はない。 さらに、現在デプロイされているシステムに直接適用できるため、後方互換性がある。

The Automatic Dependant Surveillance-Broadcast (ADS-B) message scheme was designed without any authentication or encryption of messages in place. It is therefore easily possible to attack it, e.g., by injecting spoofed messages or modifying the transmitted Global Navigation Satellite System (GNSS) coordinates. In order to verify the integrity of the received information, various methods have been suggested, such as multilateration, the use of Kalman filters, group certification, and many others. However, solutions based on modifications of the standard may be difficult and too slow to be implemented due to legal and regulatory issues. A vantage far less explored is the location verification using public sensor data. In this paper, we propose LoVe, a lightweight message verification approach that uses a geospatial indexing scheme to evaluate the trustworthiness of publicly deployed sensors and the ADS-B messages they receive. With LoVe, new messages can be evaluated with respect to the plausibility of their reported coordinates in a location privacy-preserving manner, while using a data-driven and lightweight approach. By testing our approach on two open datasets, we show that LoVe achieves very low false positive rates (between 0 and 0.00106) and very low false negative rates (between 0.00065 and 0.00334) while providing a real-time compatible approach that scales well even with a large sensor set. Compared to currently existing approaches, LoVe neither requires a large number of sensors, nor for messages to be recorded by as many sensors as possible simultaneously in order to verify location claims. Furthermore, it can be directly applied to currently deployed systems thus being backward compatible.
翻訳日:2024-03-19 07:12:46 公開日:2023-08-29
# PTTS:Ethereumブロックチェーン上のゼロ知識証明に基づくプライベートトークン転送システムとそのネットワークフローに基づくバランス範囲プライバシ攻撃解析

PTTS: Zero-Knowledge Proof-based Private Token Transfer System on Ethereum Blockchain and its Network Flow Based Balance Range Privacy Attack Analysis ( http://arxiv.org/abs/2308.15139v1 )

ライセンス: Link先を確認
Goshgar Ismayilov, Can Ozturan, (参考訳) ブロックチェーンは分散化され、不変のデータベースであり、ネットワークのノード間で共有される。 ブロックチェーンは近年、従来の金融システムを破壊して大きな注目を集めていますが、トランザクションのプライバシは依然として問題であり、対処と分析が必要です。 本稿では,Ethereum公開ブロックチェーンのためのPTTS(Private Token Transfer System)を提案する。 提案するフレームワークでは,ゼロ知識ベースのプロトコルをZokratesを使用して設計し,当社のプライベートトークンスマートコントラクトに統合しています。 Webユーザインターフェースの設計の助けを借りて、エンドユーザはサードパーティのセットアップなしでスマートコントラクトと対話できる。 本論文の第2部では,ネットワークフロー問題としてモデル化されたリプレイ攻撃やバランス範囲のプライバシ攻撃を含む,セキュリティとプライバシの分析を行う。 特定の組織や相手に意図的にバランス範囲が漏れている場合、多項式複雑性の最小コストフローネットワークアルゴリズムを用いることで、ユーザバランスに関する有意義な情報を抽出できることが示されている。 実験では,提案フレームワークのEthereumガス消費と証明生成時間について報告する。 また、ネットワークソリューションの時間とバランス範囲のプライバシ攻撃によるアドレスのサブセットの良さ率を、アドレス数、トランザクション数、漏洩した転送トランザクション量の比率に関して報告する。

Blockchains are decentralized and immutable databases that are shared among the nodes of the network. Although blockchains have attracted a great scale of attention in the recent years by disrupting the traditional financial systems, the transaction privacy is still a challenging issue that needs to be addressed and analysed. We propose a Private Token Transfer System (PTTS) for the Ethereum public blockchain in the first part of this paper. For the proposed framework, zero-knowledge based protocol has been designed using Zokrates and integrated into our private token smart contract. With the help of web user interface designed, the end users can interact with the smart contract without any third-party setup. In the second part of the paper, we provide security and privacy analysis including the replay attack and the balance range privacy attack which has been modelled as a network flow problem. It is shown that in case some balance ranges are deliberately leaked out to particular organizations or adversial entities, it is possible to extract meaningful information about the user balances by employing minimum cost flow network algorithms that have polynomial complexity. The experimental study reports the Ethereum gas consumption and proof generation times for the proposed framework. It also reports network solution times and goodness rates for a subset of addresses under the balance range privacy attack with respect to number of addresses, number of transactions and ratio of leaked transfer transaction amounts.
翻訳日:2024-03-19 07:12:46 公開日:2023-08-29
# オンラインサービスにおけるリアルタイムリスクベース認証の評価:複雑さの勝利

Evaluation of Real-World Risk-Based Authentication at Online Services Revisited: Complexity Wins ( http://arxiv.org/abs/2308.15156v1 )

ライセンス: Link先を確認
Jan-Phillip Makowski, Daniela Pöhn, (参考訳) リスクベースの認証(RBA)は、第2の認証メソッドを常に必要とせずに、盗まれたパスワードや、その他の推測されたパスワードによる攻撃からエンドユーザを保護することを目的としている。 オンラインサービスは一般的に、通常と見なされるもの、そうでないもの、そしてその後のアクションに制限を課す。 その結果、RBAはログイン中の位置情報やデバイスなど、さまざまな機能を監視している。 機能が期待値と異なる場合、第2の認証方法が要求される。 しかし、システムがどのように動作するかに関する情報を公表するオンラインサービスはごくわずかである。 これにより、RBAの研究だけでなく、組織における開発や採用も妨げられます。 RBAシステムがどのように動作するかを理解するため、ブラックボックステストが適用される。 結果を検証するため、Google、Amazon、Facebookの3大プロバイダを再評価しました。 テスト設定とテストケースに基づいて、Googleのアカウント作成に基づくRAAの違いに気付きました。 さらに、いくつかのテストケースがRABシステムをトリガーすることは滅多にない。 RBAシステムに対する新たな洞察を与え,今後の課題を提起する。

Risk-based authentication (RBA) aims to protect end-users against attacks involving stolen or otherwise guessed passwords without requiring a second authentication method all the time. Online services typically set limits on what is still seen as normal and what is not, as well as the actions taken afterward. Consequently, RBA monitors different features, such as geolocation and device during login. If the features' values differ from the expected values, then a second authentication method might be requested. However, only a few online services publish information about how their systems work. This hinders not only RBA research but also its development and adoption in organizations. In order to understand how the RBA systems online services operate, black box testing is applied. To verify the results, we re-evaluate the three large providers: Google, Amazon, and Facebook. Based on our test setup and the test cases, we notice differences in RBA based on account creation at Google. Additionally, several test cases rarely trigger the RBA system. Our results provide new insights into RBA systems and raise several questions for future work.
翻訳日:2024-03-19 07:12:46 公開日:2023-08-29
# TASEP: ソーシャルエンジニアリングの失敗を防ぐソーシャルエンジニアリングテーブルトップロールプレイングゲーム

TASEP: A Collaborative Social Engineering Tabletop Role-Playing Game to Prevent Successful Social Engineering Attacks ( http://arxiv.org/abs/2308.15161v1 )

ライセンス: Link先を確認
Lukas Hafner, Florian Wutz, Daniela Pöhn, Wolfgang Hommel, (参考訳) 高度な永続的脅威グループによる組織に対する攻撃によるデータ漏洩は、しばしば、悪意のあるソフトウェアが使われる前に、社会工学(SE)を初期攻撃ベクタとして巻き込む。 フィッシングメールの自動検出などの技術的セキュリティコントロールは、SEのリスク軽減、教育によるSE攻撃の認識の向上、人員のモチベーション向上など、組織のレジリエンスを高めるための重要なビルディングブロックとなっている。 より広範なSE認知キャンペーンの1つの要素として、SE認知トレーニングを促進するために、2つのエディションでテーブルトップ・アズ・ソーシャル・エンジニアリング・ディザクション(TASEP)と呼ばれるSEテーブルトップゲームを開発した。 (a)中小企業 (b)大企業はそれぞれ。 ゲームデザインはダンジョンズ&ドラゴンズのロールプレイングゲームにインスパイアされ、ゲーム内のターゲット組織のLEGOモデルを促進する。 参加者は、SE侵入テスターのグループをプレイし、ゲームマスターが指導するセキュリティ監査を実行することで役割を切り替える。 異なる学生グループで作成したゲームを評価し,高度に没入的かつ柔軟なトレーニングを達成し,SEについて学ぶ楽しさと意識を高める方法を得た。

Data breaches resulting from targeted attacks against organizations, e.g., by advanced persistent threat groups, often involve social engineering (SE) as the initial attack vector before malicious software is used, e.g., for persistence, lateral movement, and data exfiltration. While technical security controls, such as the automated detection of phishing emails, can contribute to mitigating SE risks, raising awareness for SE attacks through education and motivation of personnel is an important building block to increasing an organization's resilience. To facilitate hands-on SE awareness training as one component of broader SE awareness campaigns, we created a SE tabletop game called Tabletop As Social Engineering Prevention (TASEP) in two editions for (a) small and medium enterprises and (b) large corporations, respectively. Its game design is inspired by Dungeons & Dragons role-playing games and facilitates LEGO models of the in-game target organizations. Participants switch roles by playing a group of SE penetration testers and conducting a security audit guided by the game master. We evaluated the created game with different student groups, achieving highly immersive and flexible training, resulting in an entertaining way of learning about SE and raising awareness.
翻訳日:2024-03-19 07:12:46 公開日:2023-08-29
# 企業における異なる意識キャンペーンに関する研究

A Study of Different Awareness Campaigns in a Company ( http://arxiv.org/abs/2308.15176v1 )

ライセンス: Link先を確認
Laura Gamisch, Daniela Pöhn, (参考訳) フィッシング(英: Phishing)は、金融や評判にダメージを与え、その存在を脅かす組織にとって大きなサイバー脅威である。 フィッシング対策は、従業員に対する意識訓練によって補完されるべきである。 しかし、意識の指標の検証はほとんどない。 その結果、どの手法が最高の成功をもたらすかというコンセンサスがないため、意識トレーニングを統合する際に、組織はさらなる負担を負うことになる。 本稿では,意識概念をうまく実装し,検証する方法について検討する。 この目的のために,中小企業(中小企業)におけるケーススタディにおいて,要件や手法の組み合わせ等の諸要因を考慮に入れた。 成功を測るためにフィッシング運動が行われる。 本研究は,シミュレートされたフィッシング運動において,快適な運動がより良いパフォーマンスをもたらすことを示唆している。 また,標的群に有意な改善と相違が認められた。 主要なパフォーマンス指標を統合した意識訓練の実施は、他の組織の基盤として利用することができる。

Phishing is a major cyber threat to organizations that can cause financial and reputational damage, threatening their existence. The technical measures against phishing should be complemented by awareness training for employees. However, there is little validation of awareness measures. Consequently, organizations have an additional burden when integrating awareness training, as there is no consensus on which method brings the best success. This paper examines how awareness concepts can be successfully implemented and validated. For this purpose, various factors, such as requirements and possible combinations of methods, are taken into account in our case study at a small- and medium-sized enterprise (SME). To measure success, phishing exercises are conducted. The study suggests that pleasant campaigns result in better performance in the simulated phishing exercise. In addition, significant improvements and differences in the target groups could be observed. The implementation of awareness training with integrated key performance indicators can be used as a basis for other organizations.
翻訳日:2024-03-19 07:12:46 公開日:2023-08-29
# CVSSスコーディングの不整合性に対するシーディングライト:広帯域セキュリティ脆弱性の評価に関するユーザ中心的研究

Shedding Light on CVSS Scoring Inconsistencies: A User-Centric Study on Evaluating Widespread Security Vulnerabilities ( http://arxiv.org/abs/2308.15259v1 )

ライセンス: Link先を確認
Julia Wunder, Andreas Kurtz, Christian Eichenmüller, Freya Gassmann, Zinaida Benenson, (参考訳) CVSS(Common Vulnerability Scoring System)は、脆弱性管理における脆弱性の深刻さを評価する一般的な手法である。 評価工程では、0〜10の数値スコアが算出され、10が最も重い(臨界)値となる。 CVSSの目標は、さまざまな評価指標に匹敵するスコアを提供することである。 脆弱性が複数のアナリストによって評価された場合、そのスコアはしばしば異なります。 CVSSの評価は一貫性があるか? CVSS評価に影響を与える要因は何か? CVSS利用者196名のオンライン調査において,これらの質問を体系的に調査した。 CVSSの特定の指標は、''2022 CWE Top 25 Most Dangerous Software Weaknesses'リストの上位3の脆弱性を含む、広範な脆弱性タイプに対して矛盾して評価されている。 59人の参加者によるフォローアップ調査では、本調査と同じ脆弱性に対して、これらのユーザの68%が、異なる重症度評価をしました。 本研究は,ほとんどの評価者はCVSSの問題点を自覚しているが,CVSSは依然として脆弱性評価に有用なツールであると考えている。 最後に,不整合評価の可能性を議論し,スコアの整合性を改善するためのレコメンデーションを提供する。

The Common Vulnerability Scoring System (CVSS) is a popular method for evaluating the severity of vulnerabilities in vulnerability management. In the evaluation process, a numeric score between 0 and 10 is calculated, 10 being the most severe (critical) value. The goal of CVSS is to provide comparable scores across different evaluators. However, previous works indicate that CVSS might not reach this goal: If a vulnerability is evaluated by several analysts, their scores often differ. This raises the following questions: Are CVSS evaluations consistent? Which factors influence CVSS assessments? We systematically investigate these questions in an online survey with 196 CVSS users. We show that specific CVSS metrics are inconsistently evaluated for widespread vulnerability types, including Top 3 vulnerabilities from the ''2022 CWE Top 25 Most Dangerous Software Weaknesses'' list. In a follow-up survey with 59 participants, we found that for the same vulnerabilities from the main study, 68% of these users gave different severity ratings. Our study reveals that most evaluators are aware of the problematic aspects of CVSS, but they still see CVSS as a useful tool for vulnerability assessment. Finally, we discuss possible reasons for inconsistent evaluations and provide recommendations on improving the consistency of scoring.
翻訳日:2024-03-19 07:12:46 公開日:2023-08-29
# HypercubeネットワークトポロジによるEthereum上の信頼性のないプライバシ保護データアグリゲーション

Trustless Privacy-Preserving Data Aggregation on Ethereum with Hypercube Network Topology ( http://arxiv.org/abs/2308.15267v1 )

ライセンス: Link先を確認
Goshgar Ismayilov, Can Ozturan, (参考訳) プライバシー保護データアグリゲーションは、複数のパーティが互いにプライベートに協力し合う必要がある多くのアプリケーションにとって重要な問題である。 ブロックチェーンは、ネットワーク間で共有されるデータベースとして、このようなアグリゲーションを分散的に実行できる基盤となるプラットフォームを提供する。 そこで本稿では,ハイパキューブネットワークトポロジとともに,コミットメントスキームや非対称暗号化,ゼロ知識証明などの暗号化プリミティブを統合することにより,Ethereumブロックチェーンの要約のためのスケーラブルなプライバシ保護データアグリゲーションプロトコルを提案する。 プロトコルは、契約の展開、ユーザ登録、プライベートな提出、証明検証の4段階で構成されている。 プロトコルの分析は、セキュリティとスケーラビリティの2つの主な観点で行われ、計算、通信、ストレージのオーバーヘッドを含む。 本稿では,プロトコルのゼロ知識証明,スマートコントラクト,Webユーザインターフェースモデルについて述べる。 本研究は,各システム毎のガスコストを特定するための実験的研究である。 ユーザの増加にともなうガスコストの変化を特徴付けるために、一般的な定式化が提供される。 また、ゼロ知識証明生成と検証時間も測定する。

The privacy-preserving data aggregation is a critical problem for many applications where multiple parties need to collaborate with each other privately to arrive at certain results. Blockchain, as a database shared across the network, provides an underlying platform on which such aggregations can be carried out with a decentralized manner. Therefore, in this paper, we have proposed a scalable privacy-preserving data aggregation protocol for summation on the Ethereum blockchain by integrating several cryptographic primitives including commitment scheme, asymmetric encryption and zero-knowledge proof along with the hypercube network topology. The protocol consists of four stages as contract deployment, user registration, private submission and proof verification. The analysis of the protocol is made with respect to two main perspectives as security and scalability including computational, communicational and storage overheads. In the paper, the zero-knowledge proof, smart contract and web user interface models for the protocol are provided. We have performed an experimental study in order to identify the required gas costs per individual and per system. The general formulation is provided to characterize the changes in gas costs for the increasing number of users. The zero-knowledge proof generation and verification times are also measured.
翻訳日:2024-03-19 07:12:46 公開日:2023-08-29
# 長鎖攻撃:困難な調整とタイムスタンプの検証

Longest-chain Attacks: Difficulty Adjustment and Timestamp Verifiability ( http://arxiv.org/abs/2308.15312v1 )

ライセンス: Link先を確認
Tzuo Hann Law, Selman Erol, Lewis Tseng, (参考訳) 本稿では,POW(Proof-of-Work)ブロックチェーンを攻撃し,より長いチェーンを自制的に構築する敵について検討する。 我々は、難易度調整規則が適用された場合、敵が採用する最適な戦略を特徴付ける。 ほとんどの無許可のPOWブロックチェーンにおける時間(つまり各ブロックで指定されたタイムスタンプ)はある程度主観的であるため、時間を完全に検証可能な場合と、それが完全に検証不可能な場合の2つの極端なシナリオに注目します。 我々は、困難調整規則に直面する敵は、タイムスタンプが検証された場合、最も長いチェーン攻撃を見つけることができると結論付けている。 時間報告の柔軟性に対する調整が頻繁なPOWブロックチェーンは、最長のチェーン攻撃に対して、かなり脆弱である。 本研究のメインフィニングは,難易度調整規則の設計指針を提供し,タイムスタンプの妥当性を実証するものである。

We study an adversary who attacks a Proof-of-Work (POW) blockchain by selfishly constructing an alternative longest chain. We characterize optimal strategies employed by the adversary when a difficulty adjustment rule al\`a Bitcoin applies. As time (namely the times-tamp specified in each block) in most permissionless POW blockchains is somewhat subjective, we focus on two extreme scenarios: when time is completely verifiable, and when it is completely unverifiable. We conclude that an adversary who faces a difficulty adjustment rule will find a longest-chain attack very challenging when timestamps are verifiable. POW blockchains with frequent difficulty adjustments relative to time reporting flexibility will be substantially more vulnerable to longest-chain attacks. Our main fining provides guidance on the design of difficulty adjustment rules and demonstrates the importance of timestamp verifiability.
翻訳日:2024-03-19 07:12:46 公開日:2023-08-29
# Masquerade: ブロックチェーンのシンプルで軽量なトランザクションリオーダー

Masquerade: Simple and Lightweight Transaction Reordering Mitigation in Blockchains ( http://arxiv.org/abs/2308.15347v1 )

ライセンス: Link先を確認
Arti Vedula, Shaileshh Bojja Venkatakrishnan, Abhishek Gupta, (参考訳) ブロックチェーンは強力なセキュリティ保証を提供するが、トランザクションの順序からユーザを保護することはできない。 マイナー、ボット、バリデータといったプレイヤーは、様々な取引をリオーダーし、最大抽出可能な価値(MEV)と呼ばれる重要な利益を享受することができる。 本稿では,MEV対応プロトコルであるMasqueradeを提案する。 我々は、取引が開示されたとしても、取引がいずれにせよコミットされることを保証するために、取引ごとの厳格な順序付けを提案する。 そこで本プロトコルでは,攻撃シナリオにおける敵の行動を軽減するための「トークン」の概念を導入する。 このようなトークンは、ユーザが自発的に購入でき、トランザクションにトークン番号を含めることを選択できる。 ユーザがトークンをトランザクションに含めている場合、私たちのプロトコルでは、トークン番号に従って厳密にトランザクションを注文するためにブロックビルダが必要です。 シミュレーションにより、既存の慣行と比較して、敵がMEVトランザクションの恩恵を受ける確率を減少させることを示す。

Blockchains offer strong security gurarantees, but cannot protect users against the ordering of transactions. Players such as miners, bots and validators can reorder various transactions and reap significant profits, called the Maximal Extractable Value (MEV). In this paper, we propose an MEV aware protocol design called Masquerade, and show that it will increase user satisfaction and confidence in the system. We propose a strict per-transaction level of ordering to ensure that a transaction is committed either way even if it is revealed. In this protocol, we introduce the notion of a "token" to mitigate the actions taken by an adversary in an attack scenario. Such tokens can be purchased voluntarily by users, who can then choose to include the token numbers in their transactions. If the users include the token in their transactions, then our protocol requires the block-builder to order the transactions strictly according to token numbers. We show through extensive simulations that this reduces the probability that the adversaries can benefit from MEV transactions as compared to existing current practices.
翻訳日:2024-03-19 07:12:46 公開日:2023-08-29
# テキスト分類における適応的攻撃検出:テキスト知覚分類のための空間探索機能を活用する

Adaptive Attack Detection in Text Classification: Leveraging Space Exploration Features for Text Sentiment Classification ( http://arxiv.org/abs/2308.15663v1 )

ライセンス: Link先を確認
Atefeh Mahdavi, Neda Keivandarian, Marco Carvalho, (参考訳) 敵のサンプル検出は、特に急速に進化する攻撃に直面して、適応的なサイバー防御において重要な役割を果たす。 適応型サイバー防御では、攻撃の性質と特性が継続的に変化し、これらの脅威を効果的に検出し、対処するための堅牢なメカニズムを持つことが重要である。 敵のサンプル検出技術を取り入れることで、適応型サイバー防御システムは、機械学習モデルやその他のシステムの脆弱性を悪用しようとする攻撃を識別し軽減する能力を高めることができる。 逆の例は、意図的な摂動を自然の入力に適用し、誤った分類をもたらす入力である。 本稿では,BERT(Bidirectional Encoder Representations from Transformers)のパワーを活用し,空間探索機能(Space Exploration Features)の概念を提案する。 BERTモデルの出力から得られた特徴ベクトルを用いて特徴空間の新たな表現を捕捉し、密度推定法を改善する。

Adversarial example detection plays a vital role in adaptive cyber defense, especially in the face of rapidly evolving attacks. In adaptive cyber defense, the nature and characteristics of attacks continuously change, making it crucial to have robust mechanisms in place to detect and counter these threats effectively. By incorporating adversarial example detection techniques, adaptive cyber defense systems can enhance their ability to identify and mitigate attacks that attempt to exploit vulnerabilities in machine learning models or other systems. Adversarial examples are inputs that are crafted by applying intentional perturbations to natural inputs that result in incorrect classification. In this paper, we propose a novel approach that leverages the power of BERT (Bidirectional Encoder Representations from Transformers) and introduces the concept of Space Exploration Features. We utilize the feature vectors obtained from the BERT model's output to capture a new representation of feature space to improve the density estimation method.
翻訳日:2024-03-19 07:12:46 公開日:2023-08-29
# CGuard: Cの効率的な空間安全

CGuard: Efficient Spatial Safety for C ( http://arxiv.org/abs/2107.10533v3 )

ライセンス: Link先を確認
Piyus Kedia, Rahul Purandare, Udit Kumar Agarwal, Rishabh(参考訳) 空間安全違反は多くのセキュリティ攻撃の根本原因であり、アプリケーションの予期せぬ振る舞いである。 空間安全作業を、物体またはポインターの粒度で広範囲に実施する既存の技術。 オブジェクトベースのアプローチは高いcpuオーバーヘッドを発生させる傾向があるが、ポインタベースのアプローチは高いcpuとメモリのオーバーヘッドを発生させる。 オブジェクトベースのアプローチであるSGXBoundsは、オブジェクトの完全なアウトオブバウンド保護を提供する最も効率的なテクニックです。 しかし、このアプローチの大きな欠点は、32ビット以上のアドレス空間をサポートできないことである。 本稿では,アプリケーションアドレス空間を制限することなく,SGXBoundsに匹敵するオーバヘッドを持つCアプリケーションに対して,オブジェクトバウンド保護を提供するツールであるCGuardを提案する。 CGuardは、オブジェクトのベースアドレスの直前に境界情報を格納し、x86_64アーキテクチャで利用可能な仮想アドレスのスペアビットにベースアドレスの相対オフセットを符号化する。 スペアビットに収まらないオブジェクトに対して、CGuardは1つのメモリアクセスでオブジェクトのベースアドレスを見つけることができるカスタムメモリレイアウトを使用する。 本研究では,SPEC CPU2017ベンチマークスイートのgccおよびx264ベンチマークとPhoenixベンチマークスイートのstring_matchベンチマークの空間安全違反を明らかにした。 spec cpu2017とphoenixベンチマークスイートの実行時間のオーバーヘッドは、それぞれ42%と26%であったが、cpuが完全に飽和している場合のapache webサーバのスループットの低下は30%であった。 これらの結果から,CGuardの有効性は高いが,有効性は高いことが示唆された。

Spatial safety violations are the root cause of many security attacks and unexpected behavior of applications. Existing techniques to enforce spatial safety work broadly at either object or pointer granularity. Object-based approaches tend to incur high CPU overheads, whereas pointer-based approaches incur both high CPU and memory overheads. SGXBounds, an object-based approach, is so far the most efficient technique that provides complete out-of-bounds protection for objects. However, a major drawback of this approach is that it can't support address space larger than 32-bit. In this paper, we present CGuard, a tool that provides object-bounds protection for C applications with comparable overheads to SGXBounds without restricting the application address space. CGuard stores the bounds information just before the base address of an object and encodes the relative offset of the base address in the spare bits of the virtual address available in x86_64 architecture. For an object that can't fit in the spare bits, CGuard uses a custom memory layout that enables it to find the base address of the object in just one memory access. Our study revealed spatial safety violations in the gcc and x264 benchmarks from the SPEC CPU2017 benchmark suite and the string_match benchmark from the Phoenix benchmark suite. The execution time overheads for the SPEC CPU2017 and Phoenix benchmark suites were 42% and 26% respectively, whereas the reduction in the throughput for the Apache webserver when the CPUs were fully saturated was 30%. These results indicate that CGuard can be highly effective while maintaining a reasonable degree of efficiency.
翻訳日:2023-10-24 16:02:09 公開日:2023-08-29
# コードモデルのためのステルスなバックドア攻撃

Stealthy Backdoor Attack for Code Models ( http://arxiv.org/abs/2301.02496v2 )

ライセンス: Link先を確認
Zhou Yang, Bowen Xu, Jie M. Zhang, Hong Jin Kang, Jieke Shi, Junda He, David Lo(参考訳) CodeBERTやCodeT5のようなコードモデルは、コードの汎用的な表現を提供し、下流の自動化ソフトウェアエンジニアリングタスクをサポートする上で重要な役割を果たす。 最近では、コードモデルはバックドア攻撃に弱いことが判明した。 バックドア攻撃されたコードモデルは、通常クリーンな例で振る舞うことができるが、バックドアを起動するトリガーで注入された例に対して、事前に定義された悪意のある出力を生成する。 既存のコードモデルに対するバックドア攻撃では、不便で簡単に検出できるトリガーが使用される。 本稿では,ステルスなバックドア攻撃によるコードモデルの脆弱性の解明を目的とする。 そこで我々はAFRAIDOOR(Adversarial Feature as Adaptive Backdoor)を提案する。 AFRAIDOORは、異なる入力に適応的なトリガを注入するために、逆方向の摂動を活用することでステルス性を達成する。 我々は、広く採用されている3つのコードモデル(CodeBERT、PLBART、CodeT5)と2つの下流タスク(コード要約とメソッド名予測)でAFRAIDOORを評価する。 AFRAIDOORにおけるアダプティブトリガーの約85%が、防衛プロセスにおける検出をバイパスしていることがわかった。 対照的に、以前の作業からのトリガーのわずか12%が防御をバイパスしている。 防御方法は適用されない場合、AFRAIDOORもベースラインもほぼ完璧な攻撃成功率を持つ。 しかし、一度防御を施すと、ベースラインの成功率は劇的に10.47%と12.06%に減少し、AFRAIDOORの成功率は77.05%と92.98%となる。 我々の発見は、ステルスなバックドア攻撃によるコードモデルのセキュリティ上の弱点を暴露し、最先端の防御手法が十分な保護を提供することができないことを示す。 我々は、コードモデルに対するセキュリティの脅威を理解し、より効果的な対策を開発するためのさらなる研究努力を求めている。

Code models, such as CodeBERT and CodeT5, offer general-purpose representations of code and play a vital role in supporting downstream automated software engineering tasks. Most recently, code models were revealed to be vulnerable to backdoor attacks. A code model that is backdoor-attacked can behave normally on clean examples but will produce pre-defined malicious outputs on examples injected with triggers that activate the backdoors. Existing backdoor attacks on code models use unstealthy and easy-to-detect triggers. This paper aims to investigate the vulnerability of code models with stealthy backdoor attacks. To this end, we propose AFRAIDOOR (Adversarial Feature as Adaptive Backdoor). AFRAIDOOR achieves stealthiness by leveraging adversarial perturbations to inject adaptive triggers into different inputs. We evaluate AFRAIDOOR on three widely adopted code models (CodeBERT, PLBART and CodeT5) and two downstream tasks (code summarization and method name prediction). We find that around 85% of adaptive triggers in AFRAIDOOR bypass the detection in the defense process. By contrast, only less than 12% of the triggers from previous work bypass the defense. When the defense method is not applied, both AFRAIDOOR and baselines have almost perfect attack success rates. However, once a defense is applied, the success rates of baselines decrease dramatically to 10.47% and 12.06%, while the success rate of AFRAIDOOR are 77.05% and 92.98% on the two tasks. Our finding exposes security weaknesses in code models under stealthy backdoor attacks and shows that the state-of-the-art defense method cannot provide sufficient protection. We call for more research efforts in understanding security threats to code models and developing more effective countermeasures.
翻訳日:2023-10-24 13:49:13 公開日:2023-08-29
# ADHD症状者における知覚負荷がIDE内パフォーマンスに及ぼす影響

The Effect of Perceptual Load on Performance within IDE in People with ADHD Symptoms ( http://arxiv.org/abs/2302.06376v2 )

ライセンス: Link先を確認
Vseslav Kasatskii, Agnia Sergeyuk, Anastasiia Serova, Sergey Titov, Timofey Bryksin(参考訳) 本稿では,注意欠陥/多動性障害(ADHD)の症状のある人において,知覚負荷がプログラミング性能に与える影響について述べる。 私たちは開発者に対して,ADHD症状の存在と重症度を示すBarkley Deficits in Executive Functioning Scaleの完成を依頼しました。 その後、参加者は、高知覚負荷モード(視覚的に騒がしい)と低知覚負荷モード(視覚的にクリア)で統合開発環境において、精神的にアクティブなプログラミングタスク(コーディング)と単調なタスク(デバッグ)を解決した。 開発環境は、効率の指標、すなわち時間、速度、アクティビティを追跡するために書いたプラグインで強化されました。 知覚負荷はプログラマの効率に影響を与えることがわかった。 精神的に活発なタスクでは、最初の文字を挿入する時間は短く、全体の速度は低知覚負荷モードで高かった。 単調なタスクでは、ソリューションの合計時間は低知覚のロードモードでは低かった。 また,ADHDの症状を伴わない者とは,知覚負荷がプログラマの効率に与える影響が異なっていた。 この効果には特異性があり、効率の指標やadhdの症状によっては、1つ以上の知覚的負荷が有益かもしれない。 本研究は,利用者の行動アセスメントの考え方を,特殊ニーズの労働力に適切な配慮を提供するために支持する。

In this paper, we describe the research on how perceptual load can affect programming performance in people with symptoms of Attention Deficit / Hyperactivity Disorder (ADHD). We asked developers to complete the Barkley Deficits in Executive Functioning Scale, which indicates the presence and severity levels of ADHD symptoms. After that, participants solved mentally active programming tasks (coding) and monotonous ones (debugging) in the integrated development environment in high perceptual load modes (visually noisy) and low perceptual load modes (visually clear). The development environment was augmented with the plugin we wrote to track efficiency metrics, i.e. time, speed, and activity. We found that the perceptual load does affect programmers' efficiency. For mentally active tasks, the time of inserting the first character was shorter and the overall speed was higher in the low perceptual load mode. For monotonous tasks, the total time for the solution was less for the low perceptual load mode. Also, we found that the effect of perceptual load on programmers' efficiency differs between those with and without ADHD symptoms. This effect has a specificity: depending on efficiency measures and ADHD symptoms, one or another level of perceptual load might be beneficial. Our findings support the idea of behavioral assessment of users for providing appropriate accommodation for the workforce with special needs.
翻訳日:2023-10-24 13:15:03 公開日:2023-08-29
# ソフトウェアベースの科学研究を管理するための実験室ノートブックの設計

Designing Laboratory Notebooks for Managing Software-based Scientific Studies ( http://arxiv.org/abs/2308.15637v1 )

ライセンス: Link先を確認
Akash Dhruv, Anshu Dubey(参考訳) 科学的プロセスは、データ取得、分析、発見の重要なツールとしてソフトウェアに依存している。 長年にわたり、持続可能なソフトウェア開発の実践は、研究の不可欠なコンポーネントであると考えられてきた。 しかしながら、計算に基づく科学研究の管理は、個人の好みと研究の性質に基づいて計算実験を設計する個々の研究者に委ねられることが多い。 計算に基づく科学的研究の質、効率、再現性は、研究者がトレーサビリティの明確な記録を提供するための実行環境を明示的に作成することによって改善できると考えている。 これはハイパフォーマンスコンピューティング(HPC)環境での複雑な計算研究に特に関係している。 本稿では,hpc計算実験の包括的な記録と再現性を維持するために必要な文書について述べる。 我々はまた、多物理科学ソフトウェアであるFlash-Xに関する研究を行うために開発したツールやプラクティスの概要も提供している。

Scientific processes rely on software as an important tool for data acquisition, analysis, and discovery. Over the years sustainable software development practices have made progress in being considered as an integral component of research. However, management of computation-based scientific studies is often left to individual researchers who design their computational experiments based on personal preferences and the nature of the study. We believe that the quality, efficiency, and reproducibility of computation-based scientific research can be improved by explicitly creating an execution environment that allows researchers to provide a clear record of traceability. This is particularly relevant to complex computational studies in high-performance computing (HPC) environments. In this article, we review the documentation required to maintain a comprehensive record of HPC computational experiments for reproducibility. We also provide an overview of tools and practices that we have developed to perform such studies around Flash-X, a multi-physics scientific software
翻訳日:2023-10-23 12:16:16 公開日:2023-08-29
# ソフトウェアアーキテクチャの多目的最適化におけるインタラクションの導入

Introducing Interactions in Multi-Objective Optimization of Software Architectures ( http://arxiv.org/abs/2308.15084v1 )

ライセンス: Link先を確認
Vittorio Cortellessa, J. Andres Diaz-Pace, Daniele Di Pompeo, Sebastian Frank, Pooyan Jamshidi, Michele Tucci, Andr\'e van Hoorn(参考訳) ソフトウェアアーキテクチャの最適化は、機能要件を満たしながら、パフォーマンスや信頼性などの非機能特性を強化することを目的としています。 多目的最適化では、遺伝的アルゴリズムのようなメタヒューリスティック検索技術を用いて、実現可能なアーキテクチャ変更を探索し、デザイナの代替案を提案する。 しかし、リソース集約的なプロセスは常に実用的な制約に合致するとは限らない。 本研究では,設計者のインタラクションが多目的ソフトウェアアーキテクチャ最適化に与える影響について検討する。 設計者は、完全に自動化された最適化プロセスの中間点に介入し、より望ましいソリューションへの探索を導く選択をすることができる。 このインタラクティブなアプローチを,ベースラインとして機能する完全自動最適化プロセスと比較する。 その結果、デザイナのインタラクションがより集中的なソリューション空間に結びつき、アーキテクチャの品質が向上することが示された。 関心のある領域に探索を向けることで、完全に自動化されたプロセスで探索されていないアーキテクチャを明らかにする。

Software architecture optimization aims to enhance non-functional attributes like performance and reliability while meeting functional requirements. Multi-objective optimization employs metaheuristic search techniques, such as genetic algorithms, to explore feasible architectural changes and propose alternatives to designers. However, the resource-intensive process may not always align with practical constraints. This study investigates the impact of designer interactions on multi-objective software architecture optimization. Designers can intervene at intermediate points in the fully automated optimization process, making choices that guide exploration towards more desirable solutions. We compare this interactive approach with the fully automated optimization process, which serves as the baseline. The findings demonstrate that designer interactions lead to a more focused solution space, resulting in improved architectural quality. By directing the search towards regions of interest, the interaction uncovers architectures that remain unexplored in the fully automated process.
翻訳日:2023-10-23 12:15:59 公開日:2023-08-29
# 第4回要求工学・テスト国際ワークショップ(RET 2017)概要報告

Summary of the 4th International Workshop on Requirements Engineering and Testing (RET 2017) ( http://arxiv.org/abs/2308.15060v1 )

ライセンス: Link先を確認
Markus Borg, Elizabeth Bjarnason, Michael Unterkalmsteiner, Tingting Yu, Gregory Gay, Michael Felderer(参考訳) RET(Requirements Engineering and Testing)ワークショップシリーズは、Requirements Engineering (RE)とTestingの2つの異なる分野の研究者と実践者のためのミーティングポイントを提供する。 長期的な目標は、再試行とテストの交わり、すなわちretにおいて、コミュニティと知識の体系を構築することです。 第4回ワークショップはポルトガルのリスボンで開催された第25回国際要求工学会議(RE'17)と共同で開催され、約20人が参加した。 以前のワークショップの例に合わせて、ret 2017 oは、基調講演、招待講演、ペーパープレゼンテーション、そして結論づけられたハンズオンエクササイズでインタラクティブな設定を行った。

The RET (Requirements Engineering and Testing) workshop series provides a meeting point for researchers and practitioners from the two separate fields of Requirements Engineering (RE) and Testing. The long term aim is to build a community and a body of knowledge within the intersection of RE and Testing, i.e., RET. The 4th workshop was co-located with the 25th International Requirements Engineering Conference (RE'17) in Lisbon, Portugal and attracted about 20 participants. In line with the previous workshop instances, RET 2017 o ered an interactive setting with a keynote, an invited talk, paper presentations, and a concluding hands-on exercise.
翻訳日:2023-10-23 12:15:36 公開日:2023-08-29
# アーチファクトの品質欠陥は自動検出可能か? 事例研究

Which Requirements Artifact Quality Defects are Automatically Detectable? A Case Study ( http://arxiv.org/abs/2308.15057v1 )

ライセンス: Link先を確認
Henning Femmer, Michael Unterkalmsteiner, Tony Gorschek(参考訳) [コンテキスト]要求仕様のような要求工学の成果物の品質は、プロジェクトにとって重要な成功要因であると認識されます。 したがって、多くの企業はREアーティファクトの品質を制御するためにかなりの金額を費やす。 コスト削減とアーティファクトの品質向上を目的として,手作業による品質管理,すなわちレビューと自動アプローチを組み合わせた手法を提案した。 これまでのところ、REアーティファクトの特定の側面を自動的に検出する様々なアプローチが見られます。 しかし、自動で検出できることとできないことの概観はいまだに欠けている。 [適用]REアーティファクトの業界ガイドラインから、さまざまなカテゴリに沿って、REアーティファクトの既存のルール166を分類して、自動化可能なルールの共有と特性について議論します。 これらのルールでは、自動化できないため、主な理由について議論する。 コントリビューション]166のルールの53%は、完全に、あるいは優れたヒューリスティックで自動的にチェックできると見積もっています。 ほとんどのルールはチェックに単純なテクニックしか必要ありません。 いくつかのルールが自動化に抵抗する主な理由は、不正確な定義のためです。 [Impact] 自動検出可能かつ自動検出不能なルール違反の第一の見積もりと分析を行うことにより、要求品質管理における自動手法の可能性の概要を提供する。

[Context] The quality of requirements engineering artifacts, e.g. requirements specifications, is acknowledged to be an important success factor for projects. Therefore, many companies spend significant amounts of money to control the quality of their RE artifacts. To reduce spending and improve the RE artifact quality, methods were proposed that combine manual quality control, i.e. reviews, with automated approaches. [Problem] So far, we have seen various approaches to automatically detect certain aspects in RE artifacts. However, we still lack an overview what can and cannot be automatically detected. [Approach] Starting from an industry guideline for RE artifacts, we classify 166 existing rules for RE artifacts along various categories to discuss the share and the characteristics of those rules that can be automated. For those rules, that cannot be automated, we discuss the main reasons. [Contribution] We estimate that 53% of the 166 rules can be checked automatically either perfectly or with a good heuristic. Most rules need only simple techniques for checking. The main reason why some rules resist automation is due to imprecise definition. [Impact] By giving first estimates and analyses of automatically detectable and not automatically detectable rule violations, we aim to provide an overview of the potential of automated methods in requirements quality control.
翻訳日:2023-10-23 12:15:22 公開日:2023-08-29
# Rustエコシステムにおけるセキュリティリスクの概観

A Closer Look at the Security Risks in the Rust Ecosystem ( http://arxiv.org/abs/2308.15046v1 )

ライセンス: Link先を確認
Xiaoye Zheng (1), Zhiyuan Wan (1), Yun Zhang (2), Rui Chang (1), David Lo (3) ((1) Zhejiang University, (2) Hangzhou City University, (3) Singapore Management University)(参考訳) Rustは、システムソフトウェアの開発用に設計された新しいプログラミング言語である。 Rustコードの再利用を容易にするため、Rustエコシステムの中心的なパッケージレジストリであるcrates.ioでは、数千のサードパーティのRustパッケージがホストされている。 crates.ioのオープン性はRustエコシステムの成長を可能にするが、深刻なセキュリティアドバイザリによるセキュリティリスクも伴う。 rustは、プログラミング言語の機能と厳密なコンパイル時チェックを通じて、ソフトウェアプログラムの安全性を保証するが、rustのunsafeキーワードによって、開発者は特定のコード領域のコンパイラの安全性チェックをバイパスすることができる。 先行研究では、rustエコシステムにおけるメモリ安全性と並行性バグ、そして実際にはunsafeキーワードの使用について実証的に調査している。 それにもかかわらず、この文献はRustエコシステムのセキュリティリスクに関する体系的な調査を欠いている。 本稿では,Rustエコシステムに存在するセキュリティリスクを包括的に調査し,"脆弱性の特徴は何か,脆弱性パッケージの特徴は何か,脆弱性はどのように修正されているのか? 調査を容易にするために、まず、Rustエコシステムに433の脆弱性、300の脆弱性コードリポジトリ、および218の脆弱性修正コミットのデータセットをコンパイルしました。 データセットでは、開示された脆弱性のタイプ、寿命、進化を特徴付ける。 次に、脆弱なRustパッケージの人気、分類、脆弱性密度、そして、その脆弱性によって影響を受けるバージョンとコード領域を特徴付けます。 最後に、脆弱性修正の複雑さと対応するコード変更のローカリティを特徴付け、さまざまなローカリティを備えたRustパッケージの脆弱性の修正方法を調べます。

Rust is an emerging programming language designed for the development of systems software. To facilitate the reuse of Rust code, crates.io, as a central package registry of the Rust ecosystem, hosts thousands of third-party Rust packages. The openness of crates.io enables the growth of the Rust ecosystem but comes with security risks by severe security advisories. Although Rust guarantees a software program to be safe via programming language features and strict compile-time checking, the unsafe keyword in Rust allows developers to bypass compiler safety checks for certain regions of code. Prior studies empirically investigate the memory safety and concurrency bugs in the Rust ecosystem, as well as the usage of unsafe keywords in practice. Nonetheless, the literature lacks a systematic investigation of the security risks in the Rust ecosystem. In this paper, we perform a comprehensive investigation into the security risks present in the Rust ecosystem, asking ``what are the characteristics of the vulnerabilities, what are the characteristics of the vulnerable packages, and how are the vulnerabilities fixed in practice?''. To facilitate the study, we first compile a dataset of 433 vulnerabilities, 300 vulnerable code repositories, and 218 vulnerability fix commits in the Rust ecosystem, spanning over 7 years. With the dataset, we characterize the types, life spans, and evolution of the disclosed vulnerabilities. We then characterize the popularity, categorization, and vulnerability density of the vulnerable Rust packages, as well as their versions and code regions affected by the disclosed vulnerabilities. Finally, we characterize the complexity of vulnerability fixes and localities of corresponding code changes, and inspect how practitioners fix vulnerabilities in Rust packages with various localities.
翻訳日:2023-10-23 12:15:00 公開日:2023-08-29
# SimSched: SimulinkにおけるAutosar実装のシミュレーションツール

SimSched: A tool for Simulating Autosar Implementaion in Simulink ( http://arxiv.org/abs/2308.14974v1 )

ライセンス: Link先を確認
Jian Chen, Manar H. Alalfi, Thomas R. Dean, Ramesh S(参考訳) AUTOSAR(AUTomotive Open System ARchitecture)は、自動車業界におけるオープン産業標準である。 3層自動車ソフトウェアアーキテクチャを定義する。 これらのレイヤの1つはアプリケーション層で、機能的な振る舞いはソフトウェアコンポーネント(sw-cs)にカプセル化される。 SW-Cの内部では、実行可能なエンティティのセットが内部動作を表し、タスクのセットとして実現される。 AUTOSARがランナブルのモデリング動作をサポートしていないことに対処するために、Simulinkのような言語が使われている。 simulinkシミュレーションはシミュリンクブロックの動作がゼロの実行時間で完了すると仮定し、実際の実行は有限の実行時間を必要とする。 このタイミングミスマッチは、シミュレーションフェーズ中に予期せぬランタイム動作を検出する障害を引き起こす可能性がある。 本稿では,タスクのタイミング特性をモデル化するためにsimulink環境を拡張する。 非ゼロのシミュレーション時間でタスクをスケジュールできるsimulinkブロックを提案する。 モデル開発中により現実的な分析を可能にする。

AUTOSAR (AUTomotive Open System ARchitecture) is an open industry standard for the automotive sector. It defines the three-layered automotive software architecture. One of these layers is the application layer, where functional behaviors are encapsulated in Software Components (SW-Cs). Inside SW-Cs, a set of runnable entities represents the internal behavior and is realized as a set of tasks. To address AUTOSAR's lack of support for modeling behaviors of runnables, languages such as Simulink are employed. Simulink simulations assume Simulink block behaviors are completed in zero execution time, while real execution requires a finite execution time. This timing mismatch can result in failures to detect unexpected runtime behaviors during the simulation phase. This paper extends the Simulink environment to model the timing properties of tasks. We present a Simulink block that can schedule tasks with non-zero simulation times. It enables a more realistic analysis during model development.
翻訳日:2023-10-23 12:14:34 公開日:2023-08-29
# ACER:ASTベースのコールグラフ生成フレームワーク

ACER: An AST-based Call Graph Generator Framework ( http://arxiv.org/abs/2308.15669v1 )

ライセンス: Link先を確認
Andrew Chen, Yanfu Yan, Denys Poshyvanyk(参考訳) 本稿ではASTベースのコールグラフ生成フレームワークであるACERを紹介する。 ACERは任意の言語とのインタフェースにツリーシッターを利用する。 我々は,抽象構文木(AST)を高速かつ簡易に動作させるジェネレータに注目することを選んだが,完全に定量化された中間表現はコンパイルを必要とするコストで,はるかに優れた情報を提供する。 フレームワークを評価するために、2つのコンテキスト非依存のJavaジェネレータを作成し、それらを既存のオープンソースのJavaジェネレータと比較した。

We introduce ACER, an AST-based call graph generator framework. ACER leverages tree-sitter to interface with any language. We opted to focus on generators that operate on abstract syntax trees (ASTs) due to their speed and simplicitly in certain scenarios; however, a fully quantified intermediate representation usually provides far better information at the cost of requiring compilation. To evaluate our framework, we created two context-insensitive Java generators and compared them to existing open-source Java generators.
翻訳日:2023-10-23 12:07:01 公開日:2023-08-29
# Back to the Future: マイクロサービスからモノリスへ

Back to the Future: From Microservice to Monolith ( http://arxiv.org/abs/2308.15281v1 )

ライセンス: Link先を確認
Ruoyu Su, Xiaozhou Li, Davide Taibi(参考訳) 最近、マイクロサービスからモノリスに切り替える企業が増えているため、業界では激しい議論が起きている。 我々は,多様な文献レビューを行い,この現象の要因と,他の実践者の意見を分析する上で留意すべき重要な側面について検討する。 その結果は、マイクロサービスからモノリスに切り替える産業企業に対して、さらなる研究とガイダンスの道を開いた。

Recently the trend of companies switching from microservice back to monolith has increased, leading to intense debate in the industry. We conduct a multivocal literature review, to investigate reasons for the phenomenon and key aspects to pay attention to during the switching back and analyze the opinions of other practitioners. The results pave the way for further research and provide guidance for industrial companies switching from microservice back to monolith.
翻訳日:2023-10-23 12:06:21 公開日:2023-08-29
# Hyperbolic Code Retrieval: Hyperbolic Space Embeddingsを用いた効率的なコード検索のための新しいアプローチ

Hyperbolic Code Retrieval: A Novel Approach for Efficient Code Search Using Hyperbolic Space Embeddings ( http://arxiv.org/abs/2308.15234v1 )

ライセンス: Link先を確認
Xunzhu Tang and zhenghan Chen and Saad Ezzini and Haoye Tian and Yewei Song and Jacques Klein and Tegawende F. Bissyande(参考訳) 高度なコード検索の分野では、既存の手法は主に複雑なマッチングと注意に基づくメカニズムに依存している。 しかし、これらの手法はしばしば計算とメモリの効率の低下を招き、現実の応用に重大な課題をもたらす。 この課題に対処するため,HyCoQA(Hyperbolic Code QA Matching)という新しいアプローチを提案する。 このアプローチは、Hyperbolic空間のユニークな特性を活用して、コードフラグメントとその対応するクエリ間の接続を表現することで、複雑なインタラクション層の必要性を回避します。 このプロセスは、質問応答(QA)マッチングフレームワークでフレーム化されたコード検索チャレンジを再定義し、\texttt{<} negative code, description, positive code\textt{>} として特徴付けられる3つのマッチングを持つデータセットを構築する。 これらのマッチはその後、静的BERT埋め込み層を介して処理され、初期埋め込みが生成される。 その後、双曲埋め込みはこれらの表現を双曲空間に変換し、符号と記述の間の距離を計算する。 このプロセスは、これらの距離にスコアリング層を実装し、モデルのトレーニングにヒンジ損失を活用することで終わる。 特にHyCoQAの設計は、本質的に自己組織化を促進し、学習フェーズ中に組み込み階層パターンを自動的に検出することを可能にする。 実験により,HyCoQAは,最先端のコード検索技術と比較して3.5~4倍の性能向上が見られた。

Within the realm of advanced code retrieval, existing methods have primarily relied on intricate matching and attention-based mechanisms. However, these methods often lead to computational and memory inefficiencies, posing a significant challenge to their real-world applicability. To tackle this challenge, we propose a novel approach, the Hyperbolic Code QA Matching (HyCoQA). This approach leverages the unique properties of Hyperbolic space to express connections between code fragments and their corresponding queries, thereby obviating the necessity for intricate interaction layers. The process commences with a reimagining of the code retrieval challenge, framed within a question-answering (QA) matching framework, constructing a dataset with triple matches characterized as \texttt{<}negative code, description, positive code\texttt{>}. These matches are subsequently processed via a static BERT embedding layer, yielding initial embeddings. Thereafter, a hyperbolic embedder transforms these representations into hyperbolic space, calculating distances between the codes and descriptions. The process concludes by implementing a scoring layer on these distances and leveraging hinge loss for model training. Especially, the design of HyCoQA inherently facilitates self-organization, allowing for the automatic detection of embedded hierarchical patterns during the learning phase. Experimentally, HyCoQA showcases remarkable effectiveness in our evaluations: an average performance improvement of 3.5\% to 4\% compared to state-of-the-art code retrieval techniques.
翻訳日:2023-10-23 12:05:42 公開日:2023-08-29
# ソフトウェアパッチのマルチレベルセマンティック埋め込み:セキュリティパッチ検出のための微粒化アプローチ

Multilevel Semantic Embedding of Software Patches: A Fine-to-Coarse Grained Approach Towards Security Patch Detection ( http://arxiv.org/abs/2308.15233v1 )

ライセンス: Link先を確認
Xunzhu Tang and zhenghan Chen and Saad Ezzini and Haoye Tian and Yewei Song and Jacques Klein and Tegawende F. Bissyande(参考訳) オープンソースソフトウェアの成長は、下流のソフトウェアアプリケーションに影響を与える隠れた脆弱性のリスクを高めている。 この懸念は、明示的な警告やcve(common vulnerability and exposure)通知なしで静かにセキュリティパッチをリリースするというソフトウェアベンダのプラクティスによってさらに悪化する。 この透明性の欠如により、ユーザはセキュリティ上の脅威を知らず、攻撃者がこれらの脆弱性を利用する機会を与える。 ソフトウェアパッチの複雑な状況では、パッチの微妙なセマンティクスの把握が、セキュアなソフトウェアメンテナンスの確保に不可欠である。 この課題に対処するために,MultiSEMと呼ばれるセキュリティパッチ検出のためのマルチレベルセマンティックエンベッドダを導入する。 このモデルは、単語中心のベクトルをきめ細かいレベルで利用し、個々の単語の重要性を強調する一方で、粗い粒度の層はベクトル表現に全コード行を採用し、追加または削除された行の本質と相互関係を捉えている。 我々は、この表現をさらに強化し、パッチ記述を同化して、全体論的セマンティック・ポートレートを得る。 この多層埋め込みの組み合わせは、堅牢な表現、単語の複雑さのバランス、コードラインの洞察の理解、パッチ記述を提供する。 本研究では,パッチセキュリティ検出のためのマルチセムの評価を行い,その優位性を実証し,パッチdbでは22.46\%,spi-dbでは9.21\%,f1メトリクスでは9.46\%と有望なマージンを示した。

The growth of open-source software has increased the risk of hidden vulnerabilities that can affect downstream software applications. This concern is further exacerbated by software vendors' practice of silently releasing security patches without explicit warnings or common vulnerability and exposure (CVE) notifications. This lack of transparency leaves users unaware of potential security threats, giving attackers an opportunity to take advantage of these vulnerabilities. In the complex landscape of software patches, grasping the nuanced semantics of a patch is vital for ensuring secure software maintenance. To address this challenge, we introduce a multilevel Semantic Embedder for security patch detection, termed MultiSEM. This model harnesses word-centric vectors at a fine-grained level, emphasizing the significance of individual words, while the coarse-grained layer adopts entire code lines for vector representation, capturing the essence and interrelation of added or removed lines. We further enrich this representation by assimilating patch descriptions to obtain a holistic semantic portrait. This combination of multi-layered embeddings offers a robust representation, balancing word complexity, understanding code-line insights, and patch descriptions. Evaluating MultiSEM for detecting patch security, our results demonstrate its superiority, outperforming state-of-the-art models with promising margins: a 22.46\% improvement on PatchDB and a 9.21\% on SPI-DB in terms of the F1 metric.
翻訳日:2023-10-23 12:05:17 公開日:2023-08-29
# 生成された例を通してAPIの振る舞いを探る

Exploring API Behaviours Through Generated Examples ( http://arxiv.org/abs/2308.15210v1 )

ライセンス: Link先を確認
Stefan Karlsson, John Hughes, Robbert Jongeling, Adnan Causevic, Daniel Sundmark(参考訳) システムのapiの動作を理解するのは困難です。 APIの動作に関する関連する例にユーザをアクセスさせることによって,これが容易になった。 さらに、このような例は期待された振る舞いの検証や望ましくない振る舞いの特定に使用することができる。 例を自動生成する方法は、長い間存在していました。 しかし、最先端のメソッドは、ソースコードのようなホワイトボックスの情報か、システム動作の正式な仕様に依存している。 しかし、もしどちらもアクセスできないとしたらどうだろう? 例えば、サードパーティのAPIと対話する場合。 本稿では,ソースコードや動作の正式な仕様を必要とせずに,APIの動作に関する関連事例を自動的に生成するアプローチを提案する。 業界レベルのREST APIの評価は、我々の手法が、調査中のシステムを理解するのに役立つ、小さくて関連する例を作成できることを示している。

Understanding the behaviour of a system's API can be hard. Giving users access to relevant examples of how an API behaves has been shown to make this easier for them. In addition, such examples can be used to verify expected behaviour or identify unwanted behaviours. Methods for automatically generating examples have existed for a long time. However, state-of-the-art methods rely on either white-box information, such as source code, or on formal specifications of the system behaviour. But what if you do not have access to either? e.g., when interacting with a third-party API. In this paper, we present an approach to automatically generate relevant examples of behaviours of an API, without requiring either source code or a formal specification of behaviour. Evaluation on an industry-grade REST API shows that our method can produce small and relevant examples that can help engineers to understand the system under exploration.
翻訳日:2023-10-23 12:04:49 公開日:2023-08-29
# 最高のパフォーマンスと信頼性: 予算対応検索に基づくソフトウェアモデルリファクタリングの最適化

Best performance and reliability for your time: budget-aware search-based optimization of software model refactoring ( http://arxiv.org/abs/2308.15179v1 )

ライセンス: Link先を確認
J. Andres Diaz-Pace, Daniele Di Pompeo, Michele Tucci(参考訳) コンテキスト: ソフトウェアモデルの最適化は、設計の代替品を自動的に生成するプロセスであり、通常、性能や信頼性などのソフトウェアシステムの定量的な非機能特性を強化する。 多目的進化的アルゴリズムはこの文脈において、設計者が望まれる非機能特性間のトレードオフを特定するのを支援するために有効であることが示されている。 目的: 本研究では, 設計代替案の探索を制限するために, 時間予算を課すことが, 結果の代替案の品質に必然的に影響を及ぼすことを検討する。 方法: 予算と遺伝的アルゴリズム(NSGA-II, PESA2, SPEA2)の変化に伴う設計代替案の品質と構造特性の両面から, 時間予算の効果を解析した。 これは多目的品質指標と探索空間のツリーベース表現を用いて達成される。 結果: 時間予算は,特にパフォーマンスや信頼性において,パレートフロントの品質に大きく影響することが明らかとなった。 NSGA-IIは最速のアルゴリズムであり、PESA2は最高品質の解を生成する。 時間予算の付与は、予算のないモデルと比較して構造的に異なるモデルとなり、検索プロセスは予算とアルゴリズムの選択の両方に影響されていることを示す。 結論: ソフトウェアモデル最適化では、時間予算を課すことで最適化時間を節約できますが、設計者は、生成されたモデルの構造特性とともに、Paretoフロントにおける時間とソリューション品質の間のトレードオフを慎重に検討する必要があります。 特定の遺伝的アルゴリズムについてインフォームドな選択を行うことで、デザイナーは異なるトレードオフを実現できる。

Context: Software model optimization is a process that automatically generates design alternatives, typically to enhance quantifiable non-functional properties of software systems, such as performance and reliability. Multi-objective evolutionary algorithms have shown to be effective in this context for assisting the designer in identifying trade-offs between the desired non-functional properties. Objective: In this work, we investigate the effects of imposing a time budget to limit the search for design alternatives, which inevitably affects the quality of the resulting alternatives. Method: The effects of time budgets are analyzed by investigating both the quality of the generated design alternatives and their structural features when varying the budget and the genetic algorithm (NSGA-II, PESA2, SPEA2). This is achieved by employing multi-objective quality indicators and a tree-based representation of the search space. Results: The study reveals that the time budget significantly affects the quality of Pareto fronts, especially for performance and reliability. NSGA-II is the fastest algorithm, while PESA2 generates the highest-quality solutions. The imposition of a time budget results in structurally distinct models compared to those obtained without a budget, indicating that the search process is influenced by both the budget and algorithm selection. Conclusions: In software model optimization, imposing a time budget can be effective in saving optimization time, but designers should carefully consider the trade-off between time and solution quality in the Pareto front, along with the structural characteristics of the generated models. By making informed choices about the specific genetic algorithm, designers can achieve different trade-offs.
翻訳日:2023-10-23 12:04:37 公開日:2023-08-29
# ジャガイモ病検出のための学習特徴と枠組みの解析

Analysis of Learned Features and Framework for Potato Disease Detection ( http://arxiv.org/abs/2310.05943v1 )

ライセンス: Link先を確認
Shikha Gupta, Soma Chakraborty, Renu Rameshan(参考訳) 植物病の検出のようなアプリケーションの場合、モデルは通常、公開データに基づいてトレーニングされ、フィールドデータでテストされる。 これは、テストデータ分布がトレーニングデータ分布と同じではなく、分類器の性能に悪影響を及ぼすことを意味する。 この特徴を葉や健康な領域の病点から学べるようにすることで、データセットのシフトに対処する。 これは、より高速なリージョンベースの畳み込みニューラルネットワーク(RCNN)をソリューションのひとつとして、注目ベースのネットワークを他方として実現している。 これらの分類器の平均的分類精度は、トレーニングデータセットに対応するテストセットで評価しながら約95%である。 これらの分類器も同等に実行され、トレーニングフェーズ中に見られないデータセットの平均スコアは84%だった。

For applications like plant disease detection, usually, a model is trained on publicly available data and tested on field data. This means that the test data distribution is not the same as the training data distribution, which affects the classifier performance adversely. We handle this dataset shift by ensuring that the features are learned from disease spots in the leaf or healthy regions, as applicable. This is achieved using a faster Region-based convolutional neural network (RCNN) as one of the solutions and an attention-based network as the other. The average classification accuracies of these classifiers are approximately 95% while evaluated on the test set corresponding to their training dataset. These classifiers also performed equivalently, with an average score of 84% on a dataset not seen during the training phase.
翻訳日:2023-10-23 04:04:39 公開日:2023-08-29
# 単語化:英語の綴りのパターンを教える新しい方法

Wordification: A New Way of Teaching English Spelling Patterns ( http://arxiv.org/abs/2309.12981v1 )

ライセンス: Link先を確認
Lexington Whalen, Nathan Bickel, Shash Comandur, Dalton Craven, Stanley Dubinsky, Homayoun Valafar(参考訳) リテラシー(英: Literacy)または読み書き能力は、人生とより大きな社会における成功の重要な指標である。 青少年非行者の85%は、適切な読み書きができず、薬物乱用問題に悩む人の半数以上が読み書きが困難であり、高校を卒業していない人の3分の2は適切な識字能力に欠けていると推定されている。 また, 小学校4年生の読み書きスキルを身につけていない幼児は, ほとんど追いつかない可能性が約80%ある。 多くの人は、アメリカ合衆国のような先進国ではリテラシーが問題にならないと信じているが、これは危険な誤解である。 世界的には、リテラシーの問題により毎年119兆ドルが失われており、アメリカでは300億ドルと見積もられている。 よりショッキングな言葉で言えば、アメリカ人成人の5人に1人は、基本的な文章を理解できない。 さらに悪いことに、読み書き能力の欠如を修正するために現在利用可能なツールは、高価な家庭教師や他のプログラムで、要求されるオーディエンスに届かないことが多い。 本稿では,米国の小学生に英語の綴りと単語認識を教える新しい方法である単語化について述べる。 Wordification は、英語のリテラシーを教えるために設計されたウェブアプリケーションである。言語学の原則を、あらゆるコンピュータベースの教育アプリケーションで以前には十分に利用されていなかった方法で、単語の正書法や音韻学的特性に適用する。

Literacy, or the ability to read and write, is a crucial indicator of success in life and greater society. It is estimated that 85% of people in juvenile delinquent systems cannot adequately read or write, that more than half of those with substance abuse issues have complications in reading or writing and that two-thirds of those who do not complete high school lack proper literacy skills. Furthermore, young children who do not possess reading skills matching grade level by the fourth grade are approximately 80% likely to not catch up at all. Many may believe that in a developed country such as the United States, literacy fails to be an issue; however, this is a dangerous misunderstanding. Globally an estimated 1.19 trillion dollars are lost every year due to issues in literacy; in the USA, the loss is an estimated 300 billion. To put it in more shocking terms, one in five American adults still fail to comprehend basic sentences. Making matters worse, the only tools available now to correct a lack of reading and writing ability are found in expensive tutoring or other programs that oftentimes fail to be able to reach the required audience. In this paper, our team puts forward a new way of teaching English spelling and word recognitions to grade school students in the United States: Wordification. Wordification is a web application designed to teach English literacy using principles of linguistics applied to the orthographic and phonological properties of words in a manner not fully utilized previously in any computer-based teaching application.
翻訳日:2023-10-01 12:34:11 公開日:2023-08-29
# 空間と時間における事象のグラフによる視覚と言語の説明

Explaining Vision and Language through Graphs of Events in Space and Time ( http://arxiv.org/abs/2309.08612v1 )

ライセンス: Link先を確認
Mihai Masala, Nicolae Cudlenco, Traian Rebedea and Marius Leordeanu(参考訳) 人工知能は今日、大きな進歩を遂げ、視覚と言語の間のギャップを埋め始めた。 しかし、2つの領域間の共通的な説明可能な表現が不足しているため、言語的な観点から視覚的な内容の理解、説明、制御にはまだ程遠い。 この本では、この制限に対処し、空間と時間における事象のグラフ(gest)を提案し、ビジュアルストーリーと言語ストーリーの両方を表現し、作成し、説明します。 我々は,このモデルの理論的正当化と実験的な検証を行い,gestが強力なディープラーニングモデルとともに確固たる補完的価値をもたらすことを証明した。 特に、GESTは、新しいビデオ生成エンジンに簡単に組み込むことで、テキストからの動画生成のコンテンツレベルの改善に役立てることができる。 さらに、効率的なグラフマッチング技術を用いることで、GESTグラフは意味レベルでのテキストの比較を改善することができる。

Artificial Intelligence makes great advances today and starts to bridge the gap between vision and language. However, we are still far from understanding, explaining and controlling explicitly the visual content from a linguistic perspective, because we still lack a common explainable representation between the two domains. In this work we come to address this limitation and propose the Graph of Events in Space and Time (GEST), by which we can represent, create and explain, both visual and linguistic stories. We provide a theoretical justification of our model and an experimental validation, which proves that GEST can bring a solid complementary value along powerful deep learning models. In particular, GEST can help improve at the content-level the generation of videos from text, by being easily incorporated into our novel video generation engine. Additionally, by using efficient graph matching techniques, the GEST graphs can also improve the comparisons between texts at the semantic level.
翻訳日:2023-09-24 04:13:25 公開日:2023-08-29
# グラディエントに基づく物理系スパイク法

Gradient-based methods for spiking physical systems ( http://arxiv.org/abs/2309.10823v1 )

ライセンス: Link先を確認
Julian G\"oltz, Sebastian Billaudelle, Laura Kriener, Luca Blessing, Christian Pehle, Eric M\"uller, Johannes Schemmel, Mihai A. Petrovici(参考訳) 近年の取り組みは、理論上もシリコにおいても、スパイキングネットワークにおける深層学習への大きな進歩を促している。 本稿では、BrainScaleS-2の結果の仮比較や、今後の比較研究へのヒントなど、いくつかの異なるアプローチについて論じる。

Recent efforts have fostered significant progress towards deep learning in spiking networks, both theoretical and in silico. Here, we discuss several different approaches, including a tentative comparison of the results on BrainScaleS-2, and hint towards future such comparative studies.
翻訳日:2023-09-24 03:53:26 公開日:2023-08-29
# Radiology-Llama2: 放射線学のためのクラス別大規模言語モデル

Radiology-Llama2: Best-in-Class Large Language Model for Radiology ( http://arxiv.org/abs/2309.06419v1 )

ライセンス: Link先を確認
Zhengliang Liu, Yiwei Li, Peng Shu, Aoxiao Zhong, Longtao Yang, Chao Ju, Zihao Wu, Chong Ma, Jie Luo, Cheng Chen, Sekeun Kim, Jiang Hu, Haixing Dai, Lin Zhao, Dajiang Zhu, Jun Liu, Wei Liu, Dinggang Shen, Tianming Liu, Quanzheng Li, and Xiang Li(参考訳) 本稿では,放射線学に特化した大規模言語モデルであるradiology-llama2について紹介する。 Radiology-Llama2 は Llama2 アーキテクチャに基づいており、ラジオロジー報告の大規模なデータセットに基づいてさらに訓練され、放射線学的発見から一貫性があり臨床的に有用な印象を生み出す。 MIMIC-CXRとOpenIデータセットのROUGEメトリクスを用いた定量的評価は、Radiology-Llama2が他の生成言語モデルと比較して最先端のパフォーマンスを達成することを示した。 放射線学の専門家によるさらなる評価は、理解可能性、一貫性、妥当性、簡潔さ、臨床的有用性におけるモデルの強みを強調している。 この研究は、放射線学のような専門分野向けに設計・調整されたローカライズド言語モデルの可能性を示している。 適切な評価とデプロイを行うと、ロテタスクの自動化と人間の専門性の向上によって、放射線学のような分野を変換することができる。

This paper introduces Radiology-Llama2, a large language model specialized for radiology through a process known as instruction tuning. Radiology-Llama2 is based on the Llama2 architecture and further trained on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiological findings. Quantitative evaluations using ROUGE metrics on the MIMIC-CXR and OpenI datasets demonstrate that Radiology-Llama2 achieves state-of-the-art performance compared to other generative language models, with a Rouge-1 score of 0.4834 on MIMIC-CXR and 0.4185 on OpenI. Additional assessments by radiology experts highlight the model's strengths in understandability, coherence, relevance, conciseness, and clinical utility. The work illustrates the potential of localized language models designed and tuned for specialized domains like radiology. When properly evaluated and deployed, such models can transform fields like radiology by automating rote tasks and enhancing human expertise.
翻訳日:2023-09-17 14:00:45 公開日:2023-08-29
# 可変モード分解 (vmd) と時間同期平均法 (tsa) の併用による歯歯のひび割れ解析の修正ラグランジ的定式化

Modified Lagrangian Formulation of Gear Tooth Crack Analysis using Combined Approach of Variable Mode Decomposition (VMD) and Time Synchronous Averaging (TSA) ( http://arxiv.org/abs/2309.00641v1 )

ライセンス: Link先を確認
Subrata Mukherjee, Vikash Kumar and Somnath Sarangi(参考訳) 本稿では, 可変モード分解 (VMD) と時間同期平均化 (TSA) を組み合わせた統合歯車歯のひび割れ解析手法の可能性について考察する。 レイリーの散逸ポテンシャルを考慮し,cemg系をモデル化するために,修正ラグランジアン公式も取り入れた。 cemgシステムには、歯のひび割れのレベルが異なるiam-tvms(time-varying mesh stiffness)が組み込まれており、システムの動的挙動に対する亀裂の影響を検査している。 歯のひび割れレベルが異なるCEMGシステムの動的応答は、さらなる研究に利用されている。 ギヤ歯ひび割れにおけるcemgシステムの動的挙動を分析するために, 可変モード分解 (vmd) と時間同期平均化 (tsa) の統合的アプローチが, 騒音を伴う非定常・複雑な振動信号として経験されている。 VMD-TSAの総合的アプローチに基づいて, 歯のひび割れの程度が異なるCEMGシステムのカオス振動レベルと複雑性を予測するために, Lyapunov Exponent (LE) とRelation Dimension (CD) の2種類の非線形特性を計算した。 また、LEおよびCDは歯のひび割れ伝播レベルを予測するカオス的挙動特徴として用いられる。 提案手法は, 歯のひび割れ解析において, カオス的特徴に基づく顕著な改善を示した。 また、これはVMD-TSAの複合アプローチに基づくカオス的特徴を用いたCEMGシステムの研究における最初の試みの1つである。

This paper discusses the possible observation of an integrated gear tooth crack analysis procedure that employs the combined approach of variable mode decomposition (VMD) and time synchronous averaging (TSA) based on the coupled electromechanical gearbox (CEMG) system. This paper also incorporates the modified Lagrangian formulation to model the CEMG system by considering Rayleigh's dissipative potential. An analytical improved time-varying mesh stiffness (IAM-TVMS) with different levels of gear tooth crack depts is also incorporated into the CEMG system to inspect the influence of cracks on the system's dynamic behavior. Dynamic responses of the CEMG system with different tooth crack levels have been used for further investigations. For the first time, the integrated approach of variable mode decomposition (VMD) and time-synchronous averaging (TSA) has been presented to analyze the dynamic behaviour of CEMG systems at the different gear tooth cracks have been experienced as non-stationary and complex vibration signals with noise. Based on the integrated approach of VMD-TSA, two types of nonlinear features, i.e., Lyapunov Exponent (LE) and Correlation Dimension (CD), were calculated to predict the level of chaotic vibration and complexity of the CEMG system at the different levels of gear tooth cracks. Also, the LE and CD are used as chaotic behaviour features to predict the gear tooth crack propagation level. The results of the proposed approach show significant improvements in the gear tooth crack analysis based on the chaotic features. Also, this is one of the first attempts to study the CEMG system using chaotic features based on the combined approach of VMD-TSA.
翻訳日:2023-09-10 03:58:14 公開日:2023-08-29
# 大規模言語モデルによる数学的概念の抽出

Extracting Mathematical Concepts with Large Language Models ( http://arxiv.org/abs/2309.00642v1 )

ライセンス: Link先を確認
Valeria de Paiva, Qiyue Gao, Pavel Kovalev, and Lawrence S. Moss(参考訳) 我々はChatGPTのような生成的大言語モデル(LLM)を用いて数学的テキストから数学的概念を抽出し、自動項抽出(ATE)と数学的テキスト処理の分野に寄与し、LLM自体の研究にも貢献する。 我々の研究は、ある数学分野における用語(キーワード)の自動抽出を目的とし、カテゴリ理論をコーパスとして使用し、オンライン雑誌「カテゴリーの理論と応用」のスナップショットから755の要約を2020年ごろに作成している。 Where our study diverges from previous work is in (1) providing a more thorough analysis of what makes mathematical term extraction a difficult problem to begin with; (2) paying close attention to inter-annotator disagreements; (3) providing a set of guidelines which both human and machine annotators could use to standardize the extraction process; (4) introducing a new annotation tool to help humans with ATE, applicable to any mathematical field and even beyond mathematics; (5) using prompts to ChatGPT as part of the extraction process, and proposing best practices for such prompts; and (6) raising the question of whether ChatGPT could be used as an annotator on the same level as human experts. 我々の総合的な知見は、数学 ATE は LLM の参加の恩恵を受けることができる興味深い分野であるが、LLM 自体が現段階では人間の業績を超えることはできないということである。

We extract mathematical concepts from mathematical text using generative large language models (LLMs) like ChatGPT, contributing to the field of automatic term extraction (ATE) and mathematical text processing, and also to the study of LLMs themselves. Our work builds on that of others in that we aim for automatic extraction of terms (keywords) in one mathematical field, category theory, using as a corpus the 755 abstracts from a snapshot of the online journal "Theory and Applications of Categories", circa 2020. Where our study diverges from previous work is in (1) providing a more thorough analysis of what makes mathematical term extraction a difficult problem to begin with; (2) paying close attention to inter-annotator disagreements; (3) providing a set of guidelines which both human and machine annotators could use to standardize the extraction process; (4) introducing a new annotation tool to help humans with ATE, applicable to any mathematical field and even beyond mathematics; (5) using prompts to ChatGPT as part of the extraction process, and proposing best practices for such prompts; and (6) raising the question of whether ChatGPT could be used as an annotator on the same level as human experts. Our overall findings are that the matter of mathematical ATE is an interesting field which can benefit from participation by LLMs, but LLMs themselves cannot at this time surpass human performance on it.
翻訳日:2023-09-10 03:46:33 公開日:2023-08-29
# 人間-AIチームトレーニングのための最先端技術:技術報告3 -- テストベッドの代替品の分析

Improving the State of the Art for Training Human-AI Teams: Technical Report #3 -- Analysis of Testbed Alternatives ( http://arxiv.org/abs/2309.03213v1 )

ライセンス: Link先を確認
Lillian Asiala, James E. McCarthy, Lixiao Huang(参考訳) Sonalystsは、この領域でオリジナルの研究を開発することで、人間と人工知能(AI)チームとのコラボレーションにおける現在の専門知識を拡張するイニシアティブに取り組んでいる。 この研究の基礎として、SonalystsはSTE(Synthetic Task Environment)の開発について調査している。 先程の報告で、我々は、テストベッドで最も評価された品質を特定するために、軍事的課題専門専門家(SMEs)や他の人間-AIチーム領域の研究者に依頼した、最近のアウトリーチ活動の成果を文書化した。 そのアウトリーチから驚くべき発見は、何人かの回答者が、新しいものを作るのではなく、既存の人間とAIのチームテストベッドを調べることを推奨したことです。 そこで我々は,その推薦に基づき,関連景観を体系的に調査した。 本報告では,その調査の結果について述べる。 調査結果に基づいて,テストベッド評価基準を策定し,潜在的なテストベッドを同定し,候補テストベッドの質的,定量的評価を行った。 評価プロセスは、研究チームが検討すべき5つの候補テストベッドにつながった。 今後数ヶ月で,様々な代替案の存続可能性を評価し,研究プログラムの実施を開始する。

Sonalysts is working on an initiative to expand our current expertise in teaming to Human-Artificial Intelligence (AI) teams by developing original research in this area. To provide a foundation for that research, Sonalysts is investigating the development of a Synthetic Task Environment (STE). In a previous report, we documented the findings of a recent outreach effort in which we asked military Subject Matter Experts (SMEs) and other researchers in the Human-AI teaming domain to identify the qualities that they most valued in a testbed. A surprising finding from that outreach was that several respondents recommended that our team look into existing human-AI teaming testbeds, rather than creating something new. Based on that recommendation, we conducted a systematic investigation of the associated landscape. In this report, we describe the results of that investigation. Building on the survey results, we developed testbed evaluation criteria, identified potential testbeds, and conducted qualitative and quantitative evaluations of candidate testbeds. The evaluation process led to five candidate testbeds for the research team to consider. In the coming months, we will assess the viability of the various alternatives and begin to execute our program of research.
翻訳日:2023-09-10 03:38:25 公開日:2023-08-29
# 人間-AIチームトレーニングの最先端化:技術報告 #2 -- 研究者知識抽出調査の結果

Improving the State of the Art for Training Human-AI Teams: Technical Report #2 -- Results of Researcher Knowledge Elicitation Survey ( http://arxiv.org/abs/2309.03212v1 )

ライセンス: Link先を確認
James E. McCarthy, Lillian Asiala, LeeAnn Maryeski, Dawn Sillars(参考訳) 米国科学・工学・数学アカデミーによる空軍研究所(AFRL)のコンセンサス報告書では、軍務部門にまたがる人間・芸術知能(AI)を支援したいという願望が文書化されている。 sonalystsは、人間-aiチームのトレーニングを探求する社内活動を開始した。 この取り組みの最初のステップは、人間-AIチームの研究を促進することができるSTE(Synthetic Task Environment)を開発することです。 私たちのゴールは、ステークホルダーがこの領域内で実行しようとしている研究の広さをサポートするタスク環境を提供するSTEを作ることです。 その結果、関係研究コミュニティの優先順位を広く分析したいと考えており、本報告書に記載されている取り組みは、最初の試みである。 私たちは2種類の質問を取り上げた調査を作成しました。 最初は、私たちが期待していたSTE機能との合意を報告するよう、回答者に頼んだ。 2つ目の質問は、予想されるSTEのいくつかの範囲内で、回答者に優先順位を指定するよう求めたオープンエンドの質問であった。 研究チームは学術研究所と政府研究所から19人の研究者を招き、11人が調査を完了した。 チームは回答を分析して、出現したテーマと、さらなる分析の恩恵を受けるトピックを特定した。 この調査の最も重要な発見は、多くの研究者が、私たちのニーズに合致するさまざまなオープンソースsteが存在すると感じたことです。 研究者はまた、チーム間コミュニケーションの評価の負担を軽減するために、自動転写とコーディングツールの必要性、堅牢なデータキャプチャとエクスポート能力の重要性、ツールの多くの側面にまたがる広範な柔軟性の願望を強調した。

A consensus report produced for the Air Force Research Laboratory (AFRL) by the National Academies of Sciences, Engineering, and Mathematics documented a prevalent and increasing desire to support human-Artificial Intelligence (AI) teaming across military service branches. Sonalysts has begun an internal initiative to explore the training of Human-AI teams. The first step in this effort is to develop a Synthetic Task Environment (STE) that is capable of facilitating research on Human-AI teams. Our goal is to create a STE that offers a task environment that could support the breadth of research that stakeholders plan to perform within this domain. As a result, we wanted to sample the priorities of the relevant research community broadly, and the effort documented in this report is our initial attempt to do so. We created a survey that featured two types of questions. The first asked respondents to report their agreement with STE features that we anticipated might be important. The second represented open-ended questions that asked respondents to specify their priorities within several dimensions of the anticipated STE. The research team invited nineteen researchers from academic and Government labs to participate, and 11 were able to complete the survey. The team analyzed their responses to identify themes that emerged and topics that would benefit from further analysis. The most significant finding of the survey was that a number of researchers felt that various open-source STEs that would meet our needs already exist. Researchers also emphasized the need for automated transcription and coding tools to ease the burden of assessing inter-team communications; the importance of robust data capture and export capabilities; and the desirability of extensive flexibility across many aspects of the tool.
翻訳日:2023-09-10 03:38:03 公開日:2023-08-29
# 人間-AIチームのトレーニング技術の改善: 技術報告#1 -- 主観的知識抽出調査の結果

Improving the State of the Art for Training Human-AI Teams: Technical Report #1 -- Results of Subject-Matter Expert Knowledge Elicitation Survey ( http://arxiv.org/abs/2309.03211v1 )

ライセンス: Link先を確認
James E. McCarthy, Lillian Asiala, LeeAnn Maryeski, Nyla Warren(参考訳) 国立科学・工学・数学アカデミーが空軍研究所のために作成したコンセンサス報告書は、軍務部門にまたがる人間の人工知能(AI)を支援したいという願望を文書化した。 Sonalystsは、人間とAIチームのトレーニングを探求する社内イニシアチブを開始した。 この取り組みの最初のステップは、人間-aiチームの研究を促進することができる合成タスク環境(ste)を開発することです。 我々は、JADC2の概念におけるセンサー入力の量と決定オプションが、タイムリーな決定を可能にするためにAIシステムを使用する必要があるため、STEの開発の焦点として、JADC2(Joint All-Domain Command and Control)を使用することを決定した。 この点に注目して、JADC2に関連するチーム編成の課題を具体化したSTE開発に関する洞察を得るため、コマンド・アンド・コントロールの経験を持つ多くのSME(Subject-Matter Experts)に取り組みました。 このレポートは、ステークホルダーとの最初の関わりを文書化しています。 研究チームはソナリストの13人の従業員に軍事的背景と指揮統制の経験があることを特定し、彼らを招待した。 12人の回答者が調査を完了した。 その後、チームは応答を分析して、出現したテーマと、さらなる分析の恩恵を受けるトピックを特定した。 その結果、当社の中小企業は、複雑な決定を下すために大量のデータを処理する必要がある限り、軍事的環境で遭遇したタスクと類似したタスクを使って研究できることがわかった。 SMEは、テストベッドがマトリックス化された組織を表す「チームのチーム」をサポートするべきであり、話し言葉、テキストベース、対面コミュニケーションのための堅牢な配列をサポートするべきだと感じた。

A consensus report produced for the Air Force Research Laboratory by the National Academies of Sciences, Engineering, and Mathematics documented a prevalent and increasing desire to support human-Artificial Intelligence (AI) teaming across military service branches. Sonalysts has begun an internal initiative to explore the training of human-AI teams. The first step in this effort is to develop a Synthetic Task Environment (STE) that is capable of facilitating research on human-AI teams. We decided to use Joint All-Domain Command and Control (JADC2) as a focus point for developing the STE because the volume of sensor inputs and decision options within the JADC2 concept likely requires the use of AI systems to enable timely decisions. Given this focus, we engaged a number of Subject-Matter Experts (SMEs) with Command and Control experience to gain insight into developing a STE that embodied the teaming challenges associated with JADC2. This report documents our initial engagement with those stakeholders. The research team identified thirteen Sonalysts employees with military backgrounds and Command and Control experience, and invited them to participate. Twelve respondents completed the survey. The team then analyzed the responses to identify themes that emerged and topics that would benefit from further analysis. The results indicated that our SMEs were amenable to research using tasks that were analogous to those encountered in military environments, as long as they required teams to process a great deal of incoming data to arrive at complex decisions. The SMEs felt that the testbed should support 'teams of teams" that represented a matrixed organization, and that it should support a robust array to spoken, text-based, and face-to-face communications.
翻訳日:2023-09-10 03:37:30 公開日:2023-08-29
# 完全微分型混合精度ニューラルネットワークによるエッジ推論

Edge Inference with Fully Differentiable Quantized Mixed Precision Neural Networks ( http://arxiv.org/abs/2206.07741v2 )

ライセンス: Link先を確認
Clemens JS Schaefer, Siddharth Joshi, Shan Li, Raul Blazquez(参考訳) ディープニューラルネットワーク(DNN)の大規模コンピューティングとメモリコストは、リソース制約のあるデバイスでの使用を妨げることが多い。 パラメータと演算を低ビット精度に定量化することで、ニューラルネットワーク推論のメモリと省エネが実現され、エッジコンピューティングプラットフォームでのdnnの使用が容易になる。 近年、DNNの量子化への取り組みは、進行量子化、ステップサイズ適応、勾配スケーリングを含む様々な手法を用いている。 本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。 本手法は,様々な量子化モデルを示すモデル精度とメモリフットプリントにおける新たなパレートフロンティアを確立し,4.3mbの重み(wgts.)とアクティベーション(acts.)以下の精度を提供する。 私たちの主な貢献は 一 テンソルスライシング学習精度をもつハードウェア対応異種微分可能量子化 (ii) wgtsの目標勾配修正。 そして行動する 量子化エラーを軽減し (3)学習量化器とモデルパラメータの更新から生じる学習の不安定性に対処する多段階学習スケジュール。 EfficientNet-Lite0(4.14MBのwgt、67.66%の精度で動作)やMobileNetV2(3.51MBのwgt、65.39%の精度で動作)を含む、さまざまなモデルにわたるImageNetデータセットにおける我々の技術の有効性を実証する。

The large computing and memory cost of deep neural networks (DNNs) often precludes their use in resource-constrained devices. Quantizing the parameters and operations to lower bit-precision offers substantial memory and energy savings for neural network inference, facilitating the use of DNNs on edge computing platforms. Recent efforts at quantizing DNNs have employed a range of techniques encompassing progressive quantization, step-size adaptation, and gradient scaling. This paper proposes a new quantization approach for mixed precision convolutional neural networks (CNNs) targeting edge-computing. Our method establishes a new pareto frontier in model accuracy and memory footprint demonstrating a range of quantized models, delivering best-in-class accuracy below 4.3 MB of weights (wgts.) and activations (acts.). Our main contributions are: (i) hardware-aware heterogeneous differentiable quantization with tensor-sliced learned precision, (ii) targeted gradient modification for wgts. and acts. to mitigate quantization errors, and (iii) a multi-phase learning schedule to address instability in learning arising from updates to the learned quantizer and model parameters. We demonstrate the effectiveness of our techniques on the ImageNet dataset across a range of models including EfficientNet-Lite0 (e.g., 4.14MB of wgts. and acts. at 67.66% accuracy) and MobileNetV2 (e.g., 3.51MB wgts. and acts. at 65.39% accuracy).
翻訳日:2023-09-01 21:29:13 公開日:2023-08-29
# 4つの相互作用するスピン:角モーメントの追加、スピンスピン相関関数および絡み合い

Four interacting spins: addition of angular momenta, spin-spin correlation functions, and entanglement ( http://arxiv.org/abs/2308.16204v1 )

ライセンス: Link先を確認
Raimundo R. dos Santos, Lucas Alves Oliveira, Natanael C. Costa(参考訳) 隣人であるJ$と隣人であるJ2\equiv\alpha J>0$の間の競合するハイゼンベルク相互作用を通じて結合された環上の4つのスピンについて研究する。 スペクトルは、4つの角モーメントの追加の規則を用いて簡単な方法で得られる。 これにより、水平交差とスピンスピン相関関数の解析によって特徴づけられる$\alpha$で基底状態の進化を辿ることができる。 システムの異なる部分間の絡み合いを調べることで、さらなる洞察が得られる: 絡み合いエントロピーは、システムの分割方法に大きく依存しているのが観察される。

We study four spins on a ring coupled through competing Heisenberg interactions between nearest neighbors, $J$, and next-nearest neighbors, $J_2\equiv\alpha J>0$. The spectrum is obtained in a simple way by using the rules for addition of 4 angular momenta. This allows us to follow the evolution of the ground state with $\alpha$, characterized by level crossings and by analyses of spin-spin correlation functions. Further insight is obtained by examining the entanglement between different parts of the system: we observe that the entanglement entropy is strongly dependent on how the system is partitioned.
翻訳日:2023-09-01 18:58:37 公開日:2023-08-29
# 聴覚脳幹反応検出のためのマルチトランスファー学習手法

Multi-Transfer Learning Techniques for Detecting Auditory Brainstem Response ( http://arxiv.org/abs/2308.16203v1 )

ライセンス: Link先を確認
Fatih Ozyurt, Jafar Majidpour, Tarik A. Rashid, Amir Majidpour, Canan Koc(参考訳) 聴覚障害を経験する人における末梢神経系の健全性の評価は、聴覚脳幹反応(ABR)テストによって行われる。 音声学者はabr試験の結果を評価し文書化する。 彼らは発見を解釈し、ピークレイテンシ、波形形態、振幅、その他の関連する要因などの参照ベースのマーカーを使用してラベルを割り当てる。 abr検査の不正確な評価は聴覚神経系の完全性に関する誤った判断につながる可能性があるため、適切な聴覚損失(hl)の診断と分析が不可欠である。 ヒューマンエラーの可能性を低減しつつ、ABR自動化を特定し評価するためには、機械学習、特にディープラーニングが適切な選択肢である。 これらの問題に対処するために,ABRテストから特徴を抽出し,サポートベクトルマシン(SVM)を用いてHLを診断するために,Transfer-learning(TL)アプローチを用いたディープラーニングモデルを提案する。 AlexNet、DenseNet、GoogleNet、InceptionResNetV2、InceptionV3、MobileNetV2、NASNetMobile、ResNet18、ResNet50、ResNet101、ShuffleNet、SqueezeNetのような事前訓練された畳み込みニューラルネットワーク(CNN)アーキテクチャは、提案されたモデルで報告されたABRレポートイメージデータセットから特徴を抽出するために使用される。 提案手法の精度,精度,リコール,幾何平均(GM),標準偏差(SD),標準偏差(SD)の6つの測定値を用いて,提案モデルの有効性を測定した。 実験結果によると,SVM分類器を用いてHLを診断するにはShuffleNetとResNet50モデルのTLが有効である。

The assessment of the well-being of the peripheral auditory nerve system in individuals experiencing hearing impairment is conducted through auditory brainstem response (ABR) testing. Audiologists assess and document the results of the ABR test. They interpret the findings and assign labels to them using reference-based markers like peak latency, waveform morphology, amplitude, and other relevant factors. Inaccurate assessment of ABR tests may lead to incorrect judgments regarding the integrity of the auditory nerve system; therefore, proper Hearing Loss (HL) diagnosis and analysis are essential. To identify and assess ABR automation while decreasing the possibility of human error, machine learning methods, notably deep learning, may be an appropriate option. To address these issues, this study proposed deep-learning models using the transfer-learning (TL) approach to extract features from ABR testing and diagnose HL using support vector machines (SVM). Pre-trained convolutional neural network (CNN) architectures like AlexNet, DenseNet, GoogleNet, InceptionResNetV2, InceptionV3, MobileNetV2, NASNetMobile, ResNet18, ResNet50, ResNet101, ShuffleNet, and SqueezeNet are used to extract features from the collected ABR reported images dataset in the proposed model. It has been decided to use six measures accuracy, precision, recall, geometric mean (GM), standard deviation (SD), and area under the ROC curve to measure the effectiveness of the proposed model. According to experimental findings, the ShuffleNet and ResNet50 models' TL is effective for ABR to diagnose HL using an SVM classifier, with a high accuracy rate of 95% when using the 5-fold cross-validation method.
翻訳日:2023-09-01 18:58:24 公開日:2023-08-29
# MetaCOG: メタ認知を学習して、実際に何があるのかを発見

MetaCOG: Learning a Metacognition to Recover What Objects Are Actually There ( http://arxiv.org/abs/2110.03105v3 )

ライセンス: Link先を確認
Marlene Berke, Zhangir Azerbayev, Mario Belledonne, Zenna Tavares, Julian Jara-Ettinger(参考訳) 人間は、見るものに基づいて世界についての表現を形成するだけでなく、私たちのビジョンがどのように機能するかについてのメタ認知的な表現を学ぶ。 これにより、視覚がいつ信頼できないか(例えば、視覚錯覚を経験していると気付いたとき)を認識し、何が見えるかに疑問を呈することができる。 この人間の能力にインスパイアされたMetaCOGは、信頼性の表現を学習することでオブジェクト検出器の堅牢性を高めるモデルであり、フィードバックなしでそれを行う。 具体的には、MetaCOGは階層的な確率モデルであり、3Dシーンにおけるオブジェクトと検出器によって生成された出力の関節分布を表現する。 市販のオブジェクト検出器と組み合わせると、MetaCOGは入力として検出を行い、検出器の傾向を推測し、特定のカテゴリのオブジェクトを見逃し、実際に存在しないオブジェクトを幻覚させる。 現代の3つのニューラルオブジェクト検出器と組み合わせることで、MetaCOGは有用で正確なメタ認知表現を学び、検出タスクのパフォーマンスが向上する。 さらに,MetaCOGは検出における誤差のレベルによって堅牢であることを示す。 本結果は,故障した視覚系の誤りを訂正する問題に対する新しいアプローチの実証である。 モデルコード、データセット、結果、デモは、https://osf.io/8b9qt/? view_only=8c1b1c412c6b4e1697e3c7859be2fce6

Humans not only form representations about the world based on what we see, but also learn meta-cognitive representations about how our own vision works. This enables us to recognize when our vision is unreliable (e.g., when we realize that we are experiencing a visual illusion) and enables us to question what we see. Inspired by this human capacity, we present MetaCOG: a model that increases the robustness of object detectors by learning representations of their reliability, and does so without feedback. Specifically, MetaCOG is a hierarchical probabilistic model that expresses a joint distribution over the objects in a 3D scene and the outputs produced by a detector. When paired with an off-the-shelf object detector, MetaCOG takes detections as input and infers the detector's tendencies to miss objects of certain categories and to hallucinate objects that are not actually present, all without access to ground-truth object labels. When paired with three modern neural object detectors, MetaCOG learns useful and accurate meta-cognitive representations, resulting in improved performance on the detection task. Additionally, we show that MetaCOG is robust to varying levels of error in the detections. Our results are a proof-of-concept for a novel approach to the problem of correcting a faulty vision system's errors. The model code, datasets, results, and demos are available: https://osf.io/8b9qt/?view_only=8c1b1c412c6b4e1697e3c7859be2fce6
翻訳日:2023-08-31 18:34:19 公開日:2023-08-29
# コーン・シャム理論の最小構成と拡張性

Exposing minimal composition of Kohn-Sham theory and its extendability ( http://arxiv.org/abs/2108.01232v2 )

ライセンス: Link先を確認
H. Nakada(参考訳) 多重フェルミオン問題を一粒子方程式(s.p.)に還元し、コーンシャム(ks)理論は多電子系における基底状態エネルギーと密度の計算を実践するための実用的なツールを提供している。 KS理論を他の物理量を記述するように拡張する試みや、他の多重フェルミオン系に適用する試みがある。 1-体密度行列の観点でKS理論を一般化し再定式化することにより、多元数問題をs.p.方程式に還元できる理論の最小構成を明らかにする。 改正により、いくつかの基本的な問題が再考される。 KS理論の$v$-および$N$-representabilitiesはホヘンベルク・コーンの定理のものと区別される。 KS理論の拡張性に関する基準に対処する。

Reducing the many-fermion problem to a set of single-particle (s.p.) equations, the Kohn-Sham (KS) theory has provided a practical tool to implement \textit{ab initio} calculations of ground-state energies and densities in many-electron systems. There have been attempts to extend the KS theory so that it could describe other physical quantities, or it could be applied to other many-fermion systems. By generalizing and reformulating the KS theory in terms of the 1-body density matrix, we expose the minimal composition of the theory that enables the reduction of the many-fermion problem to the s.p. equations. Based on the reformulation, several basic issues are reconsidered. The $v$- and $N$-representabilities for the KS theory are distinguished from those for the Hohenberg-Kohn theorem. Criteria for the extendability of the KS theory are addressed.
翻訳日:2023-08-31 18:33:30 公開日:2023-08-29
# 一般サンプリング分布下における低ランクトレース回帰について

On Low-rank Trace Regression under General Sampling Distribution ( http://arxiv.org/abs/1904.08576v5 )

ライセンス: Link先を確認
Nima Hamidi and Mohsen Bayati(参考訳) 本稿では,次数正規化回帰の凸緩和や正規化非凸最適化によってパラメータb*の行列が推定される場合のトレース回帰について検討する。 これらの推定子は、b* の階数、コヒーレンス、スピキネスの仮定の下で、最適に近い誤差境界を満たすことが知られている。 まず,B* に対してスパイキネスという一般的な概念を導入し,トレース回帰のサンプリング演算子の制限された強い凸性を証明し,推定誤差の近似的および非漸近的誤差境界を求める。 既存の文献と同様に、これらの結果は、実際に未知の観測ノイズに依存する特定の理論にインスパイアされた閾値を超える正規化パラメータを必要とする。 次に、正規化パラメータがクロスバリデーションによって選択される場合にエラー境界を拡張する。 この結果は、クロス評価推定器(kale et al., 2011; kumar et al., 2013; abou-moustafa and szepesvari, 2017)の既存の理論結果が、我々の設定に当てはまらないという点において重要である。 最後に,合成データおよび実データを用いたシミュレーションを用いて,交差評価推定器が最適に近いペナルティパラメータを選択し,そのパラメータを選択する理論に触発されたアプローチよりも優れることを示す。

In this paper, we study the trace regression when a matrix of parameters B* is estimated via the convex relaxation of a rank-regularized regression or via regularized non-convex optimization. It is known that these estimators satisfy near-optimal error bounds under assumptions on the rank, coherence, and spikiness of B*. We start by introducing a general notion of spikiness for B* that provides a generic recipe to prove the restricted strong convexity of the sampling operator of the trace regression and obtain near-optimal and non-asymptotic error bounds for the estimation error. Similar to the existing literature, these results require the regularization parameter to be above a certain theory-inspired threshold that depends on observation noise that may be unknown in practice. Next, we extend the error bounds to cases where the regularization parameter is chosen via cross-validation. This result is significant in that existing theoretical results on cross-validated estimators (Kale et al., 2011; Kumar et al., 2013; Abou-Moustafa and Szepesvari, 2017) do not apply to our setting since the estimators we study are not known to satisfy their required notion of stability. Finally, using simulations on synthetic and real data, we show that the cross-validated estimator selects a near-optimal penalty parameter and outperforms the theory-inspired approach of selecting the parameter.
翻訳日:2023-08-31 18:31:48 公開日:2023-08-29
# 周期境界条件をもつ高次元拡散方程式に対する圧縮フーリエコロケーション法

Compressive Fourier collocation methods for high-dimensional diffusion equations with periodic boundary conditions ( http://arxiv.org/abs/2206.01255v4 )

ライセンス: Link先を確認
Weiqi Wang and Simone Brugiapaglia(参考訳) 高次元偏微分方程式(英: High-dimensional partial Differential Equations, PDE)は、ファイナンスから計算化学まで多岐にわたる数学モデリングツールである。 しかしながら、これらのPDEを解くための標準的な数値手法は、一般に次元の呪いの影響を受けている。 本研究では,周期境界条件を持つ高次元領域上で定義される定常拡散方程式に着目しながら,この問題に取り組む。 高次元におけるスパース関数近似の最近の進歩に触発されて, 圧縮フーリエコロケーションと呼ばれる新しい手法を提案する。 圧縮センシングとスペクトルコロケーションのアイデアを組み合わせることで,構造化コロケーショングリッドをモンテカルロサンプリングに置き換え,直交マッチング追従法や$\ell^1$最小化法などのスパースリカバリ技術を用いてpde溶液のフーリエ係数を近似する。 提案手法の近似誤差が解に対する(フーリエ基底に関して)最良の$s$項近似に匹敵することを示す厳密な理論解析を行う。 最近導入された有界リース系におけるランダムサンプリングの枠組みを用いて, 圧縮フーリエコロケーション法は, 拡散係数の正則性に関する十分な条件下でのコロケーション点数に対して, 次元の呪いを緩和することを示した。 また, 分散解と圧縮解の近似法について, 精度と安定性を示す数値実験を行った。

High-dimensional Partial Differential Equations (PDEs) are a popular mathematical modelling tool, with applications ranging from finance to computational chemistry. However, standard numerical techniques for solving these PDEs are typically affected by the curse of dimensionality. In this work, we tackle this challenge while focusing on stationary diffusion equations defined over a high-dimensional domain with periodic boundary conditions. Inspired by recent progress in sparse function approximation in high dimensions, we propose a new method called compressive Fourier collocation. Combining ideas from compressive sensing and spectral collocation, our method replaces the use of structured collocation grids with Monte Carlo sampling and employs sparse recovery techniques, such as orthogonal matching pursuit and $\ell^1$ minimization, to approximate the Fourier coefficients of the PDE solution. We conduct a rigorous theoretical analysis showing that the approximation error of the proposed method is comparable with the best $s$-term approximation (with respect to the Fourier basis) to the solution. Using the recently introduced framework of random sampling in bounded Riesz systems, our analysis shows that the compressive Fourier collocation method mitigates the curse of dimensionality with respect to the number of collocation points under sufficient conditions on the regularity of the diffusion coefficient. We also present numerical experiments that illustrate the accuracy and stability of the method for the approximation of sparse and compressible solutions.
翻訳日:2023-08-31 18:25:30 公開日:2023-08-29
# 量子空間における相似性変換電子ハミルトニアンの成長減少

Growth reduction of similarity transformed electronic Hamiltonians in qubit space ( http://arxiv.org/abs/2210.03875v2 )

ライセンス: Link先を確認
Robert A. Lang, Aadithya Ganeshram, Artur F. Izmaylov(参考訳) 変動量子固有解器(VQE)による電子構造問題の正確な解決は、現在および短期デバイスで利用可能な量子資源によって妨げられる。 vqe の回路深度要件を緩和する一つのアプローチは、電子ハミルトニアンをある程度の電子相関を組み込んだ類似性変換によって「前処理」し、残りの相関を回路 ansatz で処理する。 これはしばしば、ハミルトニアンが変換した類似性において測定すべき用語の数を相当に増加させる価格で現れる。 本研究では,変換ハミルトニアンにおける新しい用語の出現を最小限に抑えるために,パウリ群から元素をn$ qubits でサンプリングする効率的な手法を提案する。 我々は,H$_4$,N$_2$およびH$_2$O分子系のモデルに適用した基底状態エネルギー推定のための成長緩和ジェネレータ選択手法のベンチマークを行った。 最大エネルギー勾配を持つ作用素の集合から成長最小化生成器を得る選択手順を用いることにより, 基準状態の系統的エネルギー低下を図りつつ, ハミルトン項の出現を減少させるための最も競争的なアプローチが得られた。

Accurately solving the electronic structure problem through the variational quantum eigensolver (VQE) is hindered by the available quantum resources of current and near-term devices. One approach to relieving the circuit depth requirements for VQE is to "pre-process" the electronic Hamiltonian by a similarity transformation incorporating some degree of electronic correlation, with the remaining correlation left to be addressed by the circuit ansatz. This often comes at the price of a substantial increase in the number of terms to measure in the similarity transformed Hamiltonian. In this work, we propose an efficient approach to sampling elements from the complete Pauli group for $N$ qubits which minimize the onset of new terms in the transformed Hamiltonian, while facilitating substantial energy lowering. We benchmark the growth-mitigating generator selection technique for ground state energy estimations applied to models of the H$_4$, N$_2$ and H$_2$O molecular systems. It is found that utilizing a selection procedure which obtains the growth-minimizing generator from the set of operators with maximal energy gradient is the most competitive approach to reducing the onset of Hamiltonian terms while achieving systematic energy lowering of the reference state.
翻訳日:2023-08-31 18:14:47 公開日:2023-08-29
# 変分模倣演算子ネットワーク

Variationally Mimetic Operator Networks ( http://arxiv.org/abs/2209.12871v3 )

ライセンス: Link先を確認
Dhruv Patel, Deep Ray, Michael R. A. Abdelmalik, Thomas J. R. Hughes, Assad A. Oberai(参考訳) 近年、演算子ネットワークは偏微分方程式(PDE)の解を近似するための有望なディープラーニングツールとして出現している。 これらのネットワークは、材料特性を記述する入力関数をマッピングし、関数と境界データをpdeの解に強制する。 本稿では,問題の近似変分あるいは弱定式化から得られる数値解の形を模倣した,演算子ネットワークのための新しいアーキテクチャについて述べる。 これらのアイデアの汎用楕円型PDEへの応用は、変動緩和作用素ネットワーク(VarMiON)につながる。 従来のDeep Operator Network(DeepONet)と同様に、VarMiONは出力の基底関数を構成するサブネットワークと、これらの基底関数の係数を構成するサブネットワークで構成されている。 しかし、DeepONetとは対照的に、VarMiONにおけるこれらのサブネットワークのアーキテクチャは正確に決定されている。 VarMiONソリューションにおけるエラーの分析では、トレーニングデータにおけるエラー、トレーニングエラー、入力および出力関数における二次誤差、およびトレーニングデータセットにおけるテスト入力関数と最も近い関数の間の距離を測定する"カバレッジエラー"が含まれていることが明らかになった。 また、正確な解作用素とそのVarMiON近似の安定性定数にも依存する。 標準楕円型PDEと非線形PDEへのVarMiONの適用により、ほぼ同じ数のネットワークパラメータに対して、VarMiONは標準のDeepONetや最近提案されたマルチインプット演算子ネットワーク(MIONet)よりも誤差が小さいことが明らかになった。 さらに、その性能は、入力関数のバリエーション、入力関数と出力関数をサンプリングするのに使用される技術、基本関数を構築するのに使用される技術、入力関数の数に対してより堅牢である。

In recent years operator networks have emerged as promising deep learning tools for approximating the solution to partial differential equations (PDEs). These networks map input functions that describe material properties, forcing functions and boundary data to the solution of a PDE. This work describes a new architecture for operator networks that mimics the form of the numerical solution obtained from an approximate variational or weak formulation of the problem. The application of these ideas to a generic elliptic PDE leads to a variationally mimetic operator network (VarMiON). Like the conventional Deep Operator Network (DeepONet) the VarMiON is also composed of a sub-network that constructs the basis functions for the output and another that constructs the coefficients for these basis functions. However, in contrast to the DeepONet, the architecture of these sub-networks in the VarMiON is precisely determined. An analysis of the error in the VarMiON solution reveals that it contains contributions from the error in the training data, the training error, the quadrature error in sampling input and output functions, and a "covering error" that measures the distance between the test input functions and the nearest functions in the training dataset. It also depends on the stability constants for the exact solution operator and its VarMiON approximation. The application of the VarMiON to a canonical elliptic PDE and a nonlinear PDE reveals that for approximately the same number of network parameters, on average the VarMiON incurs smaller errors than a standard DeepONet and a recently proposed multiple-input operator network (MIONet). Further, its performance is more robust to variations in input functions, the techniques used to sample the input and output functions, the techniques used to construct the basis functions, and the number of input functions.
翻訳日:2023-08-31 18:13:11 公開日:2023-08-29
# CASSPR: クロス注意シングルスキャンプレース認識

CASSPR: Cross Attention Single Scan Place Recognition ( http://arxiv.org/abs/2211.12542v2 )

ライセンス: Link先を確認
Yan Xia, Mariia Gladkova, Rui Wang, Qianyun Li, Uwe Stilla, Jo\~ao F. Henriques, Daniel Cremers(参考訳) 点雲に基づく位置認識(LiDAR)は、自律ロボットや自動運転車にとって重要なコンポーネントである。 現在のSOTA性能は、点ベースまたはボクセルベースの構造を用いて蓄積したLiDARサブマップ上で達成される。 voxelベースのアプローチは、複数のスケールにわたる空間的コンテキストをうまく統合するが、ポイントベース手法の局所的精度は示さない。 その結果, 従来の手法では, 微妙な幾何学的特徴の微妙なマッチングに難渋した。 これらの制限を克服するために,クロスアテンショントランスフォーマーを用いた点ベースおよびボクセルベースのアプローチを融合する手法としてCASSPRを提案する。 CASSPRは、低解像度で情報を抽出・集約するためのスパースボクセルブランチと、きめ細かいローカル情報を得るためのポイントワイズブランチを利用する。 CASSPRは、一方のブランチからのクエリを使用して、もう一方のブランチの構造にマッチし、両方がポイントクラウドの自己完結した記述子を抽出する(ひとつのブランチが支配する)が、両方を使用してポイントクラウドの出力グローバル記述子を通知する。 広範な実験により、cassprはいくつかのデータセット(oxford robotcar, tum, usyd)で最先端技術を超えていることが示された。 例えば、TUMデータセットで85.6%のAR@1を達成し、最強の事前モデルを約15%上回っている。 私たちのコードは公開されています。

Place recognition based on point clouds (LiDAR) is an important component for autonomous robots or self-driving vehicles. Current SOTA performance is achieved on accumulated LiDAR submaps using either point-based or voxel-based structures. While voxel-based approaches nicely integrate spatial context across multiple scales, they do not exhibit the local precision of point-based methods. As a result, existing methods struggle with fine-grained matching of subtle geometric features in sparse single-shot Li- DAR scans. To overcome these limitations, we propose CASSPR as a method to fuse point-based and voxel-based approaches using cross attention transformers. CASSPR leverages a sparse voxel branch for extracting and aggregating information at lower resolution and a point-wise branch for obtaining fine-grained local information. CASSPR uses queries from one branch to try to match structures in the other branch, ensuring that both extract self-contained descriptors of the point cloud (rather than one branch dominating), but using both to inform the output global descriptor of the point cloud. Extensive experiments show that CASSPR surpasses the state-of-the-art by a large margin on several datasets (Oxford RobotCar, TUM, USyd). For instance, it achieves AR@1 of 85.6% on the TUM dataset, surpassing the strongest prior model by ~15%. Our code is publicly available.
翻訳日:2023-08-31 18:05:47 公開日:2023-08-29
# 信頼性半教師付き学習のためのコントラスト信頼度伝播

Contrastive Credibility Propagation for Reliable Semi-Supervised Learning ( http://arxiv.org/abs/2211.09929v3 )

ライセンス: Link先を確認
Brody Kutt, Pralay Ramteke, Xavier Mignot, Pamela Toman, Nandini Ramanan, Sujit Rokka Chhetri, Shan Huang, Min Du, William Hewlett(参考訳) ラベルなしデータのラベルの作成はエラーを起こし、半教師付き学習(SSL)が厄介になる。 しばしば、アルゴリズムが教師付きベースラインを上回っない時期と理由についてはほとんど知られていない。 ベンチマークデータセットを使用して、ラベル付きおよびラベルなしセットで、少数ラベル、オープンセット、ノイズラベル、クラス分散の不均衡/ミスアライメントの5つの一般的な実世界のSSLデータシナリオを作成します。 本稿では,CCP (Contrastive Credibility Propagation) と呼ばれる新しいアルゴリズムを提案する。 CCPは、教師付きベースラインをデータシナリオで確実に上回るために、半教師付き学習とノイズの多いラベル学習を統一する。 シナリオのサブセットにフォーカスする以前の方法と比較して、CCPはすべてのシナリオにおいて教師付きベースラインを独自に上回り、ラベル付きデータやラベルなしデータの質が不明な場合の実践者を支援する。

Producing labels for unlabeled data is error-prone, making semi-supervised learning (SSL) troublesome. Often, little is known about when and why an algorithm fails to outperform a supervised baseline. Using benchmark datasets, we craft five common real-world SSL data scenarios: few-label, open-set, noisy-label, and class distribution imbalance/misalignment in the labeled and unlabeled sets. We propose a novel algorithm called Contrastive Credibility Propagation (CCP) for deep SSL via iterative transductive pseudo-label refinement. CCP unifies semi-supervised learning and noisy label learning for the goal of reliably outperforming a supervised baseline in any data scenario. Compared to prior methods which focus on a subset of scenarios, CCP uniquely outperforms the supervised baseline in all scenarios, supporting practitioners when the qualities of labeled or unlabeled data are unknown.
翻訳日:2023-08-31 18:04:15 公開日:2023-08-29
# (qa)$^2$:疑わしい仮定による質問応答

(QA)$^2$: Question Answering with Questionable Assumptions ( http://arxiv.org/abs/2212.10003v2 )

ライセンス: Link先を確認
Najoung Kim, Phu Mon Htut, Samuel R. Bowman, Jackson Petty(参考訳) 自然に発生する情報探索の質問には、しばしば疑わしい仮定が含まれます。 疑わしい仮定を含む質問は、情報を見る質問に対する典型的な回答から逸脱する独自の回答戦略を必要とするため、難しい。 例えば、マリー・キュリーはいつウランを発見したのか」という問いは、「マリー・キュリーがウランを発見した」という誤った仮定に答えることなく、典型的な「いつ」質問として答えることはできない。 本研究では,疑わしい仮定を含むか否かを問わない,自然に発生する検索エンジンクエリからなるオープンドメイン評価データセットである(qa)$^2$(質問応答と疑わしい仮定)を提案する。 QA)$^2$で成功するためには、システムは疑わしい仮定を検出でき、また、典型的な情報探索問題と疑わしい仮定の双方に対して適切な応答を生成できなければならない。 終末QAにおいて(QA)$^2$の人間レーダの受理性を通じて、現在のモデルでは問題のある仮定を扱うのに苦労しており、進行にかなりの支障を残している。

Naturally occurring information-seeking questions often contain questionable assumptions -- assumptions that are false or unverifiable. Questions containing questionable assumptions are challenging because they require a distinct answer strategy that deviates from typical answers for information-seeking questions. For instance, the question "When did Marie Curie discover Uranium?" cannot be answered as a typical "when" question without addressing the false assumption "Marie Curie discovered Uranium". In this work, we propose (QA)$^2$ (Question Answering with Questionable Assumptions), an open-domain evaluation dataset consisting of naturally occurring search engine queries that may or may not contain questionable assumptions. To be successful on (QA)$^2$, systems must be able to detect questionable assumptions and also be able to produce adequate responses for both typical information-seeking questions and ones with questionable assumptions. Through human rater acceptability on end-to-end QA with (QA)$^2$, we find that current models do struggle with handling questionable assumptions, leaving substantial headroom for progress.
翻訳日:2023-08-31 17:54:00 公開日:2023-08-29
# ラベル差分プライバシーによる回帰

Regression with Label Differential Privacy ( http://arxiv.org/abs/2212.06074v2 )

ライセンス: Link先を確認
Badih Ghazi, Pritish Kamath, Ravi Kumar, Ethan Leeman, Pasin Manurangsi, Avinash Varadarajan, Chiyuan Zhang(参考訳) ラベル差分プライバシー(DP)を保証した回帰モデルの学習課題について検討する。 ラベル値のグローバルな事前分布に基づいて, 与えられた回帰損失関数の下で最適なラベルDPランダム化機構を導出する。 最適機構が「ビンのランダム化応答」の形をとることを証明し、最適なビン値を求めるための効率的なアルゴリズムを提案する。 アルゴリズムの有効性を示すいくつかのデータセットについて,徹底的な実験評価を行った。

We study the task of training regression models with the guarantee of label differential privacy (DP). Based on a global prior distribution on label values, which could be obtained privately, we derive a label DP randomization mechanism that is optimal under a given regression loss function. We prove that the optimal mechanism takes the form of a "randomized response on bins", and propose an efficient algorithm for finding the optimal bin values. We carry out a thorough experimental evaluation on several datasets demonstrating the efficacy of our algorithm.
翻訳日:2023-08-31 17:52:49 公開日:2023-08-29
# recxplainer:レコメンダシステムのための属性ベースのパーソナライズド説明

RecXplainer: Amortized Attribute-based Personalized Explanations for Recommender Systems ( http://arxiv.org/abs/2211.14935v2 )

ライセンス: Link先を確認
Sahil Verma, Chirag Shah, John P. Dickerson, Anurag Beniwal, Narayanan Sadagopan, Arjun Seshadri(参考訳) YouTubeやTikTokを閲覧するときの服の買い物の仕方や、ホスピタリティ・プラットフォームを使うときに表示されているレストランやホテルの仕方など、レコメンダー・システムはデジタル世界の多くの相互作用に影響を与える。 現代の推奨システムは、プロプライエタリなデータセットとオープンソースデータセットの混合に基づいてトレーニングされた、大きく不透明なモデルである。 当然、開発者とユーザの両方に信頼の問題が発生する。システムは正しく動作しているのか、ユーザが特別なレコメンデーションを受け(あるいは受け取らないのか? 勧告とともに説明を提供することは、これらの懸念を和らげる。 補助レコメンダシステムのフィードバックの現在の状況は、ユーザ固有の説明(例えば、"アイテムbも購入したアイテムa")か、アイテム固有の説明(例えば、"アイテムaを見た/購入したアイテムbを推奨する")のいずれかである。 しかし,ユーザが検索体験にパーソナライズされたコンテキストを持ち込み,その項目の属性と個人の好みの関数としてアイテムを評価する。 本稿では,推奨項目の属性に対するユーザの嗜好に基づく詳細な説明を生成するための新しい手法である recxplainer を提案する。 5種類のレコメンデーションシステムを用いて,RecXplainerを実世界および大規模5つのレコメンデーションデータセット上で評価し,レコメンデーション属性に対するユーザの好みを把握し,それらを用いてレコメンデーションを説明する。 また、RecXplainerを5つのベースラインと比較し、RecXplainerの優れたパフォーマンスを10のメトリクスで示す。

Recommender systems influence many of our interactions in the digital world -- impacting how we shop for clothes, sorting what we see when browsing YouTube or TikTok, and determining which restaurants and hotels we are shown when using hospitality platforms. Modern recommender systems are large, opaque models trained on a mixture of proprietary and open-source datasets. Naturally, issues of trust arise on both the developer and user side: is the system working correctly, and why did a user receive (or not receive) a particular recommendation? Providing an explanation alongside a recommendation alleviates some of these concerns. The status quo for auxiliary recommender system feedback is either user-specific explanations (e.g., "users who bought item B also bought item A") or item-specific explanations (e.g., "we are recommending item A because you watched/bought item B"). However, users bring personalized context into their search experience, valuing an item as a function of that item's attributes and their own personal preferences. In this work, we propose RecXplainer, a novel method for generating fine-grained explanations based on a user's preferences over the attributes of recommended items. We evaluate RecXplainer on five real-world and large-scale recommendation datasets using five different kinds of recommender systems to demonstrate the efficacy of RecXplainer in capturing users' preferences over item attributes and using them to explain recommendations. We also compare RecXplainer to five baselines and show RecXplainer's exceptional performance on ten metrics.
翻訳日:2023-08-31 17:51:08 公開日:2023-08-29
# クロネッカー係数の量子的複雑性

Quantum complexity of the Kronecker coefficients ( http://arxiv.org/abs/2302.11454v2 )

ライセンス: Link先を確認
Sergey Bravyi, Anirban Chowdhury, David Gosset, Vojtech Havlicek, Guanyu Zhu(参考訳) 対称群のクロネッカー係数がいくつかの組合せ対象の集合を数えているかどうかは長年の疑問である。 本研究では、与えられたクロネッカー係数が、量子コンピュータを用いて効率的に測定できるプロジェクターのランクに比例することを示す。 言い換えると、クロネッカー係数(kronecker coefficient)は、qmaがnpの量子アナログであるqma検証器の受理証人によって与えられるベクトル空間の次元を数える。 これは、クロネッカー係数を与えられた相対誤差内で近似することは、量子多体系の熱的性質を推定する複雑さを捉える量子近似計数問題のある種の自然クラスよりも難しくないことを意味する。 第2の結果は、クロネッカー係数の正の判定がQMAに含まれており、最近のIkenmeyer、Mulmuley、WalterのNP硬度の結果を補完するということである。 対称群の文字表の行和を近似する関連問題に対しても同様の結果が得られる。 最後に,正規化クロネッカー係数を逆多項加算誤差に近似する効率的な量子アルゴリズムについて述べる。

Whether or not the Kronecker coefficients of the symmetric group count some set of combinatorial objects is a longstanding open question. In this work we show that a given Kronecker coefficient is proportional to the rank of a projector that can be measured efficiently using a quantum computer. In other words a Kronecker coefficient counts the dimension of the vector space spanned by the accepting witnesses of a QMA verifier, where QMA is the quantum analogue of NP. This implies that approximating the Kronecker coefficients to within a given relative error is not harder than a certain natural class of quantum approximate counting problems that captures the complexity of estimating thermal properties of quantum many-body systems. A second consequence is that deciding positivity of Kronecker coefficients is contained in QMA, complementing a recent NP-hardness result of Ikenmeyer, Mulmuley and Walter. We obtain similar results for the related problem of approximating row sums of the character table of the symmetric group. Finally, we discuss an efficient quantum algorithm that approximates normalized Kronecker coefficients to inverse-polynomial additive error.
翻訳日:2023-08-31 17:44:40 公開日:2023-08-29
# 多様性のジレンマ:北米のトップコンピュータサイエンスプログラムにおける大学院入学者のジェンダーと国籍バイアスを明らかにする

Diversity dilemmas: uncovering gender and nationality biases in graduate admissions across top North American computer science programs ( http://arxiv.org/abs/2302.00589v2 )

ライセンス: Link先を確認
Ghazal Kalhor, Tanin Zeraati, Behnam Bahrak(参考訳) 異なる組織は学界における多様性に対する政策を定義してきたが、少数派はいまだに偏見のために大学入学に不利であると主張する者も多い。 学術コミュニティにおける部分性パターンの検出に関する広範な研究が行われている。 しかし、過去数十年間、大学大学院進学結果における性別・国籍バイアスの評価に限定的な研究が集中してきた。 本研究では,北米の大学上位25校で,コンピュータサイエンス(CS)を専攻する約14,000人の大学院生に関する情報を包括的に収集した。 受験過程において,学生の性別や国籍を選好するかどうかを統計的仮説テストを用いて検討した。 偏りのパターンに加えて、男女・国籍の多様性と研究チームの科学的成果との関係についても論じる。 これまでの研究では,大学院生が研究グループに入学した場合,男女差は認められなかったが,学生の国籍にもとづく偏見が観察された。

Although different organizations have defined policies towards diversity in academia, many argue that minorities are still disadvantaged in university admissions due to biases. Extensive research has been conducted on detecting partiality patterns in the academic community. However, in the last few decades, limited research has focused on assessing gender and nationality biases in graduate admission results of universities. In this study, we collected a novel and comprehensive dataset containing information on approximately 14,000 graduate students majoring in computer science (CS) at the top 25 North American universities. We used statistical hypothesis tests to determine whether there is a preference for students' gender and nationality in the admission processes. In addition to partiality patterns, we discuss the relationship between gender/nationality diversity and the scientific achievements of research teams. Consistent with previous studies, our findings show that there is no gender bias in the admission of graduate students to research groups, but we observed bias based on students' nationality.
翻訳日:2023-08-31 17:43:03 公開日:2023-08-29
# 異常深部表現によるパーキンソン・ゲイト・モデリング

Parkinson gait modelling from an anomaly deep representation ( http://arxiv.org/abs/2301.11418v2 )

ライセンス: Link先を確認
Edgar Rangel, Fabio Martinez(参考訳) パーキンソン病(pd)は、進行性ドーパミン欠乏によるブラジキネジア、硬さ、震え、姿勢不安定などの歩行運動障害と関係している。 今日では、運動中の運動パターンを定量化するための学習表現を実装し、診断や治療計画などの臨床手順を支援するアプローチもある。 これらのアプローチは、識別表現を最適化するために、大量の階層化およびラベル付きデータを仮定する。 しかしながら、これらの考慮は、臨床実践中に実際のシナリオで操作可能なアプローチを制限する可能性がある。 本研究は,映像再構成と異常検出の枠組みを用いて,歩行運動関連パターンを学習するために,自己教師付き生成表現を導入する。 このアーキテクチャは、クラス間の分散を回避し、移動を表す複数の関係にアプローチするために、一流の教師付き学習に従って訓練される。 提案手法は,14名のpd患者と23名の対照被験者で検証し,対照群のみを訓練し,その一般化を考慮に入れた分類課題において,95%のauc,70%のホモセドキシティレベル,70%の形状レベルを達成した。

Parkinson's Disease (PD) is associated with gait movement disorders, such as bradykinesia, stiffness, tremors and postural instability, caused by progressive dopamine deficiency. Today, some approaches have implemented learning representations to quantify kinematic patterns during locomotion, supporting clinical procedures such as diagnosis and treatment planning. These approaches assumes a large amount of stratified and labeled data to optimize discriminative representations. Nonetheless these considerations may restrict the approaches to be operable in real scenarios during clinical practice. This work introduces a self-supervised generative representation to learn gait-motion-related patterns, under the pretext of video reconstruction and an anomaly detection framework. This architecture is trained following a one-class weakly supervised learning to avoid inter-class variance and approach the multiple relationships that represent locomotion. The proposed approach was validated with 14 PD patients and 23 control subjects, and trained with the control population only, achieving an AUC of 95%, homocedasticity level of 70% and shapeness level of 70% in the classification task considering its generalization.
翻訳日:2023-08-31 17:42:38 公開日:2023-08-29
# 可変レンズを用いた変圧器の潜時予測

Eliciting Latent Predictions from Transformers with the Tuned Lens ( http://arxiv.org/abs/2303.08112v3 )

ライセンス: Link先を確認
Nora Belrose, Zach Furman, Logan Smith, Danny Halawi, Igor Ostrovsky, Lev McKinney, Stella Biderman, Jacob Steinhardt(参考訳) 反復推論の観点からトランスフォーマーを解析し,モデル予測がレイヤ単位でどのように洗練されるかを理解する。 そのため、凍結事前訓練されたモデルで各ブロックに対するアフィンプローブを訓練し、すべての隠れた状態を語彙上の分布に復号することができる。 我々の方法であるチューニングレンズは、初期の「ロジットレンズ」技術の洗練であり、有用な洞察を得たが、しばしば脆弱である。 我々は,最大20Bパラメータを持つ多種多様な自己回帰言語モデルを用いて,ロジットレンズよりも予測的かつ信頼性が高く,偏りがないことを示す。 因果実験により、調整レンズはモデル自体と同様の機能を使用することを示した。 また,悪意のある入力を高精度に検出するために,潜在予測の軌跡が利用できることも見いだした。 結果の再現に必要なコードは、https://github.com/alignmentresearch/tuned-lensにある。

We analyze transformers from the perspective of iterative inference, seeking to understand how model predictions are refined layer by layer. To do so, we train an affine probe for each block in a frozen pretrained model, making it possible to decode every hidden state into a distribution over the vocabulary. Our method, the tuned lens, is a refinement of the earlier "logit lens" technique, which yielded useful insights but is often brittle. We test our method on various autoregressive language models with up to 20B parameters, showing it to be more predictive, reliable and unbiased than the logit lens. With causal experiments, we show the tuned lens uses similar features to the model itself. We also find the trajectory of latent predictions can be used to detect malicious inputs with high accuracy. All code needed to reproduce our results can be found at https://github.com/AlignmentResearch/tuned-lens.
翻訳日:2023-08-31 17:33:59 公開日:2023-08-29
# グラスマン多様体上の二次割り当てによるロバストアフィン点マッチング

Robust affine point matching via quadratic assignment on Grassmannians ( http://arxiv.org/abs/2303.02698v3 )

ライセンス: Link先を確認
Alexander Kolpakov, Michael Werman(参考訳) Robust Affine matching with Grassmannians (RAG) は点雲のアフィン登録を行う新しいアルゴリズムである。 このアルゴリズムは、グラスマンの2つの要素間のフロベニウス距離を最小化することに基づいている。 この目的のために、二次割り当て問題(QAP)の無期限緩和を用い、アフィン特徴マッチングに対するいくつかのアプローチを研究、比較した。 実験により、RAGは従来の手法よりもノイズや点差に対して堅牢であることが示された。

Robust Affine matching with Grassmannians (RAG) is a new algorithm to perform affine registration of point clouds. The algorithm is based on minimizing the Frobenius distance between two elements of the Grassmannian. For this purpose, an indefinite relaxation of the Quadratic Assignment Problem (QAP) is used, and several approaches to affine feature matching are studied and compared. Experiments demonstrate that RAG is more robust to noise and point discrepancy than previous methods.
翻訳日:2023-08-31 17:31:53 公開日:2023-08-29
# スクリュー転位時空におけるフラックス場に拘束された高調波発振器の回転および逆二乗ポテンシャル効果

Rotational and inverse square potential effects on harmonic oscillator confined by flux field in a space-time with screw dislocation ( http://arxiv.org/abs/2303.01968v2 )

ライセンス: Link先を確認
Faizuddin Ahmed, Houcine Aounallah, Prabir Rudra(参考訳) 本研究では,非相対論的量子系の研究を考察し,回転フレームによる非慣性効果の相互作用と,トポロジカル欠陥,特にスクリュー転位を背景としたアハロノフ・ボーム(AB)フラックス場による閉じ込めを考察した。 まず、逆二乗反発ポテンシャルを取り入れた高調波発振器問題に着目する。 特に、エネルギー固有値と波動関数は、トポロジカル欠陥パラメータ$\beta$(スクリュー転位を表す)、速度$\Omega$で一定の角運動を行う回転フレームの存在、外ポテンシャルなど、複数の要因によって複雑な影響を受けていることが明らかである。 そして、回転フレームの効果を考慮して、逆2乗ポテンシャルによって支配される相互作用に係わる非相対論的粒子の量子的挙動を研究する。 量子流束場の存在はエネルギースペクトルの変化をもたらす。 この現象は電磁アハロノフ-ボーム効果に類似している。

This research paper delves into the study of a non-relativistic quantum system, considering the interplay of non-inertial effects induced by a rotating frame and confinement by the Aharonov-Bohm (AB) flux field with potential in the backdrop of topological defects, specifically a screw dislocation. We first focus on the harmonic oscillator problem, incorporating an inverse-square repulsive potential. Notably, it becomes evident that the energy eigenvalues and wave functions are intricately influenced by multiple factors: the topological defect parameter $\beta$ (representing the screw dislocation), the presence of a rotating frame engaged in constant angular motion with speed $\Omega$, and the external potential. Then we study the quantum behavior of non-relativistic particles, engaging in interactions governed by an inverse square potential, all while taking into account the effects of the rotating frame. In both scenarios, a significant observation is made: the quantum flux field's existence brings about a shift in the energy spectrum. This phenomenon bears a resemblance to the electromagnetic Aharonov-Bohm effect.
翻訳日:2023-08-31 17:31:39 公開日:2023-08-29
# ぼんやりした画像から人間を追跡できる「Blur」

Human from Blur: Human Pose Tracking from Blurry Images ( http://arxiv.org/abs/2303.17209v2 )

ライセンス: Link先を確認
Yiming Zhao, Denys Rozumnyi, Jie Song, Otmar Hilliges, Marc Pollefeys, Martin R. Oswald(参考訳) ほぼぼやけた画像から3次元人間のポーズを推定する手法を提案する。 鍵となるアイデアは、3次元の人間モデル、テクスチャマップ、および人間の動きを記述するポーズの列で前方問題をモデル化することで、画像デブラリングの逆問題に取り組むことである。 そして、そのぼやけた過程を時間画像集約ステップでモデル化する。 微分可能なレンダラを用いることで、画素毎の再投影誤差をバックプロパゲーションし、1つまたは複数の入力画像を説明する最高の人間の動き表現を復元することで、逆問題を解くことができる。 画像再構成損失だけでは不十分であるため,追加の正規化条件を示す。 私たちの知る限りでは、この問題に取り組む最初の方法を紹介します。 提案手法は,サブフレーム精度と非剛性動作の明示的な3次元モデリングをともなう画像デブラリングを1つまたは複数の主要機能に欠くため,不明瞭な入力に対する他の手法を一貫して上回っている。

We propose a method to estimate 3D human poses from substantially blurred images. The key idea is to tackle the inverse problem of image deblurring by modeling the forward problem with a 3D human model, a texture map, and a sequence of poses to describe human motion. The blurring process is then modeled by a temporal image aggregation step. Using a differentiable renderer, we can solve the inverse problem by backpropagating the pixel-wise reprojection error to recover the best human motion representation that explains a single or multiple input images. Since the image reconstruction loss alone is insufficient, we present additional regularization terms. To the best of our knowledge, we present the first method to tackle this problem. Our method consistently outperforms other methods on significantly blurry inputs since they lack one or multiple key functionalities that our method unifies, i.e. image deblurring with sub-frame accuracy and explicit 3D modeling of non-rigid human motion.
翻訳日:2023-08-31 17:22:28 公開日:2023-08-29
# GAMIVAL:モバイルクラウドゲームコンテンツにおけるビデオ品質予測

GAMIVAL: Video Quality Prediction on Mobile Cloud Gaming Content ( http://arxiv.org/abs/2305.02422v3 )

ライセンス: Link先を確認
Yu-Chih Chen, Avinab Saha, Chase Davis, Bo Qiu, Xiaoming Wang, Rahul Gowda, Ioannis Katsavounidis, Alan C. Bovik(参考訳) モバイルのクラウドゲーム産業はこの10年間で急速に成長している。 ストリーミングゲームビデオがクラウドサーバから顧客のクライアントデバイスに送信される場合、参照ビデオなしで歪んだビデオ品質をモニタできるアルゴリズムが望ましいツールである。 しかし、コンピュータグラフィックスエンジンでレンダリングされたストリーミングゲームビデオの品質を正確に予測できるNo-Reference Video Quality Assessment (NR VQA)モデルを作成することは難しい問題である。 最近まで、モバイルゲームコンテンツの主観的品質データベースが不十分なため、この問題はさらに複雑だった。 我々はゲーム専用nr vqaモデルであるgameing video quality evaluator(gamival)を作成し、空間的および時間的ゲーム歪曲されたシーン統計モデル、ニューラルノイズモデル、深い意味的特徴の利点を活用した。 サポートベクタ回帰(SVR)を回帰器として使用するGAMIVALは,新たなLIVE-Meta Mobile Cloud Gaming(LIVE-Meta MCG)ビデオ品質データベースにおいて,優れたパフォーマンスを実現する。

The mobile cloud gaming industry has been rapidly growing over the last decade. When streaming gaming videos are transmitted to customers' client devices from cloud servers, algorithms that can monitor distorted video quality without having any reference video available are desirable tools. However, creating No-Reference Video Quality Assessment (NR VQA) models that can accurately predict the quality of streaming gaming videos rendered by computer graphics engines is a challenging problem, since gaming content generally differs statistically from naturalistic videos, often lacks detail, and contains many smooth regions. Until recently, the problem has been further complicated by the lack of adequate subjective quality databases of mobile gaming content. We have created a new gaming-specific NR VQA model called the Gaming Video Quality Evaluator (GAMIVAL), which combines and leverages the advantages of spatial and temporal gaming distorted scene statistics models, a neural noise model, and deep semantic features. Using a support vector regression (SVR) as a regressor, GAMIVAL achieves superior performance on the new LIVE-Meta Mobile Cloud Gaming (LIVE-Meta MCG) video quality database.
翻訳日:2023-08-31 17:11:29 公開日:2023-08-29
# マルチチャネル監視学習のための量子畳み込みニューラルネットワーク

Quantum Convolutional Neural Networks for Multi-Channel Supervised Learning ( http://arxiv.org/abs/2305.18961v2 )

ライセンス: Link先を確認
Anthony M. Smaldone, Gregory W. Kyro, Victor S. Batista(参考訳) 機械学習の急速に進化する分野が、信じられないほど有用なツールやモデルを生み出し続けている中、機械学習アルゴリズムのスピードアップを提供する量子コンピューティングの可能性はますます好まれている。 特に、画像検出に基づくタスクのための古典的な畳み込みフィルタの代わりに量子回路が研究され、量子優位性を利用することができる。 しかし、これらの試みは量子畳み込みニューラルネットワーク(QCNN)と呼ばれ、複数のチャネルで効率的にデータを処理できないため、比較的単純な入力に限られる。 本稿では,畳み込みカーネルとして使用する様々なハードウェア対応量子回路 ansatze を示し,マルチチャネルデータを含む分類タスクにおいて,我々が報告する量子ニューラルネットワークが既存のqcnnを上回っていることを示す。 これらの実装がチャネル間情報を効果的に学習することで、量子機械学習手法がより複雑なデータで操作できるようになると期待する。 この仕事は、https://github.com/anthonysmaldone/qcnn-multi-channel-supervised-learningでオープンソースとして入手できる。

As the rapidly evolving field of machine learning continues to produce incredibly useful tools and models, the potential for quantum computing to provide speed up for machine learning algorithms is becoming increasingly desirable. In particular, quantum circuits in place of classical convolutional filters for image detection-based tasks are being investigated for the ability to exploit quantum advantage. However, these attempts, referred to as quantum convolutional neural networks (QCNNs), lack the ability to efficiently process data with multiple channels and therefore are limited to relatively simple inputs. In this work, we present a variety of hardware-adaptable quantum circuit ansatzes for use as convolutional kernels, and demonstrate that the quantum neural networks we report outperform existing QCNNs on classification tasks involving multi-channel data. We envision that the ability of these implementations to effectively learn inter-channel information will allow quantum machine learning methods to operate with more complex data. This work is available as open source at https://github.com/anthonysmaldone/QCNN-Multi-Channel-Supervised-Learning.
翻訳日:2023-08-31 17:05:19 公開日:2023-08-29
# GazeGNN:胸部X線分類のためのGaze-Guided Graph Neural Network

GazeGNN: A Gaze-Guided Graph Neural Network for Chest X-ray Classification ( http://arxiv.org/abs/2305.18221v3 )

ライセンス: Link先を確認
Bin Wang, Hongyi Pan, Armstrong Aboah, Zheyuan Zhang, Elif Keles, Drew Torigian, Baris Turkbey, Elizabeth Krupinski, Jayaram Udupa, Ulas Bagci(参考訳) 視線追跡の研究は、人間の視覚世界との相互作用を理解するのに役立つため、コンピュータビジョンにおいて重要である。 特に、医療画像などのリスクの高いアプリケーションでは、アイトラッキングは、放射線技師や他の医療専門家が診断や臨床目的で画像を探し、分析し、解釈する方法を理解するのに役立ちます。 そのため、近年では、眼球追跡技術の病気分類への応用が盛んに行われている。 現代の研究は通常、視線追跡装置が収集した視線情報を視覚的注意マップ(VAM)に変換して学習過程を監督する。 しかし、これは時間を要する前処理であり、放射線科医の日常業務にアイトラッキングを適用することを妨げる。 そこで本研究では,生の視線データをvamsに変換することなく活用する,新しい視線誘導グラフニューラルネットワーク(gnn)であるgazgnnを提案する。 GazeGNNでは、視線を直接画像分類に統合するために、画像と視線パターン情報をモデル化する統一表現グラフを作成します。 この利点により、文献の中で初めてリアルタイム、リアルタイム、エンドツーエンドの病気分類アルゴリズムを開発した。 この成果は、放射線科医の日常業務にリアルタイムアイトラッキング技術を統合する実用性と実現性を示している。 われわれの知る限り、GazeGNNはGNNを採用して画像と視線データを統合した最初の作品だ。 胸部X線データを用いた実験により,提案手法は既存手法と比較して最も優れた分類性能を示した。 コードはhttps://github.com/ukaukaaaa/GazeGNNで公開されている。

Eye tracking research is important in computer vision because it can help us understand how humans interact with the visual world. Specifically for high-risk applications, such as in medical imaging, eye tracking can help us to comprehend how radiologists and other medical professionals search, analyze, and interpret images for diagnostic and clinical purposes. Hence, the application of eye tracking techniques in disease classification has become increasingly popular in recent years. Contemporary works usually transform gaze information collected by eye tracking devices into visual attention maps (VAMs) to supervise the learning process. However, this is a time-consuming preprocessing step, which stops us from applying eye tracking to radiologists' daily work. To solve this problem, we propose a novel gaze-guided graph neural network (GNN), GazeGNN, to leverage raw eye-gaze data without being converted into VAMs. In GazeGNN, to directly integrate eye gaze into image classification, we create a unified representation graph that models both images and gaze pattern information. With this benefit, we develop a real-time, real-world, end-to-end disease classification algorithm for the first time in the literature. This achievement demonstrates the practicality and feasibility of integrating real-time eye tracking techniques into the daily work of radiologists. To our best knowledge, GazeGNN is the first work that adopts GNN to integrate image and eye-gaze data. Our experiments on the public chest X-ray dataset show that our proposed method exhibits the best classification performance compared to existing methods. The code is available at https://github.com/ukaukaaaa/GazeGNN.
翻訳日:2023-08-31 17:04:44 公開日:2023-08-29
# beyond weights:pure synaptic-delay trainingを用いたスパイクニューラルネットワークのディープラーニング

Beyond Weights: Deep learning in Spiking Neural Networks with pure synaptic-delay training ( http://arxiv.org/abs/2306.06237v5 )

ライセンス: Link先を確認
Edoardo W. Grappolini and Anand Subramoney(参考訳) 生物学的証拠は、短時間から中程度の時間スケールでのシナプス遅延の適応が脳内の学習において重要な役割を担っていることを示唆している。 生物学に触発されて,シナプス重みがトレーニングされていないがランダムに選択された固定値に保たれている場合でも,シナプス遅延を用いた課題解決の可能性と能力について検討する。 後方伝搬によるフィードフォワードスパイクネットワークの遅延をONLYでトレーニングすることで,従来の重量トレーニングに匹敵する性能が得られることを示す。 さらに、重みを三元値にさらに制約することは、シナプス遅延のみを使用してタスクを解決するネットワークの能力に大きな影響を与えない。 mnistおよびファッションmnistデータセットにおける遅延のみトレーニングのタスク性能を予備実験で実証する。 これは、スパイクニューラルネットワークのトレーニングのための新しいパラダイムを示し、計算に重みを使用するモデルよりも効率の良いモデルのステージを設定する。

Biological evidence suggests that adaptation of synaptic delays on short to medium timescales plays an important role in learning in the brain. Inspired by biology, we explore the feasibility and power of using synaptic delays to solve challenging tasks even when the synaptic weights are not trained but kept at randomly chosen fixed values. We show that training ONLY the delays in feed-forward spiking networks using backpropagation can achieve performance comparable to the more conventional weight training. Moreover, further constraining the weights to ternary values does not significantly affect the networks' ability to solve the tasks using only the synaptic delays. We demonstrate the task performance of delay-only training on MNIST and Fashion-MNIST datasets in preliminary experiments. This demonstrates a new paradigm for training spiking neural networks and sets the stage for models that can be more efficient than the ones that use weights for computation.
翻訳日:2023-08-31 16:54:09 公開日:2023-08-29
# 誘導散逸型高温Rydberg蒸気における同期の発生

Emergence of synchronisation in a driven-dissipative hot Rydberg vapor ( http://arxiv.org/abs/2306.05188v2 )

ライセンス: Link先を確認
Karen Wadenpfuhl and C. Stuart Adams(参考訳) 熱 (35-60 {\deg}C) 原子(Rb) アンサンブルにおいて、高励起リドベルク状態(主量子数nは43から79)に駆動される同期を観測する。 この系の同期は原子運動により予期しないが、理論上は、大域的リドバーグ密度平均場による十分な強い相互作用が周波数と位相のエントレインを引き起こすことを示している。 2光子励起方式のプローブレーザの伝送では、蒸気のバルク量における創発的振動が検出される。

We observe synchronisation in a thermal (35-60 {\deg}C) atomic (Rb) ensemble driven to a highly-excited Rydberg state (principle quantum number n ranging from 43 to 79). Synchronisation in this system is unexpected due to the atomic motion, however, we show theoretically that sufficiently strong interactions via a global Rydberg density mean field causes frequency and phase entrainment. The emergent oscillations in the vapor's bulk quantities are detected in the transmission of the probe laser for a two-photon excitation scheme.
翻訳日:2023-08-31 16:52:23 公開日:2023-08-29
# 生成的閉ループ型人工知能による基礎科学の未来

The Future of Fundamental Science Led by Generative Closed-Loop Artificial Intelligence ( http://arxiv.org/abs/2307.07522v3 )

ライセンス: Link先を確認
Hector Zenil, Jesper Tegn\'er, Felipe S. Abrah\~ao, Alexander Lavin, Vipin Kumar, Jeremy G. Frey, Adrian Weller, Larisa Soldatova, Alan R. Bundy, Nicholas R. Jennings, Koichi Takahashi, Lawrence Hunter, Saso Dzeroski, Andrew Briggs, Frederick D. Gregory, Carla P. Gomes, Jon Rowe, James Evans, Hiroaki Kitano, Ross King(参考訳) ジェネレーティブAIやLLMなど、機械学習とAIの最近の進歩は、技術革新、製品開発、社会全体を破壊している。 AIのテクノロジへの貢献は、大規模なトレーニングデータセットへのアクセスと、パターン認識や分類から生成モデルまで、パフォーマンス評価基準の明確化を必要とする複数のアプローチから得ることができる。 しかしaiは、科学的な実践やモデル発見のための高品質なデータの大規模なデータセットへのアクセスが難しいため、基礎科学にはあまり貢献していない。 生成的AI、特に大規模言語モデルは、定量的モデルによる基礎的な深層科学の科学的発見を拡大し加速する機会である。 ここでは、自己駆動仮説生成や仮説空間のオープンエンド自律探索を含む、科学的な発見に対するAI駆動、自動化されたクローズドループアプローチの側面を調査し、調査する。 AIによる自動化を科学の実践に統合することは、発見の複製、データの体系的な生産、究極的には科学プロセスの民主化など、現在の問題を緩和する。 これらの可能性を実現するには、aiのビジョンと、因果分析とモデル発見の基本的な側面に対処できるaiアプローチの多様性が必要となる。 これらの進歩は、人間の科学者が達成した以上の世界の基本構造を探索し発見するAIの可能性を解き放つと約束している。 このようなビジョンは、現在のワークフローを自動化するのではなく、新しい基礎科学の境界を推し進め、今日の人類が直面している最大の課題に取り組むために技術革新のための扉を開くだろう。

Recent advances in machine learning and AI, including Generative AI and LLMs, are disrupting technological innovation, product development, and society as a whole. AI's contribution to technology can come from multiple approaches that require access to large training data sets and clear performance evaluation criteria, ranging from pattern recognition and classification to generative models. Yet, AI has contributed less to fundamental science in part because large data sets of high-quality data for scientific practice and model discovery are more difficult to access. Generative AI, in general, and Large Language Models in particular, may represent an opportunity to augment and accelerate the scientific discovery of fundamental deep science with quantitative models. Here we explore and investigate aspects of an AI-driven, automated, closed-loop approach to scientific discovery, including self-driven hypothesis generation and open-ended autonomous exploration of the hypothesis space. Integrating AI-driven automation into the practice of science would mitigate current problems, including the replication of findings, systematic production of data, and ultimately democratisation of the scientific process. Realising these possibilities requires a vision for augmented AI coupled with a diversity of AI approaches able to deal with fundamental aspects of causality analysis and model discovery while enabling unbiased search across the space of putative explanations. These advances hold the promise to unleash AI's potential for searching and discovering the fundamental structure of our world beyond what human scientists have been able to achieve. Such a vision would push the boundaries of new fundamental science rather than automatize current workflows and instead open doors for technological innovation to tackle some of the greatest challenges facing humanity today.
翻訳日:2023-08-31 16:45:35 公開日:2023-08-29
# 自律型農業における海藻成長の最大化:不確実な海流をナビゲートする不活性化システムの動的プログラミング手法

Maximizing Seaweed Growth on Autonomous Farms: A Dynamic Programming Approach for Underactuated Systems Navigating on Uncertain Ocean Currents ( http://arxiv.org/abs/2307.01916v2 )

ライセンス: Link先を確認
Matthias Killer, Marius Wiggert, Hanna Krasowski, Manan Doshi, Pierre F.J. Lermusiaux and Claire J. Tomlin(参考訳) 海藻バイオマスは気候変動を緩和する大きな可能性を秘めているが、大規模で自律的なオープンオーシャン農場はそれを完全に活用する必要がある。 このような農場は典型的には低い推進力を持ち、海流の影響を強く受けている。 高成長域に到達するための非線形時間変化海流を利用して、海藻の成長を最大化するコントローラを設計したい。 複雑なダイナミクスと過度な動作は、たとえ電流が知られているとしても、これを難しくする。 不確実性が増大する短期的不完全な予測のみが可能であれば、これはさらに難しい。 実電流が分かっている場合に最適な成長値関数を効率的に解く動的計画法を提案する。 We additionally present three extensions when as in reality only forecasts are known: (1) our methods resulting value function can be used as feedback policy to obtain the growth-optimal control for all states and times, allowing closed-loop control equivalent to re-planning at every time step hence mitigating forecast errors, (2) a feedback policy for long-term optimal growth beyond forecast horizons using seasonal average current data as terminal reward, and (3) a discounted finite-time Dynamic Programming (DP) formulation to account for increasing ocean current estimate uncertainty. 実際の太平洋海流シナリオにおける海藻養殖場の30日間のシミュレーションによるアプローチの評価を行った。 本手法は,5日間の予測で最高の成長率の95.8%を達成できたことを示す。 これにより, 実環境下での浮遊農地における低出力推進と海藻生育促進のための最適制御の可能性が確認された。

Seaweed biomass offers significant potential for climate mitigation, but large-scale, autonomous open-ocean farms are required to fully exploit it. Such farms typically have low propulsion and are heavily influenced by ocean currents. We want to design a controller that maximizes seaweed growth over months by taking advantage of the non-linear time-varying ocean currents for reaching high-growth regions. The complex dynamics and underactuation make this challenging even when the currents are known. This is even harder when only short-term imperfect forecasts with increasing uncertainty are available. We propose a dynamic programming-based method to efficiently solve for the optimal growth value function when true currents are known. We additionally present three extensions when as in reality only forecasts are known: (1) our methods resulting value function can be used as feedback policy to obtain the growth-optimal control for all states and times, allowing closed-loop control equivalent to re-planning at every time step hence mitigating forecast errors, (2) a feedback policy for long-term optimal growth beyond forecast horizons using seasonal average current data as terminal reward, and (3) a discounted finite-time Dynamic Programming (DP) formulation to account for increasing ocean current estimate uncertainty. We evaluate our approach through 30-day simulations of floating seaweed farms in realistic Pacific Ocean current scenarios. Our method demonstrates an achievement of 95.8% of the best possible growth using only 5-day forecasts. This confirms the feasibility of using low-power propulsion and optimal control for enhanced seaweed growth on floating farms under real-world conditions.
翻訳日:2023-08-31 16:44:34 公開日:2023-08-29
# ベクトルボソン散乱におけるベルの不等式と量子絡み合いの探索

Exploring Bell inequalities and quantum entanglement in vector boson scattering ( http://arxiv.org/abs/2306.17247v2 )

ライセンス: Link先を確認
R. A. Morales(参考訳) 本稿では,ベクトルボソン散乱$V'_1V'_2\to V_1V_2$の量子的性質について述べる。 解析は、標準モデル内の対応する木レベル振幅の計算により、最終状態$v_1v_2$に関連付けられた分極密度行列の構成に基づいている。 この研究の目的は、散乱結果の後に最後のベクトルボゾンが絡み合う位相空間の領域を決定することであり、その領域におけるベルの不等式をテストできるかどうかを確かめることである。 あらゆるケースで絡み合いが存在することが分かりました。 その量はプロセスによって異なり、最大エンタングル状態は特定のチャネルで到達される。 ベルの不等式については、これらの過程のいくつかについて特定の運動領域でテストすることもできる。 この研究は、この種のプロセスにおけるこれらの量子特性の分析の第一歩であり、量子トモグラフィー技術を用いたモンテカルロシミュレーションによる実験データから偏極密度行列と関連する量子パラメータの再構成を後々の研究に延期する。

Quantum properties of vector boson scattering $V'_1V'_2\to V_1 V_2$, related to entanglement and violation of Bell inequalities, are explored in this paper. The analysis is based on the construction of the polarization density matrix associated to the final state $V_1V_2$ by means of the computation of the corresponding tree level amplitudes within the Standard Model. The aim of this work is to determine the regions of the phase space where the final vector bosons after the scattering result entangled and if is it possible to test the Bell inequalities in those regions. We found that in all cases the entanglement is present. The amount of it depends on the process and the Maximally Entangled state is reached in some particular channels. Concerning the Bell inequality, it could be also tested in certain kinematical regions for some of these processes. This work is a first step in the analysis of these quantum properties for this kind of processes and it is postponed for future studies the reconstruction of the polarization density matrix and the related quantum parameters from experimental data through Monte-Carlo simulations using quantum tomography techniques.
翻訳日:2023-08-31 16:43:47 公開日:2023-08-29
# 大規模言語モデルを用いた深度検索のためのソフトプロンプトチューニング

Soft Prompt Tuning for Augmenting Dense Retrieval with Large Language Models ( http://arxiv.org/abs/2307.08303v3 )

ライセンス: Link先を確認
Zhiyuan Peng, Xuyang Wu, Yi Fang(参考訳) Dense Search (DR) はクエリとドキュメントを密埋め込みに変換し、ベクトル空間におけるクエリとドキュメント間の類似度を測定する。 DRの課題のひとつは、ドメイン固有のトレーニングデータがないことだ。 drモデルは、転送学習を通じてms marcoのような大規模な公開データセットから学べるが、すべてのdrモデルとドメインが等しく転送学習の恩恵を受けるわけではない。 近年、一部の研究者はゼロショットと少数ショットのDRモデルを改善するために大規模言語モデル(LLM)を活用している。 しかし、これらの作業で使われるハードプロンプトや人書きプロンプトは、生成された弱いクエリの質を保証できない。 タスク毎にソフトプロンプトチューニングを利用して、限られた基底真理データに対してタスク固有のソフトプロンプトを最適化し、llmに弱いクエリでラベルなしの文書にタグを付けるように促し、タスク固有の密集したレトリバーを訓練するのに十分な弱いドキュメントクエリペアを得る。 我々は,弱いタグ付きクエリの品質をさらに向上させるために,高品質な文書クエリペアを選択するフィルタを設計した。 私たちの知る限りでは、drモデルの強化にソフトプロンプトチューニングを利用する先行作業はありません。 この実験は、sptarが教師なしのベースラインbm25と最近提案された dr の llms ベースの拡張法よりも優れていることを示している。

Dense retrieval (DR) converts queries and documents into dense embeddings and measures the similarity between queries and documents in vector space. One of the challenges in DR is the lack of domain-specific training data. While DR models can learn from large-scale public datasets like MS MARCO through transfer learning, evidence shows that not all DR models and domains can benefit from transfer learning equally. Recently, some researchers have resorted to large language models (LLMs) to improve the zero-shot and few-shot DR models. However, the hard prompts or human-written prompts utilized in these works cannot guarantee the good quality of generated weak queries. To tackle this, we propose soft prompt tuning for augmenting DR (SPTAR): For each task, we leverage soft prompt-tuning to optimize a task-specific soft prompt on limited ground truth data and then prompt the LLMs to tag unlabeled documents with weak queries, yielding enough weak document-query pairs to train task-specific dense retrievers. We design a filter to select high-quality example document-query pairs in the prompt to further improve the quality of weak tagged queries. To the best of our knowledge, there is no prior work utilizing soft prompt tuning to augment DR models. The experiments demonstrate that SPTAR outperforms the unsupervised baselines BM25 and the recently proposed LLMs-based augmentation method for DR.
翻訳日:2023-08-31 16:31:10 公開日:2023-08-29
# aiの多様化: alphazeroによるクリエイティブチェスへ

Diversifying AI: Towards Creative Chess with AlphaZero ( http://arxiv.org/abs/2308.09175v2 )

ライセンス: Link先を確認
Tom Zahavy, Vivek Veeriah, Shaobo Hou, Kevin Waugh, Matthew Lai, Edouard Leurent, Nenad Tomasev, Lisa Schut, Demis Hassabis, and Satinder Singh(参考訳) 近年、人工知能(AI)システムは、様々な計算タスクにおいて人間の知能を上回っている。 しかし、人間のようなAIシステムは、間違いを犯し、盲点を持ち、幻覚を持ち、新しい状況に一般化するのに苦労する。 この研究は、AIが計算合理性の限界に押されて創造的な意思決定メカニズムの恩恵を受けることができるかどうかを探求する。 特に、多様なAIシステムからなるチームが、グループとしてより多くのアイデアを生成し、最高のAIを選択することで、困難なタスクにおいて1つのAIより優れているかどうかを調査する。 我々はこの問題を、いわゆるAIのドロソフィラであるチェスのゲームで研究する。 我々はAlphaZero(AZ)上に構築し、エージェントの集合を表現するために潜在条件アーキテクチャを用いて拡張し、AZ_dbと呼ぶ。 我々はAZ_dbを訓練し、行動多様性技術を用いてより広い範囲のアイデアを生成し、サブ付加計画で最も有望なアイデアを選択する。 我々の実験は、AZ_dbが様々な方法でチェスをし、グループとしてより多くのパズルを解き、より均質なチームを上回ることを示唆している。 AZ_dbはAZの2倍の難解パズルを解く。 異なるオープニングからチェスを行う場合、AZ_dbのプレイヤーは異なるオープニングを専門とし、サブアダプティブプランニングを用いて各オープニングのプレイヤーを選択すると、AZよりも50エロ改善が達成される。 我々の研究結果は、AIエージェントのチームでは、人間のチームと同じように多様性のボーナスが出現し、ダイバーシティが計算的に難しい問題を解決する上で貴重な資産であることが示唆されている。

In recent years, Artificial Intelligence (AI) systems have surpassed human intelligence in a variety of computational tasks. However, AI systems, like humans, make mistakes, have blind spots, hallucinate, and struggle to generalize to new situations. This work explores whether AI can benefit from creative decision-making mechanisms when pushed to the limits of its computational rationality. In particular, we investigate whether a team of diverse AI systems can outperform a single AI in challenging tasks by generating more ideas as a group and then selecting the best ones. We study this question in the game of chess, the so-called drosophila of AI. We build on AlphaZero (AZ) and extend it to represent a league of agents via a latent-conditioned architecture, which we call AZ_db. We train AZ_db to generate a wider range of ideas using behavioral diversity techniques and select the most promising ones with sub-additive planning. Our experiments suggest that AZ_db plays chess in diverse ways, solves more puzzles as a group and outperforms a more homogeneous team. Notably, AZ_db solves twice as many challenging puzzles as AZ, including the challenging Penrose positions. When playing chess from different openings, we notice that players in AZ_db specialize in different openings, and that selecting a player for each opening using sub-additive planning results in a 50 Elo improvement over AZ. Our findings suggest that diversity bonuses emerge in teams of AI agents, just as they do in teams of humans and that diversity is a valuable asset in solving computationally hard problems.
翻訳日:2023-08-31 16:25:17 公開日:2023-08-29
# 開発AIのブートストラップ:単純な能力から知能な人間互換AIへ

Bootstrapping Developmental AIs: From Simple Competences to Intelligent Human-Compatible AIs ( http://arxiv.org/abs/2308.04586v5 )

ライセンス: Link先を確認
Mark Stefik and Robert Price(参考訳) 一部のAIは、ボードゲームのようなクローズドな人工世界で人間の能力を上回るが、現実では奇妙な間違いを犯し、気づかない。 簡単には指示できないし、常識を使わず、好奇心を欠いている。 AIを作成するための主流のアプローチには、従来の手作業によるシンボリックAIアプローチや、大規模言語モデル(LLM)を含む生成的およびディープラーニングAIアプローチが含まれる。 メインストリームの外部にあるが、開発上のブートストラップアプローチは、より多くの可能性を秘めている。 発達的なブートストラップでは、AIは人間の子供のように能力を生み出す。 彼らは生まれながらの能力から始まる。 彼らは環境と相互作用し、その相互作用から学びます。 彼らは自己発達能力で自然能力を徐々に拡張する。 彼らは対話し、人々から学び、知覚、認知、共通基盤を確立する。 彼らは能力のブートストラップによって必要な能力を取得する。 しかし、発達ロボット工学はまだ大人レベルの強力な能力を持つAIを生産していない。 プロジェクトは通常、幼児の障壁に到達する前に停止しています。 これは、乳幼児の発声が流れる前、約2歳での人間の乳児の発達に相当する。 彼らはまた、llmを動力とする社会的に発達したオンライン情報リソースを巧みにかつ懐疑的に描くことができる読み取り障壁の橋渡しもしない。 人間の認知発達における次の能力は、本質的な動機づけ、模倣学習、想像、協調、コミュニケーションである。 このポジションペーパーは、堅牢で信頼性があり、人間と互換性のあるAIを作るために、開発ブートストラップの実践を拡張するための論理、見通し、ギャップ、課題を概説する。

Although some AIs surpass human abilities in closed artificial worlds such as board games, in the real world they make strange mistakes and do not notice them. They cannot be instructed easily, fail to use common sense, and lack curiosity. Mainstream approaches for creating AIs include the traditional manually-constructed symbolic AI approach and the generative and deep learning AI approaches including large language models (LLMs). Although it is outside of the mainstream, the developmental bootstrapping approach may have more potential. In developmental bootstrapping, AIs develop competences like human children do. They start with innate competences. They interact with the environment and learn from their interactions. They incrementally extend their innate competences with self-developed competences. They interact and learn from people and establish perceptual, cognitive, and common grounding. They acquire the competences they need through competence bootstrapping. However, developmental robotics has not yet produced AIs with robust adult-level competences. Projects have typically stopped before reaching the Toddler Barrier. This corresponds to human infant development at about two years of age, before infant speech becomes fluent. They also do not bridge the Reading Barrier, where they could skillfully and skeptically draw on the socially developed online information resources that power LLMs. The next competences in human cognitive development involve intrinsic motivation, imitation learning, imagination, coordination, and communication. This position paper lays out the logic, prospects, gaps, and challenges for extending the practice of developmental bootstrapping to create robust, trustworthy, and human-compatible AIs.
翻訳日:2023-08-31 16:23:22 公開日:2023-08-29
# 分散型PMDPにおける離散通信による帰還ギャップ最小化

Minimizing Return Gaps with Discrete Communications in Decentralized POMDP ( http://arxiv.org/abs/2308.03358v3 )

ライセンス: Link先を確認
Jingdi Chen, Tian Lan(参考訳) マルコフ決定過程における協調的マルチエージェント強化学習課題の解決にはコミュニケーションが不可欠である。 既存の作業は、ローカル情報や特徴を他のエージェントと共有するメッセージにエンコードするブラックボックスメソッドに依存していることが多い。 しかし、このようなブラックボックスアプローチでは、期待した戻り値に対する定量的な保証が得られず、しばしば通信オーバーヘッドが高く、解釈可能性の低い連続メッセージの生成につながる。 本稿では,完全な可観測性を持つ理想的な方針と離散的通信を伴う最適部分可観測性ポリシーとの回帰ギャップの上限を定式化する。 この結果から,マルチエージェント通信を各エージェントの局所的な観測上の新たなオンラインクラスタリング問題に再キャストすることが可能となり,メッセージはクラスタラベル,アッパーバウンドはクラスタリング損失となる。 上界を最小化することにより,マルチエージェント通信におけるメッセージ生成関数の驚くほど単純な設計を提案し,正規化情報最大化損失関数を用いた強化学習と統合する。 評価の結果,提案する離散通信は最先端のマルチエージェント通信ベースラインを著しく上回っており,自然に解釈可能な数ビットメッセージでほぼ最適に近いリターンが得られることがわかった。

Communication is crucial for solving cooperative Multi-Agent Reinforcement Learning tasks in Partially-Observable Markov Decision Processes. Existing works often rely on black-box methods to encode local information/features into messages shared with other agents. However, such black-box approaches are unable to provide any quantitative guarantees on the expected return and often lead to the generation of continuous messages with high communication overhead and poor interpretability. In this paper, we establish an upper bound on the return gap between an ideal policy with full observability and an optimal partially-observable policy with discrete communication. This result enables us to recast multi-agent communication into a novel online clustering problem over the local observations at each agent, with messages as cluster labels and the upper bound on the return gap as clustering loss. By minimizing the upper bound, we propose a surprisingly simple design of message generation functions in multi-agent communication and integrate it with reinforcement learning using a Regularized Information Maximization loss function. Evaluations show that the proposed discrete communication significantly outperforms state-of-the-art multi-agent communication baselines and can achieve nearly-optimal returns with few-bit messages that are naturally interpretable.
翻訳日:2023-08-31 16:22:19 公開日:2023-08-29
# EntropyRank: 言語モデルに基づくテキスト圧縮のためのサイド情報最適化による教師なしキーフレーズ抽出

EntropyRank: Unsupervised Keyphrase Extraction via Side-Information Optimization for Language Model-based Text Compression ( http://arxiv.org/abs/2308.13399v2 )

ライセンス: Link先を確認
Alexander Tsvetkov, Alon Kipnis(参考訳) 本稿では,事前学習言語モデル(LM)とシャノンの情報最大化に基づくテキストからキーワードやキーワードを抽出する教師なし手法を提案する。 具体的には,LMの条件エントロピーが最も高い句を抽出する。 副作用として提供されると、LMとエントロピーエンコーダを使ってテキストを圧縮する際に、期待される最小のバイナリコード長につながる。 逆に、結果の集合は因果的LMによる近似であり、その上で条件付けられたテキストのエントロピーを最小限にするフレーズの集合である。 経験的に、この手法は様々なキーフレーズ抽出ベンチマークでよく使われる手法に匹敵する結果を提供する。

We propose an unsupervised method to extract keywords and keyphrases from texts based on a pre-trained language model (LM) and Shannon's information maximization. Specifically, our method extracts phrases having the highest conditional entropy under the LM. The resulting set of keyphrases turns out to solve a relevant information-theoretic problem: if provided as side information, it leads to the expected minimal binary code length in compressing the text using the LM and an entropy encoder. Alternately, the resulting set is an approximation via a causal LM to the set of phrases that minimize the entropy of the text when conditioned upon it. Empirically, the method provides results comparable to the most commonly used methods in various keyphrase extraction benchmark challenges.
翻訳日:2023-08-31 16:14:37 公開日:2023-08-29
# ドメイン間の信頼できる表現学習

Trustworthy Representation Learning Across Domains ( http://arxiv.org/abs/2308.12315v2 )

ライセンス: Link先を確認
Ronghang Zhu and Dongliang Guo and Daiqing Qi and Zhixuan Chu and Xiang Yu and Sheng Li(参考訳) AIシステムは、私たちの日常生活や人間社会に広く展開する上で、重要なパフォーマンスを得たので、人々はこれらの技術がもたらす利益を享受し、これらのシステムによって引き起こされる多くの社会的問題に苦しむ。 AIシステムを十分かつ信頼性の高いものにするために、信頼できるAIシステムのためのガイドラインを構築するために多くの研究がなされている。 機械学習はAIシステムにとって最も重要な部分のひとつであり、表現学習は機械学習の基本技術である。 現実世界のアプリケーション、例えばクロスドメインシナリオにおいて、表現学習を信頼できるものにする方法は非常に価値があり、機械学習とAIシステムの両方に必要である。 信頼に値するAIの概念に触発されて、我々は、この研究の方向性に関する包括的な文献レビューを行うために、4つの概念、すなわち堅牢性、プライバシー、公正性、説明可能性を含む、ドメインフレームワーク間での最初の信頼できる表現学習を提案した。 具体的には、まず、ドメイン間での表現学習のための信頼できるフレームワークの詳細を紹介する。 第2に,基本的な概念を提供し,4つの概念から信頼に値するフレームワークの既存手法を包括的に要約する。 最後に,今後の研究方向性に関する知見と議論をまとめてまとめる。

As AI systems have obtained significant performance to be deployed widely in our daily live and human society, people both enjoy the benefits brought by these technologies and suffer many social issues induced by these systems. To make AI systems good enough and trustworthy, plenty of researches have been done to build guidelines for trustworthy AI systems. Machine learning is one of the most important parts for AI systems and representation learning is the fundamental technology in machine learning. How to make the representation learning trustworthy in real-world application, e.g., cross domain scenarios, is very valuable and necessary for both machine learning and AI system fields. Inspired by the concepts in trustworthy AI, we proposed the first trustworthy representation learning across domains framework which includes four concepts, i.e, robustness, privacy, fairness, and explainability, to give a comprehensive literature review on this research direction. Specifically, we first introduce the details of the proposed trustworthy framework for representation learning across domains. Second, we provide basic notions and comprehensively summarize existing methods for the trustworthy framework from four concepts. Finally, we conclude this survey with insights and discussions on future research directions.
翻訳日:2023-08-31 16:13:51 公開日:2023-08-29
# 変圧器を用いた多変量時系列化フレームワーク : 生活予測の残存事例

A Transformer-based Framework For Multi-variate Time Series: A Remaining Useful Life Prediction Use Case ( http://arxiv.org/abs/2308.09884v2 )

ライセンス: Link先を確認
Oluwaseyi Ogunfowora, Homayoun Najjaran(参考訳) 近年、大規模言語モデル(llm)が世界的な注目を浴び、自然言語処理の分野に革命をもたらした。 LLMの有効性に起因する要因の1つは、トレーニングやトランスフォーマーに使用されるモデルアーキテクチャである。 トランスフォーマーモデルは、時系列データがシーケンシャルであるため、シーケンシャルデータにおけるコンテキスト特徴のキャプチャに優れており、より効率的な時系列データ予測のためにトランスフォーマーモデルを利用することができる。 予後予測の分野は、システムの健康管理と適切なメンテナンス計画に不可欠である。 マシンの残りの有用寿命(RUL)の信頼性評価は、大幅なコスト削減の可能性を秘めている。 これには、突然の機械故障を避けること、機器の使用を最大化すること、意思決定支援システム(DSS)として機能することが含まれる。 本研究は,多変量時系列予測のためのエンコーダ変換アーキテクチャベースのフレームワークを提案する。 C-MAPPSベンチマークデータセットの4セットすべてに対して提案手法の有効性を検証した。 トランスフォーマの知識と応用を自然言語領域から時系列に効果的に移行するために,モデル固有の3つの実験を行った。 また, 機械寿命の初期および劣化経路のモデル認識を可能にするため, 本研究で初めて拡張ウィンドウ法が提案され, スライドウインドウ法と比較され, エンコーダトランスモデルの性能が大幅に向上した。 最後に、提案したエンコーダ・トランスフォーマーモデルの性能をテストデータセットで評価し、文献中の13の最先端(SOTA)モデルと比較し、すべてのデータセットで次のベストモデルよりも平均137.65%向上した。

In recent times, Large Language Models (LLMs) have captured a global spotlight and revolutionized the field of Natural Language Processing. One of the factors attributed to the effectiveness of LLMs is the model architecture used for training, transformers. Transformer models excel at capturing contextual features in sequential data since time series data are sequential, transformer models can be leveraged for more efficient time series data prediction. The field of prognostics is vital to system health management and proper maintenance planning. A reliable estimation of the remaining useful life (RUL) of machines holds the potential for substantial cost savings. This includes avoiding abrupt machine failures, maximizing equipment usage, and serving as a decision support system (DSS). This work proposed an encoder-transformer architecture-based framework for multivariate time series prediction for a prognostics use case. We validated the effectiveness of the proposed framework on all four sets of the C-MAPPS benchmark dataset for the remaining useful life prediction task. To effectively transfer the knowledge and application of transformers from the natural language domain to time series, three model-specific experiments were conducted. Also, to enable the model awareness of the initial stages of the machine life and its degradation path, a novel expanding window method was proposed for the first time in this work, it was compared with the sliding window method, and it led to a large improvement in the performance of the encoder transformer model. Finally, the performance of the proposed encoder-transformer model was evaluated on the test dataset and compared with the results from 13 other state-of-the-art (SOTA) models in the literature and it outperformed them all with an average performance increase of 137.65% over the next best model across all the datasets.
翻訳日:2023-08-31 16:11:42 公開日:2023-08-29
# ハイパーグラフ製品符号における距離保存安定化器の測定

Distance-preserving stabilizer measurements in hypergraph product codes ( http://arxiv.org/abs/2308.15520v1 )

ライセンス: Link先を確認
Argyris Giannisis Manes and Jahan Claes(参考訳) 表面符号とは異なり、量子低密度パリティチェック(QLDPC)符号は符号化速度が有限であり、誤り訂正オーバーヘッドを低減させる可能性がある。 しかし、有限レートQLDPC符号は非局所安定化器を有しており、低深さで有効距離を減少させない安定化器測定回路の設計が困難である。 ここでは、有限レートQLDPC符号の一般的なファミリーであるハイパーグラフ製品符号が、距離ロバスト性(英語版)の便利な性質を持つことを示す。 特に, [Tremblay et al, PRL 129, 050504 (2022)] の深さ最適回路も有効距離の点で最適であることを示す。

Unlike the surface code, quantum low-density parity-check (QLDPC) codes can have a finite encoding rate, potentially lowering the error correction overhead. However, finite-rate QLDPC codes have nonlocal stabilizers, making it difficult to design stabilizer measurement circuits that are low-depth and do not decrease the effective distance. Here, we demonstrate that a popular family of finite-rate QLDPC codes, hypergraph product codes, has the convenient property of distance-robustness: any stabilizer measurement circuit preserves the effective distance. In particular, we prove the depth-optimal circuit in [Tremblay et al, PRL 129, 050504 (2022)] is also optimal in terms of effective distance.
翻訳日:2023-08-31 16:06:44 公開日:2023-08-29
# Document AI: ドキュメントレイアウト分析のためのトランスフォーマーベースのグラフベースモデルと畳み込みニューラルネットワークの比較研究

Document AI: A Comparative Study of Transformer-Based, Graph-Based Models, and Convolutional Neural Networks For Document Layout Analysis ( http://arxiv.org/abs/2308.15517v1 )

ライセンス: Link先を確認
Sotirios Kastanas, Shaomu Tan, Yi He(参考訳) document aiは、自然言語処理とコンピュータビジョン技術を活用して、ドキュメントを自動的に分析することを目指している。 document aiの主要なタスクの1つは、文書レイアウト分析であり、レイアウト、画像、テキストの内容および空間関係を解釈して文書ページを構造化する。 このタスクは、著者や段落などの様々な領域を識別し、ラベル付けすること、あるいは文書内の個々の単語を分類することに焦点を当てることである。 レイアウト解析を改善するための高度な手法はますますあるが、その発見がより広い文脈に一般化される程度に疑問が残る。 具体的には、トランスフォーマーベース、グラフベース、cnnなど、まったく異なるアーキテクチャに基づくシステムを開発した。 しかし、比較分析においてこれらのモデルの有効性について言及した研究はない。 また、知識伝達が可能な言語非依存の文書aiモデルが開発されているが、知識をどの程度効果的に転送できるかについては調査が続けられている。 本研究では,文書レイアウト解析における最先端モデルの比較評価を行い,機械翻訳技術を用いて言語間レイアウト解析の可能性を検討することにより,これらのギャップを埋めることを目的とする。

Document AI aims to automatically analyze documents by leveraging natural language processing and computer vision techniques. One of the major tasks of Document AI is document layout analysis, which structures document pages by interpreting the content and spatial relationships of layout, image, and text. This task can be image-centric, wherein the aim is to identify and label various regions such as authors and paragraphs, or text-centric, where the focus is on classifying individual words in a document. Although there are increasingly sophisticated methods for improving layout analysis, doubts remain about the extent to which their findings can be generalized to a broader context. Specifically, prior work developed systems based on very different architectures, such as transformer-based, graph-based, and CNNs. However, no work has mentioned the effectiveness of these models in a comparative analysis. Moreover, while language-independent Document AI models capable of knowledge transfer have been developed, it remains to be investigated to what degree they can effectively transfer knowledge. In this study, we aim to fill these gaps by conducting a comparative evaluation of state-of-the-art models in document layout analysis and investigating the potential of cross-lingual layout analysis by utilizing machine translation techniques.
翻訳日:2023-08-31 16:06:29 公開日:2023-08-29
# 市民AIの国際ガバナンス : 司法認定アプローチ

International Governance of Civilian AI: A Jurisdictional Certification Approach ( http://arxiv.org/abs/2308.15514v1 )

ライセンス: Link先を確認
Robert Trager, Ben Harack, Anka Reuel, Allison Carnegie, Lennart Heim, Lewis Ho, Sarah Kreps, Ranjit Lall, Owen Larter, Se\'an \'O h\'Eigeartaigh, Simon Staffell, Jos\'e Jaime Villalobos(参考訳) 本報告では,文民人工知能(AI)の国際ガバナンスアレンジメントの設計におけるトレードオフについて述べる。 このアプローチは、標準、ライセンス、責任体制のグローバルレベルへの拡張を表している。 我々は、国際監督基準に準拠した国家司法機関(企業やAIプロジェクトではない)を認定する国際AI機関(IAIO)を設立することを提案する。 国は、サプライチェーンがAIを非IAIO認定の管轄区域から具体化する商品の輸入を禁止する規制を採用することで、これらの国際標準に力を与えることができる。 これは、国際民間航空機関(icao)、国際海事機関(imo)、金融行動タスクフォース(fatf)といった既存の国際組織のモデルに借用されている。 州は、特殊ハードウェアなどのai製品インプットを非認証の管轄区域に輸出する多国間制御も採用できる。 実際、認証には輸出基準と輸出基準の両方が必要である。 国際アクターが高度なAIのリスクと最低限の基準について合意に達すると、司法認定制度は公共の安全への脅威を含む幅広い潜在的な害を軽減できる可能性がある。

This report describes trade-offs in the design of international governance arrangements for civilian artificial intelligence (AI) and presents one approach in detail. This approach represents the extension of a standards, licensing, and liability regime to the global level. We propose that states establish an International AI Organization (IAIO) to certify state jurisdictions (not firms or AI projects) for compliance with international oversight standards. States can give force to these international standards by adopting regulations prohibiting the import of goods whose supply chains embody AI from non-IAIO-certified jurisdictions. This borrows attributes from models of existing international organizations, such as the International Civilian Aviation Organization (ICAO), the International Maritime Organization (IMO), and the Financial Action Task Force (FATF). States can also adopt multilateral controls on the export of AI product inputs, such as specialized hardware, to non-certified jurisdictions. Indeed, both the import and export standards could be required for certification. As international actors reach consensus on risks of and minimum standards for advanced AI, a jurisdictional certification regime could mitigate a broad range of potential harms, including threats to public safety.
翻訳日:2023-08-31 16:06:09 公開日:2023-08-29
# サンプリングベース t-SNE 埋め込みの複雑度調整と計算

Tuning the perplexity for and computing sampling-based t-SNE embeddings ( http://arxiv.org/abs/2308.15513v1 )

ライセンス: Link先を確認
Martin Skrodzki, Nicolas Chaves-de-Plaza, Klaus Hildebrandt, Thomas H\"ollt, Elmar Eisemann(参考訳) 二次元可視化を用いた高次元データ解析に広く用いられているパイプライン。 これらは例えば t-distributed stochastic neighborbedding (t-SNE) を通じて生成される。 大規模データセットの場合、ハイパーパラメータが大規模データに適さないため、これらの可視化技術を適用すると、サブオプティマイズな埋め込みが発生する。 これらのパラメータのランク付けは通常、計算が現実的なワークフローに高すぎるため、機能しない。 本稿では,サンプリングに基づく組込み手法がこれらの問題を回避できると主張する。 サンプリングレートや意図した最終埋め込みに応じて,ハイパーパラメータを慎重に選択する必要があることを示す。 さらに,本手法によって計算速度が向上し,組込みの質が向上することを示す。

Widely used pipelines for the analysis of high-dimensional data utilize two-dimensional visualizations. These are created, e.g., via t-distributed stochastic neighbor embedding (t-SNE). When it comes to large data sets, applying these visualization techniques creates suboptimal embeddings, as the hyperparameters are not suitable for large data. Cranking up these parameters usually does not work as the computations become too expensive for practical workflows. In this paper, we argue that a sampling-based embedding approach can circumvent these problems. We show that hyperparameters must be chosen carefully, depending on the sampling rate and the intended final embedding. Further, we show how this approach speeds up the computation and increases the quality of the embeddings.
翻訳日:2023-08-31 16:05:42 公開日:2023-08-29
# Shatter and Gather: テキストスーパービジョンによる画像セグメンテーションの学習

Shatter and Gather: Learning Referring Image Segmentation with Text Supervision ( http://arxiv.org/abs/2308.15512v1 )

ライセンス: Link先を確認
Dongwon Kim, Namyup Kim, Cuiling Lan, Suha Kwak(参考訳) イメージセグメンテーションを参照すると、自由形式のテキストで記述された任意のエンティティをセグメンテーションするタスクは、様々なビジョンアプリケーションを開きます。 しかし、このタスクのトレーニングデータの手作業によるラベル付けは極めてコストがかかるため、トレーニング用のラベル付きデータが不足する。 トレーニング画像のテキスト記述を唯一の監督源として用いた弱教師付き学習手法によりこの問題に対処する。 この目的のために,まず,入力画像中の意味的エンティティを探索し,テキストクエリに関連するエンティティを結合して参照者のマスクを予測する新しいモデルを提案する。 また、新たな損失関数を導入し、さらなる監視なしにモデルをトレーニングできるようにします。 提案手法は,画像分割参照のための4つの公開ベンチマークで評価され,同じタスクに対する既存の手法や,最近のオープンボカブラリーセグメンテーションモデルよりも明らかに優れていた。

Referring image segmentation, the task of segmenting any arbitrary entities described in free-form texts, opens up a variety of vision applications. However, manual labeling of training data for this task is prohibitively costly, leading to lack of labeled data for training. We address this issue by a weakly supervised learning approach using text descriptions of training images as the only source of supervision. To this end, we first present a new model that discovers semantic entities in input image and then combines such entities relevant to text query to predict the mask of the referent. We also present a new loss function that allows the model to be trained without any further supervision. Our method was evaluated on four public benchmarks for referring image segmentation, where it clearly outperformed the existing method for the same task and recent open-vocabulary segmentation models on all the benchmarks.
翻訳日:2023-08-31 16:05:26 公開日:2023-08-29
# unORANIC: 解剖学と画像特性の教師なし直交化

unORANIC: Unsupervised Orthogonalization of Anatomy and Image-Characteristic Features ( http://arxiv.org/abs/2308.15507v1 )

ライセンス: Link先を確認
Sebastian Doerrich, Francesco Di Salvo, Christian Ledig(参考訳) 解剖学と画像特性の直交化を促進するために適応的損失関数を用いた教師なしアプローチであるunORANICを導入する。 このメソッドは、ドメイン知識やペアデータサンプル、ラベルを必要としないため、多様なモダリティやタスクに汎用性がある。 テスト期間中、unORANICは潜在的に破損した画像に適用され、その解剖学的および特徴成分を直交させ、その後、破壊のない画像を再構成し、ドメイン不変な解剖のみを示す。 この特徴は、汚職に対する一般化と堅牢性をさらに改善する。 我々は,unoranicの分類精度,腐敗検出,修正能力を評価することにより,5つの異なるデータセットを定性的かつ定量的に確認する。 本手法は,医用画像解析における実用的応用の汎用性と堅牢性の向上を約束するものである。 ソースコードはhttps://github.com/sdoerrich97/unORANICで入手できる。

We introduce unORANIC, an unsupervised approach that uses an adapted loss function to drive the orthogonalization of anatomy and image-characteristic features. The method is versatile for diverse modalities and tasks, as it does not require domain knowledge, paired data samples, or labels. During test time unORANIC is applied to potentially corrupted images, orthogonalizing their anatomy and characteristic components, to subsequently reconstruct corruption-free images, showing their domain-invariant anatomy only. This feature orthogonalization further improves generalization and robustness against corruptions. We confirm this qualitatively and quantitatively on 5 distinct datasets by assessing unORANIC's classification accuracy, corruption detection and revision capabilities. Our approach shows promise for enhancing the generalizability and robustness of practical applications in medical image analysis. The source code is available at https://github.com/sdoerrich97/unORANIC.
翻訳日:2023-08-31 16:04:58 公開日:2023-08-29
# 選択学習モデルのステレオグラフィー能力について

On the Steganographic Capacity of Selected Learning Models ( http://arxiv.org/abs/2308.15502v1 )

ライセンス: Link先を確認
Rishit Agrawal and Kelvin Jou and Tanush Obili and Daksh Parikh and Samarth Prajapati and Yash Seth and Charan Sridhar and Nathan Zhang and Mark Stamp(参考訳) 機械学習とディープラーニングモデルは、さまざまな攻撃シナリオの潜在的なベクトルである。 例えば、前回の研究では、マルウェアはディープラーニングモデルに隠れることができることが示されている。 学習モデルに情報を隠すことは、ステガノグラフィーの一種と見なすことができる。 本研究では,学習モデルのステガノグラフィー能力に関する一般的な質問について考察する。 具体的には、モデルの性能に悪影響を及ぼすことなく、オーバーライト可能な訓練パラメータの低次ビット数を決定する。 検討した各モデルについて、上書きされた低次ビット数の関数として精度をグラフ化し、選択したモデルでは、個々の層のステガノグラフィー容量も解析する。 The models that we test include the classic machine learning techniques of Linear Regression (LR) and Support Vector Machine (SVM); the popular general deep learning models of Multilayer Perceptron (MLP) and Convolutional Neural Network (CNN); the highly-successful Recurrent Neural Network (RNN) architecture of Long Short-Term Memory (LSTM); the pre-trained transfer learning-based models VGG16, DenseNet121, InceptionV3, and Xception; and, finally, an Auxiliary Classifier Generative Adversarial Network (ACGAN). いずれの場合も、トレーニングされた各パラメータのビットの大部分は、精度が低下する前に上書きできる。 テスト対象モデルのうち, LR実験では7.04KB, InceptionV3では44.74MBであった。 結果の意義を議論し,今後の研究への道筋について検討する。

Machine learning and deep learning models are potential vectors for various attack scenarios. For example, previous research has shown that malware can be hidden in deep learning models. Hiding information in a learning model can be viewed as a form of steganography. In this research, we consider the general question of the steganographic capacity of learning models. Specifically, for a wide range of models, we determine the number of low-order bits of the trained parameters that can be overwritten, without adversely affecting model performance. For each model considered, we graph the accuracy as a function of the number of low-order bits that have been overwritten, and for selected models, we also analyze the steganographic capacity of individual layers. The models that we test include the classic machine learning techniques of Linear Regression (LR) and Support Vector Machine (SVM); the popular general deep learning models of Multilayer Perceptron (MLP) and Convolutional Neural Network (CNN); the highly-successful Recurrent Neural Network (RNN) architecture of Long Short-Term Memory (LSTM); the pre-trained transfer learning-based models VGG16, DenseNet121, InceptionV3, and Xception; and, finally, an Auxiliary Classifier Generative Adversarial Network (ACGAN). In all cases, we find that a majority of the bits of each trained parameter can be overwritten before the accuracy degrades. Of the models tested, the steganographic capacity ranges from 7.04 KB for our LR experiments, to 44.74 MB for InceptionV3. We discuss the implications of our results and consider possible avenues for further research.
翻訳日:2023-08-31 16:04:07 公開日:2023-08-29
# 共通光学収差に対する分類ロバスト性

Classification robustness to common optical aberrations ( http://arxiv.org/abs/2308.15499v1 )

ライセンス: Link先を確認
Patrick M\"uller, Alexander Braun, Margret Keuper(参考訳) ディープニューラルネットワーク(DNN)を用いたコンピュータビジョンは、人々の生活にセミナルな変化をもたらした。 アプリケーションは自動車からセキュリティ業界の顔認識、産業プロセス監視まで多岐にわたる。 場合によっては、DNNは安全クリティカルな状況でも推測する。 したがって、実用的な用途では、DNNはノイズ、ピクセル化、ぼやけなどの乱れに対して頑丈に振る舞う必要がある。 BlurはDNNのパフォーマンスに直接影響を与え、デフォーカスをモデル化するためのディスク型カーネルとしてしばしば近似される。 しかし光学は、光収差による波長や位置によって異なるカーネル形状が存在することを示唆している。 実際、レンズの光学的品質が低下すると、そのような収差は増加する。 本稿では,現実的かつ実用的な光ぼけ効果に対するロバスト性を調べるためのベンチマークである OpticsBench を提案する。 各腐敗は、ツェルニケ多項式から派生した光学収差(coma, astigmatism, sphere, trefoil)を表す。 ImageNetの実験では、様々な訓練済みのDNNに対して、ディスク型カーネルと比較して性能が強く、現実的な画像劣化を考慮する必要があることを示している。 また,ImageNet-100 with OpticsAugmentでは,光カーネルをデータ拡張として使用することにより,ロバスト性を高めることができることを示す。 従来から訓練されていたresnext50と比較して、視機能訓練は、視機能ベンチマークで平均21.7%、共通の2次元腐敗で6.8%のパフォーマンス向上を達成している。

Computer vision using deep neural networks (DNNs) has brought about seminal changes in people's lives. Applications range from automotive, face recognition in the security industry, to industrial process monitoring. In some cases, DNNs infer even in safety-critical situations. Therefore, for practical applications, DNNs have to behave in a robust way to disturbances such as noise, pixelation, or blur. Blur directly impacts the performance of DNNs, which are often approximated as a disk-shaped kernel to model defocus. However, optics suggests that there are different kernel shapes depending on wavelength and location caused by optical aberrations. In practice, as the optical quality of a lens decreases, such aberrations increase. This paper proposes OpticsBench, a benchmark for investigating robustness to realistic, practically relevant optical blur effects. Each corruption represents an optical aberration (coma, astigmatism, spherical, trefoil) derived from Zernike Polynomials. Experiments on ImageNet show that for a variety of different pre-trained DNNs, the performance varies strongly compared to disk-shaped kernels, indicating the necessity of considering realistic image degradations. In addition, we show on ImageNet-100 with OpticsAugment that robustness can be increased by using optical kernels as data augmentation. Compared to a conventionally trained ResNeXt50, training with OpticsAugment achieves an average performance gain of 21.7% points on OpticsBench and 6.8% points on 2D common corruptions.
翻訳日:2023-08-31 16:03:24 公開日:2023-08-29
# 擬ブール多項式を用いたクラスター解析のための次元化

Dimensionality Reduction Using pseudo-Boolean polynomials For Cluster Analysis ( http://arxiv.org/abs/2308.15553v1 )

ライセンス: Link先を確認
Tendai Mapungwana Chikake and Boris Goldengorin(参考訳) 本稿では,クラスタ解析プロセスにおける不変次元減少のメカニズムとして,擬ブール多項式のペナルティに基づく定式化の還元特性を導入する。 本研究では,4次元irisフラワーデータセットのような多次元データを2次元空間に還元し,30次元ウィスコンシン診断乳癌(wdbc)データセットを3次元空間に縮小し,縮小サンプル間に存在する線や平面を探索することで,競合性,再現性,明瞭な解釈により,線形・非偏りのクラスタを抽出できることを示した。

We introduce usage of a reduction property of penalty-based formulation of pseudo-Boolean polynomials as a mechanism for invariant dimensionality reduction in cluster analysis processes. In our experiments, we show that multidimensional data, like 4-dimensional Iris Flower dataset can be reduced to 2-dimensional space while the 30-dimensional Wisconsin Diagnostic Breast Cancer (WDBC) dataset can be reduced to 3-dimensional space, and by searching lines or planes that lie between reduced samples we can extract clusters in a linear and unbiased manner with competitive accuracies, reproducibility and clear interpretation.
翻訳日:2023-08-31 15:54:25 公開日:2023-08-29
# 仲介者のフィードバックによる純粋探査

Pure Exploration under Mediators' Feedback ( http://arxiv.org/abs/2308.15552v1 )

ライセンス: Link先を確認
Riccardo Poiani, Alberto Maria Metelli, Marcello Restelli(参考訳) 確率的マルチアームバンディット(Stochastic multi-armed bandits)は、各インタラクションステップにおいて、学習者がアームを選択し、確率的報酬を観察するシーケンシャル意思決定フレームワークである。 最善の腕識別問題(bai)の文脈において、エージェントの目標は最適な腕(即ち最も期待された報酬を持つもの)を可能な限り正確かつ効率的に見つけることである。 それでも、エージェントが各ラウンドで引き出される腕を完全に制御する古典的BAI問題のシーケンシャルな相互作用プロトコルは、関心のある意思決定問題(例えば、非政治学習、部分的に制御可能な環境、人間からのフィードバック)を効果的にモデル化しない。 そこで,本研究では,仲介者のフィードバック(bai-mf)の下でのベストアーム識別と呼ぶ,古典bai問題の新たな厳密な一般化を提案する。 より具体的には、学習者が一組の仲介者にアクセスし、それぞれが確率的かつおそらく未知の方針に従ってエージェントの代理の腕を選択するシナリオを考える。 仲介者は、観察した報酬と共に、引き抜かれた腕とエージェントと通信する。 この設定では、エージェントの目標は、どのメディエーターに問い合わせて最適なアームを高い確率で識別するかを順次選択し、識別時間、すなわちサンプル複雑性を最小化することである。 この目的のために、我々はまず、一般的なメディエータフィードバックシナリオに特有のサンプルの複雑さの統計的下限を導出し分析する。 そこで我々は,仲介者の方針が学習者に知られていると仮定して,最良のアームを見つけるための逐次的意思決定戦略を提案する。 我々の理論が検証する通り、このアルゴリズムは下限とほぼ確実に一致する。 最後に、比較結果を得る学習者に対して、仲介者の方針が不明な場合に、これらの結果を拡張する。

Stochastic multi-armed bandits are a sequential-decision-making framework, where, at each interaction step, the learner selects an arm and observes a stochastic reward. Within the context of best-arm identification (BAI) problems, the goal of the agent lies in finding the optimal arm, i.e., the one with highest expected reward, as accurately and efficiently as possible. Nevertheless, the sequential interaction protocol of classical BAI problems, where the agent has complete control over the arm being pulled at each round, does not effectively model several decision-making problems of interest (e.g., off-policy learning, partially controllable environments, and human feedback). For this reason, in this work, we propose a novel strict generalization of the classical BAI problem that we refer to as best-arm identification under mediators' feedback (BAI-MF). More specifically, we consider the scenario in which the learner has access to a set of mediators, each of which selects the arms on the agent's behalf according to a stochastic and possibly unknown policy. The mediator, then, communicates back to the agent the pulled arm together with the observed reward. In this setting, the agent's goal lies in sequentially choosing which mediator to query to identify with high probability the optimal arm while minimizing the identification time, i.e., the sample complexity. To this end, we first derive and analyze a statistical lower bound on the sample complexity specific to our general mediator feedback scenario. Then, we propose a sequential decision-making strategy for discovering the best arm under the assumption that the mediators' policies are known to the learner. As our theory verifies, this algorithm matches the lower bound both almost surely and in expectation. Finally, we extend these results to cases where the mediators' policies are unknown to the learner obtaining comparable results.
翻訳日:2023-08-31 15:54:13 公開日:2023-08-29
# 深層強化学習におけるロバストポリシ最適化のための逆変換

Adversarial Style Transfer for Robust Policy Optimization in Deep Reinforcement Learning ( http://arxiv.org/abs/2308.15550v1 )

ライセンス: Link先を確認
Md Masudur Rahman and Yexiang Xue(参考訳) 本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。 我々のアプローチはマックスミンゲーム理論の目的から成り立っている。 発電機は、強化学習中に観察スタイルを転送する。 ジェネレータのさらなる目標は観測を妨害することであり、エージェントが異なるアクションをとる確率を最大化することである。 対照的に、ポリシーネットワークは、そのような摂動の影響を最小限に抑えるためにパラメータを更新する。 そこで本研究では,実用的な深層強化学習アルゴリズムであるadversarial robust policy optimization (arpo)を提案する。 一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価する。 経験的に、ARPOはデータ拡張を含むいくつかのベースラインアルゴリズムと比較してパフォーマンスが向上している。

This paper proposes an algorithm that aims to improve generalization for reinforcement learning agents by removing overfitting to confounding features. Our approach consists of a max-min game theoretic objective. A generator transfers the style of observation during reinforcement learning. An additional goal of the generator is to perturb the observation, which maximizes the agent's probability of taking a different action. In contrast, a policy network updates its parameters to minimize the effect of such perturbations, thus staying robust while maximizing the expected future reward. Based on this setup, we propose a practical deep reinforcement learning algorithm, Adversarial Robust Policy Optimization (ARPO), to find a robust policy that generalizes to unseen environments. We evaluate our approach on Procgen and Distracting Control Suite for generalization and sample efficiency. Empirically, ARPO shows improved performance compared to a few baseline algorithms, including data augmentation.
翻訳日:2023-08-31 15:53:43 公開日:2023-08-29
# 放射場再構成のための効率的なレイサンプリング

Efficient Ray Sampling for Radiance Fields Reconstruction ( http://arxiv.org/abs/2308.15547v1 )

ライセンス: Link先を確認
Shilei Sun, Ming Liu, Zhongyi Fan, Yuxue Liu, Chengwei Lv, Liquan Dong, Lingqin Kong (Beijing Institute of Technology, China)(参考訳) レイサンプリング戦略がネットワーク収束に大きな影響を及ぼすため、加速神経放射場訓練は実用的価値が高い。 これにより、より効率的なレイサンプリングは、既存のNeRFモデルのトレーニング効率を直接的に向上させることができる。 そこで我々は,フォトリアリスティックなレンダリング結果を維持しながら,トレーニング効率を向上させるニューラルレイディアンスフィールドのための新しいレイサンプリング手法を提案する。 まず,サンプル光線の画素損失分布とレンダリング品質の関係を解析した。 これは、オリジナルのnerfの均一な光線サンプリングにおける冗長性を示す。 そこで本研究では,画素領域と深さ境界を利用したサンプリング手法を開発した。 メインのアイデアは、トレーニングビューでより少ない光線をサンプリングすることですが、各光線がシーンフィッティングに役立ちます。 画素領域のサンプリング確率は, 色や深度に有意な変化を示し, 精度を犠牲にすることなく, 他領域からの無駄な光を著しく低減する。 この方法では、ネットワークの収束を加速できるだけでなく、シーンの空間幾何学をより正確に認識することができる。 レンダリング出力は特にテクスチャ複雑な領域で強化される。 実験により,提案手法が公開ベンチマークデータセットの最先端技術を大幅に上回ることを示した。

Accelerating neural radiance fields training is of substantial practical value, as the ray sampling strategy profoundly impacts network convergence. More efficient ray sampling can thus directly enhance existing NeRF models' training efficiency. We therefore propose a novel ray sampling approach for neural radiance fields that improves training efficiency while retaining photorealistic rendering results. First, we analyze the relationship between the pixel loss distribution of sampled rays and rendering quality. This reveals redundancy in the original NeRF's uniform ray sampling. Guided by this finding, we develop a sampling method leveraging pixel regions and depth boundaries. Our main idea is to sample fewer rays in training views, yet with each ray more informative for scene fitting. Sampling probability increases in pixel areas exhibiting significant color and depth variation, greatly reducing wasteful rays from other regions without sacrificing precision. Through this method, not only can the convergence of the network be accelerated, but the spatial geometry of a scene can also be perceived more accurately. Rendering outputs are enhanced, especially for texture-complex regions. Experiments demonstrate that our method significantly outperforms state-of-the-art techniques on public benchmark datasets.
翻訳日:2023-08-31 15:53:29 公開日:2023-08-29
# オンチップハイブリッド量子フォトニクスにおけるキャビティ拡大による全光スピン初期化

All-Optical Spin Initialization via a Cavity Broadened Optical Transition in On-Chip Hybrid Quantum Photonics ( http://arxiv.org/abs/2308.15544v1 )

ライセンス: Link先を確認
Lukas Antoniuk, Niklas Lettner, Anna P. Ovvyan, Simon Haugg, Marco Klotz, Helge Gehring, Daniel Wendland, Viatcheslav N. Agafonov, Wolfram H. P. Pernice and Alexander Kubanek(参考訳) ハイブリッド量子フォトニクスシステムは古典的フォトニクスを量子世界と結び付け、古典的および量子的サブシステムの両方の利点を生かしながら効率的な光マター量子インタフェースを提供することを約束する。 しかし、効率的でスケーラブルな光子系と固体量子系と望ましい光学的およびスピン的性質を組み合わせることは、非常に難しい課題である。 特に個々のスピン状態へのアクセスや光子へのコヒーレントマッピングはこれらの系では未解決である。 本稿では、窒化ケイ素フォトニック結晶キャビティに結合したナノダイヤモンドにおいて、負電荷のシリコン空孔中心の電子スピンの全光初期化と読み出しを示す。 結合エミッタキャビティシステムの関連するパラメータを特徴付け、シリコン空洞中心のスピン相対率とスピンデコヒーレンス率を決定する。 本研究は,量子ネットワーク,量子通信,分散量子計算に応用可能なナノダイヤモンドにおける窒化ケイ素フォトニクスとシリコン空洞中心電子スピンに基づくハイブリッドスピン光子界面の実現に向けた重要な一歩を示す。

Hybrid quantum photonic systems connect classical photonics to the quantum world and promise to deliver efficient light-matter quantum interfaces while leveraging the advantages of both, the classical and the quantum, subsystems. However, combining efficient, scalable photonics and solid state quantum systems with desirable optical and spin properties remains a formidable challenge. In particular the access to individual spin states and coherent mapping to photons remains unsolved for these systems. In this letter, we demonstrate all-optical initialization and readout of the electronic spin of a negatively-charged silicon-vacancy center in a nanodiamond coupled to a silicon nitride photonic crystal cavity. We characterize relevant parameters of the coupled emitter-cavity system and determine the silicon-vacancy center's spin-relaxation and spin-decoherence rate. Our results mark an important step towards the realization of a hybrid spin-photon interface based on silicon nitride photonics and the silicon-vacancy center's electron spin in nanodiamonds with potential use for quantum networks, quantum communication and distributed quantum computation.
翻訳日:2023-08-31 15:53:11 公開日:2023-08-29
# 可積分性からの非弾性崩壊

Inelastic decay from integrability ( http://arxiv.org/abs/2308.15542v1 )

ライセンス: Link先を確認
Amir Burshtein and Moshe Goldstein(参考訳) 可積分系の目印は、その励起の純粋に弾性散乱である。 このようなシステムは、多くの局所的に保存された電荷を持ち、散乱した励起の数と個々のモーメントの保存に繋がる。 本研究では, 積分境界モデルの回路QED実現において, 非弾性崩壊が観測可能であることを示す。 超伝導回路における不純物からのマイクロ波光子の散乱について検討し,両者とも可積分な境界sine-gordonモデルと近藤モデルを実装した。 その結果, マイクロ波光子の非弾性減衰は, 可積分性にも拘わらず, それらの非線形関係と弾性散乱励起により可能となるだけでなく, 非弾性減衰を記述する応答関数の正確な表現が得られるような強力な解析ツールが実際に提供されることがわかった。 形状因子の枠組みを用いて, 2点応答関数から抽出したマイクロ波光子の非弾性減衰速度と弾性位相シフトを計算した。 線形応答を超越して、エネルギー分解非弾性崩壊スペクトルを正確に取得し、3点応答関数のフォームファクタ展開を評価する新しい方法を用いて、積分可能な量子場理論の他の応用で有用であることを示す。 本研究では,最近の光子分裂実験,特にschmid-bulgadaev散逸量子相転移の証拠となる最近の実験データについて述べる。

A hallmark of integrable systems is the purely elastic scattering of their excitations. Such systems posses an extensive number of locally conserved charges, leading to the conservation of the number of scattered excitations, as well as their set of individual momenta. In this work, we show that inelastic decay can nevertheless be observed in circuit QED realizations of integrable boundary models. We consider the scattering of microwave photons off impurities in superconducting circuits implementing the boundary sine-Gordon and Kondo models, which are both integrable. We show that not only inelastic decay is possible for the microwave photons, in spite of integrability, and thanks to a nonlinear relation between them and the elastically-scattered excitations, but also that integrability in fact provides powerful analytical tools allowing to obtain exact expressions for response functions describing the inelastic decay. Using the framework of form factors, we calculate the total inelastic decay rate and elastic phase shift of the microwave photons, extracted from a 2-point response function. We then go beyond linear response and obtain the exact energy-resolved inelastic decay spectrum, using a novel method to evaluate form factor expansions of 3-point response functions, which could prove useful in other applications of integrable quantum field theories. We relate our results to several recent photon splitting experiments, and in particular to recent experimental data that provides evidence for the elusive Schmid-Bulgadaev dissipative quantum phase transition.
翻訳日:2023-08-31 15:52:53 公開日:2023-08-29
# 材料・プロセス・回路設計の最適化によるオンチップ超伝導量子メモリにおけるミリ秒コヒーレンス時間超過

Surpassing millisecond coherence times in on-chip superconducting quantum memories by optimizing materials, processes, and circuit design ( http://arxiv.org/abs/2308.15539v1 )

ライセンス: Link先を確認
Suhas Ganjam, Yanhao Wang, Yao Lu, Archan Banerjee, Chan U Lei, Lev Krayzman, Kim Kisslinger, Chenyu Zhou, Ruoshui Li, Yichen Jia, Mingzhao Liu, Luigi Frunzio, Robert J. Schoelkopf(参考訳) 量子コンピューティングにおける超伝導量子回路の性能は近年著しく向上しているが、緩和機構の包括的理解はまだ存在していない。 本研究では,デバイス性能の予測と材料,プロセス,回路設計の最適化によるコヒーレンス向上を目的として,超伝導量子回路のエネルギー損失を特徴付けるマルチモード手法を提案する。 この手法を用いて,タンタル系材料プラットフォームとアニールサファイア基板を用いて表面およびバルク誘電損失を著しく低減する。 この知識により,アルミニウムおよびタンタル系トランスモン量子ビットの緩和時間を予測し,実験的に検証した。 さらに、同軸トンネル構造内のコヒーレンスを最大化するためにデバイス形状を最適化し、単光子ラムゼー時間2.0$-2.7msで、そのエネルギー緩和時間1.0$-1.4msで制限されたオンチップ量子メモリを実現する。

The performance of superconducting quantum circuits for quantum computing has advanced tremendously in recent decades; however, a comprehensive understanding of relaxation mechanisms does not yet exist. In this work, we utilize a multimode approach to characterizing energy losses in superconducting quantum circuits, with the goals of predicting device performance and improving coherence through materials, process, and circuit design optimization. Using this approach, we measure significant reductions in surface and bulk dielectric losses by employing a tantalum-based materials platform and annealed sapphire substrates. With this knowledge we predict and experimentally verify the relaxation times of aluminum- and tantalum-based transmon qubits. We additionally optimize device geometry to maximize coherence within a coaxial tunnel architecture, and realize on-chip quantum memories with single-photon Ramsey times of 2.0$-$2.7 ms, limited by their energy relaxation times of 1.0$-$1.4 ms. To our knowledge this is the highest coherence achieved in an on-chip quantum memory, and demonstrates an advancement towards a more modular and compact coaxial circuit architecture for bosonic qubits with reproducibly high coherence.
翻訳日:2023-08-31 15:52:29 公開日:2023-08-29
# DebSDF:ニューラル・インハウス・シーン・コンストラクションの詳細と課題

DebSDF: Delving into the Details and Bias of Neural Indoor Scene Reconstruction ( http://arxiv.org/abs/2308.15536v1 )

ライセンス: Link先を確認
Yuting Xiao, Jingwei Xu, Zehao Yu, Shenghua Gao(参考訳) 近年,そのシンプルさと最先端性能から,多面的表面再構成の強力な表現として,ニューラル暗黙表面が出現している。 しかし,マルチビュー画像から室内のスムーズで詳細な表面を再構築することは,ユニークな課題である。 室内のシーンは、通常、大きなテクスチャのない領域を含み、暗黙の表面を最適化するために測光損失を信頼できない。 それまでの作業は、屋内のシーンの再構築を改善するために、単眼の幾何学的手法を用いていた。 しかし、単分子前駆体は、ドメインギャップと異なる視点から独立して導かれるとき固有の矛盾により、細い構造領域に重大な誤りを含むことが多い。 本稿では,これらの課題に対処するために,単分子前駆体における不確実性の利用とSDFに基づくボリュームレンダリングのバイアスに着目した「textbf{DebSDF}」を提案する。 そこで本研究では,より大きな不確実性と単眼前兆の誤差を関連付ける不確実性モデリング手法を提案する。 そして、バイアスを防ぐために高い未確認の優先順位を最適化から除外する。 この不確実性尺度はまた、重要誘導光サンプリングと適応的滑らか性正規化を通知し、微細構造の学習を促進する。 さらに、ビュー方向とSDF正規度の間の曲率と角度を考慮した密度変換にバイアス対応符号距離関数を導入し、より詳細な情報を再構築する。 提案手法は,いくつかの挑戦的データセットに対する広範囲な実験により検証され,室内の薄層構造を再構築する際の質的,定量的な結果が得られた。

In recent years, the neural implicit surface has emerged as a powerful representation for multi-view surface reconstruction due to its simplicity and state-of-the-art performance. However, reconstructing smooth and detailed surfaces in indoor scenes from multi-view images presents unique challenges. Indoor scenes typically contain large texture-less regions, making the photometric loss unreliable for optimizing the implicit surface. Previous work utilizes monocular geometry priors to improve the reconstruction in indoor scenes. However, monocular priors often contain substantial errors in thin structure regions due to domain gaps and the inherent inconsistencies when derived independently from different views. This paper presents \textbf{DebSDF} to address these challenges, focusing on the utilization of uncertainty in monocular priors and the bias in SDF-based volume rendering. We propose an uncertainty modeling technique that associates larger uncertainties with larger errors in the monocular priors. High-uncertainty priors are then excluded from optimization to prevent bias. This uncertainty measure also informs an importance-guided ray sampling and adaptive smoothness regularization, enhancing the learning of fine structures. We further introduce a bias-aware signed distance function to density transformation that takes into account the curvature and the angle between the view direction and the SDF normals to reconstruct fine details better. Our approach has been validated through extensive experiments on several challenging datasets, demonstrating improved qualitative and quantitative results in reconstructing thin structures in indoor scenes, thereby outperforming previous work.
翻訳日:2023-08-31 15:52:05 公開日:2023-08-29
# 不規則系の相転移に関する情報境界

Information Bounds on phase transitions in disordered systems ( http://arxiv.org/abs/2308.15532v1 )

ライセンス: Link先を確認
Noa Feldman, Niv Davidson, Moshe Goldstein(参考訳) コンピュータ科学や多体物理学に根ざした情報理論は、伝統的に(ほぼ)独立した分野として研究されてきた。 つい最近になってこのパラダイムが変化し始め、多体物理学が研究され、情報理論で開発されたツールを用いて特徴づけられた。 本研究では、この接続に関する新たな視点を導入し、乱数系の局在化や測定値を持つランダム量子回路など、ランダム性を持つモデルにおける相転移の研究を行う。 確率分布の微分に関する情報に基づく議論を利用して、これらの相転移(特に相関や局在長を制御するもの)に臨界指数を束縛する。 我々はこの手法をベンチマークし,非相互作用粒子のアンダーソン局在遷移と古典的乱れスピン系において,有名なハリス基準を再定義する。 その後,本手法を多体局所化に適用する。 実空間において、我々の臨界指数境界は最近のコンセンサスと一致するが、限られた大きさのシステムに対するフォック空間の局所化に関する数値的な結果が我々の境界に従わず、シミュレーション結果は漸近的に保持されないかもしれない(現在の実空間問題で発生したと考えられているものと同様)。 また,この手法をランダムな測定値を持つランダム量子回路に適用し,近年のパーコレーション問題へのマッピングを超越した境界を導出する。

Information theory, rooted in computer science, and many-body physics, have traditionally been studied as (almost) independent fields. Only recently has this paradigm started to shift, with many-body physics being studied and characterized using tools developed in information theory. In our work, we introduce a new perspective on this connection, and study phase transitions in models with randomness, such as localization in disordered systems, or random quantum circuits with measurements. Utilizing information-based arguments regarding probability distribution differentiation, we bound critical exponents in such phase transitions (specifically, those controlling the correlation or localization lengths). We benchmark our method and rederive the well-known Harris criterion, bounding critical exponents in the Anderson localization transition for noninteracting particles, as well as classical disordered spin systems. We then move on to apply our method to many-body localization. While in real space our critical exponent bound agrees with recent consensus, we find that, somewhat surprisingly, numerical results on Fock-space localization for limited-sized systems do not obey our bounds, indicating that the simulation results might not hold asymptotically (similarly to what is now believed to have occurred in the real-space problem). We also apply our approach to random quantum circuits with random measurements, for which we can derive bounds transcending recent mappings to percolation problems.
翻訳日:2023-08-31 15:51:38 公開日:2023-08-29
# 量子場駆動の量子オットーエンジン

Quantum Otto engine driven by quantum fields ( http://arxiv.org/abs/2308.15528v1 )

ライセンス: Link先を確認
Kensuke Gallock-Yoshimura and Vaishant Thakur and Robert B. Mann(参考訳) 曲面時空における量子スカラー場と相互作用するUnruh-DeWitt粒子検出器モデルを用いた量子オットーエンジンを考える。 検出器の有効温度から正の仕事を抽出するための一般的な条件を示す。 この条件は、検出器が磁場と熱平衡に達する状況下で、文献でよく知られた正の作業条件に還元される。 次に,unruh量子オットーエンジンにインスパイアされた熱浴中の慣性検出器とミンコフスキー真空中の循環検出器の2つのシナリオにおいて,検出器が抽出した作業量を評価する。

We consider a quantum Otto engine using an Unruh-DeWitt particle detector model which interacts with a quantum scalar field in curved spacetime. We express a generic condition for extracting positive work in terms of the effective temperature of the detector. This condition reduces to the well-known positive work condition in the literature under the circumstances where the detector reaches thermal equilibrium with the field. We then evaluate the amount of work extracted by the detector in two scenarios: an inertial detector in a thermal bath and a circulating detector in the Minkowski vacuum, which is inspired by the Unruh quantum Otto engine.
翻訳日:2023-08-31 15:51:11 公開日:2023-08-29
# 超伝導量子プロセッサにおける量子テレクロニング

Probing Quantum Telecloning on Superconducting Quantum Processors ( http://arxiv.org/abs/2308.15579v1 )

ライセンス: Link先を確認
Elijah Pelofske, Andreas B\"artschi, Stephan Eidenbenz, Bryan Garcia, Boris Kiefer(参考訳) 量子情報は完全クローン化することはできないが、量子情報の近似コピーを生成することができる。 量子テレクローニングは、一般的に量子クローンと呼ばれる近似量子クローンと量子テレポーテーションを組み合わせたものである。 量子テレクロニング(Quantum Telecloning)は、準備された量子テレクロニング状態上でベル測定を行った古典的な結果を用いて、異なるパーティによって量子情報の近似コピーを構築することができる。 量子テレクロニングは、古典的なコプロセッサを用いて量子コンピュータ上で回路として実装でき、中回路ベル測定結果に基づくif文を用いて、古典的なフィードフォワード命令をリアルタイムで計算することができる。 我々は、普遍的、対称的、最適な1ドルで、m$テレクローニング回路を提示し、これらの量子テレクローニング回路を、動的回路として知られるibm量子超伝導プロセッサ上で、リアルタイムの古典制御システムでネイティブに実行される、$m=2$から$m=10$で実験的に実証する。 我々は、任意にX-Xシーケンシャルデジタル動的デカップリングのエラー抑制技術を用いて、Bloch sphereの様々なメッセージ状態に対して、IBM Quantumプロセッサ7ドルでクローン処理を行う。 2つの回路最適化が利用されており、1つはancilla qubitsを$m=2,3$で削除し、もう1つは回路内のゲート数を減らすが、ancilla qubitsを使用する。 クローン量子ビットの混合状態密度行列を計算するために,MLE密度行列再構成を用いた並列単一量子ビットトモグラフィを用い,量子忠実度を用いてクローン品質を測定する。 これらの結果は、(単一量子ビット)量子テレクロニングに関する最大かつ最も包括的なNISQコンピュータ実験の1つである。 クローンの忠実度は、$M > 5$で0.5ドルに急減するが、$M=2$では、動的疎結合を用いて、平均クローン忠実度が0.79ドルに達する。

Quantum information can not be perfectly cloned, but approximate copies of quantum information can be generated. Quantum telecloning combines approximate quantum cloning, more typically referred as quantum cloning, and quantum teleportation. Quantum telecloning allows approximate copies of quantum information to be constructed by separate parties, using the classical results of a Bell measurement made on a prepared quantum telecloning state. Quantum telecloning can be implemented as a circuit on quantum computers using a classical co-processor to compute classical feed forward instructions using if statements based on the results of a mid-circuit Bell measurement in real time. We present universal, symmetric, optimal $1 \rightarrow M$ telecloning circuits, and experimentally demonstrate these quantum telecloning circuits for $M=2$ up to $M=10$, natively executed with real time classical control systems on IBM Quantum superconducting processors, known as dynamic circuits. We perform the cloning procedure on many different message states across the Bloch sphere, on $7$ IBM Quantum processors, optionally using the error suppression technique X-X sequence digital dynamical decoupling. Two circuit optimizations are utilized, one which removes ancilla qubits for $M=2, 3$, and one which reduces the total number of gates in the circuit but still uses ancilla qubits. Parallel single qubit tomography with MLE density matrix reconstruction is used in order to compute the mixed state density matrices of the clone qubits, and clone quality is measured using quantum fidelity. These results present one of the largest and most comprehensive NISQ computer experimental analyses on (single qubit) quantum telecloning to date. The clone fidelity sharply decreases to $0.5$ for $M > 5$, but for $M=2$ we are able to achieve a mean clone fidelity of up to $0.79$ using dynamical decoupling.
翻訳日:2023-08-31 15:45:32 公開日:2023-08-29
# プロトタイプフィッション:ロバストなオープンセットセミ教師付き学習のための閉集合

Prototype Fission: Closing Set for Robust Open-set Semi-supervised Learning ( http://arxiv.org/abs/2308.15575v1 )

ライセンス: Link先を確認
Xuwei Tan, Yi-Jie Huang, Yaqian Li(参考訳) 半教師付き学習(ssl)は、信頼できる疑似ラベル付きoods as in-distribution (id) のため、現実的な大規模教師なしデータセットにおいて、分散外(ood)サンプルに対して脆弱であることが証明されている。 鍵となる問題は、閉見える空間から見えない空間に広がるクラスワイドの潜伏空間であり、そのバイアスはSSLの自己学習ループでさらに拡大される。 安全なSSLのためにOODがよりよく拒否されるようにID分布セットを閉じるため、粗粒ラベルのみによって駆動される自動微粒化潜時空間マイニングにより、クラスワイド潜時空間をコンパクトなサブ空間に分割するプロトタイプフィッション(PF)を提案する。 具体的には、多様性と一貫性の両方に最適化された、各クラス用に複数の学習可能なサブクラスプロトタイプを作成します。 多様性モデリング用語は、複数のサブクラスのプロトタイプの1つでサンプルをクラスタ化することを奨励し、一貫性モデリング用語は、同じクラスのすべてのサンプルをグローバルプロトタイプにクラスタ化する。 開集合」ではなく、すなわち、OOD分布をモデル化し、プロトタイプフィッションを「閉集合」し、OODサンプルがサブクラス潜在空間に収まるのを難しくする。 したがって、PFはパフォーマンス向上のために既存のメソッドと互換性がある。 オープンセットSSL設定における提案手法の有効性を,サブクラスの生成,IDの識別,全体的な精度の向上の観点から検証した。 コードはリリースされる。

Semi-supervised Learning (SSL) has been proven vulnerable to out-of-distribution (OOD) samples in realistic large-scale unsupervised datasets due to over-confident pseudo-labeling OODs as in-distribution (ID). A key underlying problem is class-wise latent space spreading from closed seen space to open unseen space, and the bias is further magnified in SSL's self-training loops. To close the ID distribution set so that OODs are better rejected for safe SSL, we propose Prototype Fission(PF) to divide class-wise latent spaces into compact sub-spaces by automatic fine-grained latent space mining, driven by coarse-grained labels only. Specifically, we form multiple unique learnable sub-class prototypes for each class, optimized towards both diversity and consistency. The Diversity Modeling term encourages samples to be clustered by one of the multiple sub-class prototypes, while the Consistency Modeling term clusters all samples of the same class to a global prototype. Instead of "opening set", i.e., modeling OOD distribution, Prototype Fission "closes set" and makes it hard for OOD samples to fit in sub-class latent space. Therefore, PF is compatible with existing methods for further performance gains. Extensive experiments validate the effectiveness of our method in open-set SSL settings in terms of successfully forming sub-classes, discriminating OODs from IDs and improving overall accuracy. Codes will be released.
翻訳日:2023-08-31 15:44:57 公開日:2023-08-29
# パラメトリックquantile autoregressive conditional duration modelとintraday value-at-riskへの応用

Parametric quantile autoregressive conditional duration models with application to intraday value-at-risk ( http://arxiv.org/abs/2308.15571v1 )

ライセンス: Link先を確認
Helton Saulo, Suvra Pal, Rubens Souza, Roberto Vila, Alan Dasilva(参考訳) 金融資産取引を適格化する高周波データのモデリングは、統計学者や計量学者の間で関係のある分野であり、その上、金融期間の時系列の分析も行われている。 自己回帰条件付き持続時間(ACD)モデルは、金融取引データをモデリングするための主要なツールであり、通常は2つの連続するイベント間の時間間隔として定義される。 これらのモデルは、通常、平均(または中央値)条件持続時間の観点から指定される。 本稿では、その量子化によって再パラメータ化された対数対称分布に基づいて、新しいACDモデルの拡張を提案する。 提案手法では, 従来の条件付き平均(または中央値)持続時間ではなく, 異なるパーセンタイルをモデル化できる。 本稿では, 最大確率法を用いたパラメータ推定や残差に基づく診断解析など, 理論的性質と実用的課題について詳細に検討する。 また, モンテカルロシミュレーションにより, 提案モデルの性能評価, 真のパラメータ値の検索における推定法, 残差形態の評価を行った。 最後に、提案したモデルのクラスを価格持続時間データセットに適用し、半パラメトリックな日内値-リスクモデル(IVaR)を導出する。

The modeling of high-frequency data that qualify financial asset transactions has been an area of relevant interest among statisticians and econometricians -- above all, the analysis of time series of financial durations. Autoregressive conditional duration (ACD) models have been the main tool for modeling financial transaction data, where duration is usually defined as the time interval between two successive events. These models are usually specified in terms of a time-varying mean (or median) conditional duration. In this paper, a new extension of ACD models is proposed which is built on the basis of log-symmetric distributions reparametrized by their quantile. The proposed quantile log-symmetric conditional duration autoregressive model allows us to model different percentiles instead of the traditionally used conditional mean (or median) duration. We carry out an in-depth study of theoretical properties and practical issues, such as parameter estimation using maximum likelihood method and diagnostic analysis based on residuals. A detailed Monte Carlo simulation study is also carried out to evaluate the performance of the proposed models and estimation method in retrieving the true parameter values as well as to evaluate a form of residuals. Finally, the proposed class of models is applied to a price duration data set and then used to derive a semi-parametric intraday value-at-risk (IVaR) model.
翻訳日:2023-08-31 15:44:27 公開日:2023-08-29
# グラフニューラルネットワークのオーバースカッシング: 総合的な調査

Over-Squashing in Graph Neural Networks: A Comprehensive survey ( http://arxiv.org/abs/2308.15568v1 )

ライセンス: Link先を確認
Singh Akansha(参考訳) グラフニューラルネットワーク(gnns)は、マシンラーニングの領域における革命的パラダイムとして登場し、グラフ構造化データに固有の複雑な関係を分類するトランスフォーメーションアプローチを提供する。 多くのGNNの基本アーキテクチャは、ノード分類、リンク予測、レコメンデーションシステムを含む様々なアプリケーションにおいて顕著な効果を示すメカニズムである、相互接続ノード間のメッセージアグリゲーションと変換による情報の拡散である。 それでも、その潜在能力は、広い文脈的洞察を必要とするシナリオに固有の制約に遭遇する。 特定の文脈では、正確な予測はノードの直近の局所的な環境だけでなく、遠くの領域にまたがる相互作用にも当てはまる。 この長距離情報拡散の複雑な需要は、遠方のノードから流れる情報の忠実さが歪む「オーバー・スカッシング」として認識される重要な課題を露呈する。 この現象は、特に複雑な長距離相互作用に依存するタスクにおいて、メッセージパッシングメカニズムの効率を大幅に低下させる。 本稿では,GNNの過度な侵入の制約について概説する。 我々の調査は、この制限によって引き起こされる影響を改善するために、研究者による進行中の努力を細心の注意を要する。 体系的な解明を通じて,これまで提案されてきた戦略,方法論,イノベーションを掘り下げる。 この複雑に織り込まれた問題に光を当てることで、GNNのランドスケープにおける課題と、それらを克服するために設計された進化的ソリューションの微妙な理解に貢献することを目指している。

Graph Neural Networks (GNNs) have emerged as a revolutionary paradigm in the realm of machine learning, offering a transformative approach to dissect intricate relationships inherent in graph-structured data. The foundational architecture of most GNNs involves the dissemination of information through message aggregation and transformation among interconnected nodes, a mechanism that has demonstrated remarkable efficacy across diverse applications encompassing node classification, link prediction, and recommendation systems. Nonetheless, their potential prowess encounters a restraint intrinsic to scenarios necessitating extensive contextual insights. In certain contexts, accurate predictions hinge not only upon a node's immediate local surroundings but also on interactions spanning far-reaching domains. This intricate demand for long-range information dissemination exposes a pivotal challenge recognized as "over-squashing," wherein the fidelity of information flow from distant nodes becomes distorted. This phenomenon significantly curtails the efficiency of message-passing mechanisms, particularly for tasks reliant on intricate long-distance interactions. In this comprehensive article, we illuminate the prevalent constraint of over-squashing pervading GNNs. Our exploration entails a meticulous exposition of the ongoing efforts by researchers to improve the ramifications posed by this limitation. Through systematic elucidation, we delve into strategies, methodologies, and innovations proposed thus far, all aimed at mitigating the detriments of over-squashing. By shedding light on this intricately woven issue, we aim to contribute to a nuanced understanding of the challenges within the GNN landscape and the evolving solutions designed to surmount them.
翻訳日:2023-08-31 15:44:03 公開日:2023-08-29
# 合成データ拡張のためのタスクベースfMRIにおける逐次情報学習

Learning Sequential Information in Task-based fMRI for Synthetic Data Augmentation ( http://arxiv.org/abs/2308.15564v1 )

ライセンス: Link先を確認
Jiyao Wang, Nicha C. Dvornek, Lawrence H. Staib, and James S. Duncan(参考訳) 訓練データの不足は、特に特定の認知タスクを用いて取得した時空間画像を用いたタスクベース機能的磁気共鳴画像(fMRI)において、医用画像解析において永続的な問題である。 本稿では、下流学習タスクにおける強化トレーニングデータセットの作成に使用できる合成fMRIシーケンスの生成手法を提案する。 高分解能なタスク固有fMRIを合成するために、GANと変分オートエンコーダモデルの両方の利点を利用して$\alpha$-GAN構造を適用し、時間情報を集約する様々な代替案を提案する。 合成画像は、可視化や自閉症スペクトラム障害(ASD)分類タスクを含む複数の視点から評価される。 その結果,合成課題に基づくfMRIは,ASD分類タスクの学習に有効なデータ拡張を提供することができた。

Insufficiency of training data is a persistent issue in medical image analysis, especially for task-based functional magnetic resonance images (fMRI) with spatio-temporal imaging data acquired using specific cognitive tasks. In this paper, we propose an approach for generating synthetic fMRI sequences that can then be used to create augmented training datasets in downstream learning tasks. To synthesize high-resolution task-specific fMRI, we adapt the $\alpha$-GAN structure, leveraging advantages of both GAN and variational autoencoder models, and propose different alternatives in aggregating temporal information. The synthetic images are evaluated from multiple perspectives including visualizations and an autism spectrum disorder (ASD) classification task. The results show that the synthetic task-based fMRI can provide effective data augmentation in learning the ASD classification task.
翻訳日:2023-08-31 15:43:36 公開日:2023-08-29
# WeatherBench 2: 次世代のデータ駆動型グローバル気象モデルのためのベンチマーク

WeatherBench 2: A benchmark for the next generation of data-driven global weather models ( http://arxiv.org/abs/2308.15560v1 )

ライセンス: Link先を確認
Stephan Rasp, Stephan Hoyer, Alexander Merose, Ian Langmore, Peter Battaglia, Tyler Russel, Alvaro Sanchez-Gonzalez, Vivian Yang, Rob Carver, Shreya Agrawal, Matthew Chantry, Zied Ben Bouallegue, Peter Dueben, Carla Bromberg, Jared Sisk, Luke Barrington, Aaron Bell, Fei Sha(参考訳) WeatherBench 2はRaspらによって提唱された、地球規模の中距離(1~14日)の天気予報ベンチマークの更新であり、データ駆動気象モデリングの進歩を加速するために設計された。 WeatherBench 2は、オープンソースの評価フレームワーク、公開トレーニング、ベースラインデータ、最新のメトリクスと最先端モデルを備えた継続的に更新されたWebサイトで構成されている。 本稿では,評価フレームワークの設計原理を概説し,現状の物理・データ駆動気象モデルに対する結果を示す。 測定基準は、主要な運用気象センターで天気予報を評価するための確立した慣行に基づいている。 モデルパフォーマンスの概要を提供するために,見出しスコアのセットを定義した。 また,データ駆動型気象予報の現在の評価設定における問題点と今後の課題についても考察する。

WeatherBench 2 is an update to the global, medium-range (1-14 day) weather forecasting benchmark proposed by Rasp et al. (2020), designed with the aim to accelerate progress in data-driven weather modeling. WeatherBench 2 consists of an open-source evaluation framework, publicly available training, ground truth and baseline data as well as a continuously updated website with the latest metrics and state-of-the-art models: https://sites.research.google/weatherbench. This paper describes the design principles of the evaluation framework and presents results for current state-of-the-art physical and data-driven weather models. The metrics are based on established practices for evaluating weather forecasts at leading operational weather centers. We define a set of headline scores to provide an overview of model performance. In addition, we also discuss caveats in the current evaluation setup and challenges for the future of data-driven weather forecasting.
翻訳日:2023-08-31 15:43:20 公開日:2023-08-29
# サッカーにおける期待ゴールモデルの局所的説明

Glocal Explanations of Expected Goal Models in Soccer ( http://arxiv.org/abs/2308.15559v1 )

ライセンス: Link先を確認
Mustafa Cavus, Adrian Stando, Przemyslaw Biecek(参考訳) 期待されたゴールモデルは人気を得たが、その解釈可能性はしばしば制限されている。 説明可能な人工知能ツールは、モデルの透明性を高め、単一の観察またはすべての観察のために記述的知識を抽出するために出現した。 しかしながら、特定の観測群のブラックボックスモデルを説明することは、いくつかの領域でより有用である。 本稿では、SHAP値の集約バージョンと部分依存プロファイルの利用を提案し、チームとプレーヤレベルでのパフォーマンス分析を可能にするために、期待される目標モデルの局所的説明(地域レベルとグローバルレベル)を紹介する。 これにより、単一のショットではなく、プレイヤーやチームの期待されるゴールモデルから知識を抽出することができる。 さらに,shapと集約プロファイルの有用性を説明するために,実データアプリケーションも実施した。 サッカーにおけるパフォーマンス分析におけるこれらの説明の可能性について考察した。

The expected goal models have gained popularity, but their interpretability is often limited, especially when trained using black-box methods. Explainable artificial intelligence tools have emerged to enhance model transparency and extract descriptive knowledge for a single observation or for all observations. However, explaining black-box models for a specific group of observations may be more useful in some domains. This paper introduces the glocal explanations (between local and global levels) of the expected goal models to enable performance analysis at the team and player levels by proposing the use of aggregated versions of the SHAP values and partial dependence profiles. This allows knowledge to be extracted from the expected goal model for a player or team rather than just a single shot. In addition, we conducted real-data applications to illustrate the usefulness of aggregated SHAP and aggregated profiles. The paper concludes with remarks on the potential of these explanations for performance analysis in soccer analytics.
翻訳日:2023-08-31 15:43:03 公開日:2023-08-29
# 一般量子計測プロセスにおける情報熱力学第二法則

The second law of information thermodynamics for general quantum measurement processes ( http://arxiv.org/abs/2308.15558v1 )

ライセンス: Link先を確認
Shintaro Minagawa, Kenta Sakai, Kohtaro Kato, Francesco Buscemi(参考訳) フィードバック制御プロトコルは、マックスウェルの悪魔パラドックスと熱力学と情報処理の相互作用を具現化し研究するモデルとしてしばしば考えられている。 このような研究は、マクスウェルの悪魔と熱力学が平和的に共存できるという結論に繋がった。なぜなら、デーモンが提供した利得は、測定を行い、デーモンの記憶を初期状態に戻すコストによって相殺されなければならないからである。 この種のステートメントをまとめて、情報熱力学の第2法則と呼ぶ。 しかし、この方向の以前の研究はいくつかの仮定を定めており、普遍的に適用できない情報熱力学の第2法則が得られており、その妥当性は明確ではない。 本研究では,情報熱力学の一般法則を定式化した第2法則の不等式の有効性について,必要かつ十分な条件を提供することで,このギャップを埋める。 一般化された第二法則は、同じまたは少ない仮定の下で既知の法則に還元することができる。 副産物として,フィードバック制御によって抽出可能な作業を特徴付ける適切な情報尺度として,groenewold-ozawa情報ゲインを同定する。

Feedback control protocols have often been considered as a model to embody and study Maxwell's demon paradox and the interplay between thermodynamics and information processing. Such studies have led to the conclusion, now widely accepted in the community, that Maxwell's demon and thermodynamics can peacefully coexist because any gain provided by the demon must be offset by the cost of performing the measurement and resetting the demon's memory to its initial state. Statements of this kind are collectively referred to as the second law of information thermodynamics. However, previous studies in this direction made several assumptions, thus obtaining a second law of information thermodynamics that is not universally applicable and whose range of validity is not clear. In this work, we fill this gap by providing necessary and sufficient conditions for the validity of the second law inequalities and formulate a generalized second law of information thermodynamics. The generalized second law can be reduced to the known ones under the same or fewer assumptions. As a by-product, we identify the Groenewold-Ozawa information gain as the proper information measure characterizing the work extractable by feedback control.
翻訳日:2023-08-31 15:42:48 公開日:2023-08-29
# pseudo-boolean polynomials approachによる画像エッジ検出

A Pseudo-Boolean Polynomials Approach for Image Edge Detection ( http://arxiv.org/abs/2308.15557v1 )

ライセンス: Link先を確認
Tendai Mapungwana Chikake, Boris Goldengorin(参考訳) 本稿では,画像パッチに対する擬ブール多項式に基づく画像エッジ検出手法を提案する。 画像のエッジ領域を覆うパッチはブロブ領域をカバーするパッチに比べて高い次数を持つ擬似ボア多項式になることを示す。 提案手法は、ペナルティに基づく擬ブール多項式の多項式次数の減少と同値性に基づく。

We introduce a novel approach for image edge detection based on pseudo-Boolean polynomials for image patches. We show that patches covering edge regions in the image result in pseudo-Boolean polynomials with higher degrees compared to patches that cover blob regions. The proposed approach is based on reduction of polynomial degree and equivalence properties of penalty-based pseudo-Boolean polynomials.
翻訳日:2023-08-31 15:42:28 公開日:2023-08-29
# 3次元ポントリャーギン指数を持つ$\mathcal{p}\mathcal{t}$-symmetric topological phases

$\mathcal{P}\mathcal{T}$-symmetric topological phases with Pontryagin index in three spatial dimensions ( http://arxiv.org/abs/2308.15555v1 )

ライセンス: Link先を確認
Zory Davoyan, Wojciech J. Jankowski, Adrien Bouhon, Robert-Jan Slager(参考訳) スピンレス$\mathcal{P}\mathcal{T}$対称性で保護された3次元トポロジカル絶縁体と半金属のある種のクラスについて報告し、整数値のバルク不変量を持つ。 ホモトピーの議論を用いて、これらの位相が多重ギャップ位相を持ち、ホップ指数と異なる3つの空間次元において単一の$\mathbb{z}$ invariant が実現されることを示す。 この不変量は、粒子物理学の文脈でBPSTインスタンスを記述するポントリャーギン指数と同一であり、三次元球面巻数に対応する。 我々は, ギャップを閉じることなく, 非アベリアの非アベリアブレイディングによって除去できる, 分割二元数電荷によって位相的に特徴付けられるマルチギャップ結合結節環の自然発生について検討した。 さらに、非アベリア・ベリー接続要素のゲージ不変結合の観点で記述された巻数と接続し、4次元のポントリャーギン特性類との関係を示す。 これらのトポロジカルな構成は、さらに4つのバンドの場合、2つの等クリニック回転に関連する一対の巻数で特徴づけられ、任意の数のバンドに一般化できる完全非退化多重ギャップ位相と関係している。 物理的観点からは、このポントリャーギン指数に対応するエッジ状態と、ギャップクロース障害による溶解状態も分析する。 最後に,これらの新規な非可換相,そのエッジ状態,音響メタマテリアルおよびトラップイオン実験における結節節構造の実現について詳述する。

We report on a certain class of three-dimensional topological insulators and semimetals protected by spinless $\mathcal{P}\mathcal{T}$ symmetry, hosting an integer-valued bulk invariant. We show using homotopy arguments that these phases host multi-gap topology, providing a realization of a single $\mathbb{Z}$ invariant in three spatial dimensions that is distinct from the Hopf index. We identify this invariant with the Pontryagin index, which describes BPST instantons in particle physics contexts and corresponds to a 3-sphere winding number. We study naturally arising multi-gap linked nodal rings, topologically characterized by split-biquaternion charges, which can be removed by non-Abelian braiding of nodal rings, even without closing a gap. We additionally connect the describing winding number in terms of gauge-invariant combinations of non-Abelian Berry connection elements, indicating relations to Pontryagin characteristic class in four dimensions. These topological configurations are furthermore related to fully non-degenerate multi-gap phases that are characterized by a pair of winding numbers relating to two isoclinic rotations in the case of four bands and can be generalized to an arbitrary number of bands. From a physical perspective, we also analyze the edge states corresponding to this Pontryagin index as well as their dissolution subject to the gap-closing disorder. Finally, we elaborate on the realization of these novel non-Abelian phases, their edge states and linked nodal structures in acoustic metamaterials and trapped-ion experiments.
翻訳日:2023-08-31 15:42:24 公開日:2023-08-29
# 低雑音単光子計による超伝導ナノワイヤ検出器の赤外波長29$\mu$m

Low-noise single-photon counting superconducting nanowire detectors at infrared wavelengths up to 29 $\mu$m ( http://arxiv.org/abs/2308.15631v1 )

ライセンス: Link先を確認
Gregor G. Taylor, Alexander B. Walter, Boris Korzh, Bruce Bumble, Sahil R. Patel, Jason P. Allmaras, Andrew D. Beyer, Roger O'Brient, Matthew D. Shaw and Emma E. Wollman(参考訳) 超伝導ナノワイヤ単光子検出器のスペクトル感度を29$\mu$mの波長まで拡張する。 これは、この長い赤外線波長における時間相関単光子計数検出器の最初の実証である。 内部の飽和検出効率は10ドルから29ドルまで向上する一方、暗黒のカウントレートは0.1秒以下である。 超伝導ナノワイヤ単一光子検出器のこのスペクトル範囲への拡張は、低ノイズと高分解能光子計数検出を可能にし、これらの波長に対する新しい種類の単一光子感度検出器を効果的に提供する。 これらの検出器は、外惑星分光、赤外線天体物理学、物理化学、リモートセンシング、直接暗黒物質検出などの応用に重要である。

We report on the extension of the spectral sensitivity of superconducting nanowire single-photon detectors to a wavelength of 29 $\mu$m. This represents the first demonstration of a time correlated single-photon counting detector at these long infrared wavelengths. We achieve saturated internal detection efficiency from 10 to 29 $\mu$m, whilst maintaining dark count rates below 0.1 counts per second. Extension of superconducting nanowire single-photon detectors to this spectral range provides low noise and high timing resolution photon counting detection, effectively providing a new class of single-photon sensitive detector for these wavelengths. These detectors are important for applications such as exoplanet spectroscopy, infrared astrophysics, physical chemistry, remote sensing and direct dark-matter detection.
翻訳日:2023-08-31 15:34:41 公開日:2023-08-29
# ビデオ会話における顔特徴を用いた軽度認知障害の検出

Detection of Mild Cognitive Impairment Using Facial Features in Video Conversations ( http://arxiv.org/abs/2308.15624v1 )

ライセンス: Link先を確認
Muath Alsuhaibani, Hiroko H. Dodge, Mohammad H. Mahoor(参考訳) 軽度認知障害(MCI)の早期発見は、MCIから認知症への進行を遅らせるための早期介入につながる。 Deep Learning (DL)アルゴリズムは、初期の非侵襲的で低コストなMCI検出を実現するのに役立つ。 本稿では,家庭におけるビデオ録画会話から抽出した顔特徴のみに基づくdlモデルを用いた高齢者のmciの検出について述べる。 I-CONECT行動介入研究(NCT02871921)から収集したデータを用いて,社会的に孤立した高齢者とインタビュアーの半構造化インタビューをビデオ録画した。 畳み込みオートエンコーダと変圧器を用いた時空間情報を用いて,空間的全体的顔特徴を抽出する枠組みを開発した。 提案したDLモデルは,顔の特徴を用いて,I-CONECT研究参加者の認知状態(MCIと正常認知者(NC))を検出することができた。 顔特徴のセグメントとシーケンス情報は,非時間的特徴と比較して予測性能が向上した。 この組み合わせによる検出精度は88%に達したが、84%は特定のテーマの動画内の顔特徴のセグメント情報やシーケンス情報を適用しない精度である。

Early detection of Mild Cognitive Impairment (MCI) leads to early interventions to slow the progression from MCI into dementia. Deep Learning (DL) algorithms could help achieve early non-invasive, low-cost detection of MCI. This paper presents the detection of MCI in older adults using DL models based only on facial features extracted from video-recorded conversations at home. We used the data collected from the I-CONECT behavioral intervention study (NCT02871921), where several sessions of semi-structured interviews between socially isolated older individuals and interviewers were video recorded. We develop a framework that extracts spatial holistic facial features using a convolutional autoencoder and temporal information using transformers. Our proposed DL model was able to detect the I-CONECT study participants' cognitive conditions (MCI vs. those with normal cognition (NC)) using facial features. The segments and sequence information of the facial features improved the prediction performance compared with the non-temporal features. The detection accuracy using this combined method reached 88% whereas 84% is the accuracy without applying the segments and sequences information of the facial features within a video on a certain theme.
翻訳日:2023-08-31 15:34:27 公開日:2023-08-29
# 大学生の個性発達とキャリアの即応性を評価する知的システム

Intelligent System for Assessing University Student Personality Development and Career Readiness ( http://arxiv.org/abs/2308.15620v1 )

ライセンス: Link先を確認
Izbassar Assylzhan, Muragul Muratbekova, Daniyar Amangeldi, Nazzere Oryngozha, Anna Ogorodova, Pakizar Shamoi(参考訳) 書き起こしやGPAといった学術的指標は、学生の知識獲得を評価するために一般的に用いられるが、学習後生活の課題に対する準備を測るための総合的な指標が欠如している。 本研究は,大学生の転向準備に対する諸要因の影響を考察し,キャリアへの準備に焦点をあてる。 本研究では,paul j. mayer の "the balance wheel" に基づく調査をデザインし,教育プロセスへの満足度や給与の期待度など,様々な生活面における学生の感情を捉えた。 kbtu学生調査(n=47)から得られたデータは、線形回帰、サポートベクトル回帰(svr)、ランダムフォレスト回帰といった機械学習モデルによって処理された。 その後、これらのモデルとファジィセットを使用してインテリジェントシステムを構築した。 このシステムは、卒業生の将来のキャリアに対する準備を評価でき、高い予測能力を示す。 本研究の成果は教育機関に実際的な意味を持つ。 このような知的システムは、大学が大学院の課題に対する学生の備えを評価し、強化するための貴重なツールとなり得る。 学生の変化への準備に寄与する要因を認識することで、大学はカリキュラムとプロセスを洗練し、学生のキャリアの旅に備えることができる。

While academic metrics such as transcripts and GPA are commonly used to evaluate students' knowledge acquisition, there is a lack of comprehensive metrics to measure their preparedness for the challenges of post-graduation life. This research paper explores the impact of various factors on university students' readiness for change and transition, with a focus on their preparedness for careers. The methodology employed in this study involves designing a survey based on Paul J. Mayer's "The Balance Wheel" to capture students' sentiments on various life aspects, including satisfaction with the educational process and expectations of salary. The collected data from a KBTU student survey (n=47) were processed through machine learning models: Linear Regression, Support Vector Regression (SVR), Random Forest Regression. Subsequently, an intelligent system was built using these models and fuzzy sets. The system is capable of evaluating graduates' readiness for their future careers and demonstrates a high predictive power. The findings of this research have practical implications for educational institutions. Such an intelligent system can serve as a valuable tool for universities to assess and enhance students' preparedness for post-graduation challenges. By recognizing the factors contributing to students' readiness for change, universities can refine curricula and processes to better prepare students for their career journeys.
翻訳日:2023-08-31 15:34:11 公開日:2023-08-29
# RACR-MIL : 全スライド画像におけるランク認識型文脈推論による皮膚癌の診断

RACR-MIL: Weakly Supervised Skin Cancer Grading using Rank-Aware Contextual Reasoning on Whole Slide Images ( http://arxiv.org/abs/2308.15618v1 )

ライセンス: Link先を確認
Anirudh Choudhary, Angelina Hwang, Jacob Kechter, Krishnakant Saboo, Blake Bordeaux, Puneet Bhullar, Nneka Comfere, David DiCaudo, Steven Nelson, Emma Johnson, Leah Swanson, Dennis Murphree, Aaron Mangold, Ravishankar K. Iyer(参考訳) 皮膚扁平上皮癌(cSCC)はアメリカ合衆国で2番目に多い皮膚癌である。 主観的であり,病理組織間変動に苦しむ組織全体スライド画像(wsi)を用いて,手技によるマルチクラス腫瘍診断を行う。 我々は,WSIレベルグレードを用いて訓練し,より微細な腫瘍のアノテーションを必要としない,cSCC WSIの自動評価手法を提案する。 提案モデルであるRACR-MILは、各WSIをタイル付きパッチの袋に変換し、注意に基づくマルチインスタンス学習を利用してWSIレベルのグレードを割り当てる。 本研究は,腫瘍グレーティングにおけるcSCC固有の課題に対処するための3つの重要なイノベーションを提案する。 まず,腫瘍領域間の局所的および非局所的依存関係を符号化するWSIグラフを定義し,文脈的パッチ特徴を導出するグラフアテンション畳み込みを利用する。 第2に,高次腫瘍領域が注目度が高いことを確実にするために,パッチアテンションネットワークに新たな順序付け制約を導入する。 第3に,腫瘍深度を補助的タスクとして用いて,マルチタスク学習フレームワークのグレード分類を改善する。 RACR-MILは718個のcSCC組織像のデータセット上で、既存の弱教師付きアプローチよりも2-9%のグレード分類の改善を実現し、腫瘍をよりよく局在させる。 このモデルは、分類が難しいハイリスククラスの5~20%高い精度を達成し、クラス不均衡に頑健である。

Cutaneous squamous cell cancer (cSCC) is the second most common skin cancer in the US. It is diagnosed by manual multi-class tumor grading using a tissue whole slide image (WSI), which is subjective and suffers from inter-pathologist variability. We propose an automated weakly-supervised grading approach for cSCC WSIs that is trained using WSI-level grade and does not require fine-grained tumor annotations. The proposed model, RACR-MIL, transforms each WSI into a bag of tiled patches and leverages attention-based multiple-instance learning to assign a WSI-level grade. We propose three key innovations to address general as well as cSCC-specific challenges in tumor grading. First, we leverage spatial and semantic proximity to define a WSI graph that encodes both local and non-local dependencies between tumor regions and leverage graph attention convolution to derive contextual patch features. Second, we introduce a novel ordinal ranking constraint on the patch attention network to ensure that higher-grade tumor regions are assigned higher attention. Third, we use tumor depth as an auxiliary task to improve grade classification in a multitask learning framework. RACR-MIL achieves 2-9% improvement in grade classification over existing weakly-supervised approaches on a dataset of 718 cSCC tissue images and localizes the tumor better. The model achieves 5-20% higher accuracy in difficult-to-classify high-risk grade classes and is robust to class imbalance.
翻訳日:2023-08-31 15:33:46 公開日:2023-08-29
# すべてを一度に乱す: 差別化可能なグラフ攻撃を可能にする

Everything Perturbed All at Once: Enabling Differentiable Graph Attacks ( http://arxiv.org/abs/2308.15614v1 )

ライセンス: Link先を確認
Haoran Liu, Bokun Wang, Jianling Wang, Xiangjue Dong, Tianbao Yang, James Caverlee(参考訳) グラフ上で表現学習を行う強力なツールとして、グラフニューラルネットワーク(gnn)は、ソーシャルネットワーク、レコメンデーションシステム、オンラインwebサービスといったアプリケーションで重要な役割を果たす。 しかし、GNNは敵の攻撃に弱いことが示されており、その効果は著しく低下する可能性がある。 最近の敵攻撃における最先端のアプローチは、予算制約に達するまで単一のエッジを選択的に摂動させる勾配に基づくメタラーニングに依存している。 脆弱なリンクを特定するのに効果的であるが、これらの方法は高い計算コストに苦しめられている。 本稿では,グラフ構造の連続緩和とパラメータ化を生かして,効果的な攻撃を効率的に生成し,かつコストのかかる再訓練の必要性をなくすために,微分可能グラフ攻撃(dga)と呼ばれる新しい攻撃手法を提案する。 最先端と比較して、DGAはトレーニング時間の6倍、ベンチマークデータセットの11倍のGPUメモリフットプリントで、ほぼ同等のアタックパフォーマンスを達成する。 さらに,様々なグラフモデル間でのdgaの移動性や,広く使用されている防御機構に対する頑健性について,広範な実験的解析を行った。

As powerful tools for representation learning on graphs, graph neural networks (GNNs) have played an important role in applications including social networks, recommendation systems, and online web services. However, GNNs have been shown to be vulnerable to adversarial attacks, which can significantly degrade their effectiveness. Recent state-of-the-art approaches in adversarial attacks rely on gradient-based meta-learning to selectively perturb a single edge with the highest attack score until they reach the budget constraint. While effective in identifying vulnerable links, these methods are plagued by high computational costs. By leveraging continuous relaxation and parameterization of the graph structure, we propose a novel attack method called Differentiable Graph Attack (DGA) to efficiently generate effective attacks and meanwhile eliminate the need for costly retraining. Compared to the state-of-the-art, DGA achieves nearly equivalent attack performance with 6 times less training time and 11 times smaller GPU memory footprint on different benchmark datasets. Additionally, we provide extensive experimental analyses of the transferability of the DGA among different graph models, as well as its robustness against widely-used defense mechanisms.
翻訳日:2023-08-31 15:33:17 公開日:2023-08-29
# 離散変数に対する混合変分流

Mixed Variational Flows for Discrete Variables ( http://arxiv.org/abs/2308.15613v1 )

ライセンス: Link先を確認
Gian Carlo Diluvi, Benjamin Bloem-Reddy, Trevor Campbell(参考訳) 変動フローにより、実践者は複雑な連続分布を学習できるが、離散分布を近似することは依然として困難である。 現在の方法論では、通常、離散対象を連続的な空間(通常、連続的な緩和や非量子化を通じて)に埋め込み、連続的な流れを適用する。 これらのアプローチは、元の離散的ターゲットを捉えず、偏りや不安定な勾配を持ち、難しい最適化問題を引き起こすサロゲートターゲットを含む。 本研究では,連続埋め込みを伴わない離散分布に対する変分フローファミリを開発した。 まず,離散的対象不変量を残した測度保存・離散的可逆写像を開発し,その写像に基づいて混合変動流(MAD Mix)を生成する。 また、連立離散モデルおよび連続モデルを扱うMAD Mixの拡張も開発した。 実験の結果,MAD Mixは連続埋込流よりも信頼性の高い近似を生成できるが,訓練は極めて高速であることが示唆された。

Variational flows allow practitioners to learn complex continuous distributions, but approximating discrete distributions remains a challenge. Current methodologies typically embed the discrete target in a continuous space - usually via continuous relaxation or dequantization - and then apply a continuous flow. These approaches involve a surrogate target that may not capture the original discrete target, might have biased or unstable gradients, and can create a difficult optimization problem. In this work, we develop a variational flow family for discrete distributions without any continuous embedding. First, we develop a measure-preserving and discrete (MAD) invertible map that leaves the discrete target invariant, and then create a mixed variational flow (MAD Mix) based on that map. We also develop an extension to MAD Mix that handles joint discrete and continuous models. Our experiments suggest that MAD Mix produces more reliable approximations than continuous-embedding flows while being significantly faster to train.
翻訳日:2023-08-31 15:32:57 公開日:2023-08-29
# InstaTune:ファインチューニング中の瞬時ニューラルネットワーク検索

InstaTune: Instantaneous Neural Architecture Search During Fine-Tuning ( http://arxiv.org/abs/2308.15609v1 )

ライセンス: Link先を確認
Sharath Nittur Sridhar, Souvik Kundu, Sairam Sundaresan, Maciej Szankin, Anthony Sarah(参考訳) One-Shot Neural Architecture Search (NAS)アルゴリズムは、ドメイン固有のタスクのためにハードウェアに依存しないスーパーネットワークをトレーニングする。 最適なサブネットワークは、異なるハードウェアプラットフォーム向けにトレーニングされたスーパーネットワークから抽出される。 しかし、特に事前トレーニングと微調整の2段階のトレーニングプロセスに依存する大規模モデルでは、スクラッチからスーパーネットワークをトレーニングするのには非常に時間がかかる。 最先端の事前訓練されたモデルは、幅広いタスクで利用できるが、その大きなサイズは、様々なハードウェアプラットフォームにおける適用性を著しく制限している。 InstaTuneは,市販の既訓練重量を大規模モデルに活用し,微調整段階にスーパーネットワークを生成する手法である。 InstaTuneには複数の利点がある。 まず、プロセスは微調整中に行われるので、NASに必要な全体的な時間と計算資源を最小化する。 第二に、抽出されたサブネットワークは、事前学習目標を最適化する以前の作業とは異なり、目標タスクに最適化される。 最後に、InstaTuneは既存のフレームワークで簡単に"プラグ&プレイ"できる。 多目的進化探索アルゴリズムと軽量に訓練された予測器を用いて、精度やMACなどの異なる性能目標において、それぞれのベースラインを上回るパレート最適化サブネットワークを求める。 具体的には,Unimodal (ViT および BERT) および Multi-modal (BEiT-3) 変換器ベースアーキテクチャの両方において,本手法が良好に動作することを示す。

One-Shot Neural Architecture Search (NAS) algorithms often rely on training a hardware agnostic super-network for a domain specific task. Optimal sub-networks are then extracted from the trained super-network for different hardware platforms. However, training super-networks from scratch can be extremely time consuming and compute intensive especially for large models that rely on a two-stage training process of pre-training and fine-tuning. State of the art pre-trained models are available for a wide range of tasks, but their large sizes significantly limits their applicability on various hardware platforms. We propose InstaTune, a method that leverages off-the-shelf pre-trained weights for large models and generates a super-network during the fine-tuning stage. InstaTune has multiple benefits. Firstly, since the process happens during fine-tuning, it minimizes the overall time and compute resources required for NAS. Secondly, the sub-networks extracted are optimized for the target task, unlike prior work that optimizes on the pre-training objective. Finally, InstaTune is easy to "plug and play" in existing frameworks. By using multi-objective evolutionary search algorithms along with lightly trained predictors, we find Pareto-optimal sub-networks that outperform their respective baselines across different performance objectives such as accuracy and MACs. Specifically, we demonstrate that our approach performs well across both unimodal (ViT and BERT) and multi-modal (BEiT-3) transformer based architectures.
翻訳日:2023-08-31 15:32:41 公開日:2023-08-29
# 計測タンパ検出ベンチマーク

Measurement Tampering Detection Benchmark ( http://arxiv.org/abs/2308.15605v1 )

ライセンス: Link先を確認
Fabien Roger, Ryan Greenblatt, Max Nadeau, Buck Shlegeris, Nate Thomas(参考訳) 複雑なタスクを実行するために強力なAIシステムをトレーニングする場合、最適化に堅牢なトレーニング信号を提供することは困難である。 ここでは、AIシステムが複数の測定を操作して、望ましい結果を達成するのではなく、良い結果の錯覚を作り出す。 本研究では,大規模言語モデルにおける計測改ざん検出手法を評価するために,新たに4つのテキストベースデータセットを構築した。 具体的には、何らかの結果が生じたかどうかを判断するためのテキスト入力と測定のセットと、測定結果を正確に予測できるベースモデルが与えられた場合、すべての測定結果が実際に結果が得られたことを示す例、あるいは測定の改ざんによって引き起こされた場合の判定が目的である。 ほとんどのデータセットで単純なベースラインを上回りますが、最大パフォーマンスは達成できません。 技術とデータセットの両方に改善の余地があると信じており、測定の改ざんに取り組む今後の作業に興奮しています。

When training powerful AI systems to perform complex tasks, it may be challenging to provide training signals which are robust to optimization. One concern is measurement tampering, where the AI system manipulates multiple measurements to create the illusion of good results instead of achieving the desired outcome. In this work, we build four new text-based datasets to evaluate measurement tampering detection techniques on large language models. Concretely, given sets of text inputs and measurements aimed at determining if some outcome occurred, as well as a base model able to accurately predict measurements, the goal is to determine if examples where all measurements indicate the outcome actually had the outcome occur, or if this was caused by measurement tampering. We demonstrate techniques that outperform simple baselines on most datasets, but don't achieve maximum performance. We believe there is significant room for improvement for both techniques and datasets, and we are excited for future work tackling measurement tampering.
翻訳日:2023-08-31 15:32:17 公開日:2023-08-29
# 分散グラフニューラルネットワークトレーニングにおける分割戦略の実験的比較

An Experimental Comparison of Partitioning Strategies for Distributed Graph Neural Network Training ( http://arxiv.org/abs/2308.15602v1 )

ライセンス: Link先を確認
Nikolai Merkel, Daniel Stoll, Ruben Mayer, Hans-Arno Jacobsen(参考訳) 近年,グラフニューラルネットワーク(GNN)は,グラフ構造化データから学習可能な深層学習の領域として注目されている。 しかし、大規模グラフ上でGNNをトレーニングするための計算とメモリの要求は、単一のマシンやGPUの能力を超え、分散GNNトレーニングが大規模GNNトレーニングの有望な方向となる。 分散GNNトレーニングの前提条件は、入力グラフを計算クラスタの複数のマシンに分散する小さな部分に分割することである。 グラフのパーティショニングはグラフ解析やグラフデータベースに関して広く研究されているが、GNNのトレーニング性能への影響は明らかにされていない。 本稿では,分散GNN学習におけるグラフ分割の有効性について検討する。 本研究の目的は,GNNパラメータ,ミニバッチサイズ,グラフタイプ,特徴量,スケールアウト係数などの異なる要因が,グラフ分割の有効性に与える影響を理解することである。 我々は頂点と辺分割を用いた2つの異なるGNNシステムによる実験を行った。 グラフ分割はトレーニング時間とメモリフットプリントを大幅に削減できる重要な前処理ステップであることがわかった。 さらに,本研究の結果から,GNNトレーニングの短縮による分割時間短縮が実現し,適切な最適化が可能となった。

Recently, graph neural networks (GNNs) have gained much attention as a growing area of deep learning capable of learning on graph-structured data. However, the computational and memory requirements for training GNNs on large-scale graphs can exceed the capabilities of single machines or GPUs, making distributed GNN training a promising direction for large-scale GNN training. A prerequisite for distributed GNN training is to partition the input graph into smaller parts that are distributed among multiple machines of a compute cluster. Although graph partitioning has been extensively studied with regard to graph analytics and graph databases, its effect on GNN training performance is largely unexplored. In this paper, we study the effectiveness of graph partitioning for distributed GNN training. Our study aims to understand how different factors such as GNN parameters, mini-batch size, graph type, features size, and scale-out factor influence the effectiveness of graph partitioning. We conduct experiments with two different GNN systems using vertex and edge partitioning. We found that graph partitioning is a crucial pre-processing step that can heavily reduce the training time and memory footprint. Furthermore, our results show that invested partitioning time can be amortized by reduced GNN training, making it a relevant optimization.
翻訳日:2023-08-31 15:32:00 公開日:2023-08-29
# トランスフォーマーは最大の共通因子を学べるのか?

Can transformers learn the greatest common divisor? ( http://arxiv.org/abs/2308.15594v1 )

ライセンス: Link先を確認
Fran\c{c}ois Charton(参考訳) 2つの正の整数の最大共通因子(GCD)を計算するための小型変圧器の能力について検討する。 トレーニング分布と表現ベースを慎重に選択すると、98%の精度を達成し、100個の第1gcdのうち91を正しく予測する。 モデル予測は決定論的であり、完全に解釈可能である。 トレーニング中、モデルは同じGCDで入力ペアをクラスタリングし、ディバイザによって分類する。 基本モデルは、小さなベースで符号化された一様オペランドから訓練され、基礎のディバイザの積である1握りのgcd(最大で100中38個)のみを計算する。 より長いトレーニングとより大きなベースにより、いくつかのモデルは小さな素数 GCD を "グロク" することができる。 対数ユニフォームオペランドからのトレーニングは、パフォーマンスを73の正しいGCDに向上させ、逆2乗から対数ユニフォームまでのGCDのトレーニング分布を91のGCDにバランスさせる。 GCDの均一分布からのトレーニングモデルは決定論的モデル挙動を破る。

I investigate the capability of small transformers to compute the greatest common divisor (GCD) of two positive integers. When the training distribution and the representation base are carefully chosen, models achieve 98% accuracy and correctly predict 91 of the 100 first GCD. Model predictions are deterministic and fully interpretable. During training, the models learn to cluster input pairs with the same GCD, and classify them by their divisors. Basic models, trained from uniform operands encoded on small bases, only compute a handful of GCD (up to 38 out of 100): the products of divisors of the base. Longer training and larger bases allow some models to "grok" small prime GCD. Training from log-uniform operands boosts performance to 73 correct GCD, and balancing the training distribution of GCD, from inverse square to log-uniform, to 91 GCD. Training models from a uniform distribution of GCD breaks the deterministic model behavior.
翻訳日:2023-08-31 15:31:40 公開日:2023-08-29
# 高次元空間におけるブリッジング分布学習と画像クラスタリング

Bridging Distribution Learning and Image Clustering in High-dimensional Space ( http://arxiv.org/abs/2308.15667v1 )

ライセンス: Link先を確認
Guanfang Dong, Chenqiu Zhao, Anup Basu(参考訳) 分布学習は、データサンプルの集合から確率密度関数を学習することに焦点を当てる。 対照的にクラスタリングは、教師なしの方法で類似のオブジェクトをグループ化することを目的としている。 通常、この2つのタスクは無関係とみなされる。 しかし、両者の関係は間接的に相関しており、ガウス混合モデル(GMM)は橋として機能する。 本稿では,分布学習とクラスタリングの相関関係の探索に焦点をあて,これら2つのフィールド間のギャップを埋める動機付けとして,オートエンコーダ(AE)を用いて画像の高次元潜在空間への符号化を行う。 次に、GMMのガウス成分に適合し、データ分布を学習するために、MCMargとKullback-Leibler(KL)の分散損失を用いる。 最後に,GMMの各ガウス成分を用いて画像クラスタリングを行う。 しかし、「次元の計算」は、ほとんどのクラスタリングアルゴリズムに深刻な課題をもたらす。 従来の期待最大化アルゴリズムと比較して,実験結果から,MCMargとKLの発散は難易度を大幅に軽減できることが示された。 実験結果から, 分布学習は高次元空間内の画像クラスタリングにおいてgmmの可能性を活用できると信じている。

Distribution learning focuses on learning the probability density function from a set of data samples. In contrast, clustering aims to group similar objects together in an unsupervised manner. Usually, these two tasks are considered unrelated. However, the relationship between the two may be indirectly correlated, with Gaussian Mixture Models (GMM) acting as a bridge. In this paper, we focus on exploring the correlation between distribution learning and clustering, with the motivation to fill the gap between these two fields, utilizing an autoencoder (AE) to encode images into a high-dimensional latent space. Then, Monte-Carlo Marginalization (MCMarg) and Kullback-Leibler (KL) divergence loss are used to fit the Gaussian components of the GMM and learn the data distribution. Finally, image clustering is achieved through each Gaussian component of GMM. Yet, the "curse of dimensionality" poses severe challenges for most clustering algorithms. Compared with the classic Expectation-Maximization (EM) Algorithm, experimental results show that MCMarg and KL divergence can greatly alleviate the difficulty. Based on the experimental results, we believe distribution learning can exploit the potential of GMM in image clustering within high-dimensional space.
翻訳日:2023-08-31 15:26:27 公開日:2023-08-29
# Unveiling Camouflage: Camouflaged Object Detection and Instance Segmentationのための学習可能なフーリエベース拡張

Unveiling Camouflage: A Learnable Fourier-based Augmentation for Camouflaged Object Detection and Instance Segmentation ( http://arxiv.org/abs/2308.15660v1 )

ライセンス: Link先を確認
Minh-Quan Le, Minh-Triet Tran, Trung-Nghia Le, Tam V. Nguyen, Thanh-Toan Do(参考訳) camouflaged object detection (cod) と camouflaged instance segmentation (cis) はそれぞれ周囲にブレンドされたオブジェクトを認識してセグメント化することを目的としている。 これらの課題に対処するために、いくつかのディープニューラルネットワークモデルが提案されているが、CODとCISの強化方法は十分に研究されていない。 拡張戦略は、トレーニングデータのサイズと多様性を高め、より広い範囲のデータにモデルを公開することによって、モデルのパフォーマンスを向上させるのに役立つ。 さらに,カモフラージュされたオブジェクトの基盤構造を明らかにする上で有効な変換を自動的に学習し,カモフラージュされたオブジェクトの識別と分割をモデルが学べるようにすることを目的とする。 そこで本研究では,CamoFourier と呼ばれるフーリエ変換手法を用いて,COD と CIS の周波数領域における学習可能な拡張手法を提案する。 本手法では,条件付き生成逆数ネットワークとクロスアテンション機構を利用して参照画像を生成し,パラメータと適応ハイブリッドスワップにより参照画像の低周波成分と入力画像の高周波成分を混合する。 このアプローチは、カモフラージュされたオブジェクトを検出およびセグメンテーションモデルのためにより可視化することを目的としている。 ベルやホイッスルがなければ,提案する拡張法は,カモフラージュ対象検出器やカモフラージュインスタンスセグメンタの性能を,大きなマージンで向上させる。

Camouflaged object detection (COD) and camouflaged instance segmentation (CIS) aim to recognize and segment objects that are blended into their surroundings, respectively. While several deep neural network models have been proposed to tackle those tasks, augmentation methods for COD and CIS have not been thoroughly explored. Augmentation strategies can help improve the performance of models by increasing the size and diversity of the training data and exposing the model to a wider range of variations in the data. Besides, we aim to automatically learn transformations that help to reveal the underlying structure of camouflaged objects and allow the model to learn to better identify and segment camouflaged objects. To achieve this, we propose a learnable augmentation method in the frequency domain for COD and CIS via Fourier transform approach, dubbed CamoFourier. Our method leverages a conditional generative adversarial network and cross-attention mechanism to generate a reference image and an adaptive hybrid swapping with parameters to mix the low-frequency component of the reference image and the high-frequency component of the input image. This approach aims to make camouflaged objects more visible for detection and segmentation models. Without bells and whistles, our proposed augmentation method boosts the performance of camouflaged object detectors and camouflaged instance segmenters by large margins.
翻訳日:2023-08-31 15:26:07 公開日:2023-08-29
# 道路上電気自動車への移動型エネルギー配信のための深層強化学習に基づく枠組み

Deep Reinforcement Learning Based Framework for Mobile Energy Disseminator Dispatching to Charge On-the-Road Electric Vehicles ( http://arxiv.org/abs/2308.15656v1 )

ライセンス: Link先を確認
Jiaming Wang, Jiqian Dong, Sikai Chen, Shreyas Sundaram, Samuel Labi(参考訳) 電気自動車(EV)の指数的な成長は、バッテリーの健康を保ち、車両範囲不安の持続的な問題に対処する上で、新たな課題をもたらす。 これらの懸念に対処するため、ワイヤレス充電、特にMobile Energy Disseminator(MED)が有望なソリューションとして登場した。 MEDは大型車両の後ろに装着され、その上流の半径内ですべてのEVを充電する。 残念なことに、このようなV2V充電の間、MEDとEVは必然的にプラトンを形成し、複数の車線を占有し、回廊走行効率を損なう。 さらに、MEDデプロイメントの制約された予算は、MEDをトラフィックに導入するための最適なタイミングと場所を決定する効果的なディスパッチ戦略の開発を必要とする。 本稿では,車両派遣フレームワークを開発するための深層強化学習(drl)に基づく手法を提案する。 このフレームワークの最初のコンポーネントであるChargingEnvと呼ばれる現実的な強化学習環境を開発し、ワイヤレス充電における一般的な実践的問題、特に充電パネルの誤調整を考慮に入れた信頼性の高い充電シミュレーションシステムを構築した。 第2のコンポーネントであるPPO(Proximal-Policy Optimization)エージェントは、ChargingEnvとの継続的なインタラクションを通じてMEDディスパッチを制御するように訓練されている。 提案したMEDデプロイメント決定プロセッサの有効性を示すための数値実験を行った。 実験結果から,提案モデルは最適数のmedを効率的に配置しながらev走行範囲を大幅に向上できることが示唆された。 提案モデルの適用性は実用的であるだけでなく,実世界の有効性も期待できる。 提案したモデルは、旅行者がEVの範囲を最大化し、道路代理店や民間業者がMEDの展開を効率的に管理するのに役立つ。

The exponential growth of electric vehicles (EVs) presents novel challenges in preserving battery health and in addressing the persistent problem of vehicle range anxiety. To address these concerns, wireless charging, particularly, Mobile Energy Disseminators (MEDs) have emerged as a promising solution. The MED is mounted behind a large vehicle and charges all participating EVs within a radius upstream of it. Unfortuantely, during such V2V charging, the MED and EVs inadvertently form platoons, thereby occupying multiple lanes and impairing overall corridor travel efficiency. In addition, constrained budgets for MED deployment necessitate the development of an effective dispatching strategy to determine optimal timing and locations for introducing the MEDs into traffic. This paper proposes a deep reinforcement learning (DRL) based methodology to develop a vehicle dispatching framework. In the first component of the framework, we develop a realistic reinforcement learning environment termed "ChargingEnv" which incorporates a reliable charging simulation system that accounts for common practical issues in wireless charging deployment, specifically, the charging panel misalignment. The second component, the Proximal-Policy Optimization (PPO) agent, is trained to control MED dispatching through continuous interactions with ChargingEnv. Numerical experiments were carried out to demonstrate the demonstrate the efficacy of the proposed MED deployment decision processor. The experiment results suggest that the proposed model can significantly enhance EV travel range while efficiently deploying a optimal number of MEDs. The proposed model is found to be not only practical in its applicability but also has promises of real-world effectiveness. The proposed model can help travelers to maximize EV range and help road agencies or private-sector vendors to manage the deployment of MEDs efficiently.
翻訳日:2023-08-31 15:25:40 公開日:2023-08-29
# 動的レコメンダシステムにおけるユーザ側の公平性確保

Ensuring User-side Fairness in Dynamic Recommender Systems ( http://arxiv.org/abs/2308.15651v1 )

ライセンス: Link先を確認
Hyunsik Yoo, Zhichen Zeng, Jian Kang, Zhining Liu, David Zhou, Fei Wang, Eunice Chan, and Hanghang Tong(参考訳) ユーザ側のグループフェアネスは、性別、人種、年齢などのセンシティブな属性によって定義されたユーザのグループ間のパフォーマンス格差を軽減することを目的としている。 格差が持続する傾向や、時間とともに増加する傾向があります。 これにより、動的環境におけるユーザ側の公平性に対処する効果的な方法が求められます。 しかし、ユーザ側の公平性を保証する典型的な方法であるフェアネス制約再ランク付けは、動的設定における2つの基本的な課題に直面している:(1)エンド・ツー・エンドのトレーニングパラダイムを妨げるランキングベースのフェアネス制約の非微分性、(2)ユーザの好みの変化への迅速な適応を妨げる時間非効率。 本稿では,パフォーマンスのばらつきを動的に緩和するための微調整戦略を備えたエンドツーエンドフレームワークであるfair dynamic recommender (fade)を提案する。 上記の課題に取り組むために、faeは、ユーザー側の公平性と高品質なレコメンデーションの両方を保証するために、差別化可能で軽量なモデルパラメータに設計された新しいフェアネス損失を使用する。 実世界のデータセットに関する広範な実験により、FADEは性能格差を効果的に効果的に低減し、さらにFADEは新しいデータを使用しないよりも全体的なレコメンデーション品質を改善することを実証的に実証した。

User-side group fairness is crucial for modern recommender systems, as it aims to alleviate performance disparity between groups of users defined by sensitive attributes such as gender, race, or age. We find that the disparity tends to persist or even increase over time. This calls for effective ways to address user-side fairness in a dynamic environment, which has been infrequently explored in the literature. However, fairness-constrained re-ranking, a typical method to ensure user-side fairness (i.e., reducing performance disparity), faces two fundamental challenges in the dynamic setting: (1) non-differentiability of the ranking-based fairness constraint, which hinders the end-to-end training paradigm, and (2) time-inefficiency, which impedes quick adaptation to changes in user preferences. In this paper, we propose FAir Dynamic rEcommender (FADE), an end-to-end framework with fine-tuning strategy to dynamically alleviate performance disparity. To tackle the above challenges, FADE uses a novel fairness loss designed to be differentiable and lightweight to fine-tune model parameters to ensure both user-side fairness and high-quality recommendations. Via extensive experiments on the real-world dataset, we empirically demonstrate that FADE effectively and efficiently reduces performance disparity, and furthermore, FADE improves overall recommendation quality over time compared to not using any new data.
翻訳日:2023-08-31 15:25:09 公開日:2023-08-29
# 量子状態とSPAMノイズの同時トモグラフィのための普遍的枠組み

Universal framework for simultaneous tomography of quantum states and SPAM noise ( http://arxiv.org/abs/2308.15648v1 )

ライセンス: Link先を確認
Abhijith Jayakumar, Stefano Chessa, Carleton Coffrin, Andrey Y. Lokhov, Marc Vuffray, Sidhant Misra(参考訳) 本稿では,量子状態と測定ノイズの同時トモグラフィを行う一般的な分別アルゴリズムを提案する。 このアルゴリズムにより、任意の系量子システムに存在する状態準備測定(SPAM)誤差を完全に特徴づけることができる。 本手法は、ユニタリ演算によって誘導される線形作用素空間の特性の解析に基づく。 ノイズ測定装置を備えた任意の量子系が与えられた場合、本手法は検出器の量子状態とノイズ行列を1ゲージ自由度まで出力することができる。 一般の場合、このゲージの自由度は避けられないが、この縮退度は、状態やノイズ特性の事前知識を用いて一般に破られるため、ノイズ強度を前提とせずに、複数の種類の状態-雑音の組み合わせのゲージを固定する。 このような組み合わせには、任意の相関エラーを持つ純粋量子状態と、独立エラーをブロックする任意の状態が含まれる。 このフレームワークは、設定に関する事前情報をさらに活用して、状態およびノイズ検出に必要な観測と測定の数を体系的に削減することができる。 本手法は,既存の手法を効果的に一般化し,非相関・非可逆雑音行列や特定のプローブ状態を必要とする文献において考慮される特別な場合を含む。

We present a general denoising algorithm for performing simultaneous tomography of quantum states and measurement noise. This algorithm allows us to fully characterize state preparation and measurement (SPAM) errors present in any system quantum system. Our method is based on the analysis of the properties of the linear operator space induced by unitary operations. Given any quantum system with a noisy measurement apparatus, our method can output the quantum state and the noise matrix of the detector up to a single gauge degree of freedom. We show that this gauge freedom is unavoidable in the general case, but this degeneracy can be generally broken using prior knowledge on the state or noise properties, thus fixing the gauge for several types of state-noise combinations with no assumptions about noise strength. Such combinations include pure quantum states with arbitrarily correlated errors, and arbitrary states with block independent errors. This framework can further use available prior information about the setting to systematically reduce the number of observations and measurements required for state and noise detection. Our method effectively generalizes existing approaches to the problem, and includes as special cases common settings considered in the literature requiring an uncorrelated or invertible noise matrix, or specific probe states.
翻訳日:2023-08-31 15:24:41 公開日:2023-08-29
# 自動化機械学習の一般的なレシピ

A General Recipe for Automated Machine Learning in Practice ( http://arxiv.org/abs/2308.15647v1 )

ライセンス: Link先を確認
Hernan Ceferino Vazquez(参考訳) Automated Machine Learning (AutoML)は、機械学習モデルの自動生成方法の開発に焦点を当てた研究分野である。 人間の介入がほとんどなく、機械学習モデルを構築できるという考えは、応用機械学習の実践にとって大きな機会である。 しかし、実際にAutoMLシステムを設計する方法については、ほとんど情報がない。 研究の大部分は最適化アルゴリズムに直面する問題に焦点を合わせ、それが実際にどのように行われるかの詳細を記している。 本稿では,一般的なAutoMLシステム構築のための参照フレームを提案する。 この分野の主要なアプローチに関するナラティブレビューを通じて、私たちの主なアイデアは、それらを単一のデザインでサポートするために基本的な概念を割くことです。 最後に,AutoMLの今後の研究への応用に関するオープンな問題について論じる。

Automated Machine Learning (AutoML) is an area of research that focuses on developing methods to generate machine learning models automatically. The idea of being able to build machine learning models with very little human intervention represents a great opportunity for the practice of applied machine learning. However, there is very little information on how to design an AutoML system in practice. Most of the research focuses on the problems facing optimization algorithms and leaves out the details of how that would be done in practice. In this paper, we propose a frame of reference for building general AutoML systems. Through a narrative review of the main approaches in the area, our main idea is to distill the fundamental concepts in order to support them in a single design. Finally, we discuss some open problems related to the application of AutoML for future research.
翻訳日:2023-08-31 15:24:20 公開日:2023-08-29
# AskIt: 大規模言語モデルによるプログラミングのための統一プログラミングインターフェース

AskIt: Unified Programming Interface for Programming with Large Language Models ( http://arxiv.org/abs/2308.15645v1 )

ライセンス: Link先を確認
Katsumi Okuda, Saman Amarasinghe(参考訳) ソフトウェア開発における進化の風景において、大規模言語モデル(llm)は創発能力として知られるユニークな現象を示し、テキスト要約からコード生成まで、様々なタスクにまたがる適性を示している。 これらの能力は、ソフトウェア設計とクラフトの新たな道を開く一方で、その法人化には大きな課題がある。 開発者は、LLMをアプリケーションに直接埋め込むか、コード生成に使用するかという決定に悩まされる。 さらに、自然言語出力からのデータ抽出の必要性から、効果的なプロンプト設計が重要な関心事となる。 これらの複雑さに対処するために、LLM用に特別に設計されたドメイン固有言語(DSL)であるAskItを紹介する。 AskItはLLM統合を単純化し、型誘導出力制御、テンプレートベースの関数定義、LLMベースのコード生成とアプリケーション統合の区別を小さくする統一インターフェースを提供する。 さらに、Programming by Example (PBE)を通じて、AskItはプログラミング言語のレベルで数発の学習の力を利用する。 我々の評価はAskItの効力感を裏付けるものだ。 50タスクにわたって、AskItは与えられたタスクに対して簡潔なプロンプトを生成し、ベンチマークに対するプロンプトの長さを16.14%削減した。 さらに、直接LLMアプリケーション利用から関数生成への移行を可能にすることで、GSM8Kベンチマーク実験で見られるように、AskItは大幅なスピードアップを実現した。 これらの進歩を通じて、AskItはソフトウェア開発におけるLLMの統合を合理化し、創発的能力を活用するためのより効率的で汎用的なアプローチを提供する。 TypeScriptとPythonのAskItの実装は、https://github.com/katsumiok/ts-askitとhttps://github.com/katsumiok/pyaskitでそれぞれ提供されている。

In the evolving landscape of software development, Large Language Models (LLMs) exhibit a unique phenomenon known as emergent abilities, demonstrating adeptness across numerous tasks, from text summarization to code generation. While these abilities open up novel avenues in software design and crafting, their incorporation presents substantial challenges. Developers grapple with decisions surrounding the direct embedding of LLMs within applications versus employing them for code generation. Moreover, effective prompt design becomes a critical concern, given the necessity of data extraction from natural language outputs. To address these intricacies, this paper introduces AskIt, a domain-specific language (DSL) specifically designed for LLMs. AskIt simplifies LLM integration, offering type-guided output control, template-based function definitions, and a unified interface that diminishes the distinction between LLM-based code generation and application integration. Furthermore, through Programming by Example (PBE), AskIt harnesses the power of few-shot learning at the programming language level. Our evaluations underscore AskIt's potency. Across 50 tasks, AskIt generated concise prompts for the given tasks, achieving a 16.14% reduction in prompt length relative to benchmarks. Additionally, by enabling the transition from direct LLM application usage to function generation, AskIt achieved significant speedups, as observed in our GSM8K benchmark experiments. Through these advancements, AskIt streamlines the integration of LLMs in software development, offering a more efficient, versatile approach for leveraging emergent abilities. The implementations of AskIt in TypeScript and Python are available at https://github.com/katsumiok/ts-askit and https://github.com/katsumiok/pyaskit, respectively.
翻訳日:2023-08-31 15:24:09 公開日:2023-08-29
# 固有ギャップのないクラスタリング

Clustering Without an Eigengap ( http://arxiv.org/abs/2308.15642v1 )

ライセンス: Link先を確認
Matthew Zurek and Yudong Chen(参考訳) 確率的ブロックモデル(sbm)におけるグラフクラスタリングについて,大規模クラスタと小規模で再定義不能なクラスタの両方の存在下で検討した。 正確なリカバリを達成する以前のアプローチでは、$o(\sqrt{n})$の小さなクラスタを許可しないか、最小のリカバリクラスタと最大の非リカバリクラスタの間のサイズギャップを必要とする。 半定義プログラミング(sdp)に基づくアルゴリズムを提供し,これらの要件を取り除き,クラスタサイズに関わらず大規模クラスタを確実に回収する。 中規模のクラスターは、回復しきい値に近づいたことで小さなノイズの摂動に非常に敏感になり、クローズドフォームの候補ソリューションを妨げるため、分析にユニークな課題をもたらす。 本研究では,一行のノイズを除去しても,SDP解と雑音ベクトルの相関を制御できる新たな手法を開発した。 また,潜在的な独立利子の固有値摂動境界を改良した。 このギャップフリークラスタリング手法を用いることで,多数の小さなクラスタが存在する場合でも,クエリの複雑度に優れた欠陥を持つオラクルによるクラスタリングの問題に対して,より効率的なアルゴリズムが得られます。 ギャップのないクラスタリング手順は、再帰的クラスタリングのアルゴリズムも改善する。 我々の結果は、代替アルゴリズムに挑戦する不均一な確率設定に拡張される。

We study graph clustering in the Stochastic Block Model (SBM) in the presence of both large clusters and small, unrecoverable clusters. Previous approaches achieving exact recovery do not allow any small clusters of size $o(\sqrt{n})$, or require a size gap between the smallest recovered cluster and the largest non-recovered cluster. We provide an algorithm based on semidefinite programming (SDP) which removes these requirements and provably recovers large clusters regardless of the remaining cluster sizes. Mid-sized clusters pose unique challenges to the analysis, since their proximity to the recovery threshold makes them highly sensitive to small noise perturbations and precludes a closed-form candidate solution. We develop novel techniques, including a leave-one-out-style argument which controls the correlation between SDP solutions and noise vectors even when the removal of one row of noise can drastically change the SDP solution. We also develop improved eigenvalue perturbation bounds of potential independent interest. Using our gap-free clustering procedure, we obtain efficient algorithms for the problem of clustering with a faulty oracle with superior query complexities, notably achieving $o(n^2)$ sample complexity even in the presence of a large number of small clusters. Our gap-free clustering procedure also leads to improved algorithms for recursive clustering. Our results extend to certain heterogeneous probability settings that are challenging for alternative algorithms.
翻訳日:2023-08-31 15:23:39 公開日:2023-08-29
# 物理インフォームドニューラルネットワークを用いた複合超弾性固体の構成パラメータの同定

Identifying Constitutive Parameters for Complex Hyperelastic Solids using Physics-Informed Neural Networks ( http://arxiv.org/abs/2308.15640v1 )

ライセンス: Link先を確認
Siyuan Song, Hanxun Jin(参考訳) 工学や生物材料の構成パラメータ、特に複雑なジオメトリや機械的な挙動を持つものを特定することは、長年の課題である。 近年の物理情報ニューラルネットワーク(PINN)の出現は、有望なソリューションを提供するが、現在のフレームワークは基本的な構成法則に制限され、実験データと組み合わせることで現実的な制約に直面することが多い。 本稿では,平面応力条件の大きな変形の下で,軟質材料,特に複雑な構成挙動を示す材料パラメータを同定するための新しいPINNベースのフレームワークを提案する。 本モデルでは,マルチモーダルな時間依存実験データセットを用いたPINNのトレーニングを強調し,ノイズデータにおいてもアルゴリズムの堅牢性を確保する。 以上の結果から, 複雑なジオメトリーを持つ試料に対する非圧縮性 Arruda-Boyce モデルの構成パラメータを精度良く同定し, 実験ノイズレベルが5%であっても誤差を5%以下に抑えることができた。 我々の枠組みは、複素固体、特に幾何学的かつ構成的複雑度を持つものに対するモジュラー同定における変換的アプローチの段階を定めていると信じている。

Identifying constitutive parameters in engineering and biological materials, particularly those with intricate geometries and mechanical behaviors, remains a longstanding challenge. The recent advent of Physics-Informed Neural Networks (PINNs) offers promising solutions, but current frameworks are often limited to basic constitutive laws and encounter practical constraints when combined with experimental data. In this paper, we introduce a new PINN-based framework designed to identify material parameters for soft materials, specifically those exhibiting complex constitutive behaviors, under large deformation in plane stress conditions. Distinctively, our model emphasizes training PINNs with multi-modal time-dependent experimental datasets consisting of full-field deformation and loading history, ensuring algorithm robustness even amidst noisy data. Our results reveal that our framework can accurately identify constitutive parameters of the incompressible Arruda-Boyce model for samples with intricate geometries, maintaining an error below 5%, even with an experimental noise level of 5%. We believe our framework sets the stage for a transformative approach in modulus identification for complex solids, especially for those with geometrical and constitutive intricate.
翻訳日:2023-08-31 15:23:16 公開日:2023-08-29
# 双曲畳み込みニューラルネットワーク

Hyperbolic Convolutional Neural Networks ( http://arxiv.org/abs/2308.15639v1 )

ライセンス: Link先を確認
Andrii Skliar, Maurice Weiler(参考訳) ディープラーニングは、この10年で人工知能への関心の高まりの原因となっている。 これまでのところ、畳み込みニューラルネットワークが使用される画像処理の分野では、ディープラーニング研究者が特に成功している。 画像分類に長けているが、畳み込みニューラルネットワークは、画像の埋め込み空間に誘導バイアスが設定されないという点で極めて単純である。 同様の欠陥は、別のタイプの畳み込みニューラルネットワーク(Graph Convolutional Neural Networks)によっても示される。 しかし、データ埋め込みに非ユークリッド空間を用いると、より堅牢で説明可能なモデルが得られる。 そのような非ユークリッド空間の例は双曲空間である。 双曲空間は、低次元空間により多くのデータが収まる能力と木に類似した性質のため、特に有用である。 これらの魅力的な性質は、より浅いモデルを用いて階層的な埋め込みを構築するのに有用であることを示す複数の論文や、近年ではMLPやRNNを用いている。 しかし、ハイパーボリック畳み込みニューラルネットワークを構造化データ処理に利用する一般的なアプローチはまだ提案されていないが、これらは最も一般的なデータの例である。 したがって、この研究の目的は、双曲畳み込みニューラルネットワークを構築するための一般的なレシピを考案することである。 我々は、データ内の階層をキャプチャする双曲空間の能力がより良いパフォーマンスをもたらすと仮定する。 この機能は、データにツリーのような構造がある場合に特に有用である。 これは、既存のデータセット \citep{wordnet, imagenet, fb15k} に当てはまるため、そのようなモデルが応用と将来の研究の両面で有利であると主張する。

Deep Learning is mostly responsible for the surge of interest in Artificial Intelligence in the last decade. So far, deep learning researchers have been particularly successful in the domain of image processing, where Convolutional Neural Networks are used. Although excelling at image classification, Convolutional Neural Networks are quite naive in that no inductive bias is set on the embedding space for images. Similar flaws are also exhibited by another type of Convolutional Networks - Graph Convolutional Neural Networks. However, using non-Euclidean space for embedding data might result in more robust and explainable models. One example of such a non-Euclidean space is hyperbolic space. Hyperbolic spaces are particularly useful due to their ability to fit more data in a low-dimensional space and tree-likeliness properties. These attractive properties have been previously used in multiple papers which indicated that they are beneficial for building hierarchical embeddings using shallow models and, recently, using MLPs and RNNs. However, no papers have yet suggested a general approach to using Hyperbolic Convolutional Neural Networks for structured data processing, although these are the most common examples of data used. Therefore, the goal of this work is to devise a general recipe for building Hyperbolic Convolutional Neural Networks. We hypothesize that ability of hyperbolic space to capture hierarchy in the data would lead to better performance. This ability should be particularly useful in cases where data has a tree-like structure. Since this is the case for many existing datasets \citep{wordnet, imagenet, fb15k}, we argue that such a model would be advantageous both in terms of applications and future research prospects.
翻訳日:2023-08-31 15:22:54 公開日:2023-08-29
# 心エコー図解釈のためのマルチモーダル基礎モデル

Multimodal Foundation Models For Echocardiogram Interpretation ( http://arxiv.org/abs/2308.15670v1 )

ライセンス: Link先を確認
Matthew Christensen, Milos Vukadinovic, Neal Yuan, David Ouyang(参考訳) マルチモーダルディープラーニング基盤モデルは、画像とテキストの関係を学習することができる。 医療画像の文脈では、画像の言語概念へのマッピングは、診断画像解釈の臨床的タスクを反映するが、現在の汎用基盤モデルは、医療用テキストや画像に制限があるため、この文脈ではうまく機能しない。 この課題に対処し, 心臓生理学の範囲を考慮し, 1,032,975 の心エコービデオとそれに対応する専門的解釈を用いて, 心エコー図用マルチモーダル基礎モデル echoclip を開発した。 EchoCLIPは、心臓機能評価(外的検証左室排出率平均絶対誤差(MAE)7.1%)と移植心内デバイス(ペースメーカーと人工心臓弁の0.84から0.98の曲線下)の同定において、強いゼロショット(明示的に訓練されていない)性能を示す。 また,複数のビデオ(auc 0.86)にまたがる特異な患者を正確に識別し,心臓移植(auc 0.79)や心臓手術(auc 0.77)などの臨床変化を識別し,堅牢な画像対テキスト検索(候補テキストレポートのトップ1%のクロスモーダル検索ランク)を可能にする,独自の心エコー検査レポートテキストトークン化装置(echoclip-r)を開発した。 これらの創発的能力は、心エコー図所見の予備的評価と要約に使用できる。

Multimodal deep learning foundation models can learn the relationship between images and text. In the context of medical imaging, mapping images to language concepts reflects the clinical task of diagnostic image interpretation, however current general-purpose foundation models do not perform well in this context because their training corpus have limited medical text and images. To address this challenge and account for the range of cardiac physiology, we leverage 1,032,975 cardiac ultrasound videos and corresponding expert interpretations to develop EchoCLIP, a multimodal foundation model for echocardiography. EchoCLIP displays strong zero-shot (not explicitly trained) performance in cardiac function assessment (external validation left ventricular ejection fraction mean absolute error (MAE) of 7.1%) and identification of implanted intracardiac devices (areas under the curve (AUC) between 0.84 and 0.98 for pacemakers and artificial heart valves). We also developed a long-context variant (EchoCLIP-R) with a custom echocardiography report text tokenizer which can accurately identify unique patients across multiple videos (AUC of 0.86), identify clinical changes such as orthotopic heart transplants (AUC of 0.79) or cardiac surgery (AUC 0.77), and enable robust image-to-text search (mean cross-modal retrieval rank in the top 1% of candidate text reports). These emergent capabilities can be used for preliminary assessment and summarization of echocardiographic findings.
翻訳日:2023-08-31 15:11:47 公開日:2023-08-29
# 地上とアルゴリズムの交叉問合せ

Intersectional Inquiry, on the Ground and in the Algorithm ( http://arxiv.org/abs/2308.15668v1 )

ライセンス: Link先を確認
Shanthi Robertson, Liam Magee, and Karen Soldati\'c(参考訳) 本稿では,自動化研究における方法論的議論に2つの重要な貢献をする。 まず、この分野の手法が、人種、階級、民族、文化、障害といった社会的差異の交点を、より微妙な方法でいかに説明しなければならないかを論じ、実証する。 第2に,計算的手法と定性的手法を交叉的手法で組み合わせることの複雑さを考察するとともに,各主題(機械と人)と概念的スコープにおいて,交叉性や自動化に関する特定の対話を可能にすることを主張する。 我々は、言語モデルにおける交叉バイアスの分析と、日々のAI駆動技術との関わりを通じて生み出されるフラストレーションと願望に関するコミュニティワークショップの知見を組み合わせたプロジェクトから、フィールドリフレクションを描いている。

This article makes two key contributions to methodological debates in automation research. First, we argue for and demonstrate how methods in this field must account for intersections of social difference, such as race, class, ethnicity, culture, and disability, in more nuanced ways. Second, we consider the complexities of bringing together computational and qualitative methods in an intersectional methodological approach while also arguing that in their respective subjects (machines and human subjects) and conceptual scope they enable a specific dialogue on intersectionality and automation to be articulated. We draw on field reflections from a project that combines an analysis of intersectional bias in language models with findings from a community workshop on the frustrations and aspirations produced through engagement with everyday AI-driven technologies in the context of care.
翻訳日:2023-08-31 15:11:18 公開日:2023-08-29
# 大規模言語モデルの命令に対するロバスト性の評価

Evaluating the Robustness to Instructions of Large Language Models ( http://arxiv.org/abs/2308.14306v2 )

ライセンス: Link先を確認
Yuansheng Ni, Sichao Jiang, Xinyu wu, Hui Shen, Yuli Zhou(参考訳) 近年,Large Language Models (LLMs) のゼロショット能力を向上するための潜在的な手法として,インストラクションの微調整が注目されている。 この技術は中程度のLLMの性能を向上する能力を示しており、時にはより大型のモデルに匹敵する性能にまで達することもある。 焦点は、目に見えるタスクや目に見えないタスクに対する、命令付きLLMの堅牢性である。 実世界関係抽出データセットをケーススタディとして,alpaca,vicuna,wizardlm,従来のタスク指向モデル(flan-t5-xl/xxl,t0++)を含む6モデルを調査した。 オープンドメイン命令とタスク指向命令に基づいて調整されたこれらの命令追従 LLM の総合評価を行った。 主な議論は、命令に対するパフォーマンスと堅牢性である。 その結果、ほとんどの場合、未知の命令を扱う際のモデルの性能は著しく悪化する傾向にあり、RE命令の頑健性はQAと比較して低下することがわかった。 さらに,パラメータサイズしきい値(3b)まで,パラメータ数の増加に伴い,flan-t5モデルの性能が向上することが分かった。 異なるスケールのFLAN-T5モデルのRE命令に対する堅牢性は、QA命令に対する堅牢性よりも悪い。

Recently, Instruction fine-tuning has risen to prominence as a potential method for enhancing the zero-shot capabilities of Large Language Models (LLMs) on novel tasks. This technique has shown an exceptional ability to boost the performance of moderately sized LLMs, sometimes even reaching performance levels comparable to those of much larger model variants. The focus is on the robustness of instruction-tuned LLMs to seen and unseen tasks. We conducted an exploration of six models including Alpaca, Vicuna, WizardLM, and Traditional Task-oriented Models(Flan-T5-XL/XXL, T0++) using real-world relation extraction datasets as case studies. We carried out a comprehensive evaluation of these instruction-following LLMs which have been tuned based on open-domain instructions and task-oriented instructions. The main discussion is their performance and robustness towards instructions. We have observed that in most cases, the model's performance in dealing with unfamiliar instructions tends to worsen significantly, and the robustness of the model for RE instructions deteriorates compared to QA. Further, we discovered that up until a certain parameter size threshold (3B), the performance of the FLAN-T5 model improves as the parameter count increases. The robustness of different scales of FLAN-T5 models to RE instruction is worse than the robustness to QA instruction.
翻訳日:2023-08-31 10:39:07 公開日:2023-08-29
# 行列投影による等角線

Equiangular lines via matrix projection ( http://arxiv.org/abs/2110.15842v3 )

ライセンス: Link先を確認
Igor Balla(参考訳) 1973年、lemmens と seidel は、角 $\arccos(\alpha)$ を持つ$\mathbb{r}^r$ の等角線の最大数を決定する問題を提起し、r \leq 1/\alpha^2 - 2$ というレジームにおいて部分的な答えを与えた。 一方、$r$が少なくとも1/alpha$で指数関数的である場合、最近のブレークスルーはこの問題のほぼ完全な解決につながった。 本稿では,前回の手法をすべて統一し,改良した上界を得る新しい手法を提案する。これにより,上述のレジーム間のギャップを橋渡しし,正確にも最小の乗算定数までも可能となる境界が得られる。 このアプローチは、フロベニウスの内積に関する行列の直交射影に依存し、副積として、$\mathbb{r}^r$ における$\binom{r+1}{2}$等角線に対応する強正則グラフに対する等式を持つ密度グラフへのアロン・ボッパナの定理の最初の拡張を与える。 本手法の複雑な設定における応用についても考察する。

In 1973, Lemmens and Seidel posed the problem of determining the maximum number of equiangular lines in $\mathbb{R}^r$ with angle $\arccos(\alpha)$ and gave a partial answer in the regime $r \leq 1/\alpha^2 - 2$. At the other extreme where $r$ is at least exponential in $1/\alpha$, recent breakthroughs have led to an almost complete resolution of this problem. In this paper, we introduce a new method for obtaining upper bounds which unifies and improves upon all previous approaches, thereby yielding bounds which bridge the gap between the aforementioned regimes and are best possible either exactly or up to a small multiplicative constant. Our approach relies on orthogonal projection of matrices with respect to the Frobenius inner product and as a byproduct, it yields the first extension of the Alon-Boppana theorem to dense graphs with equality for strongly regular graphs corresponding to $\binom{r+1}{2}$ equiangular lines in $\mathbb{R}^r$. Applications of our method in the complex setting will be discussed as well.
翻訳日:2023-08-30 19:39:38 公開日:2023-08-29
# 知識蒸留を用いたヒューマンインスパイアされたマルチエージェントナビゲーション

Human-Inspired Multi-Agent Navigation using Knowledge Distillation ( http://arxiv.org/abs/2103.10000v5 )

ライセンス: Link先を確認
Pei Xu and Ioannis Karamouzas(参考訳) マルチエージェントナビゲーションの分野では大きな進歩があったが、エージェントは人間がマルチエージェント設定で示す高度な知識を欠いている。 本稿では,完全分散マルチエージェント環境におけるエージェント・エージェント間インタラクションのためのヒューマンライクな一般衝突回避ポリシーを学習するための枠組みを提案する。 提案手法では, 行動クローニングによる人間軌道実証から抽出した知識蒸留と強化学習を用いて報酬関数を形成する。 提案手法により訓練されたエージェントは,実験で提供されていない衝突回避や目標指向の操舵作業において,人間のような軌道を取ることができることを示す。

Despite significant advancements in the field of multi-agent navigation, agents still lack the sophistication and intelligence that humans exhibit in multi-agent settings. In this paper, we propose a framework for learning a human-like general collision avoidance policy for agent-agent interactions in fully decentralized, multi-agent environments. Our approach uses knowledge distillation with reinforcement learning to shape the reward function based on expert policies extracted from human trajectory demonstrations through behavior cloning. We show that agents trained with our approach can take human-like trajectories in collision avoidance and goal-directed steering tasks not provided by the demonstrations, outperforming the experts as well as learning-based agents trained without knowledge distillation.
翻訳日:2023-08-30 19:39:12 公開日:2023-08-29
# 群集スターフィールドの変分推定

Variational Inference for Deblending Crowded Starfields ( http://arxiv.org/abs/2102.02409v3 )

ライセンス: Link先を確認
Runjing Liu, Jon D. McAuliffe, Jeffrey Regier (for the LSST Dark Energy Science Collaboration)(参考訳) 天文学調査によって収集された画像では、星と銀河はしばしば視覚的に重なり合う。 偏向とは、調査画像中の個々の光源を識別し、特徴付けるタスクである。 我々は、混雑した恒星場の天文画像のソースをデブルするベイズ法であるstarnetを提案する。 StarNetは最近の変分推論の進歩を活用しており、償却変分分布や前方KL分散の期待を目標とした最適化目標などがある。 私たちのm2球状クラスタのsdssイメージを用いた実験では、starnetは2つの競合する方法、すなわち推論にmcmcを使用するメソッドであるprobabilistic cataloging(pcat)と、ddssがデブレーションに使用するソフトウェアパイプラインであるdaophotよりもかなり正確です。 さらに、推論に対する償却アプローチは、現代の天文学的な調査でベイズ推論を実行するのに必要なスケーリング特性を与える。

In images collected by astronomical surveys, stars and galaxies often overlap visually. Deblending is the task of distinguishing and characterizing individual light sources in survey images. We propose StarNet, a Bayesian method to deblend sources in astronomical images of crowded star fields. StarNet leverages recent advances in variational inference, including amortized variational distributions and an optimization objective targeting an expectation of the forward KL divergence. In our experiments with SDSS images of the M2 globular cluster, StarNet is substantially more accurate than two competing methods: Probabilistic Cataloging (PCAT), a method that uses MCMC for inference, and DAOPHOT, a software pipeline employed by SDSS for deblending. In addition, the amortized approach to inference gives StarNet the scaling characteristics necessary to perform Bayesian inference on modern astronomical surveys.
翻訳日:2023-08-30 19:38:59 公開日:2023-08-29
# 完全帯域フィードバックとそれ以上の組合せ純粋探索:有限観測による不確実性下での組合せ最適化の解法

Combinatorial Pure Exploration with Full-bandit Feedback and Beyond: Solving Combinatorial Optimization under Uncertainty with Limited Observation ( http://arxiv.org/abs/2012.15584v2 )

ライセンス: Link先を確認
Yuko Kuroki, Junya Honda, Masashi Sugiyama(参考訳) 組合せ最適化は、理論計算機科学と運用研究で広く研究されている基礎研究分野の1つである。 組合せ最適化アルゴリズムを開発する際、エッジウェイトなどのパラメータは入力として正確に知られている。 しかし、この仮定は、レコメンデーションシステム、クラウドソーシング、通信ネットワーク、オンライン広告など多くのアプリケーションにおいて、入力パラメータがしばしば不確実または初期不明であるため、実現できない可能性がある。 このような不確実性を解決するために、CPE(Multi-armed bandits)とその変種の組み合わせ純粋探索の問題が注目されている。 CPEに関する以前の研究は、半帯域フィードバックを研究したり、個々のエッジからの結果は、すべてのラウンドで常にアクセス可能であると仮定していた。 しかし、予算の上限やプライバシー上の懸念といった現実的な制約のため、このような強いフィードバックは最近のアプリケーションでは必ずしも利用できない。 本稿では,限定的なフィードバックを伴う組合せ純粋探索問題の手法を最近提案した。

Combinatorial optimization is one of the fundamental research fields that has been extensively studied in theoretical computer science and operations research. When developing an algorithm for combinatorial optimization, it is commonly assumed that parameters such as edge weights are exactly known as inputs. However, this assumption may not be fulfilled since input parameters are often uncertain or initially unknown in many applications such as recommender systems, crowdsourcing, communication networks, and online advertisement. To resolve such uncertainty, the problem of combinatorial pure exploration of multi-armed bandits (CPE) and its variants have recieved increasing attention. Earlier work on CPE has studied the semi-bandit feedback or assumed that the outcome from each individual edge is always accessible at all rounds. However, due to practical constraints such as a budget ceiling or privacy concern, such strong feedback is not always available in recent applications. In this article, we review recently proposed techniques for combinatorial pure exploration problems with limited feedback.
翻訳日:2023-08-30 19:38:44 公開日:2023-08-29
# 同時脳波-fmriにおける心電図アーチファクト除去の試み

Ballistocardiogram artifact removal in simultaneous EEG-fMRI using generative adversarial network ( http://arxiv.org/abs/2011.01710v3 )

ライセンス: Link先を確認
Guang Lin, Jianhai Zhang, Yuxi Liu, Tianyang Gao, Wanzeng Kong, Xu Lei, Tao Qiu(参考訳) 高時間分解能と空間分解能の利点により、同時脳波機能型磁気共鳴画像(EEG-fMRI)の取得と解析技術が注目され、脳科学の様々な研究分野で広く利用されている。 しかし、脳のfMRIでは、BCG(Ballistocardiogram)アーティファクトが脳波を著しく汚染する可能性がある。 未解決の問題として、BCGのアーティファクトの削除は依然としてかなりの課題である。 提案手法は,各モジュールのパラメータを最適化することにより,ネットワーク性能を向上させるための新しいモジュール生成対向ネットワーク(GAN)とそれに対応するトレーニング戦略を提案する。 このようにして,ネットワークモデルの局所表現能力を改善し,その全体的な性能を改善し,bcgアーティファクト除去のための信頼性の高いジェネレータを得ることを期待する。 さらに,提案手法は,追加の参照信号や複雑なハードウェア機器に依存しない。 実験の結果,本論文で提示する手法は,複数の手法と比較して,本研究の脳波情報を保持しつつ,bcgアーチファクトをより効果的に除去できることがわかった。

Due to its advantages of high temporal and spatial resolution, the technology of simultaneous electroencephalogram-functional magnetic resonance imaging (EEG-fMRI) acquisition and analysis has attracted much attention, and has been widely used in various research fields of brain science. However, during the fMRI of the brain, ballistocardiogram (BCG) artifacts can seriously contaminate the EEG. As an unpaired problem, BCG artifact removal now remains a considerable challenge. Aiming to provide a solution, this paper proposed a novel modular generative adversarial network (GAN) and corresponding training strategy to improve the network performance by optimizing the parameters of each module. In this manner, we hope to improve the local representation ability of the network model, thereby improving its overall performance and obtaining a reliable generator for BCG artifact removal. Moreover, the proposed method does not rely on additional reference signal or complex hardware equipment. Experimental results show that, compared with multiple methods, the technique presented in this paper can remove the BCG artifact more effectively while retaining essential EEG information.
翻訳日:2023-08-30 19:38:25 公開日:2023-08-29
# 連立量子時系列解析におけるベイズの特徴選択

Bayesian Feature Selection in Joint Quantile Time Series Analysis ( http://arxiv.org/abs/2010.01654v3 )

ライセンス: Link先を確認
Ning Ning(参考訳) 相関した多変量時系列データによる質的特徴選択は常に方法論的な課題であり、オープンな問題である。 本稿では,高次元ジョイント量子化時系列解析における特徴選択のための一般ベイズ次元削減手法について,量子化特徴選択時系列モデル (QFSTS) の名称を用いて提案する。 QFSTSモデルは一般的な構造的時系列モデルであり、各コンポーネントは直接解釈を伴う時系列モデリングに付加的な寄与を与える。 その柔軟性は、ユーザが各時系列のコンポーネントを追加/デダクトできるという意味で複雑で、各時系列は、それぞれ異なる大きさの特定のコンポーネントを持つことができる。 特徴選択は量子回帰成分(英語版)で行われ、各時系列は、現在放送可能な同時外部予測器のプールを持つ。 多変量非対称ラプラス分布、スパイク・アンド・スラブ前設定、メトロポリス・ハスティングスアルゴリズム、ベイズモデル平均化手法を用いて、質的時系列研究領域への特徴選択を拡張するベイズ手法を開発した。 qfstsモデルは、トレーニングと収束に小さなデータセットを必要とする。 その結果,QFSTSモデルは特徴選択,パラメータ推定,予測において優れた性能を示した。

Quantile feature selection over correlated multivariate time series data has always been a methodological challenge and is an open problem. In this paper, we propose a general Bayesian dimension reduction methodology for feature selection in high-dimensional joint quantile time series analysis, under the name of the quantile feature selection time series (QFSTS) model. The QFSTS model is a general structural time series model, where each component yields an additive contribution to the time series modeling with direct interpretations. Its flexibility is compound in the sense that users can add/deduct components for each time series and each time series can have its own specific valued components of different sizes. Feature selection is conducted in the quantile regression component, where each time series has its own pool of contemporaneous external predictors allowing nowcasting. Bayesian methodology in extending feature selection to the quantile time series research area is developed using multivariate asymmetric Laplace distribution, spike-and-slab prior setup, the Metropolis-Hastings algorithm, and the Bayesian model averaging technique, all implemented consistently in the Bayesian paradigm. The QFSTS model requires small datasets to train and converges fast. Extensive examinations confirmed that the QFSTS model has superior performance in feature selection, parameter estimation, and forecast.
翻訳日:2023-08-30 19:38:08 公開日:2023-08-29
# 半教師付きベクトル値学習:境界とアルゴリズムの改善

Semi-supervised Vector-valued Learning: Improved Bounds and Algorithms ( http://arxiv.org/abs/1909.04883v4 )

ライセンス: Link先を確認
Jian Li, Yong Liu, and Weiping Wang(参考訳) ベクトル値学習(ベクトル値学習、英: Vector-valued learning)は、多タスク学習や伝達学習など、重要な領域の幅広いファミリーをカバーする重要な問題である。 局所ラデマッハ複雑性とラベルなしデータを用いて,カーネル視点と線形視点の両方から一般ベクトル値学習のための,新しい半教師あり超過リスク境界を導出する。 得られたバウンダリは, 既存のバウンダリよりもはるかに鋭く, ラベル付きサンプルサイズの正方根から全サンプルサイズの正方根へ, あるいはラベル付きサンプルサイズに直接依存して収束率を向上する。 理論解析により,局所ラデマッハ複雑性とラプラシアン正規化の両方を取り入れ,ベクトル値関数を効率的に学習する一般半教師付きアルゴリズムを提案する。 実験結果から,提案アルゴリズムは理論的な結果と一致する比較手法を著しく上回る結果を得た。

Vector-valued learning, where the output space admits a vector-valued structure, is an important problem that covers a broad family of important domains, e.g. multi-task learning and transfer learning. Using local Rademacher complexity and unlabeled data, we derive novel semi-supervised excess risk bounds for general vector-valued learning from both kernel perspective and linear perspective. The derived bounds are much sharper than existing ones and the convergence rates are improved from the square root of labeled sample size to the square root of total sample size or directly dependent on labeled sample size. Motivated by our theoretical analysis, we propose a general semi-supervised algorithm for efficiently learning vector-valued functions, incorporating both local Rademacher complexity and Laplacian regularization. Extensive experimental results illustrate the proposed algorithm significantly outperforms the compared methods, which coincides with our theoretical findings.
翻訳日:2023-08-30 19:36:53 公開日:2023-08-29
# 時間的ネットワークにおける再帰的セグメンテーションとブロックモデル

Recurrent segmentation meets block models in temporal networks ( http://arxiv.org/abs/2205.09862v2 )

ライセンス: Link先を確認
Chamalee Wickrama Arachchi and Nikolaj Tatti(参考訳) モデル相互作用に対する一般的なアプローチは、ノードがエージェント、インタラクションがエッジであるネットワークとしてそれらを表現することである。 インタラクションはしばしばタイムスタンプ化され、エッジがタイムスタンプ化される。 多くの現実世界の時間ネットワークは、繰り返しまたはおそらく循環的な振る舞いを持つ。 例えば、ソーシャルネットワークのアクティビティは、ある時間帯に高まる可能性がある。 本稿では,このような時間的ネットワークにおけるリカレント活動のモデル化を主な関心事とする。 まず、静的ネットワークをモデル化するための一般的な選択肢である確率ブロックモデルを使い、ノードを$R$グループに分割します。 我々は、このモデルをPoissonプロセスでエッジをモデル化することで、時間ネットワークに拡張する。 プロセスのパラメータは、タイムラインを$k$セグメントに分割することで、時間に依存します。 繰り返し実行されるアクティビティを強制するためには、パラメータのセットを指定できるのは$H < K$ のみである。 最適ブロックとセグメンテーションの探索はnp問題であることが証明される。 その結果,ブロック,モデルパラメータ,セグメンテーションを最適化し,残りの構造を固定しつつ,問題を3つのサブプロブレムに分割した。 我々は,ネットワーク内のノード数とエッジ数として$O(KHm + Rn + R^2H)$時間を必要とする反復アルゴリズムを提案する。 実験により,要求された反復回数は典型的に低く,アルゴリズムは合成データセットから基礎的真理を発見することができ,特定の実世界のネットワークが$H$を下げたときの繰り返し動作が劣化しないことを示す。

A popular approach to model interactions is to represent them as a network with nodes being the agents and the interactions being the edges. Interactions are often timestamped, which leads to having timestamped edges. Many real-world temporal networks have a recurrent or possibly cyclic behaviour. For example, social network activity may be heightened during certain hours of day. In this paper, our main interest is to model recurrent activity in such temporal networks. As a starting point we use stochastic block model, a popular choice for modelling static networks, where nodes are split into $R$ groups. We extend this model to temporal networks by modelling the edges with a Poisson process. We make the parameters of the process dependent on time by segmenting the time line into $K$ segments. To enforce the recurring activity we require that only $H < K$ different set of parameters can be used, that is, several, not necessarily consecutive, segments must share their parameters. We prove that the searching for optimal blocks and segmentation is an NP-hard problem. Consequently, we split the problem into 3 subproblems where we optimize blocks, model parameters, and segmentation in turn while keeping the remaining structures fixed. We propose an iterative algorithm that requires $O(KHm + Rn + R^2H)$ time per iteration, where $n$ and $m$ are the number of nodes and edges in the network. We demonstrate experimentally that the number of required iterations is typically low, the algorithm is able to discover the ground truth from synthetic datasets, and show that certain real-world networks exhibit recurrent behaviour as the likelihood does not deteriorate when $H$ is lowered.
翻訳日:2023-08-30 19:30:25 公開日:2023-08-29
# 能動学習による適応量子状態トモグラフィ

Adaptive Quantum State Tomography with Active Learning ( http://arxiv.org/abs/2203.15719v4 )

ライセンス: Link先を確認
Hannah Lange, Matja\v{z} Kebri\v{c}, Maximilian Buser, Ulrich Schollw\"ock, Fabian Grusdt and Annabelle Bohrdt(参考訳) 量子シミュレーションの異なるプラットフォームと量子コンピューティング(超伝導量子ビットから中性原子まで)は、前例のないほど大きなシステムに到達し始めている。 これらのシステムをベンチマークし、物理的洞察を得るために、効率的な量子状態を特徴付けるツールの必要性が生じる。 系の大きさでヒルベルト空間が指数関数的に成長すると、必要な測定値の数で禁止的に要求される量子状態の完全な再構成が生じる。 本稿では,能動学習を用いた量子状態トモグラフィの効率的な手法を提案する。 いくつかの初期測定に基づいて、アクティブラーニングプロトコルは、最大情報ゲインを得るように設計された次の測定基準を提案する。 能動学習量子状態トモグラフィー法を用いて、異なるマルチキュービット状態と1次元のXXZモデルの基底状態と運動的に制約されたスピン鎖を再構成する。 いずれの場合も、全く同じ測定値と測定値に基づいて、無作為に選択されたベース構成に基づいて、再構成よりも大幅に改善された再構築が得られる。 提案手法は, 量子多体系や, 量子シミュレーションなどの量子デバイスのベンチマークや特徴付け, スケーラブルな適応プロトコルによる量子システム探索, 準備, 操作の方法の整備など, 物理的洞察を得るために非常に重要である。

Recently, tremendous progress has been made in the field of quantum science and technologies: different platforms for quantum simulation as well as quantum computing, ranging from superconducting qubits to neutral atoms, are starting to reach unprecedentedly large systems. In order to benchmark these systems and gain physical insights, the need for efficient tools to characterize quantum states arises. The exponential growth of the Hilbert space with system size renders a full reconstruction of the quantum state prohibitively demanding in terms of the number of necessary measurements. Here we propose and implement an efficient scheme for quantum state tomography using active learning. Based on a few initial measurements, the active learning protocol proposes the next measurement basis, designed to yield the maximum information gain. We apply the active learning quantum state tomography scheme to reconstruct different multi-qubit states with varying degree of entanglement as well as to ground states of the XXZ model in 1D and a kinetically constrained spin chain. In all cases, we obtain a significantly improved reconstruction as compared to a reconstruction based on the exact same number of measurements and measurement configurations, but with randomly chosen basis configurations. Our scheme is highly relevant to gain physical insights in quantum many-body systems as well as for benchmarking and characterizing quantum devices, e.g. for quantum simulation, and paves the way for scalable adaptive protocols to probe, prepare, and manipulate quantum systems.
翻訳日:2023-08-30 19:29:46 公開日:2023-08-29
# フェデレーション学習におけるプライバシとセキュリティの保護

Preserving Privacy and Security in Federated Learning ( http://arxiv.org/abs/2202.03402v3 )

ライセンス: Link先を確認
Truc Nguyen, My T. Thai(参考訳) フェデレーション学習は、セキュリティとプライバシの両方の問題に弱いことが知られている。 既存の研究は、ユーザによる毒殺攻撃の防止か、あるいはローカルモデルのアップデートをサーバから隠蔽することに注力しているが、両方ではない。 しかし、これらの2つの研究を統合することは、脅威モデルに関してしばしば互いに対立するため、重要な課題である。 本研究では,ユーザに対するプライバシ保証と害虫攻撃の検出の両方を提供する原則フレームワークを開発する。 サーバと悪意のあるユーザの両方を含む新しい脅威モデルによって、我々はまず、ローカルモデルの更新をプライベートな方法で結合するために、サーバに準同型暗号化を用いたセキュアアグリゲーションプロトコルを提案します。 そして、ゼロ知識証明プロトコルを利用して、ローカルモデルにおける攻撃を検出するタスクをサーバからユーザへシフトさせる。 ここで重要なのは、サーバーが攻撃検出のためにローカルモデルにアクセスする必要がなくなったことだ。 したがって,本フレームワークにより,セキュアなアグリゲーションのプライバシー保証に違反することなく,中央サーバが有毒なモデル更新を特定できる。

Federated learning is known to be vulnerable to both security and privacy issues. Existing research has focused either on preventing poisoning attacks from users or on concealing the local model updates from the server, but not both. However, integrating these two lines of research remains a crucial challenge since they often conflict with one another with respect to the threat model. In this work, we develop a principle framework that offers both privacy guarantees for users and detection against poisoning attacks from them. With a new threat model that includes both an honest-but-curious server and malicious users, we first propose a secure aggregation protocol using homomorphic encryption for the server to combine local model updates in a private manner. Then, a zero-knowledge proof protocol is leveraged to shift the task of detecting attacks in the local models from the server to the users. The key observation here is that the server no longer needs access to the local models for attack detection. Therefore, our framework enables the central server to identify poisoned model updates without violating the privacy guarantees of secure aggregation.
翻訳日:2023-08-30 19:29:21 公開日:2023-08-29
# 雑音ロバスト確率勾配最適化のための適応型t分布推定ロバストモーメント

AdaTerm: Adaptive T-Distribution Estimated Robust Moments for Noise-Robust Stochastic Gradient Optimization ( http://arxiv.org/abs/2201.06714v4 )

ライセンス: Link先を確認
Wendyam Eric Lionel Ilboudo, Taisuke Kobayashi and Takamitsu Matsubara(参考訳) ディープラーニングアプリケーションの実用性が向上するにつれ、測定誤差やラベルミス、最適化結果に悪影響を及ぼす可能性のある推定サロゲート入力/出力など、さまざまなソースからのノイズによって、実践者は必然的にデータセットに直面することになる。 このアルゴリズムは最終的にネットワークパラメータの更新を担当しているため、最適化アルゴリズムのノイズに対するロバスト性を改善する一般的なプラクティスである。 従来の研究では、アダムのような確率勾配勾配最適化器で使用される1次モーメントは、学生のt分布に基づいて修正可能であることが判明した。 この変更はノイズ耐性の更新につながったが、他の関連する統計は変更されず、仮定されたモデルに矛盾が生じた。 本稿では,学生のt分布を取り入れ,一階のモーメントだけでなく,関連するすべての統計情報も導出する新しい手法であるadatermを提案する。 これは最適化プロセスの統一的な処理を提供し、初めてt分布の統計モデルの下で包括的なフレームワークを提供する。 提案手法は, ハイパーパラメータの低減やロバスト性の向上, 適応性の向上など, 従来の手法よりもいくつかの利点がある。 この雑音適応的挙動は、異なる雑音比または未知の雑音比の様々な最適化問題を通して示されるように、AdaTermの例外的な学習性能に寄与する。 さらに,amsgrad に頼らずに理論的な後悔を導き出す新しい手法を導入し,その分野への価値ある貢献を提供する。

With the increasing practicality of deep learning applications, practitioners are inevitably faced with datasets corrupted by noise from various sources such as measurement errors, mislabeling, and estimated surrogate inputs/outputs that can adversely impact the optimization results. It is a common practice to improve the optimization algorithm's robustness to noise, since this algorithm is ultimately in charge of updating the network parameters. Previous studies revealed that the first-order moment used in Adam-like stochastic gradient descent optimizers can be modified based on the Student's t-distribution. While this modification led to noise-resistant updates, the other associated statistics remained unchanged, resulting in inconsistencies in the assumed models. In this paper, we propose AdaTerm, a novel approach that incorporates the Student's t-distribution to derive not only the first-order moment but also all the associated statistics. This provides a unified treatment of the optimization process, offering a comprehensive framework under the statistical model of the t-distribution for the first time. The proposed approach offers several advantages over previously proposed approaches, including reduced hyperparameters and improved robustness and adaptability. This noise-adaptive behavior contributes to AdaTerm's exceptional learning performance, as demonstrated through various optimization problems with different and/or unknown noise ratios. Furthermore, we introduce a new technique for deriving a theoretical regret bound without relying on AMSGrad, providing a valuable contribution to the field
翻訳日:2023-08-30 19:29:00 公開日:2023-08-29
# 深層畳み込みニューラルネットワークを用いたペルシャ評価におけるアスペクト・極性分類のためのマルチタスクアンサンブルモデル

A Deep Convolutional Neural Networks Based Multi-Task Ensemble Model for Aspect and Polarity Classification in Persian Reviews ( http://arxiv.org/abs/2201.06313v4 )

ライセンス: Link先を確認
Milad Vazan, Fatemeh Sadat Masoumi, Sepideh Saeedi Majd(参考訳) アスペクトベースの感情分析は、テキストで議論されるすべての側面を識別する能力のため、非常に重要かつ応用性の高いものである。 しかし、アスペクトベースの感情分析は、テキストで議論されているすべての側面を識別するだけでなく、その極性も識別できる場合に最も効果的である。 従来の方法のほとんどはパイプラインアプローチを使っており、まずアスペクトを特定し、次に極性を識別する。 このような方法は、モデルエラーにつながる可能性があるため、実用的なアプリケーションには適さない。 そこで本研究では,畳み込みニューラルネットワーク(CNN)に基づくマルチタスク学習モデルを提案する。 モデルのみを作成することは、最良の予測を提供し、バイアスや高いばらつきなどのエラーにつながる可能性がある。 これらの誤差を低減し、モデル予測の効率を向上させるため、アンサンブル学習として知られる複数のモデルを組み合わせることで、より良い結果が得られる。 そこで本稿の目的は,ペルシャ語レビューにおける感情分析を強化するために,マルチタスク深層畳み込みニューラルネットワークのアンサンブルに基づくモデルを構築することである。 映画領域におけるペルシャ語データセットを用いて提案手法の評価を行った。 開発したモデルの性能評価にはjacquard indexとhamming loss measuresを用いた。 その結果,新たなアプローチはペルシャ語の感情分析モデルの効率を高めることが示唆された。

Aspect-based sentiment analysis is of great importance and application because of its ability to identify all aspects discussed in the text. However, aspect-based sentiment analysis will be most effective when, in addition to identifying all the aspects discussed in the text, it can also identify their polarity. Most previous methods use the pipeline approach, that is, they first identify the aspects and then identify the polarities. Such methods are unsuitable for practical applications since they can lead to model errors. Therefore, in this study, we propose a multi-task learning model based on Convolutional Neural Networks (CNNs), which can simultaneously detect aspect category and detect aspect category polarity. creating a model alone may not provide the best predictions and lead to errors such as bias and high variance. To reduce these errors and improve the efficiency of model predictions, combining several models known as ensemble learning may provide better results. Therefore, the main purpose of this article is to create a model based on an ensemble of multi-task deep convolutional neural networks to enhance sentiment analysis in Persian reviews. We evaluated the proposed method using a Persian language dataset in the movie domain. Jacquard index and Hamming loss measures were used to evaluate the performance of the developed models. The results indicate that this new approach increases the efficiency of the sentiment analysis model in the Persian language.
翻訳日:2023-08-30 19:28:35 公開日:2023-08-29
# キックドカップリングトップにおける時間外順序付き相関器:混合位相空間における情報スクランブルと保存量の役割

Out-of-Time Ordered Correlators in Kicked Coupled Tops: Information Scrambling in Mixed Phase Space and the Role of Conserved Quantities ( http://arxiv.org/abs/2201.05789v3 )

ライセンス: Link先を確認
Naga Dileep Varikuti and Vaibhav Madhok(参考訳) 我々は,out-of-time ordered correlator (otoc) を用いたkct(bipartite kick coupled tops)システムにおけるオペレーターの成長について検討した。 全磁化の保存のため、系は別個の不変部分空間に分解される。 最初は最大の不変部分空間に焦点をあて、強い結合の下では、OTOC成長速度は古典的なリャプノフ指数と著しく相関している。 混合位相空間におけるスクランブルの場合、フロッケ写像の固有状態を正則かつカオス的に分割するために、パーシヴァル予想(percival's conjecture)を呼び出す。 カオス部分空間のスクランブルレートは、上述のカオス固有状態の混合から構築したランダム状態に対して計算されたotocsによって定量化される。 次に、各演算子をガウスユニタリアンサンブルからランダムに選択する確率演算子を含む、異なる種類の初期演算子に対する総系とOTOCについて検討する。 保存量の存在は、演算子と対称演算子が通勤するかどうかによって、初期演算子の様々な選択に対して異なる種類の揺らぎ挙動をもたらすことを観察する。 演算子がランダムであるとき、平均されたotocはフロッケ演算子の線形絡み合いエントロピーと関連している。 さらに重要なことに、ランダム作用素が対称性演算子と可換である場合、平均OTOCの簡単な式を導出する。 私たちの成果は 一 混相空間における揺らぎに関する新たな知見-これまで包括的に探求されていない領域 (ii)情報スクランブルにおける保存量の影響

We investigate operator growth in a bipartite kicked coupled tops (KCT) system with out-of-time ordered correlators (OTOC). Due to the conservation of total magnetization, the system admits a decomposition into distinct invariant subspaces. Initially focusing on the largest invariant subspace, we observe that, under strong coupling, the OTOC growth rate correlates remarkably well with the classical Lyapunov exponent. For the case of scrambling in the mixed phase space, we invoke Percival's conjecture to partition the eigenstates of the Floquet map into regular and chaotic. We notice that the scrambling rate in the chaotic subspace is quantified by OTOCs calculated with respect to a random state constructed from the mixture of chaotic eigenstates described above. We then consider the total system and study OTOCs for different types of initial operators, including the case of random operators where the operators are chosen randomly from the Gaussian unitary ensemble. We observe that the presence of a conserved quantity results in different types of scrambling behaviors for various choices of initial operators depending on whether the operators commute with the symmetry operator. When the operators are random, the averaged OTOC is related to the linear entanglement entropy of the Floquet operator, as found in earlier works. More importantly, we derive a simple expression for the averaged OTOC when random operators commute with the symmetry operator. Our results offer (i) fresh insights into scrambling in mixed-phase space - a domain that has not been comprehensively explored before and (ii) implications of the conserved quantities on the scrambling of information.
翻訳日:2023-08-30 19:28:15 公開日:2023-08-29
# 雑音特徴と不均衡ラベルを持つ不完全多視点弱ラベル学習

Incomplete Multi-View Weak-Label Learning with Noisy Features and Imbalanced Labels ( http://arxiv.org/abs/2201.01079v5 )

ライセンス: Link先を確認
Zhiwei Li, Zijian Yang, Lu Sun, Mineichi Kudo, Kego Kimura(参考訳) 様々な現代的なアプリケーションがマルチビューのマルチラベル学習を示しており、各サンプルにはマルチビュー機能があり、複数のラベルは共通のビューで関連付けられている。 現在のメソッドは、通常、各サンプルに対して機能とラベルのサブセットのみが観察される設定を直接処理せず、現実世界の問題におけるノイズの多いビューと不均衡なラベルの存在を無視する。 本稿では,その限界を克服する新しい手法を提案する。 適応ウェイトを持つ低次元部分空間に不完全ビューと弱ラベルを共同で埋め込み、自己重み付けヒルベルト・シュミット独立基準(hsic)を介して重み行列を埋め込み、冗長性を低減する。 さらに、ノイズの多いビューを検出するために埋め込みにおける視点的重要性を適応的に学習し、焦点損失によるラベルの不均衡問題を緩和する。 4つの実世界のマルチビューマルチラベルデータセットの実験結果は,提案手法の有効性を示している。

A variety of modern applications exhibit multi-view multi-label learning, where each sample has multi-view features, and multiple labels are correlated via common views. Current methods usually fail to directly deal with the setting where only a subset of features and labels are observed for each sample, and ignore the presence of noisy views and imbalanced labels in real-world problems. In this paper, we propose a novel method to overcome the limitations. It jointly embeds incomplete views and weak labels into a low-dimensional subspace with adaptive weights, and facilitates the difference between embedding weight matrices via auto-weighted Hilbert-Schmidt Independence Criterion (HSIC) to reduce the redundancy. Moreover, it adaptively learns view-wise importance for embedding to detect noisy views, and mitigates the label imbalance problem by focal loss. Experimental results on four real-world multi-view multi-label datasets demonstrate the effectiveness of the proposed method.
翻訳日:2023-08-30 19:27:50 公開日:2023-08-29
# 生涯学習における事前学習の役割に関する実証的研究

An Empirical Investigation of the Role of Pre-training in Lifelong Learning ( http://arxiv.org/abs/2112.09153v2 )

ライセンス: Link先を確認
Sanket Vaibhav Mehta, Darshan Patil, Sarath Chandar, Emma Strubell(参考訳) 機械学習における生涯学習パラダイムは、生物学的学習に類似しているだけでなく、過剰なモデル再訓練を回避してエネルギー無駄を減らす可能性から、より顕著な孤立学習スキームに代わる魅力的な選択肢である。 このパラダイムの重要な課題は、破滅的な忘れの現象である。 機械学習における事前学習モデルの人気と成功が高まり、私たちは疑問を呈する: 生涯学習において、特に破滅的な忘れ物に関して、事前学習はどのような役割を果たすのか? 15種類のNLPタスクからなる新しいデータセットを用いた大規模研究を含む,大規模で事前学習されたモデルのコンテキストにおける既存手法の検討と,各種テキストおよび画像分類タスクの性能評価を行う。 すべての設定において、ランダムに初期化モデルと比較して、複数のタスクを逐次学習する場合、一般的な事前学習は破滅的忘れの影響を暗黙的に軽減する。 この設定で、事前学習が忘れることを緩和する理由をさらに調査する。 本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。 この知見に基づき, 逐次微調整中に広い流域を明示的に促すため, 現在のタスク損失と損失盆地のシャープネスを共同で最適化する手法を提案する。 この最適化手法は,タスク数に応じてスケールするメモリを保持せずとも,複数の設定をまたいで,最先端のタスク系列連続学習アルゴリズムに勝ることを示す。

The lifelong learning paradigm in machine learning is an attractive alternative to the more prominent isolated learning scheme not only due to its resemblance to biological learning but also its potential to reduce energy waste by obviating excessive model re-training. A key challenge to this paradigm is the phenomenon of catastrophic forgetting. With the increasing popularity and success of pre-trained models in machine learning, we pose the question: What role does pre-training play in lifelong learning, specifically with respect to catastrophic forgetting? We investigate existing methods in the context of large, pre-trained models and evaluate their performance on a variety of text and image classification tasks, including a large-scale study using a novel data set of 15 diverse NLP tasks. Across all settings, we observe that generic pre-training implicitly alleviates the effects of catastrophic forgetting when learning multiple tasks sequentially compared to randomly initialized models. We then further investigate why pre-training alleviates forgetting in this setting. We study this phenomenon by analyzing the loss landscape, finding that pre-trained weights appear to ease forgetting by leading to wider minima. Based on this insight, we propose jointly optimizing for current task loss and loss basin sharpness to explicitly encourage wider basins during sequential fine-tuning. We show that this optimization approach outperforms several state-of-the-art task-sequential continual learning algorithms across multiple settings, occasionally even without retaining a memory that scales in size with the number of tasks.
翻訳日:2023-08-30 19:27:33 公開日:2023-08-29
# 逆ベイズ分類器の存在について(拡張版)

On the Existence of the Adversarial Bayes Classifier (Extended Version) ( http://arxiv.org/abs/2112.01694v4 )

ライセンス: Link先を確認
Pranjal Awasthi, Natalie S. Frank, Mehryar Mohri(参考訳) 敵対的堅牢性は、現代の機械学習アプリケーションにおいて重要な特性である。 近年のいくつかの理論的研究の対象となっているが、敵の強靭性に関する重要な疑問がまだ数多く残っている。 本研究では,ベイズ最適性に関する基本的問題について考察する。 ベイズ最適分類器の存在を敵の強靭性に対して保証できるような、一般的な十分条件を提供する。 この結果は, 敵の強靭性とその整合性におけるサロゲート損失の研究に有用である。 この写本は、NeurIPS 2021 で出版された論文 \emph{On the Existence of the Adversarial Bayes Classifier} の拡張と修正版である。 元々の論文では定理ステートメントに2つの誤りがあった。1つは疑似証明可能ロバスト性の定義であり、もう1つは任意の距離空間に対して $a^\e$ の可測性の定義である。 このバージョンではエラーを修正します。 さらに、原論文の結果は、いくつかの非制限凸ノルムには適用されず、ここでは、結果を全ての可能なノルムにまで拡張する。

Adversarial robustness is a critical property in a variety of modern machine learning applications. While it has been the subject of several recent theoretical studies, many important questions related to adversarial robustness are still open. In this work, we study a fundamental question regarding Bayes optimality for adversarial robustness. We provide general sufficient conditions under which the existence of a Bayes optimal classifier can be guaranteed for adversarial robustness. Our results can provide a useful tool for a subsequent study of surrogate losses in adversarial robustness and their consistency properties. This manuscript is the extended and corrected version of the paper \emph{On the Existence of the Adversarial Bayes Classifier} published in NeurIPS 2021. There were two errors in theorem statements in the original paper -- one in the definition of pseudo-certifiable robustness and the other in the measurability of $A^\e$ for arbitrary metric spaces. In this version we correct the errors. Furthermore, the results of the original paper did not apply to some non-strictly convex norms and here we extend our results to all possible norms.
翻訳日:2023-08-30 19:26:46 公開日:2023-08-29
# ROSIA:回転探索に基づく星識別アルゴリズム

ROSIA: Rotation-Search-Based Star Identification Algorithm ( http://arxiv.org/abs/2210.00429v2 )

ライセンス: Link先を確認
Chee-Kheng Chng, Alvaro Parra Bustos, Benjamin McCarthy, Tat-Jun Chin(参考訳) 本稿では,星の同定(スターID)問題に対する回転探索に基づくアプローチを提案する。 提案アルゴリズムであるROSIAは、各座標における入力星とカタログ星を最大に整列する最適な回転を求めるヒューリスティックスフリーアルゴリズムである。 ROSIAはブランチ・アンド・バウンド (BnB) 法を用いて回転空間を体系的に探索する。 ROSIAのランタイム実現可能性に重大な影響を与えるのは、検索空間を優先する上限関数である。 本稿では,既存の定式化に比べて400倍の速度アップが可能な(実現可能な)上界関数を提案することで,理論的な貢献を行う。 ステレオ画像投影とRツリーデータ構造を利用する効率的な評価手法とバウンディング関数を結合することにより、ROSIAは、異なるノイズ源下での最先端の性能を持つ組込みプロセッサ上で実行可能な操作速度を達成する。 ROSIAのソースコードはhttps://github.com/ckchng/ROSIAで公開されている。

This paper presents a rotation-search-based approach for addressing the star identification (Star-ID) problem. The proposed algorithm, ROSIA, is a heuristics-free algorithm that seeks the optimal rotation that maximally aligns the input and catalog stars in their respective coordinates. ROSIA searches the rotation space systematically with the Branch-and-Bound (BnB) method. Crucially affecting the runtime feasibility of ROSIA is the upper bound function that prioritizes the search space. In this paper, we make a theoretical contribution by proposing a tight (provable) upper bound function that enables a 400x speed-up compared to an existing formulation. Coupling the bounding function with an efficient evaluation scheme that leverages stereographic projection and the R-tree data structure, ROSIA achieves feasible operational speed on embedded processors with state-of-the-art performances under different sources of noise. The source code of ROSIA is available at https://github.com/ckchng/ROSIA.
翻訳日:2023-08-30 19:20:14 公開日:2023-08-29
# セキュリティを強化した量子セキュリティシングルピクセルイメージング

Quantum-secured single-pixel imaging with enhanced security ( http://arxiv.org/abs/2209.06365v3 )

ライセンス: Link先を確認
Jaesung Heo, Junghyun Kim, Taek Jeong, Yong Sup Ihn, Duk Y. Kim, Zaeill Kim, Yonggi Jo(参考訳) 本稿では,光子対の非古典的相関を利用した,量子セキュアな単一画素イメージング手法を提案する。 本手法は,光子対の非古典的相関を利用して,光子ヘラルディングによる強いカオス光照明を拒絶することで,それを欺こうとする試みを検出できる。 偏光相関に基づくセキュリティ解析を行い,既存の量子セキュアイメージングに比べてセキュリティが向上したことを示す。 より具体的には、真と偽の信号の混合を送信する部分決定攻撃は、現在使われている手法では検出できないが、提案した分析により検出できる。 また,本手法の実証実験と,セキュリティ解析を用いて再構成した信頼性の高い画像も提供する。 本手法は, 量子セキュア通信における成熟した技術を用いて開発することが可能であり, セキュアイメージングの実用化に有望な方向性を提供する。

In this paper, we propose a novel quantum-secured single-pixel imaging method that utilizes non-classical correlations of a photon pair. Our method can detect any attempts to deceive it by exploiting a non-classical correlation of photon pairs while rejecting strong chaotic light illumination through photon heralding. A security analysis based on polarization-correlation has been conducted, demonstrating that our method has improved security compared to existing quantum-secured imaging. More specifically, a partial deceiving attack, which sends a mixture of a true and a false signal, can be detected with our proposed analysis, while currently employed methods cannot. We also provide proof-of-principle demonstrations of our method and trustworthy images reconstructed using our security analysis. Our method can be developed using matured techniques used in quantum secure communication, thus offering a promising direction for practical applications in secure imaging.
翻訳日:2023-08-30 19:19:43 公開日:2023-08-29
# 非線形因子モデルにおけるディープラーニングに基づく残差:低信号-雑音比の戻り値の精度行列推定

Deep Learning Based Residuals in Non-linear Factor Models: Precision Matrix Estimation of Returns with Low Signal-to-Noise Ratio ( http://arxiv.org/abs/2209.04512v3 )

ライセンス: Link先を確認
Mehmet Caner, Maurizio Daniele(参考訳) 本稿では、ディープラーニングフレームワーク内の非線形因子モデルを用いて、大規模ポートフォリオにおける資産返却の精度行列に対する一貫した推定と収束率を提案する。 金融市場に典型的な低信号対雑音比環境でも有効であり,弱い要因にも適合する。 本理論解析により,資産数拡大のためのディープニューラルネットワークに基づく予測予測リスクの一様境界が確立される。 さらに、深層ニューラルネットワークにおける誤り共分散の新しい一貫したデータ依存推定器を提供する。 本モデルは広範なシミュレーションと経験的手法において優れた精度を示す。

This paper introduces a consistent estimator and rate of convergence for the precision matrix of asset returns in large portfolios using a non-linear factor model within the deep learning framework. Our estimator remains valid even in low signal-to-noise ratio environments typical for financial markets and is compatible with weak factors. Our theoretical analysis establishes uniform bounds on expected estimation risk based on deep neural networks for an expanding number of assets. Additionally, we provide a new consistent data-dependent estimator of error covariance in deep neural networks. Our models demonstrate superior accuracy in extensive simulations and the empirics.
翻訳日:2023-08-30 19:19:27 公開日:2023-08-29
# 抽象モデルに基づく強化学習の分析

An Analysis of Abstracted Model-Based Reinforcement Learning ( http://arxiv.org/abs/2208.14407v2 )

ライセンス: Link先を確認
Rolf A. N. Starre, Marco Loog, Elena Congeduti, Frans A. Oliehoek(参考訳) マルコフ決定プロセス(MDP)におけるモデルベース強化学習(MBRL)の多くの方法は、提供可能なモデルの精度と学習効率の両方を保証する。 同時に、状態抽象化技術は、元の問題に関して境界損失を維持しながら、MDPのサイズを縮小することができる。 したがって、MBRLが抽象状態のみを観測する場合、両方の技術を組み合わせる際にそのような保証が得られないことは驚きである。 理論解析の結果,抽象概念は(実世界など)オンラインで収集されたサンプル間の依存性をもたらすことが判明した。 つまり、この依存を考慮に入れなければ、MBRLの結果は直接この設定に拡張されない。 その結果,martingalesの濃度不等式を用いてこの問題を克服できることがわかった。 これにより、既存のMBRLアルゴリズムの保証を抽象化した設定にまで拡張することができる。 モデルに基づく強化学習(RL from Abstracted Observations)と抽象モデルを用いたモデルベース強化学習(RL from Abstracted Observations)の初となる性能保証を生成する。

Many methods for Model-based Reinforcement learning (MBRL) in Markov decision processes (MDPs) provide guarantees for both the accuracy of the model they can deliver and the learning efficiency. At the same time, state abstraction techniques allow for a reduction of the size of an MDP while maintaining a bounded loss with respect to the original problem. Therefore, it may come as a surprise that no such guarantees are available when combining both techniques, i.e., where MBRL merely observes abstract states. Our theoretical analysis shows that abstraction can introduce a dependence between samples collected online (e.g., in the real world). That means that, without taking this dependence into account, results for MBRL do not directly extend to this setting. Our result shows that we can use concentration inequalities for martingales to overcome this problem. This result makes it possible to extend the guarantees of existing MBRL algorithms to the setting with abstraction. We illustrate this by combining R-MAX, a prototypical MBRL algorithm, with abstraction, thus producing the first performance guarantees for model-based `RL from Abstracted Observations': model-based reinforcement learning with an abstract model.
翻訳日:2023-08-30 19:19:19 公開日:2023-08-29
# ソース間スチル化によるクロスドメインFew-Shot分類

Cross-Domain Few-Shot Classification via Inter-Source Stylization ( http://arxiv.org/abs/2208.08015v2 )

ライセンス: Link先を確認
Huali Xu, Shuaifeng Zhi, Li Liu(参考訳) Cross-Domain Few-Shot Classification (CDFSC)の目標は、2つのデータセットのドメインの違いにもかかわらず、リッチにラベル付けされた補助データセットの知識を利用して、限られたラベル付きデータでターゲットデータセットを正確に分類することである。 モデルトレーニングには、複数のドメインのラベル付きサンプルを必要とする既存のアプローチもある。 しかし、サンプルラベルが不足している場合、これらのメソッドは失敗する。 この課題を克服するために,新たなラベル付けコストを伴わずに複数のソースドメインを利用するソリューションを提案する。 具体的には、ソースドメインの1つは完全にタグ付けされ、他のドメインはタグ付けされない。 ソース間スタイライゼーションネットワーク(issnet)を導入し、複数のソースドメイン間のスタイライゼーションを強化し、データ分散とモデルの一般化能力を強化した。 8つのターゲットデータセットでの実験では、ISSNetは複数のソースデータからの非競合データを活用し、いくつかのベースライン手法と比較してドメインギャップが分類性能に与える影響を著しく低減している。

The goal of Cross-Domain Few-Shot Classification (CDFSC) is to accurately classify a target dataset with limited labelled data by exploiting the knowledge of a richly labelled auxiliary dataset, despite the differences between the domains of the two datasets. Some existing approaches require labelled samples from multiple domains for model training. However, these methods fail when the sample labels are scarce. To overcome this challenge, this paper proposes a solution that makes use of multiple source domains without the need for additional labeling costs. Specifically, one of the source domains is completely tagged, while the others are untagged. An Inter-Source Stylization Network (ISSNet) is then introduced to enhance stylisation across multiple source domains, enriching data distribution and model's generalization capabilities. Experiments on 8 target datasets show that ISSNet leverages unlabelled data from multiple source data and significantly reduces the negative impact of domain gaps on classification performance compared to several baseline methods.
翻訳日:2023-08-30 19:18:58 公開日:2023-08-29
# 適応部分モジュラー最大化におけるグループ平等

Group Equality in Adaptive Submodular Maximization ( http://arxiv.org/abs/2207.03364v4 )

ライセンス: Link先を確認
Shaojie Tang, Jing Yuan(参考訳) 本稿では,非適応的および適応的設定の下で群平等制約を受ける古典的な部分モジュラー最大化問題について検討する。 データ要約、ソーシャルネットワークにおける影響最大化、パーソナライズされたレコメンデーションなど、多くの機械学習アプリケーションの有用性が、サブモジュラリティの性質を満足していることが示されている。 したがって、様々な制約を受ける部分モジュラ函数の最大化は多くの応用の中心にある。 高レベルでは、サブモジュラー最大化は、最も代表的な項目(例えばデータポイント)のグループを選択することを目的としている。 しかし、既存のほとんどのアルゴリズムの設計は公正性制約を含まないため、特定の群を下限あるいは過剰に表現する。 このことは、群等式を持つ部分モジュラー最大化問題の研究を動機付け、群等式制約を受ける部分モジュラー効用関数を最大化するために、アイテム群を選択しようというものである。 そこで我々は,この問題に対する最初の定数近似アルゴリズムを開発した。 本アルゴリズムの設計は,より複雑な適応条件下での極大化問題の解法に拡張できるほど頑健である。 さらに、我々の研究をさらに拡張し、グローバルな濃度制約とその他の公正な表記を取り入れた。

In this paper, we study the classic submodular maximization problem subject to a group equality constraint under both non-adaptive and adaptive settings. It has been shown that the utility function of many machine learning applications, including data summarization, influence maximization in social networks, and personalized recommendation, satisfies the property of submodularity. Hence, maximizing a submodular function subject to various constraints can be found at the heart of many of those applications. On a high level, submodular maximization aims to select a group of most representative items (e.g., data points). However, the design of most existing algorithms does not incorporate the fairness constraint, leading to under- or over-representation of some particular groups. This motivates us to study the submodular maximization problem with group equality, where we aim to select a group of items to maximize a (possibly non-monotone) submodular utility function subject to a group equality constraint. To this end, we develop the first constant-factor approximation algorithm for this problem. The design of our algorithm is robust enough to be extended to solving the submodular maximization problem under a more complicated adaptive setting. Moreover, we further extend our study to incorporating a global cardinality constraint and other fairness notations.
翻訳日:2023-08-30 19:18:40 公開日:2023-08-29
# 非凸が平均外であるときの多孔体-L{}ojasiewicz関数に対する準数値を超えた重ボールの確率的加速

Provable Acceleration of Heavy Ball beyond Quadratics for a Class of Polyak-\L{}ojasiewicz Functions when the Non-Convexity is Averaged-Out ( http://arxiv.org/abs/2206.11872v3 )

ライセンス: Link先を確認
Jun-Kun Wang and Chi-Heng Lin and Andre Wibisono and Bin Hu(参考訳) 現在、ヘビーボール(HB)は非凸最適化において最も一般的な運動量法の一つである。 勾配に基づく手法にヘビーボール力学を取り入れることで、現代の機械学習モデルのトレーニングプロセスが加速することが広く観測されている。 しかし、加速の理論的基盤を確立するという進歩は、その実証的な成功よりもはるかに遅れている。 既存の証明可能な加速結果は、HBの加速度を示す現在の技術は、ヘシアンが固定された場合に限られているため、2次あるいは2次に近い関数である。 本研究では,2点連続時間におけるヘッセン変換が収束速度にどう影響するかを解析し,二次性を超えて加速を示す新しい手法を開発した。 本研究の技術的結果に基づき、hbを介して証明可能な加速度を達成することができるポリak-\l{}ojasiewicz(pl)最適化問題のクラスを同定する。 さらに,本分析は運動量パラメータを適応的に設定する利点を示す。 (アップデート:08/29/2023) Erratum は Appendix J に追加された。これは以前のバージョンで問題を修正する更新版である。 この研究において HB の加速結果に対して、次元が 1 またはそれ以上広く、ヘッセンが対角線であるときに自然に成り立つ追加条件を満たさなければならない。 この問題については appendix j で詳述する。

Heavy Ball (HB) nowadays is one of the most popular momentum methods in non-convex optimization. It has been widely observed that incorporating the Heavy Ball dynamic in gradient-based methods accelerates the training process of modern machine learning models. However, the progress on establishing its theoretical foundation of acceleration is apparently far behind its empirical success. Existing provable acceleration results are of the quadratic or close-to-quadratic functions, as the current techniques of showing HB's acceleration are limited to the case when the Hessian is fixed. In this work, we develop some new techniques that help show acceleration beyond quadratics, which is achieved by analyzing how the change of the Hessian at two consecutive time points affects the convergence speed. Based on our technical results, a class of Polyak-\L{}ojasiewicz (PL) optimization problems for which provable acceleration can be achieved via HB is identified. Moreover, our analysis demonstrates a benefit of adaptively setting the momentum parameter. (Update: 08/29/2023) Erratum is added in Appendix J. This is an updated version that fixes an issue in the previous version. An additional condition needs to be satisfied for the acceleration result of HB beyond quadratics in this work, which naturally holds when the dimension is one or, more broadly, when the Hessian is diagonal. We elaborate on the issue in Appendix J.
翻訳日:2023-08-30 19:18:19 公開日:2023-08-29
# IoTデータ市場におけるデータ価格の戦略的協調

Strategic Coalition for Data Pricing in IoT Data Markets ( http://arxiv.org/abs/2206.07785v4 )

ライセンス: Link先を確認
Shashi Raj Pandey, Pierre Pinson, Petar Popovski(参考訳) 本稿では、機械学習モデルのトレーニングに使用されるIoT(Internet of Things)データのトレーディング市場について考察する。 生または処理されたデータは、ネットワークを介して市場プラットフォームに供給され、そのようなデータの価格が機械学習モデルにもたらす価値に基づいて制御される。 ゲーム理論におけるデータの相関性について検討し、最終的にはデバイスと市場の相互利益を強調するデータトレーディング機構のための簡易分散ソリューションを導出する。 鍵となる提案は、IoTネットワークにおける信頼の移転とデータ交換の経済的価値に加えて、参加の可用性と不均一性の課題を共同で解決する、市場のための効率的なアルゴリズムである。 提案手法は,情報漏洩を回避するためにデバイス間の協調機会を強化することで,データ市場を確立する。 そこで、類似したデータ型を持つiotデバイス間の結合の社会的価値を最大化するネットワーク全体の最適化問題を開発し、同時に、ネットワーク外部性によるコスト、すなわちデータ相関による情報漏洩の影響や機会コストを最小化する。 最後に,定式化問題の構造を分散連立ゲームとして明らかにし,単純化した分割・マージアルゴリズムにより解いた。 シミュレーションの結果,信頼されたIoTデータ市場に向けたメカニズム設計の有効性が示され,各販売者の平均支払額は最大32.72%増加した。

This paper considers a market for trading Internet of Things (IoT) data that is used to train machine learning models. The data, either raw or processed, is supplied to the market platform through a network and the price of such data is controlled based on the value it brings to the machine learning model. We explore the correlation property of data in a game-theoretical setting to eventually derive a simplified distributed solution for a data trading mechanism that emphasizes the mutual benefit of devices and the market. The key proposal is an efficient algorithm for markets that jointly addresses the challenges of availability and heterogeneity in participation, as well as the transfer of trust and the economic value of data exchange in IoT networks. The proposed approach establishes the data market by reinforcing collaboration opportunities between device with correlated data to avoid information leakage. Therein, we develop a network-wide optimization problem that maximizes the social value of coalition among the IoT devices of similar data types; at the same time, it minimizes the cost due to network externalities, i.e., the impact of information leakage due to data correlation, as well as the opportunity costs. Finally, we reveal the structure of the formulated problem as a distributed coalition game and solve it following the simplified split-and-merge algorithm. Simulation results show the efficacy of our proposed mechanism design toward a trusted IoT data market, with up to 32.72% gain in the average payoff for each seller.
翻訳日:2023-08-30 19:17:37 公開日:2023-08-29
# Rayleigh-Ritz変分法について

On the Rayleigh-Ritz variational method ( http://arxiv.org/abs/2206.05122v3 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) レイリー・リッツ変分法によって提供される近似固有値が、より正確な値に対するより正確な上限であることを示す。 この目的のために、量子化学の多くの教科書で言及されている変分原理と、よく知られた射影作用素のセットを用いる。 我々は、このアプローチは量子力学や量子化学の高度なコースに適していると考える。

We give a simple proof of the well known fact that the approximate eigenvalues provided by the Rayleigh-Ritz variational method are increasingly accurate upper bounds to the exact ones. To this end, we resort to the variational principle, mentioned in most textbooks on quantum chemistry, and to a well known set of projection operators. We think that present approach may be suitable for an advanced course on quantum mechanics or quantum chemistry.
翻訳日:2023-08-30 19:17:14 公開日:2023-08-29
# 開量子系の対称性:散逸量子カオスの分類

Symmetry of Open Quantum Systems: Classification of Dissipative Quantum Chaos ( http://arxiv.org/abs/2212.00605v2 )

ライセンス: Link先を確認
Kohei Kawabata, Anish Kulkarni, Jiachen Li, Tokiro Numasawa, Shinsei Ryu(参考訳) 開量子系における対称性の理論を開発する。 作用素状態写像を用いて、二重ヒルベルト空間の作用素の対称性により開量子力学に対するリウヴィリア超作用素の対称性を特徴づけ、非エルミート作用素の38倍の内部対称性分類を適用する。 対応する閉量子系における対称性とリウヴィリアン超作用素の構成に内在する対称性との相互作用によって、リッチ対称性の分類が見つかる。 開量子ボソニック系の実例として、散逸性量子スピンモデルの対称性クラスを研究する。 開量子フェルミオン系に対しては、閉量子系における$\mathbb{Z}_8$分類とは対照的な、二重ヒルベルト空間におけるフェルミオンパリティ対称性と反単位対称性の$\mathbb{Z}_4$分類を開発する。 また、開量子フェルミオン多体系の対称性分類(Sachdev-Ye-Kitaev(SYK)モデルの散逸一般化)をリンドブラッドマスター方程式で記述する。 我々はSYKリンドブラディアンの周期表を確立し、SYKハミルトニアンとの違いを解明する。 さらに,その複素スペクトル統計を広範囲な数値計算から検討し,対称性に富む散逸量子カオスを実証する。

We develop a theory of symmetry in open quantum systems. Using the operator-state mapping, we characterize symmetry of Liouvillian superoperators for the open quantum dynamics by symmetry of operators in the double Hilbert space and apply the 38-fold internal-symmetry classification of non-Hermitian operators. We find rich symmetry classification due to the interplay between symmetry in the corresponding closed quantum systems and symmetry inherent in the construction of the Liouvillian superoperators. As an illustrative example of open quantum bosonic systems, we study symmetry classes of dissipative quantum spin models. For open quantum fermionic systems, we develop the $\mathbb{Z}_4$ classification of fermion parity symmetry and antiunitary symmetry in the double Hilbert space, which contrasts with the $\mathbb{Z}_8$ classification in closed quantum systems. We also develop the symmetry classification of open quantum fermionic many-body systems -- a dissipative generalization of the Sachdev-Ye-Kitaev (SYK) model described by the Lindblad master equation. We establish the periodic tables of the SYK Lindbladians and elucidate the difference from the SYK Hamiltonians. Furthermore, from extensive numerical calculations, we study its complex-spectral statistics and demonstrate dissipative quantum chaos enriched by symmetry.
翻訳日:2023-08-30 19:09:44 公開日:2023-08-29
# 大きな入力アルファベットとGrothendieck定数との接続による準備・測定シナリオにおける量子ビットの証明

Certification of qubits in the prepare-and-measure scenario with large input alphabet and connections with the Grothendieck constant ( http://arxiv.org/abs/2211.17185v2 )

ライセンス: Link先を確認
P\'eter Divi\'anszky, Istv\'an M\'arton, Erika Bene, Tam\'as V\'ertesi(参考訳) 我々は, 2次元系の量子性テストにおいて, 準備・測定 (pm) シナリオにおいて, 多数の準備と多数の測定設定を用いて, 二元結果測定を行い, 問題に対処した。 このシナリオでは、次数 3 のグロタンディーク定数と関連する定数を導入する。 提案手法は, 準備されたキュービットの白色雑音耐性と, 測定値の臨界検出効率とを関連付ける。 定数の束縛には大規模な数値ツールが使用される。 これにより、70個の準備と70個の測定設定で許容できる最小検出効率の新たな限界が得られる。

We address the problem of testing the quantumness of two-dimensional systems in the prepare-and-measure (PM) scenario, using a large number of preparations and a large number of measurement settings, with binary outcome measurements. In this scenario, we introduce constants, which we relate to the Grothendieck constant of order 3. We associate them with the white noise resistance of the prepared qubits and to the critical detection efficiency of the measurements performed. Large-scale numerical tools are used to bound the constants. This allows us to obtain new bounds on the minimum detection efficiency that a setup with 70 preparations and 70 measurement settings can tolerate.
翻訳日:2023-08-30 19:08:49 公開日:2023-08-29
# Deep Curvilinear Editing:Pretrained Deep Generative Modelのための圧縮および非線形画像操作

Deep Curvilinear Editing: Commutative and Nonlinear Image Manipulation for Pretrained Deep Generative Model ( http://arxiv.org/abs/2211.14573v3 )

ライセンス: Link先を確認
Takehiro Aoshima, Takashi Matsubara(参考訳) 画像のセマンティック編集はコンピュータビジョンの基本的な目標である。 generative adversarial network(gans)のようなディープラーニング手法は高品質な画像を生成することができるが、生成した画像をセマンティックに編集する固有の方法を持たないことが多い。 近年の研究では、生成する画像を決定するために潜在変数を操作する方法が研究されている。 しかし、線形意味算術を仮定する手法は画像編集の品質に関して一定の制限があるが、非線形意味論経路を探索する手法は非可換な編集を提供するが、異なる順序で適用すると矛盾する。 本研究では,DeCurvEd(Deep curvilinear editing)と呼ばれる新しい手法を提案し,潜在空間上の意味交換ベクトル場を決定する。 理論的には、可換性のため、複数の属性の編集は量にのみ依存し、順序には依存しない。 さらに,従来の手法と比較して,DeCurvEdの非線形および可換性は画像属性の歪みを緩和し,高品質な編集を可能にすることを示した。

Semantic editing of images is the fundamental goal of computer vision. Although deep learning methods, such as generative adversarial networks (GANs), are capable of producing high-quality images, they often do not have an inherent way of editing generated images semantically. Recent studies have investigated a way of manipulating the latent variable to determine the images to be generated. However, methods that assume linear semantic arithmetic have certain limitations in terms of the quality of image editing, whereas methods that discover nonlinear semantic pathways provide non-commutative editing, which is inconsistent when applied in different orders. This study proposes a novel method called deep curvilinear editing (DeCurvEd) to determine semantic commuting vector fields on the latent space. We theoretically demonstrate that owing to commutativity, the editing of multiple attributes depends only on the quantities and not on the order. Furthermore, we experimentally demonstrate that compared to previous methods, the nonlinear and commutative nature of DeCurvEd facilitates the disentanglement of image attributes and provides higher-quality editing.
翻訳日:2023-08-30 19:08:37 公開日:2023-08-29
# WALDO:オブジェクト層分解とパラメトリックフロー予測を用いた将来のビデオ合成

WALDO: Future Video Synthesis using Object Layer Decomposition and Parametric Flow Prediction ( http://arxiv.org/abs/2211.14308v3 )

ライセンス: Link先を確認
Guillaume Le Moing and Jean Ponce and Cordelia Schmid(参考訳) 本稿では,過去の映像フレームの予測手法であるwaldo(warping layer-decomposed objects)について述べる。 個々の画像は、オブジェクトマスクと小さなコントロールポイントを組み合わせた複数の層に分解される。 レイヤー構造は各ビデオの全てのフレームで共有され、フレーム間の密接な接続を構築する。 個々の層に関連付けられたパラメトリックな幾何学的変換を組み合わせることで、複雑なシーンの動作をモデル化し、ビデオ合成を過去のフレームに関連付けられた層を発見し、対応する変換を予測し、それに従って関連オブジェクト領域を反動させ、残りの画像部分を埋め込む。 都市ビデオ (cityscapes と kitti) や非リジッドモーション (ucf-sports と h3.6m) を特徴とするビデオなど,複数のベンチマークで広範な実験を行った結果,この手法は,すべてのケースにおいて,芸術の状態を一貫して有意なマージンで上回っていることがわかった。 私たちのアプローチで合成されたコード、事前トレーニングされたモデル、ビデオサンプルは、プロジェクトwebページhttps://16lemoing.github.io/waldoで見ることができる。

This paper presents WALDO (WArping Layer-Decomposed Objects), a novel approach to the prediction of future video frames from past ones. Individual images are decomposed into multiple layers combining object masks and a small set of control points. The layer structure is shared across all frames in each video to build dense inter-frame connections. Complex scene motions are modeled by combining parametric geometric transformations associated with individual layers, and video synthesis is broken down into discovering the layers associated with past frames, predicting the corresponding transformations for upcoming ones and warping the associated object regions accordingly, and filling in the remaining image parts. Extensive experiments on multiple benchmarks including urban videos (Cityscapes and KITTI) and videos featuring nonrigid motions (UCF-Sports and H3.6M), show that our method consistently outperforms the state of the art by a significant margin in every case. Code, pretrained models, and video samples synthesized by our approach can be found in the project webpage https://16lemoing.github.io/waldo.
翻訳日:2023-08-30 19:08:16 公開日:2023-08-29
# 自然画像パッチの効率的な表現

Efficient Representation of Natural Image Patches ( http://arxiv.org/abs/2210.13004v2 )

ライセンス: Link先を確認
Cheng Guo(参考訳) 神経情報処理の複雑な領域において、基本原理を補助的詳細から識別することは依然として重要な課題である。 初期の視覚系の解剖学と生理学には幅広い知識があるが、包括的な計算理論はいまだ解明されていない。 生物学的システムの根底にある原則について、詳細な実装を抽象化し、システムが解決するように設計されている根本的な問題に焦点を合わせることで、洞察を得られるだろうか? 最小かつ現実的な仮定に基づく抽象モデルを用いて,初期の視覚システムの2つの究極の目的である効率的な情報伝達とセンサ確率分布モデルを実現する方法を示す。 情報伝達の最適化は最適確率分布モデルにはならないことを示す。 2ピクセル (2d) システムとイメージパッチを用いて, 出力のみに依存する2種類の生物学的に妥当な損失関数を駆動する非線形集団コードを用いて, 効率的な表現を実現する。 非教師なし学習の後、我々の抽象IPUモデルはスパイキング活動のような実際のニューロンの多くの特徴を模倣していないにもかかわらず、生物学的システムと顕著に類似している。 現代のディープラーニングモデルとの予備的な比較は、IPUモデルが大きな効率性をもたらすことを示唆している。 我々のモデルは、初期の視覚系の計算理論に関する新しい洞察と、ディープラーニングモデルの効率を高めるための潜在的新しいアプローチを提供する。

In the complex domain of neural information processing, discerning fundamental principles from ancillary details remains a significant challenge. While there is extensive knowledge about the anatomy and physiology of the early visual system, a comprehensive computational theory remains elusive. Can we gain insights into the underlying principles of a biological system by abstracting away from its detailed implementation and focusing on the fundamental problems that the system is designed to solve? Utilizing an abstract model based on minimal yet realistic assumptions, we show how to achieve the early visual system's two ultimate objectives: efficient information transmission and sensor probability distribution modeling. We show that optimizing for information transmission does not yield optimal probability distribution modeling. We illustrate, using a two-pixel (2D) system and image patches, that an efficient representation can be realized via nonlinear population code driven by two types of biologically plausible loss functions that depend solely on output. After unsupervised learning, our abstract IPU model bears remarkable resemblances to biological systems, despite not mimicking many features of real neurons, such as spiking activity. A preliminary comparison with a contemporary deep learning model suggests that the IPU model offers a significant efficiency advantage. Our model provides novel insights into the computational theory of early visual systems as well as a potential new approach to enhance the efficiency of deep learning models.
翻訳日:2023-08-30 19:07:53 公開日:2023-08-29
# テンソル完了によるアプリケーションパフォーマンスモデリング

Application Performance Modeling via Tensor Completion ( http://arxiv.org/abs/2210.10184v3 )

ライセンス: Link先を確認
Edward Hutter and Edgar Solomonik(参考訳) パフォーマンスチューニング、ソフトウェア/ハードウェアの共同設計、ジョブスケジューリングは、アプリケーションパフォーマンスを予測するモデルに依存する多くのタスクの1つです。 アプリケーションの性能をモデル化するための低ランクテンソル分解法を提案し評価する。 通常のグリッドを用いてアプリケーションの入力領域と設定領域を識別する。 グリッドセル内でマップされたアプリケーション実行時間は平均化され、テンソル要素によって表現される。 これらのテンソルの近似には,低ランクカノニカル・ポリディクス(CP)テンソル分解が有効であることを示す。 さらに、この分解により、アプリケーションのパラメータ空間の未観測領域の正確な外挿が可能になることを示す。 次に、観測実行時間の少ない集合からCP分解を最適化するためにテンソル補完を用いる。 我々は,6つのアプリケーションに対して,分割/グリッドベースモデルと教師付き学習モデルを検討するとともに,テンソル補完により最適化されたcp分解が,高い予測精度と高次元性能モデリングのためのメモリ効率をもたらすことを実証する。

Performance tuning, software/hardware co-design, and job scheduling are among the many tasks that rely on models to predict application performance. We propose and evaluate low-rank tensor decomposition for modeling application performance. We discretize the input and configuration domains of an application using regular grids. Application execution times mapped within grid-cells are averaged and represented by tensor elements. We show that low-rank canonical-polyadic (CP) tensor decomposition is effective in approximating these tensors. We further show that this decomposition enables accurate extrapolation of unobserved regions of an application's parameter space. We then employ tensor completion to optimize a CP decomposition given a sparse set of observed execution times. We consider alternative piecewise/grid-based models and supervised learning models for six applications and demonstrate that CP decomposition optimized using tensor completion offers higher prediction accuracy and memory-efficiency for high-dimensional performance modeling.
翻訳日:2023-08-30 19:07:33 公開日:2023-08-29
# シュレーディンガー猫と量子相補性

Schroedinger cats and quantum complementarity ( http://arxiv.org/abs/2210.01083v2 )

ライセンス: Link先を確認
Lorenzo Maccone(参考訳) 補性(complementarity)は、量子オブジェクトのすべての性質の値を同時に正確に知ることができないことを示す: 1つの性質の正確な決定は、ある他の(補的)性質の値が未定義であることを意味する。 例えば、粒子の位置の正確な知識は、その運動量が未定義であることを意味する。 ここでは、schroedinger cat が ``being dead or alive''' プロパティを補完するプロパティの明確に定義された値を持っていることを示す。 そして、相補性のおかげで ``being dead or alive''' というプロパティの未定義の値を持つ。 言い換えれば、猫パラドックスは量子相補性(quantum complementarity)を通じて説明される: その多くの相補的性質のうち、猫のような量子系は、一度に一つの値しか定義できない。 シュレーディンガーの猫は「死んだか生きているか」を補完する財産の明確な価値を持っているため、死んでも生きてもいない。 実のところ、それは死んでも生きているとも言えます。 この解釈は教科書の概念のみを使用するが(コペンハーゲン解釈)、明らかに文献に明記されたことはない。 我々は,これらの概念を基礎として,ArduinoによるSchroedingerの実験のシミュレーションを構築する方法について詳述する。

Complementarity tells us we cannot know precisely the values of all the properties of a quantum object at the same time: the precise determination of one property implies that the value of some other (complementary) property is undefined. E.g.the precise knowledge of the position of a particle implies that its momentum is undefined. Here we show that a Schroedinger cat has a well defined value of a property that is complementary to its ``being dead or alive'' property. Then, thanks to complementarity, it has an undefined value of the property ``being dead or alive''. In other words, the cat paradox is explained through quantum complementarity: of its many complementary properties, any quantum system, such as a cat, can have a well defined value only of one at a time. Schroedinger's cat has a definite value of a property which is complementary to ``being dead or alive'', so it is neither dead nor alive. Figuratively one can say it is both dead and alive. While this interpretation only uses textbook concepts (the Copenhagen interpretation), apparently it has never explicitly appeared in the literature. We detail how to build an Arduino based simulation of Schroedinger's experiment based on these concepts for science outreach events.
翻訳日:2023-08-30 19:07:20 公開日:2023-08-29
# 一般活用による強化学習のための政策グラディエント

Policy Gradient for Reinforcement Learning with General Utilities ( http://arxiv.org/abs/2210.00991v2 )

ライセンス: Link先を確認
Navdeep Kumar, Kaixin Wang, Kfir Levy, Shie Mannor(参考訳) 強化学習(rl)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。 この目的はまた、その状態-作用占有度尺度の線形関数を最適化するポリシー(以下、線形RL)を見いだすことができる。 しかしながら、多くの教師付きrl問題や教師なしrl問題は、見習い学習、純粋な探索、変動的本質制御といった、占有測度の非線形関数である線形rlフレームワークにはカバーされていない。 線形効用を持たないRLは、ベルマン方程式、値反復、ポリシー勾配、リニアRLで驚くほど成功した動的プログラミングのようなメソッドは、自明に一般化できないため、扱いにくいように見える。 本稿では,一般ユーティリティを用いたRLのポリシー勾配定理を導出する。 ポリシー勾配定理は、そのエレガンスさと実装容易性から、線形RLの基盤であることが証明されている。 RLと一般ユーティリティのポリシー勾配定理は同じエレガンスと実装容易性を共有している。 また,ポリシー勾配定理を導出し,簡単なサンプルベースアルゴリズムを提案する。 私たちの結果はコミュニティにとって興味深く、この一般的な環境での将来の作品にインスピレーションを与えてくれると思います。

In Reinforcement Learning (RL), the goal of agents is to discover an optimal policy that maximizes the expected cumulative rewards. This objective may also be viewed as finding a policy that optimizes a linear function of its state-action occupancy measure, hereafter referred as Linear RL. However, many supervised and unsupervised RL problems are not covered in the Linear RL framework, such as apprenticeship learning, pure exploration and variational intrinsic control, where the objectives are non-linear functions of the occupancy measures. RL with non-linear utilities looks unwieldy, as methods like Bellman equation, value iteration, policy gradient, dynamic programming that had tremendous success in Linear RL, fail to trivially generalize. In this paper, we derive the policy gradient theorem for RL with general utilities. The policy gradient theorem proves to be a cornerstone in Linear RL due to its elegance and ease of implementability. Our policy gradient theorem for RL with general utilities shares the same elegance and ease of implementability. Based on the policy gradient theorem derived, we also present a simple sample-based algorithm. We believe our results will be of interest to the community and offer inspiration to future works in this generalized setting.
翻訳日:2023-08-30 19:06:59 公開日:2023-08-29
# naturenerf: 編集可能な新規ビュー合成のための内在的神経放射野の学習

IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable Novel View Synthesis ( http://arxiv.org/abs/2210.00647v3 )

ライセンス: Link先を確認
Weicai Ye, Shuo Chen, Chong Bao, Hujun Bao, Marc Pollefeys, Zhaopeng Cui, Guofeng Zhang(参考訳) 既存の逆レンダリングとニューラルレンダリングを組み合わせることで、オブジェクト固有のシーンで編集可能な新規ビュー合成を行うことができる一方、固有のニューラルレンダリング手法に固有の分解を導入し、その適用範囲をルームスケールのシーンに拡張することができる。 内在的分解は基本的に非制約の逆問題であるため,従来の内在的分解制約を持つ内在的NeRFを非教師付きで訓練し,多視点で一貫した内在的分解結果が得られる新しい距離対応点サンプリングおよび適応的反射性反復クラスタリング最適化法を提案する。 シーン内の類似した反射率の異なるインスタンスが誤ってクラスタ化されている問題に対処するために,より粗い最適化による階層的クラスタリング手法を提案し,高速な階層的インデックス化表現を得る。 recoloringやlightumination variationといった、魅力的なリアルタイム拡張アプリケーションをサポートする。 オブジェクト固有/ルームスケールのシーンと合成/実語データの両方のサンプルを広範囲に実験し、編集することで、難解なシーケンスであっても一貫した内在分解結果と高忠実な新規ビュー合成が得られることを示した。

Existing inverse rendering combined with neural rendering methods can only perform editable novel view synthesis on object-specific scenes, while we present intrinsic neural radiance fields, dubbed IntrinsicNeRF, which introduce intrinsic decomposition into the NeRF-based neural rendering method and can extend its application to room-scale scenes. Since intrinsic decomposition is a fundamentally under-constrained inverse problem, we propose a novel distance-aware point sampling and adaptive reflectance iterative clustering optimization method, which enables IntrinsicNeRF with traditional intrinsic decomposition constraints to be trained in an unsupervised manner, resulting in multi-view consistent intrinsic decomposition results. To cope with the problem that different adjacent instances of similar reflectance in a scene are incorrectly clustered together, we further propose a hierarchical clustering method with coarse-to-fine optimization to obtain a fast hierarchical indexing representation. It supports compelling real-time augmented applications such as recoloring and illumination variation. Extensive experiments and editing samples on both object-specific/room-scale scenes and synthetic/real-word data demonstrate that we can obtain consistent intrinsic decomposition results and high-fidelity novel view synthesis even for challenging sequences.
翻訳日:2023-08-30 19:06:40 公開日:2023-08-29
# SGDにおけるStepsizeとStepsizeの周期的およびランダム化はStepsizeよりも大きい

Cyclic and Randomized Stepsizes Invoke Heavier Tails in SGD than Constant Stepsize ( http://arxiv.org/abs/2302.05516v2 )

ライセンス: Link先を確認
Mert G\"urb\"uzbalaban, Yuanhan Hu, Umut \c{S}im\c{s}ekli, Lingjiong Zhu(参考訳) 周期的およびランダムなステップサイズは、ディープラーニングの実践において広く使われており、SGDにおける定数ステップサイズのような標準的なステップサイズ選択よりも優れていることが多い。 経験的な成功にもかかわらず、理論的に一般化性能が向上できる時期と理由については、現時点ではあまり知られていない。 我々は,学習のためのマルコフステップの一般クラスとして,ランダムステップ化,サイクリックステップ化,および一定のステップ化を特別な場合として考慮し,sgdイテレートにおけるテールの重み(いわゆる「テールインデックス」によって測定される)が一般化と相関していることを示す文献に動機づけられ,テールインデックスを研究し,テールインデックスがスケジューリングにどのように依存するかを実証する理論的結果を提供する。 この結果から, 周期的およびランダムな段階化の利点に対する新たな理解が得られた。 線形回帰実験に関する我々の理論を解説し、マルコフのステップ化がより重いテールを達成でき、循環的および非ランダムなステップ化規則の代替となることの深層学習実験を通して示す。

Cyclic and randomized stepsizes are widely used in the deep learning practice and can often outperform standard stepsize choices such as constant stepsize in SGD. Despite their empirical success, not much is currently known about when and why they can theoretically improve the generalization performance. We consider a general class of Markovian stepsizes for learning, which contain i.i.d. random stepsize, cyclic stepsize as well as the constant stepsize as special cases, and motivated by the literature which shows that heaviness of the tails (measured by the so-called "tail-index") in the SGD iterates is correlated with generalization, we study tail-index and provide a number of theoretical results that demonstrate how the tail-index varies on the stepsize scheduling. Our results bring a new understanding of the benefits of cyclic and randomized stepsizes compared to constant stepsize in terms of the tail behavior. We illustrate our theory on linear regression experiments and show through deep learning experiments that Markovian stepsizes can achieve even a heavier tail and be a viable alternative to cyclic and i.i.d. randomized stepsize rules.
翻訳日:2023-08-30 19:00:30 公開日:2023-08-29
# 大規模言語モデルで自然発生した心の理論

Theory of Mind Might Have Spontaneously Emerged in Large Language Models ( http://arxiv.org/abs/2302.02083v4 )

ライセンス: Link先を確認
Michal Kosinski(参考訳) 我々は、心の理論(ToM)や、観察不能な精神状態を他人に説明するユニークな人間の能力が、大きな言語モデル(LLM)に自然に現れる可能性を探る。 ToMをヒトでテストする際の金の基準として,40の偽確認タスクを設計し,複数のLSMに投与した。 各タスクには、偽確認シナリオ、3つの密に一致した真信制御、全4つの逆バージョンが含まれていた。 GPT-3-davinci-001(2020年5月から)とGPT-3-davinci-002(2022年1月から)は10%、GPT-3-davinci-003(2022年11月から)とChatGPT-3.5-turbo(2023年3月から)は35%のタスクを解決し、3歳児のパフォーマンスを反映した。 ChatGPT-4 (2023年6月より) は7歳児の課題の90%を解決した。 これらの結果から,これまでヒトに排他的と考えられていたToMが,LLMの言語能力向上の副産物として自然に出現した可能性が示唆された。

We explore the intriguing possibility that theory of mind (ToM), or the uniquely human ability to impute unobservable mental states to others, might have spontaneously emerged in large language models (LLMs). We designed 40 false-belief tasks, considered a gold standard in testing ToM in humans, and administered them to several LLMs. Each task included a false-belief scenario, three closely matched true-belief controls, and the reversed versions of all four. Smaller and older models solved no tasks; GPT-3-davinci-001 (from May 2020) and GPT-3-davinci-002 (from January 2022) solved 10%; and GPT-3-davinci-003 (from November 2022) and ChatGPT-3.5-turbo (from March 2023) solved 35% of the tasks, mirroring the performance of three-year-old children. ChatGPT-4 (from June 2023) solved 90% of the tasks, matching the performance of seven-year-old children. These findings suggest the intriguing possibility that ToM, previously considered exclusive to humans, may have spontaneously emerged as a byproduct of LLMs' improving language skills.
翻訳日:2023-08-30 19:00:05 公開日:2023-08-29
# debiased self-attentionによるフェアネス認識視覚トランスフォーマ

Fairness-aware Vision Transformer via Debiased Self-Attention ( http://arxiv.org/abs/2301.13803v2 )

ライセンス: Link先を確認
Yao Qiang, Chengyin Li, Prashant Khanduri, and Dongxiao Zhu(参考訳) 視覚変換器(ViT)は,情報的特徴を抽出し,自己認識機構を通じて長距離依存をモデル化する能力により,コンピュータビジョン(CV)問題の解決に大きな関心を寄せている。 実世界の応用におけるViTの利点をフルに実現するために、最近の研究は、その堅牢性と説明可能性を含む、ViTの信頼性について検討している。 しかし、別のデシダータは、文学ではまだフェアネスが適切に扱われていない。 既存のフェアネス対応アルゴリズム(主にCNN用に設計された)は、ViTではうまく動作しない。 これは、debiased self-attention (dsa) による新しいフレームワークの開発を必要とする。 DSAは、バイアス軽減のための感度特性と相関する刺激的な特徴を排除するためにViTを強制するフェアネススルー・ブラインドネスアプローチである。 特に、逆例を利用して、入力画像パッチ内のスプリアス特徴を特定し、隠蔽する。 さらに、DSAはトレーニング目的の注意重み付け調整器を利用して、目標予測のための学習情報特徴を促進する。 重要なことは、我々のDSAフレームワークは、目標予測性能を損なうことなく、複数の予測タスクに対する事前作業よりも公平性を保証する。

Vision Transformer (ViT) has recently gained significant interest in solving computer vision (CV) problems due to its capability of extracting informative features and modeling long-range dependencies through the self-attention mechanism. To fully realize the advantages of ViT in real-world applications, recent works have explored the trustworthiness of ViT, including its robustness and explainability. However, another desiderata, fairness has not yet been adequately addressed in the literature. We establish that the existing fairness-aware algorithms (primarily designed for CNNs) do not perform well on ViT. This necessitates the need for developing our novel framework via Debiased Self-Attention (DSA). DSA is a fairness-through-blindness approach that enforces ViT to eliminate spurious features correlated with the sensitive attributes for bias mitigation. Notably, adversarial examples are leveraged to locate and mask the spurious features in the input image patches. In addition, DSA utilizes an attention weights alignment regularizer in the training objective to encourage learning informative features for target prediction. Importantly, our DSA framework leads to improved fairness guarantees over prior works on multiple prediction tasks without compromising target prediction performance.
翻訳日:2023-08-30 18:59:39 公開日:2023-08-29
# AIを活用したコネクテッド産業に向けて:AGV通信とセンサ計測データセット

Towards an AI-enabled Connected Industry: AGV Communication and Sensor Measurement Datasets ( http://arxiv.org/abs/2301.03364v4 )

ライセンス: Link先を確認
Rodrigo Hernang\'omez, Alexandros Palaios, Cara Watermann, Daniel Sch\"aufele, Philipp Geuer, Rafail Ismayilov, Mohammad Parvini, Anton Krause, Martin Kasparick, Thomas Neugebauer, Oscar D. Ramos-Cantor, Hugues Tchouankem, Jose Leon Calvo, Bo Chen, Gerhard Fettweis, S{\l}awomir Sta\'nczak(参考訳) 本稿では,産業用車対車両(iv2v)と産業用車対インフラプラスセンサ(iv2i+)の2つの無線計測手法と,取得した2つのデータセットに関する詳細な情報について述べる。 iV2Vは、自動誘導車両(AGV)間のサイドリンク通信シナリオをカバーし、iV2I+は、自律的なクリーニングロボットがプライベートなセルネットワークに接続されている産業環境で実行される。 共通計測手法における異なる通信技術の組み合わせは、指紋認証、直視検出、サービス品質の予測、リンク選択といったタスクに機械学習(ML)が活用できる洞察を提供する。 さらに、データセットは公開され、ラベル付けされ、プリフィルタされ、高速にオンボードでき、適用可能である。

This paper presents two wireless measurement campaigns in industrial testbeds: industrial Vehicle-to-vehicle (iV2V) and industrial Vehicle-to-infrastructure plus Sensor (iV2I+), together with detailed information about the two captured datasets. iV2V covers sidelink communication scenarios between Automated Guided Vehicles (AGVs), while iV2I+ is conducted at an industrial setting where an autonomous cleaning robot is connected to a private cellular network. The combination of different communication technologies within a common measurement methodology provides insights that can be exploited by Machine Learning (ML) for tasks such as fingerprinting, line-of-sight detection, prediction of quality of service or link selection. Moreover, the datasets are publicly available, labelled and prefiltered for fast on-boarding and applicability.
翻訳日:2023-08-30 18:59:18 公開日:2023-08-29
# 平面Rydbergブロック構造の機能的完全性

Functional completeness of planar Rydberg blockade structures ( http://arxiv.org/abs/2301.01508v2 )

ライセンス: Link先を確認
Simon Stastny, Hans Peter B\"uchler, Nicolai Lang(参考訳) 局所的制約によって特徴づけられる顕微鏡モデルの低エネルギーセクターとして特徴づけられるヒルベルト空間の構築は、長距離絡みと創発ゲージ場を持つ幅広い量子相の実現に向けた重要なステップである。 基底状態多様体は、積基底において局所的な制約によって特徴づけられる任意のヒルベルト空間を実現することができる。 本稿では,これらの制約を実装するために,既定最小限の論理プリミティブセットをビルディングブロックとして導入する。 例として、曲面コードとフィボナッチ・エノンモデルに基づく文字列-ネットヒルベルト空間の格子実現を示す。 平面Rydberg構造体の幾何学的ロバスト性を高めるための最適化について論じる。

The construction of Hilbert spaces that are characterized by local constraints as the low-energy sectors of microscopic models is an important step towards the realization of a wide range of quantum phases with long-range entanglement and emergent gauge fields. Here we show that planar structures of trapped atoms in the Rydberg blockade regime are functionally complete: Their ground state manifold can realize any Hilbert space that can be characterized by local constraints in the product basis. We introduce a versatile framework, together with a set of provably minimal logic primitives as building blocks, to implement these constraints. As examples, we present lattice realizations of the string-net Hilbert spaces that underlie the surface code and the Fibonacci anyon model. We discuss possible optimizations of planar Rydberg structures to increase their geometrical robustness.
翻訳日:2023-08-30 18:59:02 公開日:2023-08-29
# TeViS:ビデオストーリーボードにテキストシンセサイザーを翻訳

TeViS:Translating Text Synopses to Video Storyboards ( http://arxiv.org/abs/2301.00135v4 )

ライセンス: Link先を確認
Xu Gu, Yuchong Sun, Feiyue Ni, Shizhe Chen, Xihua Wang, Ruihua Song, Boyuan Li, Xiang Cao(参考訳) ビデオストーリーボード(英語: video storyboard)は、テキスト合成におけるキープロットを視覚化するショット・バイ・ショット画像からなる、ビデオ作成のためのロードマップである。 しかし、ビデオストーリーボードを作成することは、ハイレベルテキストと画像の相互関連だけでなく、ショット間の遷移を円滑にするための長期的な推論も要求する。 本稿では,テキストシンプシスを可視化するために,画像の順序列をビデオストーリーボードとして検索することを目的とした,text synopsis to video storyboard (tevis) という新しいタスクを提案する。 公開MovieNetデータセットに基づいてMovieNet-TeViSデータセットを構築する。 関連度と映画的コヒーレンスの両方を考慮して、対応する映画から手動で選択されたキーフレームとペアリングされた10kのテキスト合成を含む。 このタスクをベンチマークするために、強力なCLIPベースのベースラインと新しいVQ-Transを提案する。 VQ-Transはまずテキスト合成と画像を共同埋め込み空間にエンコードし、ベクトル量子化(VQ)を用いて視覚表現を改善する。 そして、検索と順序付けのための視覚特徴列を自動で生成する。 実験の結果,VQ-Transは従来の手法やCLIPベースのベースラインよりも大幅に優れていた。 それでも、将来の有望な仕事の余地を示す人間のパフォーマンスに比べれば、まだ大きなギャップがある。 コードとデータは以下の通りである。 \url{https://ruc-aimind.github.io/projects/TeViS/}

A video storyboard is a roadmap for video creation which consists of shot-by-shot images to visualize key plots in a text synopsis. Creating video storyboards, however, remains challenging which not only requires cross-modal association between high-level texts and images but also demands long-term reasoning to make transitions smooth across shots. In this paper, we propose a new task called Text synopsis to Video Storyboard (TeViS) which aims to retrieve an ordered sequence of images as the video storyboard to visualize the text synopsis. We construct a MovieNet-TeViS dataset based on the public MovieNet dataset. It contains 10K text synopses each paired with keyframes manually selected from corresponding movies by considering both relevance and cinematic coherence. To benchmark the task, we present strong CLIP-based baselines and a novel VQ-Trans. VQ-Trans first encodes text synopsis and images into a joint embedding space and uses vector quantization (VQ) to improve the visual representation. Then, it auto-regressively generates a sequence of visual features for retrieval and ordering. Experimental results demonstrate that VQ-Trans significantly outperforms prior methods and the CLIP-based baselines. Nevertheless, there is still a large gap compared to human performance suggesting room for promising future work. The code and data are available at: \url{https://ruc-aimind.github.io/projects/TeViS/}
翻訳日:2023-08-30 18:58:26 公開日:2023-08-29
# Colab NAS:Occamのカミソリに続く軽量なタスク固有畳み込みニューラルネットワークの実現

Colab NAS: Obtaining lightweight task-specific convolutional neural networks following Occam's razor ( http://arxiv.org/abs/2212.07700v2 )

ライセンス: Link先を確認
Andrea Mattia Garavagno, Daniele Leonardis, Antonio Frisoli(参考訳) 大規模なデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)から移行学習を適用する現在のトレンドは、ターゲットアプリケーションがカスタムで制限された問題であり、ネットワークをスクラッチからトレーニングするのに十分なデータを持つ場合、過度な問題になる可能性がある。 一方、カスタムかつ軽量なCNNのトレーニングには、ハードウェア対応ニューラルネットワークサーチ(HW NAS)のように、オフスクラッチケースやハイエンドリソースといった専門知識が必要であり、非居住型NN開発者による技術へのアクセスを制限する。 そこで我々は,軽量タスク特化CNNを作成するための安価なHW NAS技術であるColabNASを提案する。 Occamのカミソリにインスパイアされた、新しいデリバティブフリー検索戦略により、標準的なTinyMLベンチマークであるVisual Wake Wordデータセット上で、Google ColaboratoryやKaggle Kernelといった無償のオンラインGPUサービスを使用して、わずか3.1GPU時間で、最先端の結果を得ることができる。

The current trend of applying transfer learning from convolutional neural networks (CNNs) trained on large datasets can be an overkill when the target application is a custom and delimited problem, with enough data to train a network from scratch. On the other hand, the training of custom and lighter CNNs requires expertise, in the from-scratch case, and or high-end resources, as in the case of hardware-aware neural architecture search (HW NAS), limiting access to the technology by non-habitual NN developers. For this reason, we present ColabNAS, an affordable HW NAS technique for producing lightweight task-specific CNNs. Its novel derivative-free search strategy, inspired by Occam's razor, allows to obtain state-of-the-art results on the Visual Wake Word dataset, a standard TinyML benchmark, in just 3.1 GPU hours using free online GPU services such as Google Colaboratory and Kaggle Kernel.
翻訳日:2023-08-30 18:58:05 公開日:2023-08-29
# 強調に対するコヒーレンス消滅と最大ロバスト性による文脈性

Contextuality with vanishing coherence and maximal robustness to dephasing ( http://arxiv.org/abs/2212.06856v2 )

ライセンス: Link先を確認
Vinicius P. Rossi, David Schmid, John H. Selby, Ana Bel\'en Sainz(参考訳) 一般化された文脈性は、幅広い通信および情報処理プロトコルのリソースである。 しかし、コンテキスト性はコヒーレンスなしでは不可能であり、ノイズを軽視することで破壊することができる。 本稿では,状態の識別(文脈性が資源である)に関連するシナリオにおいて,雑音を部分的に強調する文脈性の頑健性について検討する。 このシナリオでは、無意味性の失敗を示すのに、消失するコヒーレンス量が十分であることが分かり、任意の量の部分的強調ノイズに対して頑健な文脈性を示す。 これは、文脈性を破壊するのに常に十分である部分偏極ノイズとは対照的である。

Generalized contextuality is a resource for a wide range of communication and information processing protocols. However, contextuality is not possible without coherence, and so can be destroyed by dephasing noise. Here, we explore the robustness of contextuality to partially dephasing noise in a scenario related to state discrimination (for which contextuality is a resource). We find that a vanishing amount of coherence is sufficient to demonstrate the failure of noncontextuality in this scenario, and we give a proof of contextuality that is robust to arbitrary amounts of partially dephasing noise. This is in stark contrast to partially depolarizing noise, which is always sufficient to destroy contextuality.
翻訳日:2023-08-30 18:57:43 公開日:2023-08-29
# 無線システムにおけるディジタル双対制御・監視・データ収集のためのベイズ的フレームワーク

A Bayesian Framework for Digital Twin-Based Control, Monitoring, and Data Collection in Wireless Systems ( http://arxiv.org/abs/2212.01351v3 )

ライセンス: Link先を確認
Clement Ruah, Osvaldo Simeone, Bashir Al-Hashimi(参考訳) 製造部門と航空宇宙部門で一般的に採用されているデジタルツイン(dt)プラットフォームは、ソフトウェアベースの「オープン」通信システムを制御、監視、分析するための有望なパラダイムと見なされている。 特にDTプラットフォームは、通信システムのための人工知能(AI)ソリューションをテストするサンドボックスを提供しており、物理的ツイン(PT)上のフィールドにおけるデータ収集とテストアルゴリズムの必要性を低減させる可能性がある。 DTシステムのデプロイにおける重要な課題は、DTにおける仮想制御の最適化、監視、分析が安全で信頼性の高いものであることを保証することである。 この課題に対処するため,本論文では,PTからDTで利用可能なデータ量と品質の制限に起因するDTにおけるモデル不確実性の定量化と説明を目的とした一般ベイズフレームワークを提案する。 提案フレームワークでは,マルチエージェント強化学習(marl)による制御,異常検出のためのpt監視,予測,データ収集最適化,反事実分析などのコアdt機能を実現するために,通信システムのベイズモデルを構築した。 提案手法の適用例を示すために,共通受信機に通知する複数のセンシングデバイスを包含するケーススタディシステムを具体的に検討する。 実験により,提案したベイズフレームワークの有効性を,標準頻繁なモデルベースソリューションと比較して検証した。

Commonly adopted in the manufacturing and aerospace sectors, digital twin (DT) platforms are increasingly seen as a promising paradigm to control, monitor, and analyze software-based, "open", communication systems. Notably, DT platforms provide a sandbox in which to test artificial intelligence (AI) solutions for communication systems, potentially reducing the need to collect data and test algorithms in the field, i.e., on the physical twin (PT). A key challenge in the deployment of DT systems is to ensure that virtual control optimization, monitoring, and analysis at the DT are safe and reliable, avoiding incorrect decisions caused by "model exploitation". To address this challenge, this paper presents a general Bayesian framework with the aim of quantifying and accounting for model uncertainty at the DT that is caused by limitations in the amount and quality of data available at the DT from the PT. In the proposed framework, the DT builds a Bayesian model of the communication system, which is leveraged to enable core DT functionalities such as control via multi-agent reinforcement learning (MARL), monitoring of the PT for anomaly detection, prediction, data-collection optimization, and counterfactual analysis. To exemplify the application of the proposed framework, we specifically investigate a case-study system encompassing multiple sensing devices that report to a common receiver. Experimental results validate the effectiveness of the proposed Bayesian framework as compared to standard frequentist model-based solutions.
翻訳日:2023-08-30 18:57:34 公開日:2023-08-29
# sample4geo:クロスビュージオローカライズのためのハードネガティブサンプリング

Sample4Geo: Hard Negative Sampling For Cross-View Geo-Localisation ( http://arxiv.org/abs/2303.11851v2 )

ライセンス: Link先を確認
Fabian Deuser, Konrad Habel, Norbert Oswald(参考訳) 画像の位置を正確に決定するためには、追加のモジュール、特定の前処理やズーム戦略が必要になる。 異なるビューは異なるジオメトリを持つので、極性変換のような前処理はそれらをマージするのに役立ちます。 しかし、この結果、歪んだ画像が修正されなければならない。 トレーニングバッチにハードネガティブを追加することで、全体的なパフォーマンスが向上する可能性があるが、ジオローカライゼーションにおけるデフォルトの損失関数では、それらを含めることは困難である。 本稿では,現在の結果に勝る対称情報損失を伴うコントラスト学習に基づく簡易かつ効果的なアーキテクチャを提案する。 我々のフレームワークは、アグリゲーションモジュールの使用の必要性を排除し、さらに事前処理のステップを回避し、未知の領域へのモデルの一般化能力を高める、狭いトレーニングパイプラインで構成されています。 強陰性に対する2種類のサンプリング戦略を導入する。 1つ目は地理的に隣接する場所を明示的に利用し、良い出発点を提供する。 2つ目は、イメージ埋め込み間の視覚的類似性を利用して、強い負のサンプルをマイニングする。 本研究は,CVUSA,CVACT,University-1652,VIGORなどの一般的なクロスビューデータセットにおいて優れた性能を示す。 クロスエリア設定と同領域設定を比較することで,モデルの優れた一般化能力を示す。

Cross-View Geo-Localisation is still a challenging task where additional modules, specific pre-processing or zooming strategies are necessary to determine accurate positions of images. Since different views have different geometries, pre-processing like polar transformation helps to merge them. However, this results in distorted images which then have to be rectified. Adding hard negatives to the training batch could improve the overall performance but with the default loss functions in geo-localisation it is difficult to include them. In this article, we present a simplified but effective architecture based on contrastive learning with symmetric InfoNCE loss that outperforms current state-of-the-art results. Our framework consists of a narrow training pipeline that eliminates the need of using aggregation modules, avoids further pre-processing steps and even increases the generalisation capability of the model to unknown regions. We introduce two types of sampling strategies for hard negatives. The first explicitly exploits geographically neighboring locations to provide a good starting point. The second leverages the visual similarity between the image embeddings in order to mine hard negative samples. Our work shows excellent performance on common cross-view datasets like CVUSA, CVACT, University-1652 and VIGOR. A comparison between cross-area and same-area settings demonstrate the good generalisation capability of our model.
翻訳日:2023-08-30 18:48:59 公開日:2023-08-29
# 連続ビデオ領域適応のための信頼性注意と拡張拡張

Confidence Attention and Generalization Enhanced Distillation for Continuous Video Domain Adaptation ( http://arxiv.org/abs/2303.10452v2 )

ライセンス: Link先を確認
Xiyu Wang, Yuecong Xu, Jianfei Yang, Bihan Wen, Alex C. Kot(参考訳) 連続ビデオドメイン適応(Continuous Video Domain Adaptation, CVDA)とは、ソースデータやターゲットの監視なしに、個々の変更対象ドメインに継続的に適応するために、ソースモデルが必要であるシナリオである。 ロボットビジョンや自動運転といった幅広い応用がある。 CVDAの主な課題は、教師なしのターゲットデータからのみ有用な情報を学ぶことであり、ビデオベースの教師なしドメイン適応手法の能力から外れた、これまで学んだ知識を破滅的に忘れることを避けることである。 そこで本研究では, CVDA の課題に対処するため, 自己知識の強化による信頼度向上ネットワークを提案する。 まず,教師なし領域から学ぶために,擬似ラベルから学ぶことを提案する。 しかし、連続適応では、予測誤差は擬似ラベルに急速に蓄積され、cartはこの問題を2つのキーモジュールで効果的に解決する。 具体的には、モデル予測を用いて洗練された擬似ラベルを生成し、新しい注意学習戦略を展開する。 第2のモジュールは、現在のモデルからの拡張データの出力と、ソースモデルからの弱い拡張データの出力とを比較し、モデルに新しい一貫性の正規化を形成し、予測エラーの蓄積を緩和する。 CARTのCVDA性能は既存の手法よりもかなり優れていた。

Continuous Video Domain Adaptation (CVDA) is a scenario where a source model is required to adapt to a series of individually available changing target domains continuously without source data or target supervision. It has wide applications, such as robotic vision and autonomous driving. The main underlying challenge of CVDA is to learn helpful information only from the unsupervised target data while avoiding forgetting previously learned knowledge catastrophically, which is out of the capability of previous Video-based Unsupervised Domain Adaptation methods. Therefore, we propose a Confidence-Attentive network with geneRalization enhanced self-knowledge disTillation (CART) to address the challenge in CVDA. Firstly, to learn from unsupervised domains, we propose to learn from pseudo labels. However, in continuous adaptation, prediction errors can accumulate rapidly in pseudo labels, and CART effectively tackles this problem with two key modules. Specifically, The first module generates refined pseudo labels using model predictions and deploys a novel attentive learning strategy. The second module compares the outputs of augmented data from the current model to the outputs of weakly augmented data from the source model, forming a novel consistency regularization on the model to alleviate the accumulation of prediction errors. Extensive experiments suggest that the CVDA performance of CART outperforms existing methods by a considerable margin.
翻訳日:2023-08-30 18:48:40 公開日:2023-08-29
# 一般化分割局所深さ

Generalized partitioned local depth ( http://arxiv.org/abs/2303.10167v3 )

ライセンス: Link先を確認
Kenneth S. Berenhaut, John D. Foley and Liangdongsheng Lyu(参考訳) 本稿では,Berenhaut, Moore, Melvinが最近導入した凝集の概念の一般化について述べる。 この定式化は,2つの主要な確率論的概念である局所的妥当性と支援分割を蒸留することにより,局所的深度を分割する手法に基づいて構築された。 以前の結果は新しいコンテキスト内で拡張され、不確実性のあるデータのコミュニティを明らかにするためのアプリケーションの例が含まれている。 この作業は、分割された局所的な深さの基礎に光を当て、元のアイデアを拡張し、不確実で可変的で潜在的に矛盾する情報に対する確率論的考察を可能にする。

In this paper we provide a generalization of the concept of cohesion as introduced recently by Berenhaut, Moore and Melvin [Proceedings of the National Academy of Sciences, 119 (4) (2022)]. The formulation presented builds on the technique of partitioned local depth by distilling two key probabilistic concepts: local relevance and support division. Earlier results are extended within the new context, and examples of applications to revealing communities in data with uncertainty are included. The work sheds light on the foundations of partitioned local depth, and extends the original ideas to enable probabilistic consideration of uncertain, variable and potentially conflicting information.
翻訳日:2023-08-30 18:48:18 公開日:2023-08-29
# 学生のt分布の混合による多目的眼疾患スクリーニング

Reliable Multimodality Eye Disease Screening via Mixture of Student's t Distributions ( http://arxiv.org/abs/2303.09790v4 )

ライセンス: Link先を確認
Ke Zou and Tian Lin and Xuedong Yuan and Haoyu Chen and Xiaojing Shen and Meng Wang and Huazhu Fu(参考訳) 眼科では多彩な眼疾患スクリーニングが重要であり、それぞれのパフォーマンスを補完するために様々な情報源からの情報を統合している。 しかし、既存の手法は各一様性の信頼性を評価するのに弱いため、信頼できないモダリティを直接融合させるとスクリーニングエラーが発生する可能性がある。 そこで本研究では,眼疾患スクリーニングのためのマルチモーダル・ビジュアル・フュージョン・パイプラインであるeyemostを紹介し,ユニモーダリティに対する信頼性を評価,多分散融合の観点からのマルチモーダリティ情報をエレガントに統合する。 具体的には,ユニモダリティの局所的不確かさと融合モダリティのグローバルな不確実性の両方を推定し,信頼性の高い分類結果を得る。 さらに重要なのは、学生の$t$分布の混合案が適応的に異なるモダリティを統合し、モデルに重い尾を持つ特性を付与し、堅牢性と信頼性を高めることである。 パブリックデータセットと社内データセットの両方の実験結果から,我々のモデルは現在の手法よりも信頼性が高いことがわかった。 さらに、EyeMostはデータ品質判別器として機能する可能性があり、多目的眼疾患スクリーニングのための信頼性の高い意思決定を可能にする。

Multimodality eye disease screening is crucial in ophthalmology as it integrates information from diverse sources to complement their respective performances. However, the existing methods are weak in assessing the reliability of each unimodality, and directly fusing an unreliable modality may cause screening errors. To address this issue, we introduce a novel multimodality evidential fusion pipeline for eye disease screening, EyeMoSt, which provides a measure of confidence for unimodality and elegantly integrates the multimodality information from a multi-distribution fusion perspective. Specifically, our model estimates both local uncertainty for unimodality and global uncertainty for the fusion modality to produce reliable classification results. More importantly, the proposed mixture of Student's $t$ distributions adaptively integrates different modalities to endow the model with heavy-tailed properties, increasing robustness and reliability. Our experimental findings on both public and in-house datasets show that our model is more reliable than current methods. Additionally, EyeMost has the potential ability to serve as a data quality discriminator, enabling reliable decision-making for multimodality eye disease screening.
翻訳日:2023-08-30 18:48:07 公開日:2023-08-29
# 深層学習に基づく時系列因果推論による北極増幅の定量化

Quantifying Causes of Arctic Amplification via Deep Learning based Time-series Causal Inference ( http://arxiv.org/abs/2303.07122v4 )

ライセンス: Link先を確認
Sahara Ali, Omar Faruque, Yiyi Huang, Md. Osman Gani, Aneesh Subramanian, Nicole-Jienne Shchlegel, Jianwu Wang(参考訳) 北極の温暖化、または北極の増幅は、いくつかの大気と海洋のドライバーによって導かれる。 しかし、その根底にある熱力学的原因の詳細はまだ不明である。 固定処理効果戦略を用いた海氷融解に対する大気プロセスの因果効果の推算は非現実的な反事実推定につながる。 このようなモデルは、時間的な混乱によってバイアスになりがちである。 さらに、地球科学データの複雑な非線形性は、既存の限界構造技術を用いて因果推論を行うことができない。 これらの課題に取り組むために,反復型ニューラルネットワークと新しい確率的バランス手法を用いて,連続処理中の因果関係を推測する時系列因果推論モデルtcinetを提案する。 合成および観測データに関する実験を通じて、我々の研究は北極海氷融解の原因の定量化能力を大幅に向上し、観測地球科学における因果推論の経路をさらに深めることができることを示す。

The warming of the Arctic, also known as Arctic amplification, is led by several atmospheric and oceanic drivers. However, the details of its underlying thermodynamic causes are still unknown. Inferring the causal effects of atmospheric processes on sea ice melt using fixed treatment effect strategies leads to unrealistic counterfactual estimations. Such models are also prone to bias due to time-varying confoundedness. Further, the complex non-linearity in Earth science data makes it infeasible to perform causal inference using existing marginal structural techniques. In order to tackle these challenges, we propose TCINet - time-series causal inference model to infer causation under continuous treatment using recurrent neural networks and a novel probabilistic balancing technique. Through experiments on synthetic and observational data, we show how our research can substantially improve the ability to quantify leading causes of Arctic sea ice melt, further paving paths for causal inference in observational Earth science.
翻訳日:2023-08-30 18:47:49 公開日:2023-08-29
# diffusion depth: diffusion denoising approachによる単眼深度推定

DiffusionDepth: Diffusion Denoising Approach for Monocular Depth Estimation ( http://arxiv.org/abs/2303.05021v4 )

ライセンス: Link先を確認
Yiqun Duan, Xianda Guo, Zheng Zhu(参考訳) 単眼深度推定は1枚の2次元画像から画素幅の深度を予測する難しい課題である。 現在の手法は通常、この問題を回帰または分類タスクとしてモデル化する。 単分子深度推定をデノナイズ拡散過程として再構成する新しい手法であるDiffusionDepthを提案する。 モノラルな視覚条件の誘導でランダムな深度分布を深度マップに"デノザイズ"する反復的認知過程を学習する。 この処理は、専用深度エンコーダおよびデコーダによって符号化された潜時空間で実行される。 基底真理(GT)の深さを拡散する代わりに、モデルは自分自身の洗練された深さをランダムな深さ分布に拡散する過程を逆転させることを学ぶ。 この自己拡散の定式化は、GT深度シナリオに生成モデルを適用することの難しさを克服する。 提案手法は,高精度かつ高精度な深度マップを生成するのに優れている深さ推定ステップを段階的に精錬することで,この課題を活用できる。 KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。

Monocular depth estimation is a challenging task that predicts the pixel-wise depth from a single 2D image. Current methods typically model this problem as a regression or classification task. We propose DiffusionDepth, a new approach that reformulates monocular depth estimation as a denoising diffusion process. It learns an iterative denoising process to `denoise' random depth distribution into a depth map with the guidance of monocular visual conditions. The process is performed in the latent space encoded by a dedicated depth encoder and decoder. Instead of diffusing ground truth (GT) depth, the model learns to reverse the process of diffusing the refined depth of itself into random depth distribution. This self-diffusion formulation overcomes the difficulty of applying generative models to sparse GT depth scenarios. The proposed approach benefits this task by refining depth estimation step by step, which is superior for generating accurate and highly detailed depth maps. Experimental results on KITTI and NYU-Depth-V2 datasets suggest that a simple yet efficient diffusion approach could reach state-of-the-art performance in both indoor and outdoor scenarios with acceptable inference time.
翻訳日:2023-08-30 18:47:32 公開日:2023-08-29
# 複雑なビーム系における前方・逆問題に対する物理情報ニューラルネットワーク

Physics-informed neural networks for solving forward and inverse problems in complex beam systems ( http://arxiv.org/abs/2303.01055v2 )

ライセンス: Link先を確認
Taniya Kapoor, Hongrui Wang, Alfredo Nunez, Rolf Dollevoet(参考訳) 本稿では,2重ビームをウィンクラー基礎と接続するオイラー・ベルヌーリ理論とティモシェンコ理論に基づく1重および2重ビームからなる複雑な構造系をシミュレートする,物理インフォームニューラルネットワーク(pinns)を用いた新しい枠組みを提案する。 特に、オイラー・ベルヌーリ方程式とティモシェンコ偏微分方程式 (pdes) の前方および逆問題は、物理学的に変形した損失関数を持つ非次元方程式を用いて解く。 高次複素ビームpdesを効率的に解いて、横変位と断面回転を1e〜35%未満の誤差で計算する。 さらに、ノイズデータであっても、空間領域全体における未知の次元のないモデルパラメータと適用力を決定するために、逆問題も頑健に解決される。 その結果,PINNは,ビームシステムを含む工学構造や機械の問題を解決する上で有望な戦略であることが示唆された。

This paper proposes a new framework using physics-informed neural networks (PINNs) to simulate complex structural systems that consist of single and double beams based on Euler-Bernoulli and Timoshenko theory, where the double beams are connected with a Winkler foundation. In particular, forward and inverse problems for the Euler-Bernoulli and Timoshenko partial differential equations (PDEs) are solved using nondimensional equations with the physics-informed loss function. Higher-order complex beam PDEs are efficiently solved for forward problems to compute the transverse displacements and cross-sectional rotations with less than 1e-3 percent error. Furthermore, inverse problems are robustly solved to determine the unknown dimensionless model parameters and applied force in the entire space-time domain, even in the case of noisy data. The results suggest that PINNs are a promising strategy for solving problems in engineering structures and machines involving beam systems.
翻訳日:2023-08-30 18:47:14 公開日:2023-08-29
# 単一quditによるデータ再アップロード

Data re-uploading with a single qudit ( http://arxiv.org/abs/2302.13932v2 )

ライセンス: Link先を確認
Noah L. Wach and Manuel S. Rudolph and Fred Jendrzejewski and Sebastian Schmitt(参考訳) 量子二レベルシステム、すなわち量子ビットは、長年にわたって提案されてきたほとんどの量子機械学習アプローチの基礎となっている。 しかし、高次元量子系は有望な代替であり、理論と実践においてますます研究されている。 本稿では,量子機械学習におけるマルチレベル量子システム,いわゆるquditsの機能について検討する。 本研究では,データ再ロード手法を用いて分類と回帰問題を定式化し,単一quditで動作する量子回路がmnist桁認識問題などの分類問題の高度に非線形な決定境界を学習できることを実証する。 本研究では,ラベルを表すqudit状態とトレーニングデータセットにおけるラベル構造との関係を強く依存することを示す。 このようなバイアスは、ラベル、qudit状態、およびデータをエンコードするオペレータが整列している場合において、qubitベースの回路よりも大幅にパフォーマンスが向上する可能性がある。 さらに,基本演算子の選択の影響を解明し,優れた性能を実現するためにはスクイーズ演算子が必要であることを示す。 また、各処理層における回路生成演算子の数と、与えられた精度を達成するために必要な層数との間には、quditシステムのトレードオフが存在することを示す。 最後に,数値計算による分類結果と,実際のIBM量子ハードウェア上での等価実装を比較した。 本研究の成果は,quditベースのアルゴリズムが魅力的な特徴を示し,量子機械学習アプローチの計算能力を高めるための有望な経路である,という考えを支持する。

Quantum two-level systems, i.e. qubits, form the basis for most quantum machine learning approaches that have been proposed throughout the years. However, higher dimensional quantum systems constitute a promising alternative and are increasingly explored in theory and practice. Here, we explore the capabilities of multi-level quantum systems, so-called qudits, for their use in a quantum machine learning context. We formulate classification and regression problems with the data re-uploading approach and demonstrate that a quantum circuit operating on a single qudit is able to successfully learn highly non-linear decision boundaries of classification problems such as the MNIST digit recognition problem. We demonstrate that the performance strongly depends on the relation between the qudit states representing the labels and the structure of labels in the training data set. Such a bias can lead to substantial performance improvement over qubit-based circuits in cases where the labels, the qudit states and the operators employed to encode the data are well-aligned. Furthermore, we elucidate the influence of the choice of the elementary operators and show that a squeezing operator is necessary to achieve good performances. We also show that there exists a trade-off for qudit systems between the number of circuit-generating operators in each processing layer and the total number of layers needed to achieve a given accuracy. Finally, we compare classification results from numerically exact simulations and their equivalent implementation on actual IBM quantum hardware. The findings of our work support the notion that qudit-based algorithms exhibit attractive traits and constitute a promising route to increasing the computational capabilities of quantum machine learning approaches.
翻訳日:2023-08-30 18:46:54 公開日:2023-08-29
# ChatGPTのロバスト性について:敵対的・アウト・オブ・ディストリビューション的視点

On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective ( http://arxiv.org/abs/2302.12095v5 )

ライセンス: Link先を確認
Jindong Wang, Xixu Hu, Wenxin Hou, Hao Chen, Runkai Zheng, Yidong Wang, Linyi Yang, Haojun Huang, Wei Ye, Xiubo Geng, Binxin Jiao, Yue Zhang, Xing Xie(参考訳) ChatGPTはOpenAIが最近リリースしたチャットボットサービスで、ここ数ヶ月で注目を集めている。 ChatGPTの様々な側面の評価は行われているが、その堅牢性、すなわち予期せぬ入力のパフォーマンスは、まだ一般には明らかではない。 ロバストネスは、特に安全クリティカルなアプリケーションにおいて、責任を負うAIにおいて特に懸念される。 本稿では,ChatGPTの強靭性について,敵対的かつアウト・オブ・ディストリビューション(OOD)の観点から徹底的に評価する。 そこで我々は,AdvGLUE と ANLI ベンチマークを用いて,敵対的堅牢性の評価を行い,Flipkart レビューと DDXPlus による OOD 評価を行った。 いくつかの一般的な基礎モデルをベースラインとして選択する。 その結果,ChatGPTは,ほとんどの対人・OOD分類・翻訳タスクにおいて一貫した優位性を示した。 しかし、絶対的な性能は完璧とは程遠いため、敵とOODの堅牢性は基礎モデルにとって重要な脅威である。 さらに,チャットgptは対話関連テキストの理解において驚くべき性能を示し,決定的な回答ではなく,医学的課題に対して非公式な提案を行う傾向がみられた。 最後に,研究の方向性について詳細な議論を行う。

ChatGPT is a recent chatbot service released by OpenAI and is receiving increasing attention over the past few months. While evaluations of various aspects of ChatGPT have been done, its robustness, i.e., the performance to unexpected inputs, is still unclear to the public. Robustness is of particular concern in responsible AI, especially for safety-critical applications. In this paper, we conduct a thorough evaluation of the robustness of ChatGPT from the adversarial and out-of-distribution (OOD) perspective. To do so, we employ the AdvGLUE and ANLI benchmarks to assess adversarial robustness and the Flipkart review and DDXPlus medical diagnosis datasets for OOD evaluation. We select several popular foundation models as baselines. Results show that ChatGPT shows consistent advantages on most adversarial and OOD classification and translation tasks. However, the absolute performance is far from perfection, which suggests that adversarial and OOD robustness remains a significant threat to foundation models. Moreover, ChatGPT shows astounding performance in understanding dialogue-related texts and we find that it tends to provide informal suggestions for medical tasks instead of definitive answers. Finally, we present in-depth discussions of possible research directions.
翻訳日:2023-08-30 18:46:31 公開日:2023-08-29
# 再帰的分離による信頼できない部分ラベル学習

Unreliable Partial Label Learning with Recursive Separation ( http://arxiv.org/abs/2302.09891v2 )

ライセンス: Link先を確認
Yu Shi, Ning Xu, Hua Yuan and Xin Geng(参考訳) 部分ラベル学習(Partial label learning, PLL)は、典型的な弱教師付き学習問題であり、各インスタンスが候補ラベルセットと関連付けられている。 しかし、実世界のアプリケーションにおける候補ラベルセットの信頼性はアノテーションによって保証されないため、基底ラベルが常に候補ラベルセットに含まれるという仮定は現実的ではない。 したがって、Unreliable partial Label Learning (UPLL) と呼ばれる一般化されたPLLが提案され、真のラベルが候補ラベルセットに含まれない可能性がある。 信頼性の低いラベル付けによって生じる課題のため、以前のPLLメソッドはUPLLに適用した場合、パフォーマンスが著しく低下する。 この問題に対処するため,unreliable partial Label Learning with Recursive separation (UPLLRS) という2段階のフレームワークを提案する。 最初の段階では、訓練セットを信頼できないサブセットと信頼できないサブセットに分離するために、自己適応的再帰的分離戦略を提案する。 第2段階では、信頼性サブセットの基幹トラックラベルを段階的に識別するための曖昧化戦略が採用されている。 同時に、信頼できないサブセットから貴重な情報を抽出する半教師付き学習手法が採用される。 本手法は,実験結果,特に信頼性の低い状況において,最先端の性能を示す。 コードと補足資料はhttps://github.com/dhiyu/UPLLRS.comで入手できる。

Partial label learning (PLL) is a typical weakly supervised learning problem in which each instance is associated with a candidate label set, and among which only one is true. However, the assumption that the ground-truth label is always among the candidate label set would be unrealistic, as the reliability of the candidate label sets in real-world applications cannot be guaranteed by annotators. Therefore, a generalized PLL named Unreliable Partial Label Learning (UPLL) is proposed, in which the true label may not be in the candidate label set. Due to the challenges posed by unreliable labeling, previous PLL methods will experience a marked decline in performance when applied to UPLL. To address the issue, we propose a two-stage framework named Unreliable Partial Label Learning with Recursive Separation (UPLLRS). In the first stage, the self-adaptive recursive separation strategy is proposed to separate the training set into a reliable subset and an unreliable subset. In the second stage, a disambiguation strategy is employed to progressively identify the ground-truth labels in the reliable subset. Simultaneously, semi-supervised learning methods are adopted to extract valuable information from the unreliable subset. Our method demonstrates state-of-the-art performance as evidenced by experimental results, particularly in situations of high unreliability. Code and supplementary materials are available at https://github.com/dhiyu/UPLLRS.
翻訳日:2023-08-30 18:46:10 公開日:2023-08-29
# 関連する静的解析製品によるマイナショットプロンプトの改善

Improving Few-Shot Prompts with Relevant Static Analysis Products ( http://arxiv.org/abs/2304.06815v2 )

ライセンス: Link先を確認
Toufique Ahmed, Kunal Suresh Pai, Premkumar Devanbu, Earl T. Barr(参考訳) LLM(Large Language Models)は、プロンプトエンジニアリングによって「プログラムされた」新しい計算エンジンのクラスである。 私たちはまだ、開発者を支援するためにこれらのLLMを"プログラム"する方法を学んでいます。 私たちは、開発者がコーディングタスクに取り組む際に、意識的に無意識に意味的な事実を念頭に置いている傾向があるという直感から始めます。 たいていの場合、クイックリードから生じる浅く単純な事実です。 関数の場合、ファクトの例にはパラメータとローカル変数名、戻り式、単純な事前条件と後条件、基本的な制御とデータフローなどが含まれる。 トランスフォーマースタイルのLLMの強力な多層アーキテクチャは、本質的にこのような単純なレベルの「コード解析」を行い、コード処理中に暗黙的にそのような情報を抽出することができると仮定するかもしれない。 もしそうでなければ、明示的にこの情報を追加することは有効だろうか? ここでのゴールは、コード要約タスクを使用して、意味的事実を明確化してLLMのプロンプトを自動的に増強するかどうかを評価することである。 以前の研究によると、コード要約におけるllmのパフォーマンスは、同一プロジェクトか、情報検索手法(bm25など)によって得られたサンプルのサンプルから得られる。 コード要約におけるLLMパフォーマンスは、翻訳やテキスト要約といった自然言語タスクではまだパフォーマンスが遅れています。 意味的な事実を追加することは実際に役立ちます。 このアプローチは、2つの異なる大きな言語モデルを含む、事前作業によって提案されるいくつかの異なる設定のパフォーマンスを改善する。 ほとんどの場合、改善は2 bleuに近づいたり、2 bleuを超えている。 挑戦的なcodesearchnetデータセットのphp言語では、この拡張によって、実際には 30 bleu を超えるパフォーマンスが得られる。

Large Language Models (LLM) are a new class of computation engines, "programmed" via prompt engineering. We are still learning how to best "program" these LLMs to help developers. We start with the intuition that developers tend to consciously and unconsciously have a collection of semantics facts in mind when working on coding tasks. Mostly these are shallow, simple facts arising from a quick read. For a function, examples of facts might include parameter and local variable names, return expressions, simple pre- and post-conditions, and basic control and data flow, etc. One might assume that the powerful multi-layer architecture of transformer-style LLMs makes them inherently capable of doing this simple level of "code analysis" and extracting such information, implicitly, while processing code: but are they, really? If they aren't, could explicitly adding this information help? Our goal here is to investigate this question, using the code summarization task and evaluate whether automatically augmenting an LLM's prompt with semantic facts explicitly, actually helps. Prior work shows that LLM performance on code summarization benefits from few-shot samples drawn either from the same-project or from examples found via information retrieval methods (such as BM25). While summarization performance has steadily increased since the early days, there is still room for improvement: LLM performance on code summarization still lags its performance on natural-language tasks like translation and text summarization. We find that adding semantic facts actually does help! This approach improves performance in several different settings suggested by prior work, including for two different Large Language Models. In most cases, improvement nears or exceeds 2 BLEU; for the PHP language in the challenging CodeSearchNet dataset, this augmentation actually yields performance surpassing 30 BLEU.
翻訳日:2023-08-30 18:41:16 公開日:2023-08-29
# カテゴリー学習におけるスイム変圧器からの頭部温存自己注意マップによる頭蓋内出血分画の監視

Weakly Supervised Intracranial Hemorrhage Segmentation using Head-Wise Gradient-Infused Self-Attention Maps from a Swin Transformer in Categorical Learning ( http://arxiv.org/abs/2304.04902v2 )

ライセンス: Link先を確認
Amirhossein Rasoulian, Soorena Salari, Yiming Xiao(参考訳) 頭蓋内出血(ICH、Intracranial hemorrhage)は、有効治療のためのタイムリーかつ正確な診断と患者の生存率の向上を必要とする救命救急疾患である。 深層学習技術は医用画像解析と処理の先駆的アプローチとして現れてきたが、最も一般的に使われているのは、特にピクセル/ボクセル画像のセグメンテーションにおいて、取得にコストがかかるような、大きな高品質のアノテートデータセットである。 この課題に対処し、ICH治療決定を容易にするために、分類ラベルを用いたICH分類タスクで訓練されたSwin変換器を利用した、新しいICHセグメンテーション法を導入する。 本手法は,頭部勾配注入自己アテンションマップの階層的組み合わせを利用して,正確な画像分割を生成する。 さらに,異なる学習戦略の探索的研究を行い,バイナリICH分類が完全なICHサブタイピングよりも自己注意マップに肯定的な影響を及ぼすことを示した。 平均 dice スコア 0.44 で, 一般的な u-net モデルや swin-unetr モデルと同等の ich セグメンテーション性能を達成し, gradcam を用いた同様の弱教師付きアプローチを上回り, 医療画像セグメンテーション課題に対する提案手法の優れた可能性を示した。 私たちのコードはhttps://github.com/HealthX-Lab/HGI-SAMで公開されています。

Intracranial hemorrhage (ICH) is a life-threatening medical emergency that requires timely and accurate diagnosis for effective treatment and improved patient survival rates. While deep learning techniques have emerged as the leading approach for medical image analysis and processing, the most commonly employed supervised learning often requires large, high-quality annotated datasets that can be costly to obtain, particularly for pixel/voxel-wise image segmentation. To address this challenge and facilitate ICH treatment decisions, we introduce a novel weakly supervised method for ICH segmentation, utilizing a Swin transformer trained on an ICH classification task with categorical labels. Our approach leverages a hierarchical combination of head-wise gradient-infused self-attention maps to generate accurate image segmentation. Additionally, we conducted an exploratory study on different learning strategies and showed that binary ICH classification has a more positive impact on self-attention maps compared to full ICH subtyping. With a mean Dice score of 0.44, our technique achieved similar ICH segmentation performance as the popular U-Net and Swin-UNETR models with full supervision and outperformed a similar weakly supervised approach using GradCAM, demonstrating the excellent potential of the proposed framework in challenging medical image segmentation tasks. Our code is available at https://github.com/HealthX-Lab/HGI-SAM.
翻訳日:2023-08-30 18:40:44 公開日:2023-08-29
# 網膜異常同定のための不確かさに着想を得たオープンセット学習

Uncertainty-inspired Open Set Learning for Retinal Anomaly Identification ( http://arxiv.org/abs/2304.03981v3 )

ライセンス: Link先を確認
Meng Wang, Tian Lin, Lianyu Wang, Aidi Lin, Ke Zou, Xinxing Xu, Yi Zhou, Yuanyuan Peng, Qingquan Meng, Yiming Qian, Guoyao Deng, Zhiqun Wu, Junhong Chen, Jianhong Lin, Mingzhi Zhang, Weifang Zhu, Changqing Zhang, Daoqiang Zhang, Rick Siow Mong Goh, Yong Liu, Chi Pui Pang, Xinjian Chen, Haoyu Chen, Huazhu Fu(参考訳) トレーニング中に見つからないクラスからのサンプルを認識できないことは、網膜異常の認識と分類のための現実世界の実装における人工知能の大きな限界である。 不確実性に触発されたオープンセット(uios)モデルを構築し,網膜9条件の眼底画像を用いてトレーニングを行った。 各カテゴリの確率を評価するだけでなく、uiosは自信を表現するために不確実性スコアも計算した。 しきい値戦略を持つUIOSモデルは、標準AIモデルによるF1スコア92.20%、80.69%、64.74%と比較して、内部テストセットで99.55%、97.01%、91.91%、外部ターゲットカテゴリ(TC)-JSIECデータセットでそれぞれF1スコアを達成した。 さらにUIOSは、高い不確実性スコアを正しく予測し、非ターゲットの網膜疾患、低品質の眼底画像、および非基本画像のデータセットを手動でチェックする必要がある。 UIOSは網膜異常のリアルタイムスクリーニングのための堅牢な方法を提供する。

Failure to recognize samples from the classes unseen during training is a major limitation of artificial intelligence in the real-world implementation for recognition and classification of retinal anomalies. We established an uncertainty-inspired open-set (UIOS) model, which was trained with fundus images of 9 retinal conditions. Besides assessing the probability of each category, UIOS also calculated an uncertainty score to express its confidence. Our UIOS model with thresholding strategy achieved an F1 score of 99.55%, 97.01% and 91.91% for the internal testing set, external target categories (TC)-JSIEC dataset and TC-unseen testing set, respectively, compared to the F1 score of 92.20%, 80.69% and 64.74% by the standard AI model. Furthermore, UIOS correctly predicted high uncertainty scores, which would prompt the need for a manual check in the datasets of non-target categories retinal diseases, low-quality fundus images, and non-fundus images. UIOS provides a robust method for real-world screening of retinal anomalies.
翻訳日:2023-08-30 18:40:14 公開日:2023-08-29
# 超周期的な測定システムと文脈のパターン

Hypercyclic systems of measurements and patterns of contextuality ( http://arxiv.org/abs/2304.01155v4 )

ライセンス: Link先を確認
Victor H. Cervantes and Ehtibar N. Dzhafarov(参考訳) 文脈性の概念の基本的特性に基づいて選択され、外乱の有無にかかわらず任意の測定系に適用できる4つの文脈性尺度を考察する。 測定の系が変化するにつれて、どちらかが変化し、もう一方が一定である。 これは文脈性の異なる側面を測定することを意味しており、ある特定の意味での文脈性の尺度を1つだけ選ぶのではなく、それら全てを使って文脈性のパターンによって文脈システムを特徴付けることができると提案した。 しかし、文脈性のパターンを研究するには、その便利なパラメトリゼーションを必要とする様々な測定システムの体系的な方法が必要である。 我々は、量子力学の基礎において主要な役割を担った環状系のクラス内の便利なパラメトリゼーションを持つ。 しかし、このクラスでは文脈性の4つの尺度が互いに比例していることが示されているため、文脈性のパターンを研究するのに使用できない。 本稿では,超循環型測定システムについて紹介する。 便利なパラメトリゼーションを保ちながら循環系を一般化する。 このクラスのシステムでは、大規模システムと同様、文脈性の尺度の2つが互いに機能していることが示される。 つまり、ハイパーサイクリックシステムは文脈性のパターンを研究するのに使うことができる。

We consider four measures of contextuality, chosen for being based on the fundamental properties of the notion of contextuality, and for being applicable to arbitrary systems of measurements, both without and with disturbance. We have previously shown that no two of them are functions of each other: as systems of measurements change, either of them can change, while the other remains constant. This means that they measure different aspects of contextuality, and we proposed that rather than picking just one measure of contextuality in one specific sense, one could use all of them to characterize a contextual system by its pattern of contextuality. To study patterns of contextuality, however, one needs a systematic way of varying systems of measurements, which requires their convenient parametrization. We have convenient parametrization within the class of cyclic systems that have played a dominant role in the foundations of quantum mechanics. However, they cannot be used to study patterns of contextuality, because within this class the four measures of contextuality have been shown to be proportional to each other. In this concept paper, we introduce hypercyclic systems of measurements. They generalize cyclic systems while preserving convenient parametrization. We show that within this class of systems, the same as for systems at large, no two of the measures of contextuality are functions of each other. This means that hypercyclic systems can be used to study patterns of contextuality.
翻訳日:2023-08-30 18:39:34 公開日:2023-08-29
# ライン上のコイン付き量子ウォーク:障害、絡み合い、局在

Coined quantum walks on the line: Disorder, entanglement, and localization ( http://arxiv.org/abs/2303.15978v2 )

ライセンス: Link先を確認
Louie Hong Yao and Sascha Wald(参考訳) 量子ウォークの障害は一般に局所化につながる。 量子ウォークの絡み合い特性に及ぼす局所化の影響について検討する。 具体的には、量子ウォークをライン上で考慮し、コイン操作におけるクエンチド障害の影響を探究する。 障害の選択が歩行者を局所化することを確認した後、この局所化が量子ウォークの特性に与える影響について検討した。 歩行の混合特性は,短時間で改良され,非自明に変化することが判明した。 量子状態の性質とコイン・ウォーカーの絡み合いに対するコイン・障害の影響に特に焦点が当てられている。 歩行確率分布が不規則な場合に近い場合であっても、障害は量子状態を著しく変化させる。 一般論として,コイン・ウォーカーの絡み合いは減少し,その局在性は,量子ウォークの絡み合いエントロピーと絡み合いネガティビティに異なる痕跡を残している。

Disorder in coined quantum walks generally leads to localization. We investigate the influence of the localization on the entanglement properties of coined quantum walks. Specifically, we consider quantum walks on the line and explore the effects of quenched disorder in the coin operations. After confirming that our choice of disorder localizes the walker, we study how the localization affects the properties of the coined quantum walk. We find that the mixing properties of the walk are altered nontrivially with mixing being improved at short time scales. Special focus is given to the influence of coin disorder on the properties of the quantum state and the coin-walker entanglement. We find that disorder alters the quantum state significantly even when the walker probability distribution is still close to the nondisordered case. We observe that, generically, coin disorder decreases the coin-walker entanglement and that the localization leaves distinct traces in the entanglement entropy and the entanglement negativity of the coined quantum walk.
翻訳日:2023-08-30 18:38:52 公開日:2023-08-29
# 教師なし多層無線指紋認証のためのwyner変分オートエンコーダ

The Wyner Variational Autoencoder for Unsupervised Multi-Layer Wireless Fingerprinting ( http://arxiv.org/abs/2303.15860v2 )

ライセンス: Link先を確認
Teng-Hui Huang, Thilini Dahanayaka, Kanchana Thilakarathna, Philip H.W. Leong and Hesham El Gamal(参考訳) 無線指紋認証は、ハードウェアの欠陥と無線チャネルのバリエーションをシグネチャとして活用するデバイス識別手法である。 物理層特性以外にも、最近の研究では、ペイロードの復号化なしにパケット長などのネットワークトラフィックを通じてユーザ動作を識別できることが示されている。 これらの結果に触発された多層指紋認証フレームワークは,複数層署名を共同で考慮し,識別性能を向上させる。 従来の研究とは対照的に、近年のマルチビュー機械学習パラダイム、すなわち複数のフォームを持つデータを活用することで、我々の手法は、監視なしで多層機能間で共有されるデバイス情報をクラスタ化することができる。 我々の情報理論アプローチは、直接的な導出を伴う教師付きおよび半教師付き設定にまで拡張することができる。 定式化問題を解く際に,効率的な最適化のために変分推論を用いた厳密なサロゲート境界を求める。 共有デバイス情報を抽出する際,Wyner共通情報法に基づくアルゴリズムを開発し,既存の手法と比較して計算複雑性の低減を図った。 このアルゴリズムは指数関数族に属するデータ分布に適用することができる。 実世界のビデオトラフィックと物理層特性をシミュレートした合成データセットによるアルゴリズムの評価を行った。 実験の結果,提案手法は教師なし設定と教師なし設定の両方において,最先端のベースラインよりも優れていた。

Wireless fingerprinting refers to a device identification method leveraging hardware imperfections and wireless channel variations as signatures. Beyond physical layer characteristics, recent studies demonstrated that user behaviors could be identified through network traffic, e.g., packet length, without decryption of the payload. Inspired by these results, we propose a multi-layer fingerprinting framework that jointly considers the multi-layer signatures for improved identification performance. In contrast to previous works, by leveraging the recent multi-view machine learning paradigm, i.e., data with multiple forms, our method can cluster the device information shared among the multi-layer features without supervision. Our information-theoretic approach can be extended to supervised and semi-supervised settings with straightforward derivations. In solving the formulated problem, we obtain a tight surrogate bound using variational inference for efficient optimization. In extracting the shared device information, we develop an algorithm based on the Wyner common information method, enjoying reduced computation complexity as compared to existing approaches. The algorithm can be applied to data distributions belonging to the exponential family class. Empirically, we evaluate the algorithm in a synthetic dataset with real-world video traffic and simulated physical layer characteristics. Our empirical results show that the proposed method outperforms the state-of-the-art baselines in both supervised and unsupervised settings.
翻訳日:2023-08-30 18:38:36 公開日:2023-08-29
# 動的量子熱エンジンの効率と熱力学的不確かさの関係

Efficiency and thermodynamic uncertainty relations of a dynamical quantum heat engine ( http://arxiv.org/abs/2303.15773v2 )

ライセンス: Link先を確認
Luca Razzoli, Fabio Cavaliere, Matteo Carrega, Maura Sassetti, Giuliano Benenti(参考訳) 高性能量子熱機械の探求において、最適熱力学効率を求めることは問題の一部である。 実際、量子デバイスのレベルでは、変動は非常に関連性が高く、考慮する必要がある。 本稿では,量子高調波発振器を作動媒とする量子熱機械の熱力学的不確実性関係について検討する。 計算機が量子エンジンまたは冷凍機として動作し、小型化と小型化の両面からパラメータを見つけることができることを示す。

In the quest for high-performance quantum thermal machines, looking for an optimal thermodynamic efficiency is only part of the issue. Indeed, at the level of quantum devices, fluctuations become extremely relevant and need to be taken into account. In this paper we study the thermodynamic uncertainty relations for a quantum thermal machine with a quantum harmonic oscillator as a working medium, connected to two thermal baths, one of which is dynamically coupled. We show that parameters can be found such that the machine operates both as a quantum engine or refrigerator, with both sizeable efficiency and small fluctuations.
翻訳日:2023-08-30 18:38:13 公開日:2023-08-29
# sat2密度:衛星画像対からの忠実密度学習

Sat2Density: Faithful Density Learning from Satellite-Ground Image Pairs ( http://arxiv.org/abs/2303.14672v2 )

ライセンス: Link先を確認
Ming Qian, Jincheng Xiong, Gui-Song Xia, Nan Xue(参考訳) 本稿では,衛星画像対を用いた衛星画像の正確な3次元形状表現を開発することを目的とする。 本研究は,衛星画像からの3次元地上視合成の課題に焦点を当てる。 ボリュームトリクスのニューラルレンダリングで用いられる密度場表現から着想を得て,sat2densityと呼ばれる新しいアプローチを提案する。 本手法は,3次元シーンの忠実な密度場を幾何学的に学習するために,地上パノラマの特性を利用した。 トレーニング中に余分な深度情報を必要とする他の方法とは異なり、Sat2Densityは深度を監督せずに密度表現によって正確で忠実な3D形状を自動学習することができる。 この進歩は、地上視パノラマ合成タスクを大幅に改善する。 さらに,3次元空間における衛星画像と地上画像の関係を理解するための新しい幾何学的視点を提案する。

This paper aims to develop an accurate 3D geometry representation of satellite images using satellite-ground image pairs. Our focus is on the challenging problem of 3D-aware ground-views synthesis from a satellite image. We draw inspiration from the density field representation used in volumetric neural rendering and propose a new approach, called Sat2Density. Our method utilizes the properties of ground-view panoramas for the sky and non-sky regions to learn faithful density fields of 3D scenes in a geometric perspective. Unlike other methods that require extra depth information during training, our Sat2Density can automatically learn accurate and faithful 3D geometry via density representation without depth supervision. This advancement significantly improves the ground-view panorama synthesis task. Additionally, our study provides a new geometric perspective to understand the relationship between satellite and ground-view images in 3D space.
翻訳日:2023-08-30 18:37:38 公開日:2023-08-29
# 2次元相互作用フェルミオン系の絡み合いエントロピーの安定計算

Stable computation of entanglement entropy for 2D interacting fermion systems ( http://arxiv.org/abs/2303.14326v3 )

ライセンス: Link先を確認
Gaopei Pan, Yuan Da Liao, Weilun Jiang, Jonathan D'Emidio, Yang Qi and Zi Yang Meng(参考訳) 絡み合うエントロピー (ee) に隠された情報、例えば、$n$-th order r\'enyi ee、すなわち $s^{a}_n=\frac{1}{1-n}\ln \tr (\rho_a^n)$ where $\rho_a=\mathrm{tr}_{\overline{a}}\rho$ が還元密度行列であり、自発的対称性の破れ相、量子臨界点から位相的に順序付けられた状態まで、2次元相互作用するフェルミオン系の組織化原理を推測するのに使うことができることは疑いない。 しかし、これらの基本的特徴(通常、普遍的な有限サイズのスケーリング行動という形で)を観測するために必要な精度でEEが実際に得られるかどうかは、まだ明らかではない。ハバードモデルである原型的な2次元相互作用フェルミオンモデル(Hubbard model)が既存のすべての数値アルゴリズムに対しても、EEの計算は、普遍的なスケーリング体制にアクセス可能な信頼性のあるデータで成功していない。 本稿では,過去数十年の量子モンテカルロシミュレーションにおけるee計算におけるこれらの試みが失敗に終わった理由について,さらに重要なこととして,インクリメンタルアルゴリズムによる概念的・計算的障壁を克服し,2次元相互作用型フェルミオン系におけるeeの安定な計算を実現し,普遍的なスケーリング情報を抽出する方法を示す。 実験2次元相互作用フェルミオン系との関係について述べる。

There is no doubt that the information hidden in entanglement entropy (EE), for example, the $n$-th order R\'enyi EE, i.e., $S^{A}_n=\frac{1}{1-n}\ln \Tr (\rho_A^n)$ where $\rho_A=\mathrm{Tr}_{\overline{A}}\rho$ is the reduced density matrix, can be used to infer the organizing principle of 2D interacting fermion systems, ranging from spontaneous symmetry breaking phases, quantum critical points to topologically ordered states. It is far from clear, however, whether the EE can actually be obtained with the precision required to observe these fundamental features -- usually in the form of universal finite size scaling behavior. Even for the prototypical 2D interacting fermion model -- the Hubbard model, to all existing numerical algorithms, the computation of the EE has not been succeeded with reliable data that the universal scaling regime can be accessed. Here we explain the reason for these unsuccessful attempts in EE computations in quantum Monte Carlo simulations in the past decades and more importantly, show how to overcome the conceptual and computational barrier with the incremental algorithm, such that the stable computation of the EE in 2D interacting fermion systems can be achieved and universal scaling information can be extracted. Relevance towards the experimental 2D interacting fermion systems is discussed.
翻訳日:2023-08-30 18:37:23 公開日:2023-08-29
# ユニタリ量子ゲートに対する制御ハミルトンアプローチのロバスト性

Robustness of controlled Hamiltonian approaches to unitary quantum gates ( http://arxiv.org/abs/2304.14667v3 )

ライセンス: Link先を確認
Eoin Carolan, Bar{\i}\c{s} \c{C}akmak, Steve Campbell(参考訳) 本稿では,反断熱駆動,フロッケ工学,逆工学の3つの手法を用いて,量子ゲートの実現の有効性とレジリエンスについて検討する。 我々は,ゲートの不忠実さ,エネルギーコストに基づく資源オーバーヘッド,時間的誤差への感受性,環境騒音による劣化などの観点から,それらの性能を批判的に分析する。 動的経路に顕著な違いがあるにもかかわらず、ターゲットゲートの実装とリソースオーバーヘッドの有効性の観点から、三つのアプローチにまたがる幅広い一貫した挙動を見出した。 さらに,制御フィールドの機能形式が,ゲート操作の忠実性を決定する上で重要な役割を担っていることを確認した。 我々は,1つのキュービットゲート,特にアダマールゲートについて実演し,n$-qubit 演算の拡張について検討した。

We examine the effectiveness and resilience of achieving quantum gates employing three approaches stemming from quantum control methods: counterdiabatic driving, Floquet engineering, and inverse engineering. We critically analyse their performance in terms of the gate infidelity, the associated resource overhead based on energetic cost, the susceptibility to time-keeping errors, and the degradation under environmental noise. Despite significant differences in the dynamical path taken, we find a broadly consistent behavior across the three approaches in terms of the efficacy of implementing the target gate and the resource overhead. Furthermore, we establish that the functional form of the control fields plays a crucial role in determining how faithfully a gate operation is achieved. Our results are demonstrated for single qubit gates, with particular focus on the Hadamard gate, and we discuss the extension to $N$-qubit operations.
翻訳日:2023-08-30 18:29:20 公開日:2023-08-29
# 記号計算のための説明可能なAI視点:筒状代数分解の変数順序選択の一事例

Explainable AI Insights for Symbolic Computation: A case study on selecting the variable ordering for cylindrical algebraic decomposition ( http://arxiv.org/abs/2304.12154v2 )

ライセンス: Link先を確認
Lynn Pickering, Tereso Del Rio Almajano, Matthew England and Kelly Cohen(参考訳) 近年,アルゴリズムの最適化や選択に安全に適用可能な記号計算など,数学における機械学習(ML)技術の利用が増加している。 本稿では、このようなMLモデルに説明可能なAI(XAI)技術を用いることで、AIツールを直接呼び出さないコンピュータ代数システムにおける新しい実装を刺激する、シンボリックな計算の新しい洞察が得られるかどうかを考察する。 本稿では、円筒代数分解の変数順序付けをMLを用いて選択するケーススタディを提案する。 MLがうまく選択できることはすでに実証されているが、ここでは、SHAPツールが、現在シンボリック計算でよく使われている人間設計のヒューリスティックと同じような、サイズと複雑さの新たなヒューリスティックにどのように役立つかを示す。

In recent years there has been increased use of machine learning (ML) techniques within mathematics, including symbolic computation where it may be applied safely to optimise or select algorithms. This paper explores whether using explainable AI (XAI) techniques on such ML models can offer new insight for symbolic computation, inspiring new implementations within computer algebra systems that do not directly call upon AI tools. We present a case study on the use of ML to select the variable ordering for cylindrical algebraic decomposition. It has already been demonstrated that ML can make the choice well, but here we show how the SHAP tool for explainability can be used to inform new heuristics of a size and complexity similar to those human-designed heuristics currently commonly used in symbolic computation.
翻訳日:2023-08-30 18:28:45 公開日:2023-08-29
# 同時平滑化のない局所ランダムユニタリによるデカップリングとマルチユーザ量子情報タスクへの応用

Decoupling by local random unitaries without simultaneous smoothing, and applications to multi-user quantum information tasks ( http://arxiv.org/abs/2304.12114v2 )

ライセンス: Link先を確認
Pau Colomer and Andreas Winter(参考訳) 単純なテレスコップサムトリックと、三角不等式と、ランダムチャネルの期待収縮係数のテンソル化特性を組み合わせることで、複数のユーザに対して、局所的なアクションによる汎用的同時分離を実現することができることを示す。 古い[Dupuis et al. Commun. Math. Phys. 328:251-284 (2014)] と新しい方法 [Dupuis, arXiv:2105.05342] の両方を用いることで、滑らかな min-エントロピーや R'enyi エントロピーの観点からの有限ブロック長の設定において、理想的デカップリングから期待される偏差の有界を得る。 これらの境界は本質的に最適であり、同時に平滑化予想は解決されない。 これにより、複数のパーティの局所ランダム性抽出、マルチパーティの絡み合い集中、マルチパーティの量子状態のマージ、量子多重アクセスチャネルの量子コーディングなど、量子シャノン理論のいくつかのタスクにおいて、ワンショット、有限ブロック長、漸近的実現可能性が得られる。 プロトコルのワンショット的な性質のため、時間的共有を必要とせずに達成可能な結果が得られるが、同時に漸近的符号化定理の証明も容易である。 提案する一発のデカップリング境界は, 補助の絡み合いや状態のマージにさらに最適である部分的既知のi.i.d.ソースまたはチャネルに対してのみ, 複合設定における4つのタスクすべてに対して(今のところは予想のみ)達成可能な確率を与える。

We show that a simple telescoping sum trick, together with the triangle inequality and a tensorisation property of expected-contractive coefficients of random channels, allow us to achieve general simultaneous decoupling for multiple users via local actions. Employing both old [Dupuis et al. Commun. Math. Phys. 328:251-284 (2014)] and new methods [Dupuis, arXiv:2105.05342], we obtain bounds on the expected deviation from ideal decoupling either in the one-shot setting in terms of smooth min-entropies, or the finite block length setting in terms of R\'enyi entropies. These bounds are essentially optimal without the need to address the simultaneous smoothing conjecture, which remains unresolved. This leads to one-shot, finite block length, and asymptotic achievability results for several tasks in quantum Shannon theory, including local randomness extraction of multiple parties, multi-party assisted entanglement concentration, multi-party quantum state merging, and quantum coding for the quantum multiple access channel. Because of the one-shot nature of our protocols, we obtain achievability results without the need for time-sharing, which at the same time leads to easy proofs of the asymptotic coding theorems. We show that our one-shot decoupling bounds furthermore yield achievable rates (so far only conjectured) for all four tasks in compound settings, that is for only partially known i.i.d. source or channel, which are furthermore optimal for entanglement of assistance and state merging.
翻訳日:2023-08-30 18:28:28 公開日:2023-08-29
# lidogの歩行:lidarセマンティクスセグメンテーションのための複数のドメインを旅する

Walking Your LiDOG: A Journey Through Multiple Domains for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2304.11705v2 )

ライセンス: Link先を確認
Cristiano Saltori and Aljo\v{s}a O\v{s}ep and Elisa Ricci and Laura Leal-Taix\'e(参考訳) 多様な環境で安全に動作可能なロボットを配備する能力は、組み込まれたインテリジェントエージェントの開発に不可欠である。 コミュニティとして、私たちはドメイン内のLiDARセマンティックセマンティックセグメンテーションに大きな進歩を遂げました。 しかし、これらの手法はドメイン間で一般化されるのか? そこで本研究では,LiDARセマンティックセグメンテーション(DG-LSS)のためのドメイン一般化(DG)を初めて研究するための実験的なセットアップを設計する。 例えば、ソースデータセット(semantickitti)でトレーニングされたモデルは、ターゲットドメイン(nuscenes)でトレーニングされたモデルによって得られた48.49ドルのmiouに対して、ターゲットデータに対して26.53ドルのmiouを取得します。 このギャップに対処するために、dg-lss用に特別に設計された最初の方法を提案し、ターゲットドメインで34.88ドルのmiouを取得し、すべてのベースラインを上回った。 本手法は,3次元分割ネットワークを高密度で高密度な2次元畳み込みデコーダで拡張し,点雲の鳥眼ビューの分類を学習する。 この単純な補助タスクは、センサー配置シフトや解像度に堅牢で、ドメイン間で転送可能な機能を学ぶことを3Dネットワークに促す。 本研究は,このようなクロスドメインな環境下での将来のモデルの開発と評価をコミュニティに促すことを目的としている。

The ability to deploy robots that can operate safely in diverse environments is crucial for developing embodied intelligent agents. As a community, we have made tremendous progress in within-domain LiDAR semantic segmentation. However, do these methods generalize across domains? To answer this question, we design the first experimental setup for studying domain generalization (DG) for LiDAR semantic segmentation (DG-LSS). Our results confirm a significant gap between methods, evaluated in a cross-domain setting: for example, a model trained on the source dataset (SemanticKITTI) obtains $26.53$ mIoU on the target data, compared to $48.49$ mIoU obtained by the model trained on the target domain (nuScenes). To tackle this gap, we propose the first method specifically designed for DG-LSS, which obtains $34.88$ mIoU on the target domain, outperforming all baselines. Our method augments a sparse-convolutional encoder-decoder 3D segmentation network with an additional, dense 2D convolutional decoder that learns to classify a birds-eye view of the point cloud. This simple auxiliary task encourages the 3D network to learn features that are robust to sensor placement shifts and resolution, and are transferable across domains. With this work, we aim to inspire the community to develop and evaluate future models in such cross-domain conditions.
翻訳日:2023-08-30 18:27:39 公開日:2023-08-29
# OLISIA:音声対話状態追跡のためのカスケードシステム

OLISIA: a Cascade System for Spoken Dialogue State Tracking ( http://arxiv.org/abs/2304.11073v2 )

ライセンス: Link先を確認
L\'eo Jacqmin, Lucas Druart (LIA), Yannick Est\`eve (LIA), Beno\^it Favre, Lina Maria Rojas-Barahona, Valentin Vielzeuf(参考訳) 対話状態追跡(DST)は音声対話システムの中核的な要素であるが,近年の作業はチャットコーパスを主に扱い,音声と文字の相違を無視するものである。本稿では,自動音声認識(ASR)モデルとDSTモデルを統合するカスケードシステムであるOLISIAを提案する。 本研究では,音声対話に対する統合性と堅牢性を向上させるために,ASRおよびDSTモジュールにいくつかの適応を導入し,DSTC11 Track 3 にランク付けした。 結果の詳細な分析を行い、asr出力の正規化とデータ拡張によるdst入力の適応、および事前学習されたモデルサイズの増加が、文字と音声の対話におけるパフォーマンスのばらつきを軽減する上で重要な役割を果たすことを見出した。

Though Dialogue State Tracking (DST) is a core component of spoken dialogue systems, recent work on this task mostly deals with chat corpora, disregarding the discrepancies between spoken and written language.In this paper, we propose OLISIA, a cascade system which integrates an Automatic Speech Recognition (ASR) model and a DST model. We introduce several adaptations in the ASR and DST modules to improve integration and robustness to spoken conversations.With these adaptations, our system ranked first in DSTC11 Track 3, a benchmark to evaluate spoken DST. We conduct an in-depth analysis of the results and find that normalizing the ASR outputs and adapting the DST inputs through data augmentation, along with increasing the pre-trained models size all play an important role in reducing the performance discrepancy between written and spoken conversations.
翻訳日:2023-08-30 18:27:06 公開日:2023-08-29
# グラフ構造データに基づくマルチラベルノード分類

Multi-label Node Classification On Graph-Structured Data ( http://arxiv.org/abs/2304.10398v2 )

ライセンス: Link先を確認
Tianqi Zhao, Ngan Thi Dong, Alan Hanjalic, Megha Khosla(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上のノード分類タスクの最先端の改善を示している。 これらの改善は、多クラス分類シナリオで大きく実証されているが、各ノードが複数のラベルを持つことができるより一般的で現実的なシナリオは、これまでほとんど注目されなかった。 マルチラベルノード分類に焦点をあてる最初の課題は、公開されているマルチラベルグラフデータセットの限られた数である。 したがって、最初の貢献として、3つの実世界の生物学的データセットを収集し、リリースし、チューニング可能なプロパティを持つデータセットを生成するマルチラベルグラフジェネレータを開発しました。 高いラベル類似性(高いホモフィリー)は通常、GNNの成功によるものであるが、我々は、マルチラベルシナリオは、これまでマルチクラスシナリオで定義されたホモフィリーとヘテロフィリーの通常の意味論に従わないと論じる。 第2の貢献として,マルチラベルシナリオのホモフィリを定義することに加えて,特徴量とラベル相関情報を動的に融合してラベル変形表現を学習する新しいアプローチを開発した。 最後に、我々は10ドルのメソッドと9ドルのデータセットで大規模な比較研究を行い、このアプローチの有効性も示しています。 ベンチマークは \url{https://anonymous.4open.science/r/LFLF-5D8C/} で公開しています。

Graph Neural Networks (GNNs) have shown state-of-the-art improvements in node classification tasks on graphs. While these improvements have been largely demonstrated in a multi-class classification scenario, a more general and realistic scenario in which each node could have multiple labels has so far received little attention. The first challenge in conducting focused studies on multi-label node classification is the limited number of publicly available multi-label graph datasets. Therefore, as our first contribution, we collect and release three real-world biological datasets and develop a multi-label graph generator to generate datasets with tunable properties. While high label similarity (high homophily) is usually attributed to the success of GNNs, we argue that a multi-label scenario does not follow the usual semantics of homophily and heterophily so far defined for a multi-class scenario. As our second contribution, besides defining homophily for the multi-label scenario, we develop a new approach that dynamically fuses the feature and label correlation information to learn label-informed representations. Finally, we perform a large-scale comparative study with $10$ methods and $9$ datasets which also showcase the effectiveness of our approach. We release our benchmark at \url{https://anonymous.4open.science/r/LFLF-5D8C/}.
翻訳日:2023-08-30 18:26:50 公開日:2023-08-29
# チューナブルレンジ量子回路における動的遷移としてのスクランブルの開始

Onset of scrambling as a dynamical transition in tunable-range quantum circuits ( http://arxiv.org/abs/2304.09833v4 )

ライセンス: Link先を確認
Sridevi Kuriyattil, Tomohiro Hashizume, Gregory Bentsen, and Andrew J. Daley(参考訳) 高速スクランブル多体量子システムでは、情報の拡散と絡み合いがシステムサイズと対数的に増加する時間スケールに基づいて構築される。 これは、多体システムの力学を理解することや、絡み合ったリソース状態やエラー訂正コードを効率的に生成することに対する基本的な関心である。 本研究では,長距離接続のレベルが異なる量子回路におけるスクランブルの開始点を示す動的遷移を同定する。 特に、異なる構造の回路の相互作用範囲の関数として、三部構造相互情報は、異なる動的挙動の2つの明確に定義された状態の間の臨界点周辺のスケーリング崩壊を示す。 この遷移を、関連する長距離ブラウン回路モデルで解析的に研究し、この遷移がパラメータ空間の特定の領域における長距離イジングモデルの統計力学にどのようにマッピングできるかを示す。 このマッピングは、クリフォード回路数値から抽出された臨界指数と一致する平均場臨界指数$\nu = -1/(1+s_c)$を予測する。 従来のパワー-ロー相互作用を持つシステムに加えて、中性原子配列を用いた実験で実現可能な決定論的スパース回路における同じ現象を同定する。

In a fast scrambling many-body quantum system, information is spread and entanglement is built up on a timescale that grows logarithmically with the system size. This is of fundamental interest in understanding the dynamics of many-body systems, as well as in efficiently producing entangled resource states and error-correcting codes. In this work, we identify a dynamical transition marking the onset of scrambling in quantum circuits with different levels of long-range connectivity. In particular, we show that as a function of the interaction range for circuits of different structures, the tripartite mutual information exhibits a scaling collapse around a critical point between two clearly defined regimes of different dynamical behaviour. We study this transition analytically in a related long-range Brownian circuit model and show how the transition can be mapped onto the statistical mechanics of a long-range Ising model in a particular region of parameter space. This mapping predicts mean-field critical exponents $\nu = -1/(1+s_c)$, which are consistent with the critical exponents extracted from Clifford circuit numerics. In addition to systems with conventional power-law interactions, we identify the same phenomenon in deterministic, sparse circuits that can be realised in experiments with neutral atom arrays.
翻訳日:2023-08-30 18:26:29 公開日:2023-08-29
# 高速なニューラルシーンフロー

Fast Neural Scene Flow ( http://arxiv.org/abs/2304.09121v3 )

ライセンス: Link先を確認
Xueqian Li, Jianqiao Zheng, Francesco Ferroni, Jhony Kaesemodel Pontes, Simon Lucey(参考訳) ニューラル・シーン・フロー・プライオリ(NSFP)は、オフ・オブ・ディストリビューション(OOD)効果に固有の頑健さと、密度の高いライダーポイントに対処する能力から、ビジョン・コミュニティにとって重要な関心事である。 このアプローチはコーディネートニューラルネットワークを使用して、トレーニングなしで実行時にシーンフローを見積もる。 しかし、現在の最先端の学習方法よりも100倍も遅い。 画像、ビデオ、放射関数再構成などの他のアプリケーションでは、コーディネートネットワークのランタイム性能を高速化する革新はアーキテクチャ上の変化を中心にしている。 本稿では,損失関数自体(すなわちシャンファー距離)から生じる主要な計算ボトルネックを用いて,シーンフローが異なることを実証する。 さらに,距離変換(DT)を効率よく対応のない損失関数として再発見し,実行時の最適化を劇的に高速化する。 私たちの高速ニューラルネットワークシーンフロー(FNSF)アプローチは、Waymo OpenとArgoverseの2つの大きなオープン自動運転(AV)データセットに対して、トレーニングやOODバイアスなしで、学習方法に匹敵するリアルタイムパフォーマンスを初めて報告します。

Neural Scene Flow Prior (NSFP) is of significant interest to the vision community due to its inherent robustness to out-of-distribution (OOD) effects and its ability to deal with dense lidar points. The approach utilizes a coordinate neural network to estimate scene flow at runtime, without any training. However, it is up to 100 times slower than current state-of-the-art learning methods. In other applications such as image, video, and radiance function reconstruction innovations in speeding up the runtime performance of coordinate networks have centered upon architectural changes. In this paper, we demonstrate that scene flow is different -- with the dominant computational bottleneck stemming from the loss function itself (i.e., Chamfer distance). Further, we rediscover the distance transform (DT) as an efficient, correspondence-free loss function that dramatically speeds up the runtime optimization. Our fast neural scene flow (FNSF) approach reports for the first time real-time performance comparable to learning methods, without any training or OOD bias on two of the largest open autonomous driving (AV) lidar datasets Waymo Open and Argoverse.
翻訳日:2023-08-30 18:26:08 公開日:2023-08-29
# 自動駐車のための魚眼カメラのストリーミング物体検出

Streaming Object Detection on Fisheye Cameras for Automatic Parking ( http://arxiv.org/abs/2305.14713v2 )

ライセンス: Link先を確認
Yixiong Yan, Liangzhu Cheng, Yongxu Li, Xinjuan Tuo(参考訳) 魚眼カメラは自動駐車に広く採用されており、魚眼カメラの映像ストリームオブジェクト検出(VSOD)は車両の安全な運転を保証するための基本的な認識機能である。 過去の研究では、ディープラーニングモデルの出力と、知覚系の遅延の存在による現在の状況との差は一般的に無視されている。 しかし、環境は遅延時間内に必然的に変化し、潜在的な安全リスクを引き起こす可能性がある。 本稿では,未来を予測し,タイムラグ問題を緩和できるデュアルフロー知覚モジュール(ダイナミックフローと静的フロー)を備えたリアルタイム検出フレームワークを提案する。 一方,レイテンシと精度を評価するため,新しい手法を用いる。 魚眼カメラの強い放射歪による魚眼カメラ画像の物体には不向きであり、パーキング知覚の一次検出対象は車と歩行者であり、回転境界ボックスを採用し、簡易かつ正確な対象の表現法である箱の角度を後退させる新たな周期角損失関数を提案する。 インスタンスセグメンテーション基底真理は、トレーニングを監督するために使用される。 実験は我々のアプローチの有効性を示す。 コードは、https://gitee.com/hiyanyx/fisheye-streaming-perceptionでリリースされる。

Fisheye cameras are widely employed in automatic parking, and the video stream object detection (VSOD) of the fisheye camera is a fundamental perception function to ensure the safe operation of vehicles. In past research work, the difference between the output of the deep learning model and the actual situation at the current moment due to the existence of delay of the perception system is generally ignored. But the environment will inevitably change within the delay time which may cause a potential safety hazard. In this paper, we propose a real-time detection framework equipped with a dual-flow perception module (dynamic and static flows) that can predict the future and alleviate the time-lag problem. Meanwhile, we use a new scheme to evaluate latency and accuracy. The standard bounding box is unsuitable for the object in fisheye camera images due to the strong radial distortion of the fisheye camera and the primary detection objects of parking perception are vehicles and pedestrians, so we adopt the rotate bounding box and propose a new periodic angle loss function to regress the angle of the box, which is the simple and accurate representation method of objects. The instance segmentation ground truth is used to supervise the training. Experiments demonstrate the effectiveness of our approach. Code is released at: https://gitee.com/hiyanyx/fisheye-streaming-perception.
翻訳日:2023-08-30 18:19:47 公開日:2023-08-29
# torchgfn: PyTorch GFlowNetライブラリ

torchgfn: A PyTorch GFlowNet library ( http://arxiv.org/abs/2305.14594v2 )

ライセンス: Link先を確認
Salem Lahlou, Joseph D. Viviano, Victor Schmidt, Yoshua Bengio(参考訳) GFlowNetsやGFNsなど,さまざまなバックグラウンドや専門分野を持つ研究者からのジェネレーティブフローネットワーク(ジェネレーティブフローネットワーク)の普及は,標準的なベンチマーク実装と簡単に比較可能なトレーニング損失や,一般的な環境のセットなど,新機能のテストを容易にするライブラリを必要としている。 torchgfnはPyTorchライブラリで、このニーズに対処することを目指している。 環境のためのシンプルなAPIと、サンプルと損失のための有用な抽象化を提供する。 複数の例が提供され、公開結果を複製し、統一する。 コードはhttps://github.com/saleml/torchgfnで入手できる。

The growing popularity of generative flow networks (GFlowNets or GFNs) from a range of researchers with diverse backgrounds and areas of expertise necessitates a library which facilitates the testing of new features such as training losses that can be easily compared to standard benchmark implementations, or on a set of common environments. torchgfn is a PyTorch library that aims to address this need. It provides users with a simple API for environments and useful abstractions for samplers and losses. Multiple examples are provided, replicating and unifying published results. The code is available in https://github.com/saleml/torchgfn.
翻訳日:2023-08-30 18:19:26 公開日:2023-08-29
# フェアネスに向けて:大規模言語モデルにおけるバイアスと非バイアス

A Trip Towards Fairness: Bias and De-Biasing in Large Language Models ( http://arxiv.org/abs/2305.13862v2 )

ライセンス: Link先を確認
Leonardo Ranaldi, Elena Sofia Ruzzetti, Davide Venditti, Dario Onorati, Fabio Massimo Zanzotto(参考訳) 安価なトレーニングを備えたCtB-LLM(Cheap-to-Build Very Large-Language Model)が、自然言語処理と理解における次の大きな革命として現れている。 これらのCtB-LLMはトレーニング可能なVery Large-Language Models (VLLM)へのアクセスを民主化しているため、下流タスクを解決する多くのNLPシステムのビルディングブロックを表す可能性がある。 したがって、CtB-LLMの多少または大きなバイアスは大きな損傷を引き起こす可能性がある。 本稿では,ctb-llmsの3家系のバイアスについて大規模に検討を行い,デバイアス技術の有効性と有用性を示した。 実際、現在のテストによると、LLaMAとOPTファミリーは、性別、人種、宗教、職業に重大な偏見を持っている。 他のLSMの解析とは対照的に、偏りはパラメータの数ではなく、難易度に依存することがわかった。 最後に、LORAを用いたOPTの偏りは、正規化ステレオタイプスコアの4.12ポイントまでバイアスを減少させる。

Cheap-to-Build Very Large-Language Models (CtB-LLMs) with affordable training are emerging as the next big revolution in natural language processing and understanding. These CtB-LLMs are democratizing access to trainable Very Large-Language Models (VLLMs) and, thus, may represent the building blocks of many NLP systems solving downstream tasks. Hence, a little or a large bias in CtB-LLMs may cause huge harm. In this paper, we performed a large investigation of the bias of three families of CtB-LLMs, and we showed that debiasing techniques are effective and usable. Indeed, according to current tests, the LLaMA and the OPT families have an important bias in gender, race, religion, and profession. In contrast to the analysis for other LLMs, we discovered that bias depends not on the number of parameters but on the perplexity. Finally, the debiasing of OPT using LoRA reduces bias up to 4.12 points in the normalized stereotype score.
翻訳日:2023-08-30 18:19:15 公開日:2023-08-29
# 前・後選択による量子チャネル分解

Quantum channel decomposition with pre- and post-selection ( http://arxiv.org/abs/2305.11642v2 )

ライセンス: Link先を確認
Ryo Nagai, Shu Kanno, Yuki Sato, Naoki Yamamoto(参考訳) いわゆる確率的エラーキャンセルとゲート/ワイヤ切断を含む量子チャネル分解技術は、比較的簡単な(あるいはノイズの多い)量子チャネルを同時に実行することにより、実装が難しい(あるいは理想的な)ユニタリ演算をシミュレートする強力なアプローチである。 しかし、このような仮想シミュレーションは指数関数的に多くの分解を必要とするため、実用性が著しく制限される。 本稿では,特定の量子状態,すなわち事前選択と後選択を伴うユニタリに対して,入力条件と出力条件を有するターゲットユニタリのチャネル分解法を提案する。 具体的には、選択不要なシナリオよりもかなり小さい分解チャネルの必要な数を明示的に決定する。 さらに, 生成した分解ユニタリの構造を解明する。 本手法を量子線形解法アルゴリズムに適用し,提案手法の有効性を明らかにする。

The quantum channel decomposition techniques, which contain the so-called probabilistic error cancellation and gate/wire cutting, are powerful approach for simulating a hard-to-implement (or an ideal) unitary operation by concurrently executing relatively easy-to-implement (or noisy) quantum channels. However, such virtual simulation necessitates an exponentially large number of decompositions, thereby significantly limiting their practical applicability. This paper proposes a channel decomposition method for target unitaries that have their input and output conditioned on specific quantum states, namely unitaries with pre- and post-selection. Specifically, we explicitly determine the requisite number of decomposing channels, which could be significantly smaller than the selection-free scenario. Furthermore, we elucidate the structure of the resulting decomposed unitary. We demonstrate an application of this approach to the quantum linear solver algorithm, highlighting the efficacy of the proposed method.
翻訳日:2023-08-30 18:18:59 公開日:2023-08-29
# 英語テキストから音声への合成のための統一フロントエンドフレームワーク

a unified front-end framework for english text-to-speech synthesis ( http://arxiv.org/abs/2305.10666v2 )

ライセンス: Link先を確認
Zelin Ying, Chen Li, Yu Dong, Qiuqiang Kong, Qiao Tian, Yuanyuan Huo, Yuxuan Wang(参考訳) フロントエンドは、英語のテキスト音声合成システム(TTS)の重要な構成要素であり、韻律や音素などの音声を合成するテキスト音声合成モデルに不可欠な言語的特徴を抽出する役割を担っている。 英語のTSフロントエンドは、典型的にはテキスト正規化(TN)モジュール、韻律語韻律句(PWPP)モジュール、グラフ音素対音素(G2P)モジュールからなる。 しかし、現在のTTSフロントエンドの研究は、個々のモジュールにのみ焦点をあて、それらの相互依存を無視し、各モジュールに対して準最適性能をもたらす。 そこで本稿では,英語ttsフロントエンドモジュール間の依存関係をキャプチャするフロントエンドフレームワークを提案する。 実験により, 提案手法は全モジュールのSOTA性能を実現することを示した。

The front-end is a critical component of English text-to-speech (TTS) systems, responsible for extracting linguistic features that are essential for a text-to-speech model to synthesize speech, such as prosodies and phonemes. The English TTS front-end typically consists of a text normalization (TN) module, a prosody word prosody phrase (PWPP) module, and a grapheme-to-phoneme (G2P) module. However, current research on the English TTS front-end focuses solely on individual modules, neglecting the interdependence between them and resulting in sub-optimal performance for each module. Therefore, this paper proposes a unified front-end framework that captures the dependencies among the English TTS front-end modules. Extensive experiments have demonstrated that the proposed method achieves state-of-the-art (SOTA) performance in all modules.
翻訳日:2023-08-30 18:18:43 公開日:2023-08-29
# 電波干渉画像再構成のための条件付き拡散確率モデル

A Conditional Denoising Diffusion Probabilistic Model for Radio Interferometric Image Reconstruction ( http://arxiv.org/abs/2305.09121v2 )

ライセンス: Link先を確認
Ruoqi Wang, Zhuoyang Chen, Qiong Luo, Feng Wang(参考訳) 電波天文学では、電波望遠鏡からの信号は観測された天体や源の画像に変換される。 しかし、これらの画像はダーティイメージと呼ばれ、信号のスパーシティなどの要因により、実際のソースだけでなくアーティファクトも含んでいる。 そのため、汚れた画像に対して電波干渉画像再構成を行い、アーティファクトを減らし、実際のソースを回収するクリーンな画像を作成する。 これまでの方法では、かすかなソースの復元、詳細な構造保存、アーティファクトの除去に成功している。 本稿では,可視性および画像条件付き消音拡散確率モデルvic-ddpmを提案する。 私たちの主なアイデアは、スペクトル領域のオリジナルの可視性データと空間領域の汚れた画像の両方を使用して、ddpmで画像生成プロセスをガイドすることです。 このようにして,ddpmを利用して細かなディテールを生成し,ノイズを除去し,可視性データを利用してノイズから信号を分離し,汚れた画像に空間情報を保持できる。 従来の手法と最近のディープラーニングに基づくアプローチとの比較実験を行った。 提案手法は, 成果物を低減し, 細部を保存し, ディムソースを復元することにより, 得られた画像を大幅に改善することを示す。 この進歩は、天体現象に関する電波天文学データ分析タスクをさらに促進する。

In radio astronomy, signals from radio telescopes are transformed into images of observed celestial objects, or sources. However, these images, called dirty images, contain real sources as well as artifacts due to signal sparsity and other factors. Therefore, radio interferometric image reconstruction is performed on dirty images, aiming to produce clean images in which artifacts are reduced and real sources are recovered. So far, existing methods have limited success on recovering faint sources, preserving detailed structures, and eliminating artifacts. In this paper, we present VIC-DDPM, a Visibility and Image Conditioned Denoising Diffusion Probabilistic Model. Our main idea is to use both the original visibility data in the spectral domain and dirty images in the spatial domain to guide the image generation process with DDPM. This way, we can leverage DDPM to generate fine details and eliminate noise, while utilizing visibility data to separate signals from noise and retaining spatial information in dirty images. We have conducted experiments in comparison with both traditional methods and recent deep learning based approaches. Our results show that our method significantly improves the resulting images by reducing artifacts, preserving fine details, and recovering dim sources. This advancement further facilitates radio astronomical data analysis tasks on celestial phenomena.
翻訳日:2023-08-30 18:18:25 公開日:2023-08-29
# キラルエッジ状態のトポロジー保護と非線形干渉

Non-Linear Interference Challenging Topological Protection of Chiral Edge States ( http://arxiv.org/abs/2305.08912v2 )

ライセンス: Link先を確認
Benjamin Michen, Jan Carl Budich(参考訳) 我々は,カイラルエッジモードで伝播するウェーブパケットのトポロジカル保護の概念に挑戦する非線形散乱効果について報告する。 具体的には、共振駆動および非線形ポテンシャルを持つフロッケ位相系において、キラルエッジモードに伝播する波束が、局所化された波束を散乱して非可逆的に偏向するか、衝突領域をほぼ直線的に通過するかを示す。 これらの2つのシナリオを調整できる実験的なノブは、関連するウェーブパック間の相対位相によって提供される。 この真の非線形干渉現象は、静的不純物からの線形散乱とは対照的であり、トポロジカルエッジ状態を破壊することはできない。 まず, 強度依存性の光学指標を用いて非線形性が設計されている結合導波路設定法について, 実験結果から予測を検証できる2つの物理プラットフォームを提案する。 第2に、非線形グロス・ピタエフスキー方程式によって制御される光学ハニカム格子内の低温原子のボース・アインシュタイン凝縮は、多体相互作用を効果的に説明できる。

We report on a non-linear scattering effect that challenges the notion of topological protection for wave packets propagating in chiral edge modes. Specifically, in a Floquet topological system close to resonant driving and with a non-linear potential, we demonstrate how a wave packet propagating in a chiral edge mode may be irreversibly deflected by scattering off a localized wave-packet, or pass the collision region virtually unaffected in an approximately linear fashion. An experimentally accessible knob to tune between those two scenarios is provided by the relative phase between the involved wave-packets. This genuinely non-linear interference phenomenon is in stark contrast to linear scattering off a static impurity, which cannot destroy a topological edge state. Besides corroborating our findings with numerically exact simulations, we propose two physical platforms where our predictions may be verified with state of the art experimental techniques: First, a coupled waveguide setting where non-linearity has been engineered via an intensity-dependent optical index. Second, a Bose-Einstein condensate of cold atoms in an optical Honeycomb lattice governed by a non-linear Gross-Pitaevskii equation that effectively accounts for many-body interactions.
翻訳日:2023-08-30 18:18:05 公開日:2023-08-29
# モデル予測を解釈するための非対称特徴間相互作用

Asymmetric feature interaction for interpreting model predictions ( http://arxiv.org/abs/2305.07224v3 )

ライセンス: Link先を確認
Xiaolei Lu, Jianghong Ma, Haode Zhang(参考訳) 自然言語処理(NLP)では、ディープニューラルネットワーク(DNN)はコンテキスト間の複雑な相互作用をモデル化することができ、様々なNLPタスクにおいて印象的な結果が得られる。 先行研究は、主に、モデル予測に寄与する非対称的な影響を捉えるのに失敗する、一組の単語の付加的な影響のみを説明する対称的相互作用の研究に焦点を当てている。 本研究では,ニューラルNLPモデルの推論における非対称な高次特徴相互作用の探索を目的とした,非対称な特徴相互作用帰属説明モデルを提案する。 有向相互作用グラフを用いて説明を表現することにより、非対称な特徴相互作用を発見するためのグラフの解釈可能性について実験的に示す。 2つの感情分類データセットにおける実験結果は,モデル予測に影響を及ぼす特徴の同定において,最先端の特徴間相互作用の帰属法に対して,モデルの優越性を示す。 私たちのコードはhttps://github.com/stilllu/asivで利用可能です。

In natural language processing (NLP), deep neural networks (DNNs) could model complex interactions between context and have achieved impressive results on a range of NLP tasks. Prior works on feature interaction attribution mainly focus on studying symmetric interaction that only explains the additional influence of a set of words in combination, which fails to capture asymmetric influence that contributes to model prediction. In this work, we propose an asymmetric feature interaction attribution explanation model that aims to explore asymmetric higher-order feature interactions in the inference of deep neural NLP models. By representing our explanation with an directed interaction graph, we experimentally demonstrate interpretability of the graph to discover asymmetric feature interactions. Experimental results on two sentiment classification datasets show the superiority of our model against the state-of-the-art feature interaction attribution methods in identifying influential features for model predictions. Our code is available at https://github.com/StillLu/ASIV.
翻訳日:2023-08-30 18:17:40 公開日:2023-08-29
# 厳格な量子スピード限界

Exact Quantum Speed Limits ( http://arxiv.org/abs/2305.03839v2 )

ライセンス: Link先を確認
Arun K. Pati, Brij Mohan, Sahil, and Samuel L. Braunstein(参考訳) 従来の量子速度制限は多くの物理プロセスでは達成できないが、それらはゆるく、量子系の進化に要する正確な時間を決定することができない。 これに対処するために、我々は、既存の量子速度限界を超える純状態量子システムのユニタリダイナミクスの正確な量子速度制限を導出する。 これらの量子速度制限を用いることで、2次元および高次元の量子システムの進化時間を正確に推定することができる。 さらに、有限次元と無限次元の量子系の両方において、純粋な状態に対する改良されたマンデルシュタム・タム結合を導出し、この境界は常に自己逆ハミルトニアンによって生成されるユニタリに対して飽和することを示した。 さらに,我々の速度限界が量子計算回路の複雑性の上限となることを示す。 これらの結果は、量子物理学の理解だけでなく、量子コンピューティング、量子制御、量子熱機械などの急速に発展する量子技術にも大きな影響を与えるだろう。

The traditional quantum speed limits are not attainable for many physical processes, as they tend to be loose and fail to determine the exact time taken by quantum systems to evolve. To address this, we derive exact quantum speed limits for the unitary dynamics of pure-state quantum system that outperform the existing quantum speed limits. Using these exact quantum speed limits, we can precisely estimate the evolution time for two- and higher-dimensional quantum systems. Additionally, for both finite- and infinite-dimensional quantum systems, we derive an improved Mandelstam-Tamm bound for pure states and show that this bound always saturates for any unitary generated by self-inverse Hamiltonians. Furthermore, we show that our speed limits establish an upper bound on the quantum computational circuit complexity. These results will have a significant impact on our understanding of quantum physics as well as rapidly developing quantum technologies, such as quantum computing, quantum control and quantum thermal machines.
翻訳日:2023-08-30 18:17:24 公開日:2023-08-29
# 二重ディラックデルタポテンシャルにおけるフェルミオンの1次元散乱

One-dimensional scattering of fermions in double Dirac delta potentials ( http://arxiv.org/abs/2305.02281v2 )

ライセンス: Link先を確認
Luc\'ia Santamar\'ia-Sanz(参考訳) 2つのディラックデルタポテンシャルから構築した静的背景によって歪んだフェルミオンを記述する1次元ディラックハミルトニアンの束縛状態と散乱状態のスペクトルを研究した。 質量スパイクと静電気的ディラックデルタポテンシャルを区別する。 次に、相対論的量子力学問題を相対論的量子場理論に促進し、不透明プレート間に閉じ込められたフェルミオンに対する量子真空相互作用エネルギーを研究する。 本項では,[Guilarte et al 2019 Front. Phys.7 109]の継続について述べる。

The spectrum of bound and scattering states of the one dimensional Dirac Hamiltonian describing fermions distorted by a static background built from two Dirac delta potentials is studied. A distinction will be made between mass-spike and electrostatic Dirac delta-potentials. The second quantisation is then performed to promote the relativistic quantum mechanical problem to a relativistic quantum field theory and study the quantum vacuum interaction energy for fermions confined between opaque plates. The work presented here is a continuation of [Guilarte et al 2019 Front. Phys.7 109].
翻訳日:2023-08-30 18:17:07 公開日:2023-08-29
# AIによるマルチセンサフュージョンシステムのベンチマークロバスト性:課題と機会

Benchmarking Robustness of AI-Enabled Multi-sensor Fusion Systems: Challenges and Opportunities ( http://arxiv.org/abs/2306.03454v2 )

ライセンス: Link先を確認
Xinyu Gao, Zhijie Wang, Yang Feng, Lei Ma, Zhenyu Chen, Baowen Xu(参考訳) マルチセンサー・フュージョン(msf)ベースの知覚システムは、自動運転車、ロボットアーム、無人航空機など、多くの産業用途やドメインをサポートする基礎となっている。 過去数年間、データ駆動人工知能(AI)の急速な進歩は、特にインテリジェントシステムやその知覚システムにおいて、パフォーマンスをさらに向上させるために、深層学習技術によってMSFシステムを強化する、急速なトレンドをもたらした。 AI対応のMSF認識システムや技術はいくつか提案されているが、現時点では、MSF認識にフォーカスする限られたベンチマークが公開されている。 自動運転車のようなインテリジェントなシステムは、認識システムが重要な役割を果たす安全クリティカルな状況で運用されているため、これらのMSFシステムの性能と信頼性をより深く理解する必要がある。 このギャップを埋めるため、我々はこの方向の早期段階を開始し、3つの一般的に採用されているタスク(オブジェクト検出、オブジェクト追跡、奥行き完了)を含むai対応msfベースの知覚システムの公開ベンチマークを構築する。 そこで我々は,MSFシステムの堅牢性と信頼性を包括的に理解するために,大規模に破損したデータセットを合成するために,14の共通かつ現実的な破損パターンを設計する。 さらに, 大規模評価を行い, システムの系統的評価を行った。 我々の結果は、現在のAI対応のMSF認識システムの脆弱性を明らかにし、AI対応のMSFを設計する際に、研究者や実践者が堅牢性と信頼性を考慮するように求めている。

Multi-Sensor Fusion (MSF) based perception systems have been the foundation in supporting many industrial applications and domains, such as self-driving cars, robotic arms, and unmanned aerial vehicles. Over the past few years, the fast progress in data-driven artificial intelligence (AI) has brought a fast-increasing trend to empower MSF systems by deep learning techniques to further improve performance, especially on intelligent systems and their perception systems. Although quite a few AI-enabled MSF perception systems and techniques have been proposed, up to the present, limited benchmarks that focus on MSF perception are publicly available. Given that many intelligent systems such as self-driving cars are operated in safety-critical contexts where perception systems play an important role, there comes an urgent need for a more in-depth understanding of the performance and reliability of these MSF systems. To bridge this gap, we initiate an early step in this direction and construct a public benchmark of AI-enabled MSF-based perception systems including three commonly adopted tasks (i.e., object detection, object tracking, and depth completion). Based on this, to comprehensively understand MSF systems' robustness and reliability, we design 14 common and realistic corruption patterns to synthesize large-scale corrupted datasets. We further perform a systematic evaluation of these systems through our large-scale evaluation. Our results reveal the vulnerability of the current AI-enabled MSF perception systems, calling for researchers and practitioners to take robustness and reliability into account when designing AI-enabled MSF.
翻訳日:2023-08-30 18:09:11 公開日:2023-08-29
# HeadSculpt:テキストで3Dヘッドアバターを作る

HeadSculpt: Crafting 3D Head Avatars with Text ( http://arxiv.org/abs/2306.03038v2 )

ライセンス: Link先を確認
Xiao Han, Yukang Cao, Kai Han, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song, Tao Xiang, Kwan-Yee K. Wong(参考訳) 近年,テキストガイドによる3次元生成手法は,視覚言語モデルや画像拡散モデルの普及を活かし,高品質なテクスチャや形状の生成に飛躍的な進歩を遂げている。 しかし, 既存の手法では, 高忠実度な3Dヘッドアバターの製作に苦慮している。(1) 必要な3D認識と頭部前兆を欠きながら, トレーニング済みのテキスト・ツー・イメージ拡散モデルに大きく依存している。 これにより、生成されたアバターの矛盾や幾何学的な歪みが生じる。 2)微粒化編集では不足する。 これは主に、事前訓練された2D画像拡散モデルから引き継がれた制限のためであり、これは3Dヘッドアバターに関してより顕著になる。 本研究では,テキストプロンプトから3Dヘッドアバターを作成・編集するためのHeadSculptと呼ばれる多目的粗いパイプラインを導入することで,これらの課題に対処する。 具体的には,ランドマークベースの制御と,頭部のバックビューの出現を表す学習テキスト埋め込みを活用し,3d一貫性のある頭部アバター世代を実現することで,拡散モデルと3d認識を具備する。 さらに,高分解能な微分可能レンダリング技術を用いてテクスチャメッシュを最適化する,新しいアイデンティティ対応編集スコア蒸留手法を提案する。 これにより、編集命令に従ってアイデンティティを保存できる。 包括的実験と既存手法との比較を通して,headsculptの優れた忠実性と編集能力を紹介する。

Recently, text-guided 3D generative methods have made remarkable advancements in producing high-quality textures and geometry, capitalizing on the proliferation of large vision-language and image diffusion models. However, existing methods still struggle to create high-fidelity 3D head avatars in two aspects: (1) They rely mostly on a pre-trained text-to-image diffusion model whilst missing the necessary 3D awareness and head priors. This makes them prone to inconsistency and geometric distortions in the generated avatars. (2) They fall short in fine-grained editing. This is primarily due to the inherited limitations from the pre-trained 2D image diffusion models, which become more pronounced when it comes to 3D head avatars. In this work, we address these challenges by introducing a versatile coarse-to-fine pipeline dubbed HeadSculpt for crafting (i.e., generating and editing) 3D head avatars from textual prompts. Specifically, we first equip the diffusion model with 3D awareness by leveraging landmark-based control and a learned textual embedding representing the back view appearance of heads, enabling 3D-consistent head avatar generations. We further propose a novel identity-aware editing score distillation strategy to optimize a textured mesh with a high-resolution differentiable rendering technique. This enables identity preservation while following the editing instruction. We showcase HeadSculpt's superior fidelity and editing capabilities through comprehensive experiments and comparisons with existing methods.
翻訳日:2023-08-30 18:08:44 公開日:2023-08-29
# 大規模モデル推論のための最適キャッシングとモデル多重化について

On Optimal Caching and Model Multiplexing for Large Model Inference ( http://arxiv.org/abs/2306.02003v2 )

ライセンス: Link先を確認
Banghua Zhu, Ying Sheng, Lianmin Zheng, Clark Barrett, Michael I. Jordan, Jiantao Jiao(参考訳) 大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。 特に、これらのモデルの大規模展開は、推論中の重要なリソース要求によって妨げられます。 本稿では,これらの課題を緩和するための2つのアプローチについて検討する。従来のクエリをキャッシュで格納し,クエリ処理のモデル群から選択するモデル多重化を学習する。 理論的には、オフラインとオンラインの両方の表表設定における推論コストを削減するために、両方のアプローチを協調的に最適化する最適なアルゴリズムを提供する。 キャッシュアルゴリズム、すなわちGreedy Dual Size with Frequency(GDSF)またはLeast expecteded Cost(LEC)をモデル多重化器と組み合わせることで、オフラインおよびオンライン両方の設定で最適なレートを達成する。 シミュレーションにより、キャッシングとモデル多重化のアルゴリズムの組み合わせはベースラインよりも大幅に改善され、最大コストと最小コストの比率が100ドルである場合、ベースラインよりも最大50ドル以上改善されることが示された。 実際のデータセットの実験では、FLOPsの比率が10ドルである場合、FLOPsのベースラインに対する改善は4.3ドル、平均レイテンシの比率が1.85ドルである場合は1.8ドルである。

Large Language Models (LLMs) and other large foundation models have achieved noteworthy success, but their size exacerbates existing resource consumption and latency challenges. In particular, the large-scale deployment of these models is hindered by the significant resource requirements during inference. In this paper, we study two approaches for mitigating these challenges: employing a cache to store previous queries and learning a model multiplexer to choose from an ensemble of models for query processing. Theoretically, we provide an optimal algorithm for jointly optimizing both approaches to reduce the inference cost in both offline and online tabular settings. By combining a caching algorithm, namely Greedy Dual Size with Frequency (GDSF) or Least Expected Cost (LEC), with a model multiplexer, we achieve optimal rates in both offline and online settings. Empirically, simulations show that the combination of our caching and model multiplexing algorithms greatly improves over the baselines, with up to $50\times$ improvement over the baseline when the ratio between the maximum cost and minimum cost is $100$. Experiments on real datasets show a $4.3\times$ improvement in FLOPs over the baseline when the ratio for FLOPs is $10$, and a $1.8\times$ improvement in latency when the ratio for average latency is $1.85$.
翻訳日:2023-08-30 18:08:21 公開日:2023-08-29
# ハミルトン格子ゲージ理論におけるキラルフェルミオン

Chiral fermion in the Hamiltonian lattice gauge theory ( http://arxiv.org/abs/2305.18934v2 )

ライセンス: Link先を確認
Tomoya Hayata, Katsumasa Nakayama, Arata Yamamoto(参考訳) 格子ゲージ理論のハミルトン形式論におけるカイラルフェルミオンについて議論する。 ナイーブなカイラル電荷作用素はハミルトニアンと可換ではないが、可換作用素は重なりフェルミオンに対して定義することができる。 エネルギーの固有値とカイラル電荷を同時に定義することができる。 固有値スペクトルがキラル化学ポテンシャルや軸異常といった系のキラル特性をどのように反映するかについて検討する。 また、ウィルソンフェルミオンは1次元のキラルフェルミオンであることを示した。

We discuss the chiral fermion in the Hamiltonian formalism of lattice gauge theory. Although the naive chiral charge operator does not commute with the Hamiltonian, the commutable one can be defined for the overlap fermion. The eigenvalues of the energy and the chiral charge can be defined simultaneously. We study how the eigenvalue spectrum reflects chiral properties of systems, such as a chiral chemical potential and the axial anomaly. We also show that the Wilson fermion is a chiral fermion in one dimension.
翻訳日:2023-08-30 18:07:15 公開日:2023-08-29
# ロバスト欠陥定位のためのサンプルとマスクの関係を探る

Exploring the Relationship between Samples and Masks for Robust Defect Localization ( http://arxiv.org/abs/2306.10720v2 )

ライセンス: Link先を確認
Jiang Lin, Yaping yan(参考訳) Defect detection aims to detect and localize regions out of the normal distribution.Previous approaches model normality and compare it with the input to identify defective regions, potentially limiting their generalizability.This paper proposes a one-stage framework that detects defective patterns directly without the modeling process.This ability is adopted through the joint efforts of three parties: a generative adversarial network (GAN), a newly proposed scaled pattern loss, and a dynamic masked cycle-consistent auxiliary network. 挑戦的なmvtec adデータセットのテクスチャクラスにおける実験結果から, f1-score の sota メソッドよりも2.9\%高いが, 一般化可能性では sota メソッドを実質的に上回っていることがわかった。

Defect detection aims to detect and localize regions out of the normal distribution.Previous approaches model normality and compare it with the input to identify defective regions, potentially limiting their generalizability.This paper proposes a one-stage framework that detects defective patterns directly without the modeling process.This ability is adopted through the joint efforts of three parties: a generative adversarial network (GAN), a newly proposed scaled pattern loss, and a dynamic masked cycle-consistent auxiliary network. Explicit information that could indicate the position of defects is intentionally excluded to avoid learning any direct mapping.Experimental results on the texture class of the challenging MVTec AD dataset show that the proposed method is 2.9\% higher than the SOTA methods in F1-Score, while substantially outperforming SOTA methods in generalizability.
翻訳日:2023-08-30 17:59:16 公開日:2023-08-29
# 音声間会議における再現性の検討--縦断的・比較的視点から

Investigating Reproducibility at Interspeech Conferences: A Longitudinal and Comparative Perspective ( http://arxiv.org/abs/2306.10033v2 )

ライセンス: Link先を確認
Mohammad Arvan, A. Seza Do\u{g}ru\"oz, Natalie Parde(参考訳) 再現性は、分野をまたがる科学の進歩にとって重要な側面であり、オープンサイエンスの障壁を減らすことは、interspeech 2023のテーマの焦点領域である。 ソースコードの可用性は再現性を促進する指標の1つである。 しかしながら、Interspeechカンファレンスの再現率について、この分野の他のカンファレンスと比べては、あまり知られていない。 このギャップを埋めるために,音声および言語処理分野の7つのカンファレンスで27,717の論文を調査した。 他のカンファレンスに広く受け入れられた論文があるにも関わらず、Interspeechはソースコードの可用性を最大40%削減している。 我々の研究で遭遇した困難を報告することに加え、さらなる研究の再現性を高めるための勧告と可能な方向性も提供する。

Reproducibility is a key aspect for scientific advancement across disciplines, and reducing barriers for open science is a focus area for the theme of Interspeech 2023. Availability of source code is one of the indicators that facilitates reproducibility. However, less is known about the rates of reproducibility at Interspeech conferences in comparison to other conferences in the field. In order to fill this gap, we have surveyed 27,717 papers at seven conferences across speech and language processing disciplines. We find that despite having a close number of accepted papers to the other conferences, Interspeech has up to 40% less source code availability. In addition to reporting the difficulties we have encountered during our research, we also provide recommendations and possible directions to increase reproducibility for further studies.
翻訳日:2023-08-30 17:59:00 公開日:2023-08-29
# ブロック状態変圧器

Block-State Transformer ( http://arxiv.org/abs/2306.09539v2 )

ライセンス: Link先を確認
Mahan Fathi and Jonathan Pilault and Pierre-Luc Bacon and Christopher Pal and Orhan Firat and Ross Goroshin(参考訳) 状態空間モデル(ssm)は、長い範囲の依存関係をモデル化し、その実行時の複雑さのために長いシーケンスに効率的にスケールする必要があるタスクで印象的な結果を示している。 元々は連続的な信号のために設計されていたが、SSMは視覚やオーディオにおいて多くのタスクにおいて優れたパフォーマンスを示してきた。 本研究では,長期コンテキスト化のためのSSMサブレイヤと,シーケンスの短期表現のためのBlock-State Transformerサブレイヤを内部的に組み合わせたBST(Block-State Transformer)というハイブリッド層を提案する。 SSMとブロックワイズを統合した3つの異なる並列化可能な変種について検討する。 我々のモデルは言語モデリングの難易度において類似のTransformerベースのアーキテクチャよりも優れており、より長いシーケンスに一般化できることを示す。 また、ブロック状態変圧器は、モデル並列化を行う際のブロックリカレント変圧器と比較して、層レベルで10倍以上の速度向上を示す。

State space models (SSMs) have shown impressive results on tasks that require modeling long-range dependencies and efficiently scale to long sequences owing to their subquadratic runtime complexity. Originally designed for continuous signals, SSMs have shown superior performance on a plethora of tasks, in vision and audio; however, SSMs still lag Transformer performance in Language Modeling tasks. In this work, we propose a hybrid layer named Block-State Transformer (BST), that internally combines an SSM sublayer for long-range contextualization, and a Block Transformer sublayer for short-term representation of sequences. We study three different, and completely parallelizable, variants that integrate SSMs and block-wise attention. We show that our model outperforms similar Transformer-based architectures on language modeling perplexity and generalizes to longer sequences. In addition, the Block-State Transformer demonstrates more than tenfold increase in speed at the layer level compared to the Block-Recurrent Transformer when model parallelization is employed.
翻訳日:2023-08-30 17:58:48 公開日:2023-08-29
# フェアネスの修正, ルールの正確さを損なわない: AutoML を用いたパフォーマンスアウェアフェアネスの修復

Fix Fairness, Don't Ruin Accuracy: Performance Aware Fairness Repair using AutoML ( http://arxiv.org/abs/2306.09297v3 )

ライセンス: Link先を確認
Giang Nguyen, Sumon Biswas, Hridesh Rajan(参考訳) 機械学習(ML)は、重要な意思決定ソフトウェアでますます使われているが、インシデントによってML予測の公平性に関する疑問が持ち上がっている。 この問題に対処するには、MLベースのソフトウェアのバイアスを軽減するために、新しいツールとメソッドが必要である。 これまでの研究では、特定の状況でのみ動作し、しばしば精度を失うバイアス軽減アルゴリズムが提案されている。 提案手法は,自動機械学習(automl)技術を用いてバイアスを軽減する新しい手法である。 我々のアプローチには、新しい最適化機能と公正な検索空間の2つの重要な革新が含まれている。 automlのデフォルト最適化関数を改善し、公平性目標を組み込むことで、精度の損なうことなくバイアスを軽減できる。 さらに,計算コストと修理時間を削減するために,automlのフェアネスアウェア探索空間プルーニング手法を提案する。 我々のアプローチは最先端のAuto-Sklearnツールに基づいており、現実のシナリオにおけるバイアスを減らすように設計されています。 提案手法の有効性を実証するため,提案手法を4つの公平性問題と16の異なるMLモデルで評価し,その結果,ベースラインおよび既存バイアス軽減技術に対して有意な改善が得られた。 私たちのアプローチであるfair-automlは,64症例中60例の修復に成功したが,既存のバイアス軽減技術では64例中44例までしか修復できなかった。

Machine learning (ML) is increasingly being used in critical decision-making software, but incidents have raised questions about the fairness of ML predictions. To address this issue, new tools and methods are needed to mitigate bias in ML-based software. Previous studies have proposed bias mitigation algorithms that only work in specific situations and often result in a loss of accuracy. Our proposed solution is a novel approach that utilizes automated machine learning (AutoML) techniques to mitigate bias. Our approach includes two key innovations: a novel optimization function and a fairness-aware search space. By improving the default optimization function of AutoML and incorporating fairness objectives, we are able to mitigate bias with little to no loss of accuracy. Additionally, we propose a fairness-aware search space pruning method for AutoML to reduce computational cost and repair time. Our approach, built on the state-of-the-art Auto-Sklearn tool, is designed to reduce bias in real-world scenarios. In order to demonstrate the effectiveness of our approach, we evaluated our approach on four fairness problems and 16 different ML models, and our results show a significant improvement over the baseline and existing bias mitigation techniques. Our approach, Fair-AutoML, successfully repaired 60 out of 64 buggy cases, while existing bias mitigation techniques only repaired up to 44 out of 64 cases.
翻訳日:2023-08-30 17:58:32 公開日:2023-08-29
# molインストラクション:大規模言語モデルのための大規模生体分子インストラクションデータセット

Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models ( http://arxiv.org/abs/2306.08018v2 )

ライセンス: Link先を確認
Yin Fang, Xiaozhuan Liang, Ningyu Zhang, Kangwei Liu, Rui Huang, Zhuo Chen, Xiaohui Fan, Huajun Chen(参考訳) 大規模言語モデル(LLM)は、タスクハンドリング能力と革新的な出力を持ち、様々な分野において大きな進歩をもたらした。 しかし、生体分子研究などの専門領域での能力は限られている。 この課題に対処するために,生体分子領域向けに設計した精密にキュレートされた包括的指導データセットであるMoll-Instructionsを導入する。 モルインストラクションは分子指向の指示、タンパク質指向の指示、生体分子のテキスト命令という3つの重要な構成要素から構成され、それぞれが、生体分子の特徴や行動に関するLLMの理解と予測能力を高めるために培養される。 我々は,生体分子研究の複雑な領域における大規模モデルの適応性と認知能力を高めるために,生体分子研究コミュニティの進展を促進するために,代表的llmに関する広範な命令チューニング実験を行った。 モルインストラクションは将来の研究で公開されており、適用性の向上のために継続的に更新される。

Large Language Models (LLMs), with their remarkable task-handling capabilities and innovative outputs, have catalyzed significant advancements across a spectrum of fields. However, their proficiency within specialized domains such as biomolecular studies remains limited. To address this challenge, we introduce Mol-Instructions, a meticulously curated, comprehensive instruction dataset expressly designed for the biomolecular realm. Mol-Instructions is composed of three pivotal components: molecule-oriented instructions, protein-oriented instructions, and biomolecular text instructions, each curated to enhance the understanding and prediction capabilities of LLMs concerning biomolecular features and behaviors. Through extensive instruction tuning experiments on the representative LLM, we underscore the potency of Mol-Instructions to enhance the adaptability and cognitive acuity of large models within the complex sphere of biomolecular studies, thereby promoting advancements in the biomolecular research community. Mol-Instructions is made publicly accessible for future research endeavors and will be subjected to continual updates for enhanced applicability.
翻訳日:2023-08-30 17:58:06 公開日:2023-08-29
# 制限されたカーネルマシンのプリマル表現とデュアル表現の組み合わせ

Combining Primal and Dual Representations in Deep Restricted Kernel Machines Classifiers ( http://arxiv.org/abs/2306.07015v2 )

ライセンス: Link先を確認
Francesco Tonin, Panagiotis Patrinos, Johan A. K. Suykens(参考訳) カーネルマシンによるディープラーニングの文脈では、Deep Restricted Kernel Machine(DRKM)フレームワークは、複数のレベルのカーネルPCA(KPCA)とLast-Squares Support Vector Machines(LSSVM)を、可視および隠されたユニットを使用してディープアーキテクチャに統合することができる。 そこで本研究では,KPCAの目的と分類レベルを結合したDRKM分類法を提案する。 分類レベルは LSSVM あるいは MLP 特徴マップとして定式化することができ、レベルとレイヤの深さを組み合わせることができる。 分類レベルは原始的な定式化で表され、深部KPCAレベルは双対的な定式化で、データの最も情報性の高い成分をより低い次元空間に埋め込むことができる。 デュアルセッティングは入力の次元とは独立であり、プライマリセッティングはパラメトリックであり、提案手法は高次元入力と大規模データセットの両方に対して計算的に効率的である。 実験では,提案アルゴリズムは,高次元データを用いた畳み込みニューラルネットワーク(CNN)よりも少ないメモリで,小さなデータセットから効果的に学習可能であることを示す。 複数のKPCAレベルを持つモデルは、単一レベルのモデルよりも優れています。 テストされた大規模データセットでは、DRKMは同等のパフォーマンスを維持しながら、CNNよりもエネルギー効率が高い。

In the context of deep learning with kernel machines, the deep Restricted Kernel Machine (DRKM) framework allows multiple levels of kernel PCA (KPCA) and Least-Squares Support Vector Machines (LSSVM) to be combined into a deep architecture using visible and hidden units. We propose a new method for DRKM classification coupling the objectives of KPCA and classification levels, with the hidden feature matrix lying on the Stiefel manifold. The classification level can be formulated as an LSSVM or as an MLP feature map, combining depth in terms of levels and layers. The classification level is expressed in its primal formulation, as the deep KPCA levels, in their dual formulation, can embed the most informative components of the data in a much lower dimensional space. The dual setting is independent of the dimension of the inputs and the primal setting is parametric, which makes the proposed method computationally efficient for both high-dimensional inputs and large datasets. In the experiments, we show that our developed algorithm can effectively learn from small datasets, while using less memory than the convolutional neural network (CNN) with high-dimensional data. and that models with multiple KPCA levels can outperform models with a single level. On the tested larger-scale datasets, DRKM is more energy efficient than CNN while maintaining comparable performance.
翻訳日:2023-08-30 17:57:47 公開日:2023-08-29
# 深層学習に基づく政策予測による運転行動予測

Anticipating Driving Behavior through Deep Learning-Based Policy Prediction ( http://arxiv.org/abs/2307.11058v2 )

ライセンス: Link先を確認
Fuxiao Liu(参考訳) そこで本研究では,通常のカメラで撮影された映像フレームから得られる視覚特徴と,ポイントクラウドスキャナから得られた奥行き詳細を総合的に処理する総合システムを開発した。 このシステムは、車両の速度と操舵角度の両方を含む運転行動を予測するように設計されている。 信頼性を確保するために,実世界の熟練ドライバが固執する確立された規範を用いて,予測結果に合致する評価を行った。 評価結果から,少なくとも半数のシナリオ(50~80%程度,特定のモデルに相当)において,予測が注目に値する精度を達成していることが示された。 特に,アマルガメート機能の利用は,ビデオフレームを単独で使用する場合と比較して,ほとんどの場合において優れた性能を示した。

In this endeavor, we developed a comprehensive system that processes integrated visual features derived from video frames captured by a regular camera, along with depth details obtained from a point cloud scanner. This system is designed to anticipate driving actions, encompassing both vehicle speed and steering angle. To ensure its reliability, we conducted assessments where we juxtaposed the projected outcomes with the established norms adhered to by skilled real-world drivers. Our evaluation outcomes indicate that the forecasts achieve a noteworthy level of accuracy in a minimum of half the test scenarios (ranging around 50-80%, contingent on the specific model). Notably, the utilization of amalgamated features yielded superior performance in comparison to using video frames in isolation, as demonstrated by most of the cases.
翻訳日:2023-08-30 17:48:58 公開日:2023-08-29
# ロバスト点雲分類におけるリスク最適化外乱除去

Risk-optimized Outlier Removal for Robust Point Cloud Classification ( http://arxiv.org/abs/2307.10875v2 )

ライセンス: Link先を確認
Xinke Li, Junchi Lu, Henghui Ding, Changsheng Sun, Joey Tianyi Zhou, Chee Yeow Meng(参考訳) 3dセンシング技術の成長に伴い、3dポイントクラウドのためのディープラーニングシステムは、特に安全が主な関心事である自動運転車のようなアプリケーションにおいて、ますます重要になっている。 しかし、自然発生か悪意のある意図で導入されるかにかかわらず、ノイズの多い点雲に遭遇する際のシステムの信頼性に関する懸念も高まっている。 本稿では,単純背景雑音からモデル予測を意図的に歪める悪質なバックドア攻撃に至るまで,様々なノイズによるポイントクラウド分類の課題について述べる。 最適化されたポイントクラウドの切り離しは緊急に必要だが、現在のポイント切り離しアプローチは、切り離しに不可欠なステップであり、手作りの戦略に大きく依存しており、分類のような高レベルなタスクには適応していない。 この問題に対処するために、下流分類モデルのパワーを利用する革新的なポイントアウトリアクリーニング手法を提案する。 勾配に基づく帰属分析を用いることで,新しい概念であるポイントリスクを定義できる。 ファイナンスにおけるテールリスク最小化からインスピレーションを得て、最適化問題であるPointCVaRをリキャストした。 広範な実験により,提案手法は多種多様な点雲の異常値をロバストにフィルタするだけでなく,既存のロバストな点雲分類法を一貫して大きく拡張することを示した。

With the growth of 3D sensing technology, deep learning system for 3D point clouds has become increasingly important, especially in applications like autonomous vehicles where safety is a primary concern. However, there are also growing concerns about the reliability of these systems when they encounter noisy point clouds, whether occurring naturally or introduced with malicious intent. This paper highlights the challenges of point cloud classification posed by various forms of noise, from simple background noise to malicious backdoor attacks that can intentionally skew model predictions. While there's an urgent need for optimized point cloud denoising, current point outlier removal approaches, an essential step for denoising, rely heavily on handcrafted strategies and are not adapted for higher-level tasks, such as classification. To address this issue, we introduce an innovative point outlier cleansing method that harnesses the power of downstream classification models. By employing gradient-based attribution analysis, we define a novel concept: point risk. Drawing inspiration from tail risk minimization in finance, we recast the outlier removal process as an optimization problem, named PointCVaR. Extensive experiments show that our proposed technique not only robustly filters diverse point cloud outliers but also consistently and significantly enhances existing robust methods for point cloud classification.
翻訳日:2023-08-30 17:48:44 公開日:2023-08-29
# LLMにおけるジェンダーバイアスの出現 : 社会学的意味の分析と対応

Unveiling Gender Bias in Terms of Profession Across LLMs: Analyzing and Addressing Sociological Implications ( http://arxiv.org/abs/2307.09162v2 )

ライセンス: Link先を確認
Vishesh Thakur(参考訳) 人工知能(AI)と自然言語処理におけるジェンダーバイアスは、社会的知覚やバイアスに潜在的に影響するため、大きな注目を集めている。 本研究の目的は,大言語モデル(llms)における性バイアスの分析と,gpt-2とgpt-3.5の複数の比較に着目し,その意味を深く理解することにある。 包括的な文献レビューを通じて、AI言語モデルにおけるジェンダーバイアスに関する既存の研究を調査し、現在の知識のギャップを特定する。 この手法は、gpt-2およびgpt-3.5からのデータ収集と前処理を伴い、生成されたテキストにおける性別バイアスを評価するために詳細な定量的分析技術を用いる。 この発見は、これらの大規模言語モデルのアウトプットに存在するジェンダー付き単語関連、言語使用、偏見付き物語に光を当てた。 この議論は、ジェンダーバイアスの倫理的影響とその社会的認知と限界化されたコミュニティへの潜在的な影響を探求する。 さらに,アルゴリズムアプローチやデータ拡張手法など,LSMにおける性別バイアスを低減する手法を提案する。 この研究は、aiモデルのジェンダーバイアス緩和における学際的コラボレーションの重要性と社会学研究の役割を強調している。 これらの問題を解決することで、社会にポジティブな影響を与える、包括的で偏見のないAIシステムを実現することができる。

Gender bias in artificial intelligence (AI) and natural language processing has garnered significant attention due to its potential impact on societal perceptions and biases. This research paper aims to analyze gender bias in Large Language Models (LLMs) with a focus on multiple comparisons between GPT-2 and GPT-3.5, some prominent language models, to better understand its implications. Through a comprehensive literature review, the study examines existing research on gender bias in AI language models and identifies gaps in the current knowledge. The methodology involves collecting and preprocessing data from GPT-2 and GPT-3.5, and employing in-depth quantitative analysis techniques to evaluate gender bias in the generated text. The findings shed light on gendered word associations, language usage, and biased narratives present in the outputs of these Large Language Models. The discussion explores the ethical implications of gender bias and its potential consequences on social perceptions and marginalized communities. Additionally, the paper presents strategies for reducing gender bias in LLMs, including algorithmic approaches and data augmentation techniques. The research highlights the importance of interdisciplinary collaborations and the role of sociological studies in mitigating gender bias in AI models. By addressing these issues, we can pave the way for more inclusive and unbiased AI systems that have a positive impact on society.
翻訳日:2023-08-30 17:48:20 公開日:2023-08-29
# CNN-LSTMモデルを用いたペルシャツイートの政治的感性分析

Political Sentiment Analysis of Persian Tweets Using CNN-LSTM Model ( http://arxiv.org/abs/2307.07740v2 )

ライセンス: Link先を確認
Mohammad Dehghani, Zahra Yazdanparast(参考訳) 感情分析は、人々の感情や様々なトピックに関する意見を特定し分類するプロセスである。 Twitterの感情分析は、近年ますます人気が高まっている。 本稿では,ペルシャの政治ツイートの感情分析のために,いくつかの機械学習とディープラーニングモデルを提案する。 分析は単語表現のためのbag of wordsとparsbertを用いて行った。 我々は、ツイートの極性を分類するために、Gaussian Naive Bayes、Gradient Boosting、Logistic Regression、Decision Trees、Random Forests、CNNとLSTMを組み合わせた。 本研究では,ParsBERT埋め込みによるディープラーニングが機械学習よりも優れていることを示す。 CNN-LSTMモデルは分類精度が最も高く、第1データセットでは99%、第2データセットでは71%であった。 ペルシャの複雑さのため、このレベルの効率を達成するのは困難であった。 本研究の目的は,モデルの性能を維持しながらトレーニング時間を短縮することであった。 その結果、モデルアーキテクチャとパラメータにいくつかの調整が加えられた。 目的を達成することに加えて、パフォーマンスもわずかに改善された。

Sentiment analysis is the process of identifying and categorizing people's emotions or opinions regarding various topics. The analysis of Twitter sentiment has become an increasingly popular topic in recent years. In this paper, we present several machine learning and a deep learning model to analysis sentiment of Persian political tweets. Our analysis was conducted using Bag of Words and ParsBERT for word representation. We applied Gaussian Naive Bayes, Gradient Boosting, Logistic Regression, Decision Trees, Random Forests, as well as a combination of CNN and LSTM to classify the polarities of tweets. The results of this study indicate that deep learning with ParsBERT embedding performs better than machine learning. The CNN-LSTM model had the highest classification accuracy with 89 percent on the first dataset and 71 percent on the second dataset. Due to the complexity of Persian, it was a difficult task to achieve this level of efficiency. The main objective of our research was to reduce the training time while maintaining the model's performance. As a result, several adjustments were made to the model architecture and parameters. In addition to achieving the objective, the performance was slightly improved as well.
翻訳日:2023-08-30 17:48:01 公開日:2023-08-29
# TALL:ディープフェイクビデオ検出のためのThumbnailレイアウト

TALL: Thumbnail Layout for Deepfake Video Detection ( http://arxiv.org/abs/2307.07494v2 )

ライセンス: Link先を確認
Yuting Xu, Jian Liang, Gengyun Jia, Ziming Yang, Yanhao Zhang, Ran He(参考訳) 社会やサイバーセキュリティに対するディープフェイクの脅威が高まり、公衆の懸念が高まり、ディープフェイクビデオ検出のこの重要な話題に努力が注がれている。 既存のビデオ手法は優れた性能を発揮するが、計算量が多い。 本稿では,ビデオクリップを予め定義されたレイアウトに変換することで,空間的および時間的依存関係の保存を実現する,Thumbnail Layout (TALL) というシンプルな手法を提案する。 具体的には、連続したフレームを各フレーム内の一定の位置にマスクして一般化を改善し、サブイメージにリサイズし、サムネイルとして予め定義されたレイアウトに再構成する。 TALLは、数行のコードだけを変更することで、モデルに依存しない、非常に単純です。 視覚変換器の成功に触発されて,我々はTALLをSwin Transformerに組み込み,効率的かつ効果的なTALL-Swin法を構築した。 TALLとSOTA TALL-Swinの有効性と優位性を検証した。 TALL-Swinは、挑戦的なクロスデータセットタスク、FaceForensics++ $\to$ Celeb-DFで90.79$\%$AUCを達成した。 コードはhttps://github.com/rainy-xu/tall4 deepfakeで入手できる。

The growing threats of deepfakes to society and cybersecurity have raised enormous public concerns, and increasing efforts have been devoted to this critical topic of deepfake video detection. Existing video methods achieve good performance but are computationally intensive. This paper introduces a simple yet effective strategy named Thumbnail Layout (TALL), which transforms a video clip into a pre-defined layout to realize the preservation of spatial and temporal dependencies. Specifically, consecutive frames are masked in a fixed position in each frame to improve generalization, then resized to sub-images and rearranged into a pre-defined layout as the thumbnail. TALL is model-agnostic and extremely simple by only modifying a few lines of code. Inspired by the success of vision transformers, we incorporate TALL into Swin Transformer, forming an efficient and effective method TALL-Swin. Extensive experiments on intra-dataset and cross-dataset validate the validity and superiority of TALL and SOTA TALL-Swin. TALL-Swin achieves 90.79$\%$ AUC on the challenging cross-dataset task, FaceForensics++ $\to$ Celeb-DF. The code is available at https://github.com/rainy-xu/TALL4Deepfake.
翻訳日:2023-08-30 17:47:43 公開日:2023-08-29
# 全体MR画像におけるAtlas-based Interpretable Age Prediction

Atlas-Based Interpretable Age Prediction In Whole-Body MR Images ( http://arxiv.org/abs/2307.07439v2 )

ライセンス: Link先を確認
Sophie Starck, Yadunandan Vivekanand Kini, Jessica Johanna Maria Ritter, Rickmer Braren, Daniel Rueckert and Tamara Mueller(参考訳) 年齢予測は医療評価と研究の重要な部分である。 慢性期と生物学的年齢の相違を強調することにより、疾患の検出や異常な老化を支援できる。 様々な部位で観察される年齢変化の包括的理解を得るために,全体像を用いて大規模に調査を行った。 人の年齢を最も予測する身体領域を決定するために, grad-cam の解釈可能性を用いた。 我々は,人口全体にわたる解釈可能性マップの作成に登録技術を用いることにより,個々の対象にまたがって分析を展開する。 さらに,平均絶対誤差を2.76年とするモデルを用いて,最先端の全身年齢予測を行う。 以上の結果より, 脊椎, 自家背筋, 心臓領域の3つの主要な関心領域が明らかとなった。

Age prediction is an important part of medical assessments and research. It can aid in detecting diseases as well as abnormal ageing by highlighting the discrepancy between chronological and biological age. To gain a comprehensive understanding of age-related changes observed in various body parts, we investigate them on a larger scale by using whole-body images. We utilise the Grad-CAM interpretability method to determine the body areas most predictive of a person's age. We expand our analysis beyond individual subjects by employing registration techniques to generate population-wide interpretability maps. Furthermore, we set state-of-the-art whole-body age prediction with a model that achieves a mean absolute error of 2.76 years. Our findings reveal three primary areas of interest: the spine, the autochthonous back muscles, and the cardiac region, which exhibits the highest importance.
翻訳日:2023-08-30 17:47:22 公開日:2023-08-29
# intformer:コネクテッドカーデータを用いた交差点衝突確率予測のための時間埋め込み注意型変圧器

inTformer: A Time-Embedded Attention-Based Transformer for Crash Likelihood Prediction at Intersections Using Connected Vehicle Data ( http://arxiv.org/abs/2307.03854v4 )

ライセンス: Link先を確認
B M Tazbiul Hassan Anik, Zubayer Islam, Mohamed Abdel-Aty(参考訳) リアルタイム衝突確率予測モデルは、積極的な交通安全管理システムの重要な構成要素である。 長年にわたり、交通の安全性を高めるために衝突可能性予測モデルを構築しようと試みてきたが、ほとんどが高速道路である。 既存の研究の大半で、研究者は主にクラッシュの可能性を特定するためにディープラーニングベースのフレームワークを使用してきた。 最近のtransformerは、注意に基づくメカニズムを基本とするディープニューラルネットワークの可能性として浮上している。 Transformerは、LSTMやCNNといった既存のディープラーニングモデルに対して、いくつかの機能的なメリットがある。 まず、Transformerはデータシーケンスの長期依存関係を簡単に処理できる。 第二に、トランスフォーマーはトレーニング中にデータシーケンス内のすべての要素を並列に処理できる。 最後に、Transformerには消滅する勾配の問題がない。 InTersection-Transformer(inTformer)モデルを提案する。これは,リアルタイムに交差点衝突確率を効果的に予測できる,時間組込みアテンションベースのTransformerモデルである。 提案モデルは,信号解析プラットフォームから抽出した車両データを用いて評価した。 本研究は交差点における複雑な交通操作機構を認識し、交差点領域を2つの異なるゾーンに分割することにより、ゾーン固有のモデルを開発した。 InTformerの最適モデルである"within-intersection"と"approach"ゾーンは、それぞれ73%、70%の感度を達成した。 ゾーンレベルのモデルは、交差点での衝突確率予測に関する以前の研究や、同じ接続された車両データセットでトレーニングされたいくつかの確立されたディープラーニングモデルと比較された。

The real-time crash likelihood prediction model is an essential component of the proactive traffic safety management system. Over the years, numerous studies have attempted to construct a crash likelihood prediction model in order to enhance traffic safety, but mostly on freeways. In the majority of the existing studies, researchers have primarily employed a deep learning-based framework to identify crash potential. Lately, Transformer has emerged as a potential deep neural network that fundamentally operates through attention-based mechanisms. Transformer has several functional benefits over extant deep learning models such as LSTM, CNN, etc. Firstly, Transformer can readily handle long-term dependencies in a data sequence. Secondly, Transformers can parallelly process all elements in a data sequence during training. Finally, a Transformer does not have the vanishing gradient issue. Realizing the immense possibility of Transformers, this paper proposes inTersection-Transformer (inTformer), a time-embedded attention-based Transformer model that can effectively predict intersection crash likelihood in real-time. The proposed model was evaluated using connected vehicle data extracted from Signal Analytics Platform. Acknowledging the complex traffic operation mechanism at intersection, this study developed zone-specific models by dividing the intersection region into two distinct zones: within-intersection and approach zone. The best inTformer models in 'within-intersection,' and 'approach' zone achieved a sensitivity of 73%, and 70%, respectively. The zone-level models were also compared to earlier studies on crash likelihood prediction at intersections and with several established deep learning models trained on the same connected vehicle dataset.
翻訳日:2023-08-30 17:47:10 公開日:2023-08-29
# ドメイン一般化都市-シーンセグメンテーションのための学習コンテンツエンハンスドマスクトランス

Learning Content-enhanced Mask Transformer for Domain Generalized Urban-Scene Segmentation ( http://arxiv.org/abs/2307.00371v2 )

ライセンス: Link先を確認
Qi Bi, Shaodi You, Theo Gevers(参考訳) ドメイン一般化都市シーンセマンティックセマンティックセグメンテーション (USSS) は,様々な都市シーンスタイルの汎用セマンティックセマンティックセグメンテーションを学習することを目的としている。 ドメインギャップの課題とは異なり、usssは、意味的なカテゴリが異なる都市シーンでよく似ているのに対して、都市景観の変化、気象条件、照明、その他の要因によりスタイルが著しく異なる点が特徴である。 既存のアプローチは通常、都市シーンの内容を学ぶために畳み込みニューラルネットワーク(CNN)に依存している。 本稿では、ドメイン一般化USSSのためのコンテンツ強化Mask TransFormer(CMFormer)を提案する。 主な考え方は、コンテンツ情報に対するトランスフォーマーセグメンテーションモデルにおける基本的なコンポーネントであるマスアテンション機構の焦点を強化することである。 そこで本研究では,新しいマスキング機構を提案する。 低解像度の画像機能は、通常より堅牢なコンテンツ情報を含み、スタイルのバリエーションに敏感でないため、イメージ機能とダウンサンプルの両方からマスククエリを学習する。 これらの機能はTransformerデコーダに融合され、マルチ解像度のコンテンツ強調学習スキームに統合される。 様々な領域一般化都市・シーンセグメンテーションデータセットを用いて行った大規模な実験により、提案したCMFormerは、ドメイン一般化セグメンテーションの既存のCNN手法を著しく上回っており、mIoUの点において最大14.00\%の改善が達成されている。 CMFormerのソースコードは、この \href{https://github.com/BiQiWHU/ domain- generalized-urban-scene-spository} で入手できる。

Domain-generalized urban-scene semantic segmentation (USSS) aims to learn generalized semantic predictions across diverse urban-scene styles. Unlike domain gap challenges, USSS is unique in that the semantic categories are often similar in different urban scenes, while the styles can vary significantly due to changes in urban landscapes, weather conditions, lighting, and other factors. Existing approaches typically rely on convolutional neural networks (CNNs) to learn the content of urban scenes. In this paper, we propose a Content-enhanced Mask TransFormer (CMFormer) for domain-generalized USSS. The main idea is to enhance the focus of the fundamental component, the mask attention mechanism, in Transformer segmentation models on content information. To achieve this, we introduce a novel content-enhanced mask attention mechanism. It learns mask queries from both the image feature and its down-sampled counterpart, as lower-resolution image features usually contain more robust content information and are less sensitive to style variations. These features are fused into a Transformer decoder and integrated into a multi-resolution content-enhanced mask attention learning scheme. Extensive experiments conducted on various domain-generalized urban-scene segmentation datasets demonstrate that the proposed CMFormer significantly outperforms existing CNN-based methods for domain-generalized semantic segmentation, achieving improvements of up to 14.00\% in terms of mIoU (mean intersection over union). The source code for CMFormer will be made available at this \href{https://github.com/BiQiWHU/domain-generalized-urban-scene-segmentation}{repository}.
翻訳日:2023-08-30 17:46:47 公開日:2023-08-29
# All-in-SAM: Prompt-based Finetuningによる弱アノテーションから画素単位のヌクレイセグメンテーションへ

All-in-SAM: from Weak Annotation to Pixel-wise Nuclei Segmentation with Prompt-based Finetuning ( http://arxiv.org/abs/2307.00290v2 )

ライセンス: Link先を確認
Can Cui, Ruining Deng, Quan Liu, Tianyuan Yao, Shunxing Bao, Lucas W. Remedios, Yucheng Tang, Yuankai Huo(参考訳) segment anything model (sam) は、汎用ゼロショットセグメンテーションアプローチで最近提案されたプロンプトベースのセグメンテーションモデルである。 SAMはゼロショットのセグメンテーション能力により、様々なセグメンテーションタスクにおいて優れた柔軟性と精度を達成した。 しかし、現在のパイプラインでは推論段階で手動プロンプトが必要である。 本稿では、推論段階でプロンプトを使用する代わりに、推論段階で手動のプロンプトを必要とせず、(アノテーション生成からモデル微調整まで)AI開発ワークフロー全体を通して、オールインSAMと呼ばれるSAMを利用するパイプラインを導入する。 具体的には、SAMはまず弱いプロンプト(例えば点、バウンディングボックス)からピクセルレベルのアノテーションを生成するために使用される。 次に、ピクセルレベルのアノテーションを使用して、スクラッチからトレーニングするのではなくSAMセグメンテーションモデルを微調整する。 実験の結果,2つの重要な知見が得られた。 1)公開monusegデータセット上の核セグメンテーションタスクにおいて,提案パイプラインは最先端(sota)メソッドを上回っている。 2) SAMファインタニングにおける弱いアノテーションと少ないアノテーションの利用は, 強い画素ワイドアノテートデータを用いた場合と比較して, 競争性能が向上する。

The Segment Anything Model (SAM) is a recently proposed prompt-based segmentation model in a generic zero-shot segmentation approach. With the zero-shot segmentation capacity, SAM achieved impressive flexibility and precision on various segmentation tasks. However, the current pipeline requires manual prompts during the inference stage, which is still resource intensive for biomedical image segmentation. In this paper, instead of using prompts during the inference stage, we introduce a pipeline that utilizes the SAM, called all-in-SAM, through the entire AI development workflow (from annotation generation to model finetuning) without requiring manual prompts during the inference stage. Specifically, SAM is first employed to generate pixel-level annotations from weak prompts (e.g., points, bounding box). Then, the pixel-level annotations are used to finetune the SAM segmentation model rather than training from scratch. Our experimental results reveal two key findings: 1) the proposed pipeline surpasses the state-of-the-art (SOTA) methods in a nuclei segmentation task on the public Monuseg dataset, and 2) the utilization of weak and few annotations for SAM finetuning achieves competitive performance compared to using strong pixel-wise annotated data.
翻訳日:2023-08-30 17:46:18 公開日:2023-08-29
# Equidiff:軌道予測のための条件等変拡散モデル

EquiDiff: A Conditional Equivariant Diffusion Model For Trajectory Prediction ( http://arxiv.org/abs/2308.06564v2 )

ライセンス: Link先を確認
Kehua Chen, Xianda Chen, Zihan Yu, Meixin Zhu, Hai Yang(参考訳) 正確な軌道予測は、自動運転車の安全かつ効率的な運用に不可欠である。 ディープラーニングの普及は、軌道予測のための多くの方法の開発につながった。 決定論的ディープラーニングモデルが広く使われている一方で、深層生成モデルは、トレーニングデータからデータ分布を学び、軌道の不確かさを考慮し、人気を集めている。 本研究では,将来の車両軌跡予測のための深部生成モデルであるequidiffを提案する。 EquiDiffは、過去の情報とランダムなガウスノイズを組み込んで将来の軌跡を生成する条件拡散モデルに基づいている。 エキディフのバックボーンモデルは、位置座標の幾何学的性質を完全に活用するSO(2)-同変変圧器である。 さらに,リカレントニューラルネットワークとグラフ注意ネットワークを用いて,歴史的軌跡から社会的相互作用を抽出する。 EquiDiffの性能を評価するため,NGSIMデータセットについて広範な実験を行った。 その結果,equidiffは短期予測では他のベースラインモデルよりも優れているが,長期予測では若干高い誤差があることがわかった。 さらに,各成分が予測精度に与える影響を調べるため,アブレーション研究を行った。 さらに, 拡散モデルの生成過程の可視化を行い, 予測の不確実性について考察する。

Accurate trajectory prediction is crucial for the safe and efficient operation of autonomous vehicles. The growing popularity of deep learning has led to the development of numerous methods for trajectory prediction. While deterministic deep learning models have been widely used, deep generative models have gained popularity as they learn data distributions from training data and account for trajectory uncertainties. In this study, we propose EquiDiff, a deep generative model for predicting future vehicle trajectories. EquiDiff is based on the conditional diffusion model, which generates future trajectories by incorporating historical information and random Gaussian noise. The backbone model of EquiDiff is an SO(2)-equivariant transformer that fully utilizes the geometric properties of location coordinates. In addition, we employ Recurrent Neural Networks and Graph Attention Networks to extract social interactions from historical trajectories. To evaluate the performance of EquiDiff, we conduct extensive experiments on the NGSIM dataset. Our results demonstrate that EquiDiff outperforms other baseline models in short-term prediction, but has slightly higher errors for long-term prediction. Furthermore, we conduct an ablation study to investigate the contribution of each component of EquiDiff to the prediction accuracy. Additionally, we present a visualization of the generation process of our diffusion model, providing insights into the uncertainty of the prediction.
翻訳日:2023-08-30 17:40:43 公開日:2023-08-29
# 数保存散逸ダイナミクス下における2バンドフェルミオンの拡散モード

Diffusive modes of two-band fermions under number-conserving dissipative dynamics ( http://arxiv.org/abs/2308.06553v2 )

ライセンス: Link先を確認
A.A. Lyublinskaya and I.S. Burmistrov(参考訳) 駆動散逸性プロトコルは、非自明な量子多体相関状態の制御と生成のために提案される。 粒子数を保持するプロトコルは分離される。 ユニタリ力学を持つ量子系において、粒子数保存とランダム散乱は2粒子励起(拡散子と共役子)の拡散挙動をもたらす。 粒子数保存散逸ダイナミクスにおける拡散モードの存在は、まだよく研究されていない。 1つのフェルミオンバンドを空にし、もう1つのバンドを投入することを目的とした散逸ダイナミクスを用いて、2バンドシステムのパラダイムモデルにおけるディフューションの存在を明示的に示す。 研究モデルは、F. Tonielli, J. C. Budich, A. Altland, S. Diehl, Physで導入されたモデルの一般化である。 Rev. Lett. 124, 240404 (2020). 拡散係数はモデルの詳細と散逸率に依存する。 微分モードの存在がマクロ多体相関状態の工学をいかに複雑化するかについて議論する。

Driven-dissipative protocols are proposed to control and create nontrivial quantum many-body correlated states. Protocols conserving the number of particles stand apart. As well-known, in quantum systems with the unitary dynamics the particle number conservation and random scattering yield diffusive behavior of two-particle excitations (diffusons and cooperons). Existence of diffusive modes in the particle-number-conserving dissipative dynamics is not well studied yet. We explicitly demonstrate the existence of diffusons in a paradigmatic model of a two-band system, with dissipative dynamics aiming to empty one fermion band and to populate the other one. The studied model is generalization of the model introduced in F. Tonielli, J. C. Budich, A. Altland, and S. Diehl, Phys. Rev. Lett. 124, 240404 (2020). We find how the diffusion coefficient depends on details of a model and the rate of dissipation. We discuss how the existence of diffusive modes complicates engineering of macroscopic many-body correlated states.
翻訳日:2023-08-30 17:40:24 公開日:2023-08-29
# 混合効果モデルと階層クラスタリングによる異種農業データセットを用いたベイズネットワークの学習

Learning Bayesian Networks with Heterogeneous Agronomic Data Sets via Mixed-Effect Models and Hierarchical Clustering ( http://arxiv.org/abs/2308.06399v2 )

ライセンス: Link先を確認
Lorenzo Valleggi and Marco Scutari and Federico Mattia Stefanini(参考訳) 共変量と結果の関連性が異なる多様だが関連するデータセットに関する研究は、農学研究を含む様々な分野において一般的である。 これらのシナリオでは、階層モデル(マルチレベルモデルとも呼ばれる)は、異なるデータセットからの情報を同化しつつ、それぞれの特徴を調節するために頻繁に使用される。 しかし、それらの構造は単純な不均一性を超えて、変数はしばしば因果関係の複雑なネットワークを形成する。 ベイズネットワーク(BN)は、変数間の関係を説明するために有向非巡回グラフを用いてそのような関係をモデル化するための強力なフレームワークを提供する。 本研究では,ランダム効果をBN学習に統合する新しい手法を提案する。 線形混合効果モデルでは、このアプローチは階層データを扱うのに特に適している。 実世界の農業試験の結果は、このアプローチを用いることで構造学習が向上し、新たな接続の発見とモデル仕様の改善につながることを示唆している。 さらに,予測誤差を28%から17%に削減した。 BNの複雑なデータセット構造への適用性を拡張することにより、階層的な農業データに対するBNの有効活用に寄与する。 これにより、この分野における意思決定支援ツールとしての価値が高まる。

Research involving diverse but related data sets, where associations between covariates and outcomes may vary, is prevalent in various fields including agronomic studies. In these scenarios, hierarchical models, also known as multilevel models, are frequently employed to assimilate information from different data sets while accommodating their distinct characteristics. However, their structure extend beyond simple heterogeneity, as variables often form complex networks of causal relationships. Bayesian networks (BNs) provide a powerful framework for modelling such relationships using directed acyclic graphs to illustrate the connections between variables. This study introduces a novel approach that integrates random effects into BN learning. Rooted in linear mixed-effects models, this approach is particularly well-suited for handling hierarchical data. Results from a real-world agronomic trial suggest that employing this approach enhances structural learning, leading to the discovery of new connections and the improvement of improved model specification. Furthermore, we observe a reduction in prediction errors from 28% to 17%. By extending the applicability of BNs to complex data set structures, this approach contributes to the effective utilisation of BNs for hierarchical agronomic data. This, in turn, enhances their value as decision-support tools in the field.
翻訳日:2023-08-30 17:40:05 公開日:2023-08-29
# 中高地ドイツ語における言語横断構文解析--語彙化アプローチ

Cross-Lingual Constituency Parsing for Middle High German: A Delexicalized Approach ( http://arxiv.org/abs/2308.04645v2 )

ライセンス: Link先を確認
Ercong Nie, Helmut Schmid, Hinrich Sch\"utze(参考訳) 選挙区解析は自然言語処理(NLP)タスクの進行に重要な役割を果たしている。 しかし,注釈付きパースデータのみに頼った古代語の自動構文解析システムの訓練は,木バンクの構築に固有の課題のため,非常に難しい課題である。 言語的な専門知識が必要であり、利用可能な資源が不足している。 このハードルを克服するために、低リソースのターゲット言語に注釈付きデータを最小または全く必要としない言語間転送技術は、有望な解決策を提供する。 本研究では,現実的な条件下でMHGツリーバンクに注釈を付けないような,$\mathbf{M}$iddle $\mathbf{H}$igh $\mathbf{G}$erman ($\mathbf{MHG}$) の選挙区パーサを構築することに焦点を当てる。 提案手法では,MHGと$\mathbf{M}$odern $\mathbf{G}$erman ($\mathbf{MG}$)の言語的連続性と構造的類似性と,MGツリーバンク資源の豊富さを利用する。 具体的には、$\mathit{delexicalization}$メソッドを用いることで、MGパースデータセット上の選挙区パーサをトレーニングし、MHGパースへの言語間転送を行う。 われわれは,MHGテストセットにおいて,F1スコア67.3%を達成し,顕著な性能を示した。 ゼロショットクロスランガルベースラインでは28.6%の差で最高の成績を残している。 これらの奨励的な結果は、MHGと同じような課題に直面している他の古代言語における自動構文解析の実践性と可能性を示している。

Constituency parsing plays a fundamental role in advancing natural language processing (NLP) tasks. However, training an automatic syntactic analysis system for ancient languages solely relying on annotated parse data is a formidable task due to the inherent challenges in building treebanks for such languages. It demands extensive linguistic expertise, leading to a scarcity of available resources. To overcome this hurdle, cross-lingual transfer techniques which require minimal or even no annotated data for low-resource target languages offer a promising solution. In this study, we focus on building a constituency parser for $\mathbf{M}$iddle $\mathbf{H}$igh $\mathbf{G}$erman ($\mathbf{MHG}$) under realistic conditions, where no annotated MHG treebank is available for training. In our approach, we leverage the linguistic continuity and structural similarity between MHG and $\mathbf{M}$odern $\mathbf{G}$erman ($\mathbf{MG}$), along with the abundance of MG treebank resources. Specifically, by employing the $\mathit{delexicalization}$ method, we train a constituency parser on MG parse datasets and perform cross-lingual transfer to MHG parsing. Our delexicalized constituency parser demonstrates remarkable performance on the MHG test set, achieving an F1-score of 67.3%. It outperforms the best zero-shot cross-lingual baseline by a margin of 28.6% points. These encouraging results underscore the practicality and potential for automatic syntactic analysis in other ancient languages that face similar challenges as MHG.
翻訳日:2023-08-30 17:39:47 公開日:2023-08-29
# オープンフィールド環境におけるロボットハーベスティングのための改良型YOLOv5sアーキテクチャに基づくリアルタイムイチゴ検出

Real-time Strawberry Detection Based on Improved YOLOv5s Architecture for Robotic Harvesting in open-field environment ( http://arxiv.org/abs/2308.03998v2 )

ライセンス: Link先を確認
Zixuan He (1)(2), Salik Ram Khana (1)(2), Xin Zhang (3), Manoj Karkee (1)(2), Qin Zhang (1)(2) ((1) Center for Precision and Automated Agricultural Systems, Washington State University, (2) Department of Biological Systems Engineering, Washington State University, (3) Department of Agricultural and Biological Engineering, Mississippi State University)(参考訳) 本研究では、屋外環境下でイチゴを検知するYOLOv5を用いたカスタムオブジェクト検出モデルを提案する。 YOLOv5sの当初のアーキテクチャは、C3モジュールをバックボーンネットワークのC2fモジュールに置き換えることで変更され、より優れた機能勾配フローを提供した。 第2に, YOLOv5sのバックボーンネットワークの最終層における空間ピラミッドのポーリング速度をクロスステージ部分ネットと組み合わせて, イチゴデータセットの一般化能力を向上した。 提案されたアーキテクチャはYOLOv5s-Strawと名付けられた。 3つの成熟度クラス(未熟、ほぼ成熟、成熟)を持つイチゴキャノピーのrgb画像データセットは、オープンフィールド環境で収集され、輝度の低下、輝度の増大、ノイズの追加を含む一連の操作によって拡張された。 オープンフィールド環境におけるイチゴ検出手法の優位性を検証するため、4つの競合検出モデル(YOLOv3-tiny, YOLOv5s, YOLOv5s-C2f, YOLOv8s)をトレーニングし、同じ計算環境下でテストし、YOLOv5s-Strawと比較した。 その結果、平均平均精度は80.3%で、yolov3-tiny、yolov5s、yolov5s-c2f、yolov8では73.4%、77.8%、79.8%、79.3%であった。 具体的には、YOLOv5s-Strawの平均精度は未熟なクラスで82.1%、ほぼ成熟したクラスで73.5%、成熟したクラスで86.6%であり、それぞれ2.3%と3.7%であった。 モデルには8.6*10^6のネットワークパラメータがあり、1画像あたりの推論速度は18msであり、yolov8の推論速度は21.0ms、重いパラメータは11.1*10^6であった。

This study proposed a YOLOv5-based custom object detection model to detect strawberries in an outdoor environment. The original architecture of the YOLOv5s was modified by replacing the C3 module with the C2f module in the backbone network, which provided a better feature gradient flow. Secondly, the Spatial Pyramid Pooling Fast in the final layer of the backbone network of YOLOv5s was combined with Cross Stage Partial Net to improve the generalization ability over the strawberry dataset in this study. The proposed architecture was named YOLOv5s-Straw. The RGB images dataset of the strawberry canopy with three maturity classes (immature, nearly mature, and mature) was collected in open-field environment and augmented through a series of operations including brightness reduction, brightness increase, and noise adding. To verify the superiority of the proposed method for strawberry detection in open-field environment, four competitive detection models (YOLOv3-tiny, YOLOv5s, YOLOv5s-C2f, and YOLOv8s) were trained, and tested under the same computational environment and compared with YOLOv5s-Straw. The results showed that the highest mean average precision of 80.3% was achieved using the proposed architecture whereas the same was achieved with YOLOv3-tiny, YOLOv5s, YOLOv5s-C2f, and YOLOv8s were 73.4%, 77.8%, 79.8%, 79.3%, respectively. Specifically, the average precision of YOLOv5s-Straw was 82.1% in the immature class, 73.5% in the nearly mature class, and 86.6% in the mature class, which were 2.3% and 3.7%, respectively, higher than that of the latest YOLOv8s. The model included 8.6*10^6 network parameters with an inference speed of 18ms per image while the inference speed of YOLOv8s had a slower inference speed of 21.0ms and heavy parameters of 11.1*10^6, which indicates that the proposed model is fast enough for real time strawberry detection and localization for the robotic picking.
翻訳日:2023-08-30 17:39:13 公開日:2023-08-29
# コードセマンティクス学習のための対称性保存プログラム表現

Symmetry-Preserving Program Representations for Learning Code Semantics ( http://arxiv.org/abs/2308.03312v4 )

ライセンス: Link先を確認
Kexin Pei, Weichen Li, Qirui Jin, Shuyang Liu, Scott Geng, Lorenzo Cavallaro, Junfeng Yang, Suman Jana(参考訳) 大規模言語モデル(llm)は、多くのセキュリティタスクの重要な側面である自動プログラム推論において、約束を示している。 しかし、既存のコード用のllmアーキテクチャは、自然言語処理のような他のドメインから借用されることが多く、コードの一般化と堅牢性に懸念を抱いている。 鍵となる一般化の課題は、制御やデータフローを含むコードセマンティクスの知識をllmアーキテクチャに組み込むことである。 変換対称性を利用した畳み込み層の例からインスピレーションを得て、コード対称性がプログラム解析とモデリングのためにllmアーキテクチャをどのように強化できるかを考察する。 本稿では,コード対称性を意味論的保存変換として正式に定義する厳密なグループ理論フレームワークを提案する。 本フレームワークを用いて,プログラムの対称性を保存し,その一般化とロバスト性を示す新たな自己注意法を導入し,異なるバイナリおよびソースコード解析タスクの詳細な実験評価を行った。 全体として、我々のコード対称性フレームワークは厳格で強力な推論技術を提供しており、コードのための特殊なLCMの開発をガイドし、LLM誘導プログラム推論タスクを前進させる。

Large Language Models (LLMs) have shown promise in automated program reasoning, a crucial aspect of many security tasks. However, existing LLM architectures for code are often borrowed from other domains like natural language processing, raising concerns about their generalization and robustness to unseen code. A key generalization challenge is to incorporate the knowledge of code semantics, including control and data flow, into the LLM architectures. Drawing inspiration from examples of convolution layers exploiting translation symmetry, we explore how code symmetries can enhance LLM architectures for program analysis and modeling. We present a rigorous group-theoretic framework that formally defines code symmetries as semantics-preserving transformations and provides techniques for precisely reasoning about symmetry preservation within LLM architectures. Using this framework, we introduce a novel variant of self-attention that preserves program symmetries, demonstrating its effectiveness in generalization and robustness through detailed experimental evaluations across different binary and source code analysis tasks. Overall, our code symmetry framework offers rigorous and powerful reasoning techniques that can guide the future development of specialized LLMs for code and advance LLM-guided program reasoning tasks.
翻訳日:2023-08-30 17:38:06 公開日:2023-08-29
# NBIAS:テキスト中のバイアス識別のための自然言語処理フレームワーク

NBIAS: A Natural Language Processing Framework for Bias Identification in Text ( http://arxiv.org/abs/2308.01681v3 )

ライセンス: Link先を確認
Shaina Raza, Muskan Garg, Deepak John Reji, Syed Raza Bashir, Chen Ding(参考訳) テキストデータのバイアスは、データが使用されると歪んだ解釈や結果につながる可能性がある。 これらのバイアスは、ステレオタイプ、差別、その他の不公平な扱いを永続する可能性がある。 偏ったデータに基づいて訓練されたアルゴリズムは、あるグループに不公平に影響を及ぼす決定を下すかもしれない。 したがって、データの公正かつ倫理的利用を確保するためには、これらのバイアスを検出して取り除くことが不可欠である。 この目的のために,データ,コーパス構築,モデル開発,評価層という4つの主層からなる包括的かつ堅牢なフレームワークnbiasを開発した。 このデータセットは、ソーシャルメディア、ヘルスケア、雇用ポータルなど、さまざまなドメインからさまざまなデータを収集して構築されている。 そこで我々は,一意な名前付きエンティティバイアスを通じてバイアスワード/フレーズを識別できるトランスフォーマティブベースのトークン分類モデルを適用した。 評価手法では,定量的および定性的尺度を混合して,モデルの有効性を評価する。 ベースラインに比べて1%から8%の精度向上を実現しています。 また、機能するモデルの堅牢な理解も生成できます。 提案手法は,様々なバイアスに適用でき,公平かつ倫理的なテキストデータの活用に寄与する。

Bias in textual data can lead to skewed interpretations and outcomes when the data is used. These biases could perpetuate stereotypes, discrimination, or other forms of unfair treatment. An algorithm trained on biased data may end up making decisions that disproportionately impact a certain group of people. Therefore, it is crucial to detect and remove these biases to ensure the fair and ethical use of data. To this end, we develop a comprehensive and robust framework NBIAS that consists of four main layers: data, corpus construction, model development and an evaluation layer. The dataset is constructed by collecting diverse data from various domains, including social media, healthcare, and job hiring portals. As such, we applied a transformer-based token classification model that is able to identify bias words/ phrases through a unique named entity BIAS. In the evaluation procedure, we incorporate a blend of quantitative and qualitative measures to gauge the effectiveness of our models. We achieve accuracy improvements ranging from 1% to 8% compared to baselines. We are also able to generate a robust understanding of the model functioning. The proposed approach is applicable to a variety of biases and contributes to the fair and ethical use of textual data.
翻訳日:2023-08-30 17:37:43 公開日:2023-08-29
# 相対論的時間拡張の不可逆性

The irreversibility of relativistic time-dilation ( http://arxiv.org/abs/2307.12778v2 )

ライセンス: Link先を確認
Marcos L. W. Basso, Jonas Maziero, Lucas C. C\'eleri(参考訳) 自然界における不可逆過程を特徴づける揺らぎ関係は、非平衡物理学において最も重要な結果である。 要するに、これらの関係は、時間反転過程を観測することは指数関数的に不可能であり、したがって、低エントロピーから高エントロピーへ向ける時間の熱力学的矢印を確立する。 一方、基本的な物理理論は時間反転対称性の下で不変である。 ニュートン物理学や量子物理学では、可逆過程の出現とゆらぎ関係は比較的よく理解されているが、相対性理論がゲームに入ると多くの問題が生じる。 本研究では,特定の時空のクラスを考慮し,時間拡張効果がゆらぎ関係にどのように入り込むのかを考察する。 正のエントロピー生成は、特殊相対論的および重力的(同値原理で閉ざされた)時間拡散効果の結果として生じると結論付ける。

The fluctuation relations, which characterize irreversible processes in Nature, are among the most important results in non-equilibrium physics. In short, these relations say that it is exponentially unlikely for us to observe a time-reversed process and, thus, establish the thermodynamic arrow of time pointing from low to high entropy. On the other hand, fundamental physical theories are invariant under time-reversal symmetry. Although in Newtonian and quantum physics the emergence of irreversible processes, as well as fluctuation relations, is relatively well understood, many problems arise when relativity enters the game. In this work, by considering a specific class of spacetimes, we explore the question of how the time-dilation effect enters into the fluctuation relations. We conclude that a positive entropy production emerges as a consequence of both the special relativistic and the gravitational (enclosed in the equivalence principle) time-dilation effects.
翻訳日:2023-08-30 17:37:26 公開日:2023-08-29
# セキュリティ指向コード解析における大規模言語モデル(ChatGPT, CodeBERT)の有効性

The Effectiveness of Large Language Models (ChatGPT and CodeBERT) for Security-Oriented Code Analysis ( http://arxiv.org/abs/2307.12488v3 )

ライセンス: Link先を確認
Zhilong Wang and Lan Zhang and Chen Cao and Peng Liu(参考訳) GPTやBERTのような大規模言語モデル(LLM)は、ニューラルネットワークプロセスタスクに対処する際、顕著な能力を示している。 近年、ChatGPTのリリースは、ユーザの入力から情報を分析し、理解し、合成する能力によって、大きな注目を集めている。 そのため、これらのLSMは多くの異なる領域の研究者によって採用された。 コード分析の分野では、コードレビューやコード生成といったタスクにLLMを適用している。 しかし,これらのLSMをコード解析に適用する際の長所と短所は検討されていない。 本稿では,セキュリティ指向プログラム分析におけるLLMの能力について,攻撃者やセキュリティアナリストの視点から検討する。 chatgpt と codebert の2つの代表的な llm に着目し,難易度の違いによる典型的な解析タスクの解法の性能評価を行った。 ChatGPT と CodeBERT の異なる性質を考慮し、ChatGPT のモデル出力の定性解析と CodeBERT の定量的解析を行う。 本稿では,ChatGPTに対して,セキュリティ指向のプログラム分析タスクを複数実施するケーススタディを提案する。 一方、CodeBERTでは、コード内の特徴を体系的に分析し分類し、これらの特徴がモデルの性能に与える影響を定量的に評価する。 本研究は,コードから高レベルのセマンティクスを学習する上でのLLMの効率を実証し,ChatGPTをセキュリティ指向のコンテキストにおける潜在的資産として位置づけた。 しかし、明確に定義された変数や関数名への強い依存など、特定の制限を認識することが不可欠であり、匿名コードから学べない。 私たちの発見と分析がこの領域の将来の研究者に貴重な洞察を提供することを期待しています。

Large Language Models (LLMs), such as GPT and BERT, have demonstrated remarkable capabilities in addressing neural language process tasks. Recently, the release of ChatGPT has garnered significant attention due to its ability to analyze, comprehend, and synthesize information from user inputs. Therefore, these LLMs were adopted by researchers in many different domains. In the realm of code analysis, researchers have applied LLMs to tasks like code review and code generation. However, we observed that the strengths and limitations of adopting these LLMs to the code analysis have not been investigated. In this paper, we delve into LLMs' capabilities in security-oriented program analysis, considering perspectives from both attackers and security analysts. We focus on two representative LLMs, ChatGPT and CodeBert, and evaluate their performance in solving typical analytic tasks with varying levels of difficulty. Given the different natures of ChatGPT and CodeBERT, we conduct a qualitative analysis of the model's output for ChatGPT and a quantitative analysis for CodeBERT, respectively. For ChatGPT, we present a case study involving several security-oriented program analysis tasks while deliberately introducing challenges to assess its responses. On the other hand, for CodeBERT, we systematically analyze and classify the features in code, quantitatively evaluating the impact of these features on the model's performance. Our study demonstrates the LLM's efficiency in learning high-level semantics from code, positioning ChatGPT as a potential asset in security-oriented contexts. However, it is essential to acknowledge certain limitations, such as the heavy reliance on well-defined variable and function names, making them unable to learn from anonymized code. We hope that our findings and analysis will offer valuable insights for future researchers in this domain.
翻訳日:2023-08-30 17:37:11 公開日:2023-08-29
# ドキュメントページ分類を超えて:設計、データセット、挑戦

Beyond Document Page Classification: Design, Datasets, and Challenges ( http://arxiv.org/abs/2308.12896v2 )

ライセンス: Link先を確認
Jordy Van Landeghem, Sanket Biswas, Matthew B. Blaschko, Marie-Francine Moens(参考訳) 本稿では、テスト対象データの性質(X$: マルチチャネル、マルチページ、マルチインダストリー、$Y$: クラス分布、ラベルセットの多様性)と、検討対象の分類タスク(f$: マルチページドキュメント、ページストリーム、ドキュメントバンドル分類、...)の両方において、実世界のアプリケーションに文書分類ベンチマークを近づけることの必要性を強調した。 我々は、公開マルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。 提案されているマルチページ文書分類データセットに関する実験的研究は、現在のベンチマークが無関係になり、完全に文書を評価するために更新する必要があることを実証している。 この現実チェックはまた、キャリブレーション評価、推論複雑性(時間メモリ)、および現実的な分散シフト(例えば、出生デジタル対走査ノイズ、ページ順のシフトなど)をカバーする、より成熟した評価手法も要求する。 私たちの研究は、将来の改善のためにコンクリート製アベニューを推奨することで、希望に満ちた注記で終わる。 }

This paper highlights the need to bring document classification benchmarking closer to real-world applications, both in the nature of data tested ($X$: multi-channel, multi-paged, multi-industry; $Y$: class distributions and label set variety) and in classification tasks considered ($f$: multi-page document, page stream, and document bundle classification, ...). We identify the lack of public multi-page document classification datasets, formalize different classification tasks arising in application scenarios, and motivate the value of targeting efficient multi-page document representations. An experimental study on proposed multi-page document classification datasets demonstrates that current benchmarks have become irrelevant and need to be updated to evaluate complete documents, as they naturally occur in practice. This reality check also calls for more mature evaluation methodologies, covering calibration evaluation, inference complexity (time-memory), and a range of realistic distribution shifts (e.g., born-digital vs. scanning noise, shifting page order). Our study ends on a hopeful note by recommending concrete avenues for future improvements.}
翻訳日:2023-08-30 17:29:19 公開日:2023-08-29
# 最も単純な線形ランプは何ですか?

What is the Simplest Linear Ramp? ( http://arxiv.org/abs/2308.11704v2 )

ライセンス: Link先を確認
Suman Das, Sumit K. Garg, Chethan Krishnan, Arnab Kundu(参考訳) 本稿では、ハミルトニアンの固有値の集合として解釈される実数の決定論的列が、通常ランダム行列スペクトルに関連する特徴を示すことができる条件について論じる。 重要な診断はスペクトルフォームファクター(SFF)であり、SFFの線形ランプはランダムな行列の振る舞いのシグネチャと見なされることが多い。 様々な明示的な例に基づき、線形およびパワーの法則が決定論的スペクトルに現れる条件を観測する。 線形ランプを持つ非常に単純なスペクトルは$E_n \sim \log n$である。 ランプの存在にもかかわらず、これらのシーケンスは従来のレベルの反発を示す$$$$であり、それらの並行性に関する伝承が洗練する必要があることを示している。 しかし、スペクトルに小さなノイズ補正を加えると、(線形)ランプと同様にクリアレベルの反発につながる。 対数スペクトルの顕著な特徴は、それらの線形ランプとは別に、それらはブラックホールの伸びた水平線の通常のモードと密接に関連しており、引数 $s=\beta+it$ の分割関数はリーマンゼータ函数 $\zeta(s)$ である。 直接の結果、スペクトル形式因子は単に$\sim |\zeta(it)|^2$である。 ログスペクトルが線形ランプを持つという観察は、ゼータ関数の成長に関するリンデルの仮説と密接に関連している。 基本数値では、ログプロット上の最良の適合線の勾配が、実際には、第4の十進数に対して$|\zeta(it)|^2$であることを示す。 また、リーマンゼータ関数の和を有限整数 $n$ で切り切ると、高原で無限のランプが終わることに注意する。

We discuss conditions under which a deterministic sequence of real numbers, interpreted as the set of eigenvalues of a Hamiltonian, can exhibit features usually associated to random matrix spectra. A key diagnostic is the spectral form factor (SFF) -- a linear ramp in the SFF is often viewed as a signature of random matrix behavior. Based on various explicit examples, we observe conditions for linear and power law ramps to arise in deterministic spectra. We note that a very simple spectrum with a linear ramp is $E_n \sim \log n$. Despite the presence of ramps, these sequences do $not$ exhibit conventional level repulsion, demonstrating that the lore about their concurrence needs refinement. However, when a small noise correction is added to the spectrum, they lead to clear level repulsion as well as the (linear) ramp. We note some remarkable features of logarithmic spectra, apart from their linear ramps: they are closely related to normal modes of black hole stretched horizons, and their partition function with argument $s=\beta+it$ is the Riemann zeta function $\zeta(s)$. An immediate consequence is that the spectral form factor is simply $\sim |\zeta(it)|^2$. Our observation that log spectra have a linear ramp, is closely related to the Lindel\"of hypothesis on the growth of the zeta function. With elementary numerics, we check that the slope of a best fit line through $|\zeta(it)|^2$ on a log-log plot is indeed $1$, to the fourth decimal. We also note that truncating the Riemann zeta function sum at a finite integer $N$ causes the would-be-eternal ramp to end on a plateau.
翻訳日:2023-08-30 17:28:30 公開日:2023-08-29
# 長期人物再同定のための衣服の学習と3次元形状表現

Learning Clothing and Pose Invariant 3D Shape Representation for Long-Term Person Re-Identification ( http://arxiv.org/abs/2308.10658v2 )

ライセンス: Link先を確認
Feng Liu, Minchul Kim, ZiAng Gu, Anil Jain, Xiaoming Liu(参考訳) 長期人物再同定(LT-ReID)はコンピュータビジョンや生体認証においてますます重要になっている。 本研究では,歩行者認識の域を超えてlt-reidを拡張し,広い時間領域における布の交換シナリオを考慮しつつ,より広い実世界の人間活動を含むことを目的とする。 この設定は、人間のポーズや衣服の多様性によって引き起こされる幾何学的ミスアライメントと外観の曖昧さによって、さらなる課題をもたらす。 これらの課題に対処するため、我々は3DInvarReIDの新しいアプローチを提案する。 一 立体服を着た人間の非同一性成分(目的、衣服の形状及びテクスチャ)から身元を遠ざけること。 (ii)正確な3d布身形状の再構築と人為リードの裸体形状の判別的特徴の学習 LT-ReIDの研究をよりよく評価するために,さまざまな人間の活動や衣服の変化を含む,CCDAと呼ばれる実世界のデータセットを収集した。 実験では,人物ReIDに対するアプローチの優れた性能を示す。

Long-Term Person Re-Identification (LT-ReID) has become increasingly crucial in computer vision and biometrics. In this work, we aim to extend LT-ReID beyond pedestrian recognition to include a wider range of real-world human activities while still accounting for cloth-changing scenarios over large time gaps. This setting poses additional challenges due to the geometric misalignment and appearance ambiguity caused by the diversity of human pose and clothing. To address these challenges, we propose a new approach 3DInvarReID for (i) disentangling identity from non-identity components (pose, clothing shape, and texture) of 3D clothed humans, and (ii) reconstructing accurate 3D clothed body shapes and learning discriminative features of naked body shapes for person ReID in a joint manner. To better evaluate our study of LT-ReID, we collect a real-world dataset called CCDA, which contains a wide variety of human activities and clothing changes. Experimentally, we show the superior performance of our approach for person ReID.
翻訳日:2023-08-30 17:28:01 公開日:2023-08-29
# ボヘミアの立場から見た量子統計力学

Quantum statistical mechanics from a Bohmian perspective ( http://arxiv.org/abs/2308.10500v2 )

ライセンス: Link先を確認
Hrvoje Nikolic(参考訳) 多粒子位置空間における連続性方程式を満たす確率流の観点から量子統計力学の一般的な定式化を定数の粒子を持つ閉および開系に対して展開する。 任意の閉または開系に対する連続性方程式は、通常の量子論と同じ測定可能な予測をする微視的粒子軌道の観点で自然ボーム解釈を示唆する。 微視的軌道は直接観測できないが、量子統計力学におけるマクロ現象の一般的な、単純で直感的な微視的解釈を提供する。 特に, エントロピー, 適切な, 不適切な混合, 熱力学の様々な概念が, ボヘミアの観点からどのように理解されているかについて議論する。

We develop a general formulation of quantum statistical mechanics in terms of probability currents that satisfy continuity equations in the multi-particle position space, for closed and open systems with a fixed number of particles. The continuity equation for any closed or open system suggests a natural Bohmian interpretation in terms of microscopic particle trajectories, that make the same measurable predictions as standard quantum theory. The microscopic trajectories are not directly observable, but provide a general, simple and intuitive microscopic interpretation of macroscopic phenomena in quantum statistical mechanics. In particular, we discuss how various notions of entropy, proper and improper mixtures, and thermodynamics are understood from the Bohmian perspective.
翻訳日:2023-08-30 17:27:47 公開日:2023-08-29
# 画像復元のための粗粒拡散トランスの学習

Learning A Coarse-to-Fine Diffusion Transformer for Image Restoration ( http://arxiv.org/abs/2308.08730v3 )

ライセンス: Link先を確認
Liyan Wang, Qinyu Yang, Cong Wang, Wei Wang, Jinshan Pan, Zhixun Su(参考訳) 近年,様々な視覚課題における拡散モデルの性能が顕著に向上している。 しかし, 得られた劣化観測からより鮮明な詳細で鮮明な画像を復元することを目的とした画像復元では, 不正確な雑音推定による予測結果の回復に失敗する可能性がある。 さらに、単純な制約ノイズは、複雑な劣化情報を効果的に学習できないため、モデルの容量を阻害する。 そこで本稿では,画像復元のための粗粒拡散トランス(c2f-dft)を提案する。 具体的には,このC2F-DFTには拡散自己注意(DFSA)と拡散フィードフォワードネットワーク(DFN)が含まれている。 dfsaとdfnはそれぞれ長距離拡散依存性を捕捉し、階層拡散表現を学習し、より良い修復を容易にする。 粗い訓練段階において,我々のC2F-DFTはノイズを推定し,サンプリングアルゴリズムにより最終クリーン画像を生成する。 修復の質をさらに高めるため,簡易かつ効果的な訓練手法を提案する。 まず, 粗トレーニング拡散モデルを用いて復元結果の生成を行い, 不正確な騒音推定によって生じる不満足な結果を改善するためのモデル最適化を行う。 拡張実験により,C2F-DFTは拡散型修復法IR-SDEを著しく上回り,3ドルのタスクにおいて,トランスフォーマーをベースとした最先端手法と比較して高い性能を示した。 コードはhttps://github.com/wlydlut/C2F-DFTで公開されている。

Recent years have witnessed the remarkable performance of diffusion models in various vision tasks. However, for image restoration that aims to recover clear images with sharper details from given degraded observations, diffusion-based methods may fail to recover promising results due to inaccurate noise estimation. Moreover, simple constraining noises cannot effectively learn complex degradation information, which subsequently hinders the model capacity. To solve the above problems, we propose a coarse-to-fine diffusion Transformer (C2F-DFT) for image restoration. Specifically, our C2F-DFT contains diffusion self-attention (DFSA) and diffusion feed-forward network (DFN) within a new coarse-to-fine training scheme. The DFSA and DFN respectively capture the long-range diffusion dependencies and learn hierarchy diffusion representation to facilitate better restoration. In the coarse training stage, our C2F-DFT estimates noises and then generates the final clean image by a sampling algorithm. To further improve the restoration quality, we propose a simple yet effective fine training scheme. It first exploits the coarse-trained diffusion model with fixed steps to generate restoration results, which then would be constrained with corresponding ground-truth ones to optimize the models to remedy the unsatisfactory results affected by inaccurate noise estimation. Extensive experiments show that C2F-DFT significantly outperforms diffusion-based restoration method IR-SDE and achieves competitive performance compared with Transformer-based state-of-the-art methods on $3$ tasks, including deraining, deblurring, and real denoising. The code is available at https://github.com/wlydlut/C2F-DFT.
翻訳日:2023-08-30 17:27:34 公開日:2023-08-29
# 一般化測定による修正オットーサイクルと修正スワップによる冷凍

Refrigeration by modified Otto cycles and modified swaps through generalized measurements ( http://arxiv.org/abs/2308.08532v2 )

ライセンス: Link先を確認
Naghi Behzadi(参考訳) そこで本研究では,Ottoサイクル冷凍機を一般化した測定チャネルで改良し,熱力学的冷凍サイクルを2種類導入した。 これらの冷凍機は、測定ベースストロークの前(第1種)および後(第2種)の活性化に対応し、関連するオットーサイクルにおける冷蔵装置による冷却媒体の完全熱化を行う。 我々は, 既知のオットーサイクル冷凍機の古典冷却以上の測定強度パラメータで, 第一種冷凍機の性能係数が線形に増加することを示した。 第2のタイプは、修正サイクルに沿って測定チャネルによって誘導される量子エンジンによって供給される別の自律冷凍機を興味深い形で導入する。 また,検討した測定チャネルにより,スワップ冷凍機にこのような修正を加える。 得られた改良スワップ冷凍機の熱力学的特性はそれぞれ改良ottoサイクルのものと同一であることが観察された。

We introduce two types of thermodynamic refrigeration cycles obtained through modification of the Otto cycle refrigerator by a generalized measurement channel. These refrigerators are corresponding to the activation of the measurement-based stroke before (first type) and after (second type) the full thermalization of the cooling medium by the cold reservoir in the related familiar Otto cycle. We show that the coefficient of performance for the first type modified refrigerator increases linearly in terms of measurement strength parameter, beyond the classical cooling of the known Otto cycle refrigerator. The second type interestingly introduces another autonomous refrigerator whose supplying work is provided by a quantum engine induced by the measurement channel along the modified cycle. By the considered measurement channel, we also establish such modifications on the swap refrigerator. It is observed that the thermodynamic properties of the obtained modified swap refrigerators are the same as of the modified Otto cycle ones respectively.
翻訳日:2023-08-30 17:27:03 公開日:2023-08-29
# Description Logicsが2階に -- Universally Quantified ConceptsでELを拡張する

Description Logics Go Second-Order -- Extending EL with Universally Quantified Concepts ( http://arxiv.org/abs/2308.08252v2 )

ライセンス: Link先を確認
Joshua Hirschbrunn and Yevgeny Kazakov(参考訳) 記述論理学の研究は、歴史的に主に一階論理の決定可能な断片に翻訳できる特徴に焦点を当ててきた。 本稿では、この制約を置き去りにし、一階述語論理の外側で有用で決定可能な拡張を求める。 任意の概念に置き換えられる変数の形式を取り、この拡張の2つの意味を定義する普遍的定量化概念を導入する。 スキーマセマンティクスは、特定の言語の概念によってのみ概念変数を置き換えることができ、モーダル論理に似た公理スキーマを与える。 2階のセマンティクスは、概念変数をドメインの任意の部分集合に置き換えることを可能にする。 提案する意味論を研究するために、記述論理 $\mathcal{el}$ の拡張に焦点を当てる。 拡張の有用な断片に対して、異なる意味論による結論が一致することを示し、二階意味論においても古典的な$\mathcal{el}$推論アルゴリズムを使うことができることを示した。 少し小さいが、それでも有用なフラグメントでは、拡張の多項式決定可能性も示せました。 この断片は、特に、KL-ONE から一般化されたロール連鎖公理、正の自己制限、およびいくつかの形式の(局所的な)ロール値写像を、追加のコンストラクタを必要とせずに表現することができる。

The study of Description Logics have been historically mostly focused on features that can be translated to decidable fragments of first-order logic. In this paper, we leave this restriction behind and look for useful and decidable extensions outside first-order logic. We introduce universally quantified concepts, which take the form of variables that can be replaced with arbitrary concepts, and define two semantics of this extension. A schema semantics allows replacements of concept variables only by concepts from a particular language, giving us axiom schemata similar to modal logics. A second-order semantics allows replacement of concept variables with arbitrary subsets of the domain, which is similar to quantified predicates in second-order logic. To study the proposed semantics, we focus on the extension of the description logic $\mathcal{EL}$. We show that for a useful fragment of the extension, the conclusions entailed by the different semantics coincide, allowing us to use classical $\mathcal{EL}$ reasoning algorithms even for the second-order semantics. For a slightly smaller, but still useful, fragment, we were also able to show polynomial decidability of the extension. This fragment, in particular, can express a generalized form of role chain axioms, positive self restrictions, and some forms of (local) role-value-maps from KL-ONE, without requiring any additional constructors.
翻訳日:2023-08-30 17:26:48 公開日:2023-08-29
# camouflagedインスタンスセグメンテーションのための統一クエリベースパラダイム

A Unified Query-based Paradigm for Camouflaged Instance Segmentation ( http://arxiv.org/abs/2308.07392v2 )

ライセンス: Link先を確認
Bo Dong, Jialun Pei, Rongrong Gao, Tian-Zhu Xiang, Shuo Wang, Huan Xiong(参考訳) Camouflagedインスタンスとバックグラウンドの類似性が高いため、最近提案されたCamouflagedインスタンスセグメンテーション(CIS)は、正確なローカライゼーションとインスタンスセグメンテーションの課題に直面している。 この目的のために、クエリベースのトランスフォーマに触発されて、迷彩インスタンスセグメンテーションのための統一クエリベースのマルチタスク学習フレームワーク、uqformerを提案する。これは、マスククエリの集合と境界クエリの集合を構築し、共有構成されたクエリ表現を学習し、迷彩シナリオにおけるインスタンスセグメンテーションとインスタンス境界検出を同時に行うために、グローバルな迷彩オブジェクト領域と境界手がかりを効率的に統合する。 具体的には、多スケール統合学習変換器デコーダの設計において、マスククエリと境界クエリの相互アテンション相互作用により、オブジェクト領域と境界特徴をキャプチャする共有表現を学習する合成クエリ学習パラダイムを設計する。 そして,学習した合成クエリ表現に基づいて,同時カモフラージュされたインスタンスセグメンテーションとカモフラージュされたインスタンス境界検出のためのトランスフォーマーベースのマルチタスク学習フレームワークを提案する。 特に,本モデルでは,インスタンスセグメンテーションをクエリに基づく直接セット予測問題とみなす。 UQFormerは、14の最先端アプローチと比較して、camouflagedインスタンスセグメンテーションのパフォーマンスを大幅に改善します。 私たちのコードはhttps://github.com/dongbo811/uqformerで利用可能です。

Due to the high similarity between camouflaged instances and the background, the recently proposed camouflaged instance segmentation (CIS) faces challenges in accurate localization and instance segmentation. To this end, inspired by query-based transformers, we propose a unified query-based multi-task learning framework for camouflaged instance segmentation, termed UQFormer, which builds a set of mask queries and a set of boundary queries to learn a shared composed query representation and efficiently integrates global camouflaged object region and boundary cues, for simultaneous instance segmentation and instance boundary detection in camouflaged scenarios. Specifically, we design a composed query learning paradigm that learns a shared representation to capture object region and boundary features by the cross-attention interaction of mask queries and boundary queries in the designed multi-scale unified learning transformer decoder. Then, we present a transformer-based multi-task learning framework for simultaneous camouflaged instance segmentation and camouflaged instance boundary detection based on the learned composed query representation, which also forces the model to learn a strong instance-level query representation. Notably, our model views the instance segmentation as a query-based direct set prediction problem, without other post-processing such as non-maximal suppression. Compared with 14 state-of-the-art approaches, our UQFormer significantly improves the performance of camouflaged instance segmentation. Our code will be available at https://github.com/dongbo811/UQFormer.
翻訳日:2023-08-30 17:26:24 公開日:2023-08-29
# 持続可能な研究ソフトウェアのためのオープンコミュニティ駆動モデル:持続可能な研究ソフトウェア研究所

An Open Community-Driven Model For Sustainable Research Software: Sustainable Research Software Institute ( http://arxiv.org/abs/2308.14953v1 )

ライセンス: Link先を確認
Gregory R. Watson, Addi Thakur Malviya, Daniel S. Katz, Elaine M. Raybourn, Bill Hoffman, Dana Robinson, John Kellerman, Clark Roundy(参考訳) 研究ソフトウェアは、科学的知識の進歩において重要な役割を果たすが、持続可能性、保守性、長期生存性を保証することは、現在進行中の課題である。 これらの懸念に対処するため、Sustainable Research Software Institute (SRSI) Modelは、研究ソフトウェアコミュニティにおける持続可能なプラクティスを促進するために設計された包括的なフレームワークを提供する。 このホワイトペーパーはSRSIモデルの詳細な概要を提供し、その目的、サービス、資金提供メカニズム、コラボレーション、そしてそれが研究ソフトウェアコミュニティに与える影響について概説する。 それは、提供された幅広いサービス、多様な資金源、広範囲なコラボレーション機会、そしてSRSIモデルが研究ソフトウェアランドスケープに与える影響を探求する。

Research software plays a crucial role in advancing scientific knowledge, but ensuring its sustainability, maintainability, and long-term viability is an ongoing challenge. To address these concerns, the Sustainable Research Software Institute (SRSI) Model presents a comprehensive framework designed to promote sustainable practices in the research software community. This white paper provides an in-depth overview of the SRSI Model, outlining its objectives, services, funding mechanisms, collaborations, and the significant potential impact it could have on the research software community. It explores the wide range of services offered, diverse funding sources, extensive collaboration opportunities, and the transformative influence of the SRSI Model on the research software landscape
翻訳日:2023-08-30 16:21:24 公開日:2023-08-29
# ロバストなオープンセット音声言語識別とcu multilangデータセット

Robust Open-Set Spoken Language Identification and the CU MultiLang Dataset ( http://arxiv.org/abs/2308.14951v1 )

ライセンス: Link先を確認
Mustafa Eyceoz, Justin Lee, Siddharth Pittie, Homayoon Beigi(参考訳) ほとんどの最先端の音声言語識別モデルはクローズドセットであり、言い換えれば、訓練されたクラスのセットからのみ言語ラベルを出力できる。 しかし、オープンセットの音声言語識別システムは、入力が元の言語を全く示さない場合に検出する能力を得る。 本稿では,MFCCとピッチ特徴を用いたオープンセット音声言語識別のための新しい手法,有意義な特徴埋め込み抽出のためのTDNNモデル,ソフトマックス出力に対する信頼度閾値,未知言語を識別する学習のためのLDAとpLDAを実装した。 訓練された言語で91.76%の精度を達成し、未知の言語にリアルタイムで適応できる音声言語識別システムを提案する。 その目的のために、システムをトレーニングし、評価するために、大規模で多様な多言語音声コーパスであるcu multilangデータセットを構築しました。

Most state-of-the-art spoken language identification models are closed-set; in other words, they can only output a language label from the set of classes they were trained on. Open-set spoken language identification systems, however, gain the ability to detect when an input exhibits none of the original languages. In this paper, we implement a novel approach to open-set spoken language identification that uses MFCC and pitch features, a TDNN model to extract meaningful feature embeddings, confidence thresholding on softmax outputs, and LDA and pLDA for learning to classify new unknown languages. We present a spoken language identification system that achieves 91.76% accuracy on trained languages and has the capability to adapt to unknown languages on the fly. To that end, we also built the CU MultiLang Dataset, a large and diverse multilingual speech corpus which was used to train and evaluate our system.
翻訳日:2023-08-30 16:21:11 公開日:2023-08-29
# Smoothness-aware Message Propagationを用いたディープグラフニューラルネットワークの低ビット量子化

Low-bit Quantization for Deep Graph Neural Networks with Smoothness-aware Message Propagation ( http://arxiv.org/abs/2308.14949v1 )

ライセンス: Link先を確認
Shuang Wang, Bahaeddin Eravci, Rustam Guliyev, Hakan Ferhatosmanoglu(参考訳) グラフニューラルネットワーク(GNN)のトレーニングと推論は,モデルサイズとレイヤ数の両方に関して,スケーラビリティに関する重要な課題を伴い,大規模かつ深いGNNの効率と精度の低下につながる。 本稿では,資源制約のある環境において,資源制約のある環境下での効率的なGNNの課題に対して,深いGNNの過度な問題を回避することを目的としたエンドツーエンドソリューションを提案する。 本稿では,学習中のメッセージパッシングからノード分類,モデルの圧縮,効率的な処理など,GNNのすべての段階に対する量子化に基づくアプローチを提案する。 提案したGNN量子化器は量子化範囲を学習し、低ビット量子化の下でも同等の精度でモデルサイズを削減する。 レイヤ数に応じてスケールするために,隣接ノード間の類似度をレイヤ単位で制御するトレーニングにおいて,メッセージ伝達機構を考案する。 この目的は制約付きラグランジュ函数に組み込まれ、微分乗算法は反復的に最適な埋め込みを見つけるために利用される。 これは過剰なスムースを緩和し、量子化誤差を境界まで抑制する。 完全精度と量子化モデルの両方において、最先端の量子化法と深部GNNアプローチに対して重要な改善が示される。 提案した量子化器は、GNNの全ステージにわたるINT2構成において優れた性能を示し、顕著な精度を実現する。 対照的に、既存の量子化アプローチでは十分な精度が得られない。 最後に、INT2 と INT4 の表現による推論は、それぞれ完全精度と比較して 5.11 $\times$ と 4.70 $\times$ のスピードアップを示す。

Graph Neural Network (GNN) training and inference involve significant challenges of scalability with respect to both model sizes and number of layers, resulting in degradation of efficiency and accuracy for large and deep GNNs. We present an end-to-end solution that aims to address these challenges for efficient GNNs in resource constrained environments while avoiding the oversmoothing problem in deep GNNs. We introduce a quantization based approach for all stages of GNNs, from message passing in training to node classification, compressing the model and enabling efficient processing. The proposed GNN quantizer learns quantization ranges and reduces the model size with comparable accuracy even under low-bit quantization. To scale with the number of layers, we devise a message propagation mechanism in training that controls layer-wise changes of similarities between neighboring nodes. This objective is incorporated into a Lagrangian function with constraints and a differential multiplier method is utilized to iteratively find optimal embeddings. This mitigates oversmoothing and suppresses the quantization error to a bound. Significant improvements are demonstrated over state-of-the-art quantization methods and deep GNN approaches in both full-precision and quantized models. The proposed quantizer demonstrates superior performance in INT2 configurations across all stages of GNN, achieving a notable level of accuracy. In contrast, existing quantization approaches fail to generate satisfactory accuracy levels. Finally, the inference with INT2 and INT4 representations exhibits a speedup of 5.11 $\times$ and 4.70 $\times$ compared to full precision counterparts, respectively.
翻訳日:2023-08-30 16:20:53 公開日:2023-08-29
# ソーシャルロボットナビゲーションのための強化学習トレーニングレジームの改善

Improving Reinforcement Learning Training Regimes for Social Robot Navigation ( http://arxiv.org/abs/2308.14947v1 )

ライセンス: Link先を確認
Adam Sigal, Hsiu-Chin Lin, AJung Moon(参考訳) 自律的な移動ロボットが人間の空間を移動するためには、社会的規範に従わなければならない。 強化学習(rl)は、これらの規範を尊重できるロボットナビゲーションポリシーを訓練するための効果的な方法として登場した。 しかし、この分野における既存の研究の大部分は、簡素な環境でRLトレーニングとテストの両方を実施している。 これにより、これらのモデルの一般化ポテンシャルは見えない環境に制限され、報告された結果の有意義さが制限される。 カリキュラム学習を用いたRLソーシャルナビゲーション手法の一般化性能を向上させる手法を提案する。 複数の環境タイプを採用し、複数のダイナミクスモデルを用いて歩行者をモデル化することで、トレーニングの困難を段階的に多様化し、エスカレートすることができる。 本研究は,カリキュラム学習を学習に活用することで,従来の学習方法よりも優れた一般化性能が得られることを示す。 また, 既存のRLソーシャルナビゲーションの成果は, トレーニング環境外の手法を評価せず, アウト・オブ・ディストリビューションシナリオに適切に一般化する政策の失敗を反映していないことも示している。 それに対して、トレーニングで使用されるものよりも大きくて混雑したテスト環境に対するトレーニングアプローチを検証することで、モデルパフォーマンスのより有意義な測定を可能にします。

In order for autonomous mobile robots to navigate in human spaces, they must abide by our social norms. Reinforcement learning (RL) has emerged as an effective method to train robot navigation policies that are able to respect these norms. However, a large portion of existing work in the field conducts both RL training and testing in simplistic environments. This limits the generalization potential of these models to unseen environments, and the meaningfulness of their reported results. We propose a method to improve the generalization performance of RL social navigation methods using curriculum learning. By employing multiple environment types and by modeling pedestrians using multiple dynamics models, we are able to progressively diversify and escalate difficulty in training. Our results show that the use of curriculum learning in training can be used to achieve better generalization performance than previous training methods. We also show that results presented in many existing state-of-the art RL social navigation works do not evaluate their methods outside of their training environments, and thus do not reflect their policies' failure to adequately generalize to out-of-distribution scenarios. In response, we validate our training approach on larger and more crowded testing environments than those used in training, allowing for more meaningful measurements of model performance.
翻訳日:2023-08-30 16:20:27 公開日:2023-08-29
# 組合せ最適化問題に対する部分ユニバーサル変分回路

Sub-universal variational circuits for combinatorial optimization problems ( http://arxiv.org/abs/2308.14981v1 )

ライセンス: Link先を確認
Gal Weitz, Lirand\"e Pira, Chris Ferrie, Joshua Combes(参考訳) 量子変分回路は、量子近似最適化アルゴリズムや量子機械学習研究に応用され、大きな注目を集めている。 本研究は、2ビット確率行列を用いた組合せ最適化問題に対する近似解を生成するために設計された新しい古典確率回路のクラスを提案する。 本研究では,提案する変分回路の性能を数値実験により検証し,サイズが増大するグラフ上での最大カット問題を解く。 古典的アルゴリズムは,いくつかのグラフ型の性能を量子近似最適化アルゴリズムに改善することを示す。 この結果から,変分回路の性能を準ユニバーサルゲートセットで評価することは,量子変分回路が励起可能な領域を特定する上で貴重な指標であることが示唆された。

Quantum variational circuits have gained significant attention due to their applications in the quantum approximate optimization algorithm and quantum machine learning research. This work introduces a novel class of classical probabilistic circuits designed for generating approximate solutions to combinatorial optimization problems constructed using two-bit stochastic matrices. Through a numerical study, we investigate the performance of our proposed variational circuits in solving the Max-Cut problem on various graphs of increasing sizes. Our classical algorithm demonstrates improved performance for several graph types to the quantum approximate optimization algorithm. Our findings suggest that evaluating the performance of quantum variational circuits against variational circuits with sub-universal gate sets is a valuable benchmark for identifying areas where quantum variational circuits can excel.
翻訳日:2023-08-30 16:10:43 公開日:2023-08-29
# 文書レイアウト解析のためのビジョングリッド変換器

Vision Grid Transformer for Document Layout Analysis ( http://arxiv.org/abs/2308.14978v1 )

ライセンス: Link先を確認
Cheng Da, Chuwei Luo, Qi Zheng, Cong Yao(参考訳) 事前訓練されたモデルとグリッドベースのモデルは、Document AIのさまざまなタスクで非常に効果的であることが証明されている。 しかし、文書レイアウト分析(DLA)タスクでは、既存の文書事前訓練モデル(マルチモーダルな方法で事前訓練されたモデルでさえ、通常、テキストの特徴または視覚的特徴のいずれかに依存している。 DLAのグリッドベースモデルは多モードであるが、事前学習の効果をほとんど無視している。 マルチモーダル情報を完全に活用し,事前学習技術を活用してDLAの表現性を向上するために,本論文では,Grid Transformer (GiT) が提案され,2次元トークンレベルおよびセグメントレベルのセマンティック理解のために事前訓練された2ストリームビジョングリッドトランスフォーマであるVGTを提案する。 さらに、文書レイアウト分析のための最も多種多様な詳細な手動アノテーション付きベンチマークであるD$^4$LAという新しいデータセットがキュレーションされ、リリースされた。 実験結果は、提案されたVGTモデルが、DLAタスク上で新しい最先端結果(例えば、PubLayNet$95.7\%$\rightarrow$96.2\%$)、DocBank$79.6\%$$\rightarrow$84.1\%$)、D$^4$LA$67.7\%$$68.8\%$)を達成することを示した。 D$^4$LAデータセットだけでなく、コードとモデルは、 ~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery} として公開される。

Document pre-trained models and grid-based models have proven to be very effective on various tasks in Document AI. However, for the document layout analysis (DLA) task, existing document pre-trained models, even those pre-trained in a multi-modal fashion, usually rely on either textual features or visual features. Grid-based models for DLA are multi-modality but largely neglect the effect of pre-training. To fully leverage multi-modal information and exploit pre-training techniques to learn better representation for DLA, in this paper, we present VGT, a two-stream Vision Grid Transformer, in which Grid Transformer (GiT) is proposed and pre-trained for 2D token-level and segment-level semantic understanding. Furthermore, a new dataset named D$^4$LA, which is so far the most diverse and detailed manually-annotated benchmark for document layout analysis, is curated and released. Experiment results have illustrated that the proposed VGT model achieves new state-of-the-art results on DLA tasks, e.g. PubLayNet ($95.7\%$$\rightarrow$$96.2\%$), DocBank ($79.6\%$$\rightarrow$$84.1\%$), and D$^4$LA ($67.7\%$$\rightarrow$$68.8\%$). The code and models as well as the D$^4$LA dataset will be made publicly available ~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}.
翻訳日:2023-08-30 16:10:32 公開日:2023-08-29
# 深層学習モデルによる太陽フラックス進化ビデオの効率的なラベリング

Efficient labeling of solar flux evolution videos by a deep learning model ( http://arxiv.org/abs/2308.14976v1 )

ライセンス: Link先を確認
Subhamoy Chatterjee, Andr\'es Mu\~noz-Jaramillo, and Derek A. Lamb(参考訳) 機械学習(ML)は、大規模な複雑なデータを尋問するための重要なツールになりつつある。 意味のあるアノテーションを追加するプロセスとして定義されたラベル付けは、教師付きMLの重要なステップである。 しかし、データセットのラベル付けには時間がかかる。 ここでは,粗くラベル付けされた天文ビデオで訓練された畳み込みニューラルネットワーク(convolutional neural networks,cnns)を用いて,データラベルの品質向上と人的介入の必要性の低減を図る。 バイポーラ磁気領域(bmrs)の出現または非出現の2つのクラスに大まかにラベル付けされた太陽磁場のビデオを、太陽円盤上での最初の検出に基づいて使用する。 我々は、粗末なラベルを使用してCNNを訓練し、手動で検証し、CNNとCNNの不一致を正し、収束するまでこのプロセスを繰り返す。 伝統的に、フラックスの出現ラベリングは手動で行われる。 この反復プロセスを通じて得られる高品質のラベル付きデータセットは、必要な手動検証を50%削減する。 さらに,動画を徐々にマスキングし,cnn推論の最大変化を求めることで,cnnを再訓練することなくbmrの発生時間を求める。 これは複雑な動的イベントのラベル付けの課題を単純化するためのcnnの汎用性を示している。

Machine learning (ML) is becoming a critical tool for interrogation of large complex data. Labeling, defined as the process of adding meaningful annotations, is a crucial step of supervised ML. However, labeling datasets is time consuming. Here we show that convolutional neural networks (CNNs), trained on crudely labeled astronomical videos, can be leveraged to improve the quality of data labeling and reduce the need for human intervention. We use videos of the solar magnetic field, crudely labeled into two classes: emergence or non-emergence of bipolar magnetic regions (BMRs), based on their first detection on the solar disk. We train CNNs using crude labels, manually verify, correct labeling vs. CNN disagreements, and repeat this process until convergence. Traditionally, flux emergence labelling is done manually. We find that a high-quality labeled dataset, derived through this iterative process, reduces the necessary manual verification by 50%. Furthermore, by gradually masking the videos and looking for maximum change in CNN inference, we locate BMR emergence time without retraining the CNN. This demonstrates the versatility of CNNs for simplifying the challenging task of labeling complex dynamic events.
翻訳日:2023-08-30 16:09:58 公開日:2023-08-29
# 操作作業のためのLLMに基づくヒューマンロボット協調フレームワーク

LLM-Based Human-Robot Collaboration Framework for Manipulation Tasks ( http://arxiv.org/abs/2308.14972v1 )

ライセンス: Link先を確認
Haokun Liu, Yaonan Zhu, Kenji Kato, Izumi Kondo, Tadayoshi Aoyama, and Yasuhisa Hasegawa(参考訳) 本稿では,Large Language Model (LLM) を用いた自律型ロボット操作を論理推論に適用し,高レベル言語コマンドを実行可能な動作関数列に変換する手法を提案する。 提案システムは,LLMとYOLOに基づく環境認識を組み合わせることで,ロボットが与えられたコマンドに基づいて,自律的に合理的な意思決定とタスク計画を行うことを可能にする。 さらに、LLMから生じる潜在的な不正確性や非論理的行動に対処するため、遠隔操作と動的運動原始(DMP)の組み合わせが行動修正に使用される。 この統合は、LLMベースの人間ロボットコラボレーションシステムの実用性と一般化性の向上を目的としている。

This paper presents a novel approach to enhance autonomous robotic manipulation using the Large Language Model (LLM) for logical inference, converting high-level language commands into sequences of executable motion functions. The proposed system combines the advantage of LLM with YOLO-based environmental perception to enable robots to autonomously make reasonable decisions and task planning based on the given commands. Additionally, to address the potential inaccuracies or illogical actions arising from LLM, a combination of teleoperation and Dynamic Movement Primitives (DMP) is employed for action correction. This integration aims to improve the practicality and generalizability of the LLM-based human-robot collaboration system.
翻訳日:2023-08-30 16:09:39 公開日:2023-08-29
# ガウス過程と強化学習を用いた分散マルチエージェントターゲット探索と追跡

Distributed multi-agent target search and tracking with Gaussian process and reinforcement learning ( http://arxiv.org/abs/2308.14971v1 )

ライセンス: Link先を確認
Jigang Kim, Dohyun Jang, H. Jin Kim(参考訳) 対象の探索と追跡のために複数のロボットをデプロイすることは、多くの実践的応用があるが、未知または部分的に知られているターゲットを計画する難題は解決が難しい。 最近のディープラーニングの進歩により、強化学習のようなインテリジェントな制御技術により、エージェントは事前の知識がほとんどないし全くなくても、環境相互作用から自律的に学習することができる。 このような手法は、未知のターゲットに対する計画の探索と探索のトレードオフをデータ駆動方式で解決し、従来のアプローチに典型的なヒューリスティックへの依存を排除し、エンドツーエンドのトレーニングで意思決定パイプラインを合理化することができる。 本稿では,分散ガウス過程に基づくターゲットマップ構築を用いたマルチエージェント強化学習手法を提案する。 分散ガウス過程を利用して、対象の場所に対する信念を符号化し、未知のターゲットを効率的に計画する。 シミュレーションにおける訓練されたポリシーの性能と伝達性を評価し,ハードウェア実験による小型無人航空機群における手法の実証を行った。

Deploying multiple robots for target search and tracking has many practical applications, yet the challenge of planning over unknown or partially known targets remains difficult to address. With recent advances in deep learning, intelligent control techniques such as reinforcement learning have enabled agents to learn autonomously from environment interactions with little to no prior knowledge. Such methods can address the exploration-exploitation tradeoff of planning over unknown targets in a data-driven manner, eliminating the reliance on heuristics typical of traditional approaches and streamlining the decision-making pipeline with end-to-end training. In this paper, we propose a multi-agent reinforcement learning technique with target map building based on distributed Gaussian process. We leverage the distributed Gaussian process to encode belief over the target locations and efficiently plan over unknown targets. We evaluate the performance and transferability of the trained policy in simulation and demonstrate the method on a swarm of micro unmanned aerial vehicles with hardware experiments.
翻訳日:2023-08-30 16:09:28 公開日:2023-08-29
# 制約下での再プログラミング:宝くじの効率的かつ信頼性の高い転送可能性の再検討

Reprogramming under constraints: Revisiting efficient and reliable transferability of lottery tickets ( http://arxiv.org/abs/2308.14969v1 )

ライセンス: Link先を確認
Diganta Misra, Agam Goyal, Bharat Runwal, Pin Yu Chen(参考訳) 膨大な事前訓練予算を持つ基礎モデルの時代、下流のタスクは、効率的で迅速な適応の物語に移行した。 コンピュータビジョンの領域における分類に基づくタスクでは、線形探索(LP)と視覚的プロンプト/リプログラミング(VP)の2つの最も効率的なアプローチがある。前者は、事前訓練されたモデルによって抽出された特徴に基づいて線形ヘッドの形で分類器を学習することを目的としており、後者は入力データを、モデルが最初に事前訓練されたソースデータの領域にマッピングする。 ダウンストリーム性能の観点からlpとvpの違いを広範囲に研究した結果,sparsity軸による2つの手法の能力について検討した。 (a)データのスパーシティ:わずかな適応による影響と (b)モデルスパーシティ:抽選券(lt)の影響。 我々は、LTが汎用的なリプログラマではないことを示す。すなわち、特定のターゲットデータセットに対して、LTの再プログラミングは、対応するアップストリーム性能が似ているにもかかわらず、リプログラムされた高密度モデルよりも大幅に性能が低下することを示す。 さらに,高密度モデルの校正は,LPとVPの両体制下での抽選券よりも常に優れていることを示す。 我々の実証研究は、スパースモデルのVPに関する新たな研究の道を開き、スパースモデルの制約の下でVPが達成した精度を超えるパフォーマンスのさらなる理解を促す。 コードとログは \url{https://github.com/landskape-ai/reprogram_lt} でアクセスできる。

In the era of foundation models with huge pre-training budgets, the downstream tasks have been shifted to the narrative of efficient and fast adaptation. For classification-based tasks in the domain of computer vision, the two most efficient approaches have been linear probing (LP) and visual prompting/reprogramming (VP); the former aims to learn a classifier in the form of a linear head on the features extracted by the pre-trained model, while the latter maps the input data to the domain of the source data on which the model was originally pre-trained on. Although extensive studies have demonstrated the differences between LP and VP in terms of downstream performance, we explore the capabilities of the two aforementioned methods via the sparsity axis: (a) Data sparsity: the impact of few-shot adaptation and (b) Model sparsity: the impact of lottery tickets (LT). We demonstrate that LT are not universal reprogrammers, i.e., for certain target datasets, reprogramming an LT yields significantly lower performance than the reprogrammed dense model although their corresponding upstream performance is similar. Further, we demonstrate that the calibration of dense models is always superior to that of their lottery ticket counterparts under both LP and VP regimes. Our empirical study opens a new avenue of research into VP for sparse models and encourages further understanding of the performance beyond the accuracy achieved by VP under constraints of sparsity. Code and logs can be accessed at \url{https://github.com/landskape-ai/Reprogram_LT}.
翻訳日:2023-08-30 16:09:11 公開日:2023-08-29
# CEFHRI:産業用ロボットインタラクション認識のためのコミュニケーション効率の良いフェデレーション学習フレームワーク

CEFHRI: A Communication Efficient Federated Learning Framework for Recognizing Industrial Human-Robot Interaction ( http://arxiv.org/abs/2308.14965v1 )

ライセンス: Link先を確認
Umar Khalid, Hasan Iqbal, Saeed Vahidian, Jing Hua, Chen Chen(参考訳) HRI(Human-robot Interaction)は、社会と産業の応用を包含する急速に成長する分野である。 機械学習は、複雑な環境におけるロボットの適応性と自律性を高めることで、産業的HRIにおいて重要な役割を果たす。 しかし、データプライバシは人間とロボットのインタラクションにおいて重要な問題であり、企業は機密性の高いデータを保護し、機械学習アルゴリズムは大規模なデータセットへのアクセスを必要とする。 Federated Learning (FL)は、生データを共有せずに、モデルの分散トレーニングを可能にするソリューションを提供する。 自然言語処理(NLP)や画像分類などのタスクに対するフェデレート学習(FL)の広範な研究にもかかわらず、FLをHRIにどのように使うかという問題は未解決の課題である。 従来のFLアプローチでは、サーバとクライアントの間に大規模なニューラルネットワークパラメータ行列を送信することで、通信コストが高くなり、FLのボトルネックになることが多い。 本稿では,データ不均一性と通信コストの課題に対処するために,ヒューマンロボットインタラクション(CEFHRI)のための通信効率のよいFLフレームワークを提案する。 このフレームワークは事前訓練されたモデルを活用し、HRIのビデオ理解タスクのためのトレーニング可能な時空間アダプタを導入している。 HRI30、InHARD、COINの3つの人間ロボットインタラクションベンチマークデータセットの実験結果は、通信コストの面で完全な微調整よりもCEFHRIの方が優れていることを示している。 提案手法は,特にデータプライバシの懸念と通信帯域の制限のある産業環境において,HRIフェデレーション学習に対する安全かつ効率的なアプローチを提供する。 私たちのコードはhttps://github.com/umarkhalidAI/CEFHRI-Efficient-Federated-Learningで公開されています。

Human-robot interaction (HRI) is a rapidly growing field that encompasses social and industrial applications. Machine learning plays a vital role in industrial HRI by enhancing the adaptability and autonomy of robots in complex environments. However, data privacy is a crucial concern in the interaction between humans and robots, as companies need to protect sensitive data while machine learning algorithms require access to large datasets. Federated Learning (FL) offers a solution by enabling the distributed training of models without sharing raw data. Despite extensive research on Federated learning (FL) for tasks such as natural language processing (NLP) and image classification, the question of how to use FL for HRI remains an open research problem. The traditional FL approach involves transmitting large neural network parameter matrices between the server and clients, which can lead to high communication costs and often becomes a bottleneck in FL. This paper proposes a communication-efficient FL framework for human-robot interaction (CEFHRI) to address the challenges of data heterogeneity and communication costs. The framework leverages pre-trained models and introduces a trainable spatiotemporal adapter for video understanding tasks in HRI. Experimental results on three human-robot interaction benchmark datasets: HRI30, InHARD, and COIN demonstrate the superiority of CEFHRI over full fine-tuning in terms of communication costs. The proposed methodology provides a secure and efficient approach to HRI federated learning, particularly in industrial environments with data privacy concerns and limited communication bandwidth. Our code is available at https://github.com/umarkhalidAI/CEFHRI-Efficient-Federated-Learning.
翻訳日:2023-08-30 16:08:42 公開日:2023-08-29
# 弱SINDyによる科学データのストリーム圧縮

Streaming Compression of Scientific Data via weak-SINDy ( http://arxiv.org/abs/2308.14962v1 )

ライセンス: Link先を確認
Benjamin P. Russo, M. Paul Laiu, Richard Archibald(参考訳) 本稿では,ストリーミング科学データを圧縮するために,ストリーミング弱SINDyアルゴリズムを開発した。 シミュレーションまたは実験による科学データの生成は指数関数的成長の段階にあり、大規模な科学データセットの保存と活用にデータ圧縮が重要であり、しばしば必要となる。 利用可能なデータセットで圧縮を行う古典的な ``offline" 圧縮アルゴリズムとは対照的に、ストリーミング圧縮アルゴリズムは ``online" データを圧縮する一方で、シミュレーションや実験から生成されたデータはシステムを通してまだ流れている。 この機能により、科学的なデータ圧縮にはストリーミング圧縮アルゴリズムが適しており、完全なデータセットをオフラインに保存することは不可能であることが多い。 本研究は,圧縮時の基礎となるデータ特性を生かした,新たなストリーミング圧縮アルゴリズムであるストリーム弱SINDyを提案する。 ストリーミングの弱いシンディアルゴリズムは、オンラインステージにおける特徴行列と対象ベクトルを、ストリーミング統合方式でメモリ効率良く構築する。 特徴行列と対象ベクトルはオフラインステージで使われ、データの進化を支配する方程式を回復することを目的とした回帰プロセスを通じてモデルを構築する。 高次元のストリーミングデータを圧縮するために、データ次元を減らすためにストリーミング固有直交分解(POD)プロセスを採用し、次いでストリーミング弱SINDyアルゴリズムを用いてPOD拡張の時間データを圧縮する。 動的に更新されたPODベースに対応するために,ストリーミング弱SINDyアルゴリズムの修正を提案する。 ストリーミングの弱いシンディアルゴリズムから構築したモデルと少量のデータサンプルを組み合わせることで、数値テストで示すように、完全なデータフローを低いメモリコストで正確に再構築することができる。

In this paper a streaming weak-SINDy algorithm is developed specifically for compressing streaming scientific data. The production of scientific data, either via simulation or experiments, is undergoing an stage of exponential growth, which makes data compression important and often necessary for storing and utilizing large scientific data sets. As opposed to classical ``offline" compression algorithms that perform compression on a readily available data set, streaming compression algorithms compress data ``online" while the data generated from simulation or experiments is still flowing through the system. This feature makes streaming compression algorithms well-suited for scientific data compression, where storing the full data set offline is often infeasible. This work proposes a new streaming compression algorithm, streaming weak-SINDy, which takes advantage of the underlying data characteristics during compression. The streaming weak-SINDy algorithm constructs feature matrices and target vectors in the online stage via a streaming integration method in a memory efficient manner. The feature matrices and target vectors are then used in the offline stage to build a model through a regression process that aims to recover equations that govern the evolution of the data. For compressing high-dimensional streaming data, we adopt a streaming proper orthogonal decomposition (POD) process to reduce the data dimension and then use the streaming weak-SINDy algorithm to compress the temporal data of the POD expansion. We propose modifications to the streaming weak-SINDy algorithm to accommodate the dynamically updated POD basis. By combining the built model from the streaming weak-SINDy algorithm and a small amount of data samples, the full data flow could be reconstructed accurately at a low memory cost, as shown in the numerical tests.
翻訳日:2023-08-30 16:08:16 公開日:2023-08-29
# 視覚言語少数ショット学習のための読み取り専用プロンプト最適化

Read-only Prompt Optimization for Vision-Language Few-shot Learning ( http://arxiv.org/abs/2308.14960v1 )

ライセンス: Link先を確認
Dongjun Lee, Seokwon Song, Jihee Suh, Joonmyeong Choi, Sanghyeok Lee, and Hyunwoo J.Kim(参考訳) 近年、事前訓練された視覚言語モデルの下流タスクへの適応において、プロンプトチューニングが効果的であることが証明されている。 これらの方法は、学習可能なプロンプトを導入し、事前訓練された重量を凍結させながら、事前訓練されたモデルに適応することを目的としている。 しかし、学習可能なプロンプトは自己認識モジュールの内部表現に影響を与え、特にデータ不足の環境ではパフォーマンスのばらつきや一般化に悪影響を及ぼす可能性がある。 これらの問題に対処するため,新しい手法,RPO(Read-only Prompt Optimization)を提案する。 RPOは、事前訓練されたモデルの内部表現シフトを防止するためにマスクされた注意を利用する。 さらに、RPOの最適化を容易にするために、事前訓練されたモデルの特別なトークンに基づいて読み取り専用プロンプトを初期化する。 RPOはCLIPやCoCoOpよりも高い性能を示し,高ロバスト性を示しながら,新たな一般化とドメインの一般化を実現している。 また,提案手法は,パラメータ効率と計算オーバーヘッドを改善しつつ,極めてデータ不足な設定を最適化する。 コードはhttps://github.com/mlvlab/rpoで入手できる。

In recent years, prompt tuning has proven effective in adapting pre-trained vision-language models to downstream tasks. These methods aim to adapt the pre-trained models by introducing learnable prompts while keeping pre-trained weights frozen. However, learnable prompts can affect the internal representation within the self-attention module, which may negatively impact performance variance and generalization, especially in data-deficient settings. To address these issues, we propose a novel approach, Read-only Prompt Optimization (RPO). RPO leverages masked attention to prevent the internal representation shift in the pre-trained model. Further, to facilitate the optimization of RPO, the read-only prompts are initialized based on special tokens of the pre-trained model. Our extensive experiments demonstrate that RPO outperforms CLIP and CoCoOp in base-to-new generalization and domain generalization while displaying better robustness. Also, the proposed method achieves better generalization on extremely data-deficient settings, while improving parameter efficiency and computational overhead. Code is available at https://github.com/mlvlab/RPO.
翻訳日:2023-08-30 16:07:26 公開日:2023-08-29
# ecpソフトウェア技術を持続可能な研究ソフトウェアの基礎に移行する

Transitioning ECP Software Technology into a Foundation for Sustainable Research Software ( http://arxiv.org/abs/2308.14954v1 )

ライセンス: Link先を確認
Gregory R. Watson, Addi Thakur Malviya, Daniel S. Katz, Elaine M. Raybourn, Bill Hoffman, Dana Robinson, John Kellerman, Clark Roundy(参考訳) 研究ソフトウェアは、科学的知識の進歩において重要な役割を果たすが、持続可能性、保守性、長期生存性を保証することは、現在進行中の課題である。 Sustainable Research Software Institute (SRSI) モデルは、この問題に対処するために設計され、研究ソフトウェアコミュニティにおける持続可能なプラクティスを促進するために設計された包括的なフレームワークを提供する。 しかし、SRSIモデルは、Exascale Computing Project (ECP) Software Technology (ECP-ST)の焦点領域の移行要件に特に対処していない。 この白書は、圧縮時間フレームにおけるESP-STのSRSIへの遷移方法の概要と詳細な説明を提供する。 a) 技術活動終了期限の ECP のニーズを満たすこと,及び b) すでに進行中の持続可能性の取り組みの継続性を確保すること。

Research software plays a crucial role in advancing scientific knowledge, but ensuring its sustainability, maintainability, and long-term viability is an ongoing challenge. The Sustainable Research Software Institute (SRSI) Model has been designed to address the concerns, and presents a comprehensive framework designed to promote sustainable practices in the research software community. However the SRSI Model does not address the transitional requirements for the Exascale Computing Project (ECP) Software Technology (ECP-ST) focus area specifically. This white paper provides an overview and detailed description of how ECP-ST will transition into the SRSI in a compressed time frame that a) meets the needs of the ECP end-of-technical-activities deadline; and b) ensures the continuity of the sustainability efforts that are already underway.
翻訳日:2023-08-30 16:06:51 公開日:2023-08-29
# PBFormer:ポリノミアルバンドトランスを用いた複雑なシーンテキスト形状のキャプチャ

PBFormer: Capturing Complex Scene Text Shape with Polynomial Band Transformer ( http://arxiv.org/abs/2308.15004v1 )

ライセンス: Link先を確認
Ruijin Liu, Ning Lu, Dapeng Chen, Cheng Li, Zejian Yuan, Wei Peng(参考訳) 本稿では,新しいテキスト形状表現多項式バンド(pb)でトランスフォーマを統一する効率的なシーンテキスト検出器pbformerを提案する。 この表現は、テキストの上端、下端、左端、右端に適合する4つの多項式曲線を持ち、多項式係数の変化によって複雑な形状のテキストをキャプチャできる。 PBは従来の表現に比べて魅力的である。 1) 一定数のパラメータで異なる曲率をモデル化できるが, 多角点法では異なる点数を用いる必要がある。 2) 隣接するテキストや重なり合うテキストは, 曲線係数が異なっており, セグメンテーションベースや点ベースでは粘着性のある空間的位置にあると区別できる。 PBFormerはPBと変換器を組み合わせることで、補間なしで予測曲線からサンプリングされた滑らかなテキスト輪郭を直接生成することができる。 パラメータフリーなクロススケール画素アテンション(CPA)モジュールを用いて、他の特徴マップを抑えながら適切なスケールの特徴マップをハイライトする。 この単純な操作は、小規模テキストの検出に役立ち、NMSのための後処理が存在しないワンステージのDETRフレームワークと互換性がある。 さらに、PBFormerは、基底の真理と予測された曲線との断片的な整合を強制するだけでなく、曲線の位置と形状を互いに整合させる形状の損失で訓練される。 テキスト事前学習に関するベルやホイッスルがなければ,任意の形式のテキストデータセット上の最先端のテキスト検出器よりも優れた手法である。

We present PBFormer, an efficient yet powerful scene text detector that unifies the transformer with a novel text shape representation Polynomial Band (PB). The representation has four polynomial curves to fit a text's top, bottom, left, and right sides, which can capture a text with a complex shape by varying polynomial coefficients. PB has appealing features compared with conventional representations: 1) It can model different curvatures with a fixed number of parameters, while polygon-points-based methods need to utilize a different number of points. 2) It can distinguish adjacent or overlapping texts as they have apparent different curve coefficients, while segmentation-based or points-based methods suffer from adhesive spatial positions. PBFormer combines the PB with the transformer, which can directly generate smooth text contours sampled from predicted curves without interpolation. A parameter-free cross-scale pixel attention (CPA) module is employed to highlight the feature map of a suitable scale while suppressing the other feature maps. The simple operation can help detect small-scale texts and is compatible with the one-stage DETR framework, where no postprocessing exists for NMS. Furthermore, PBFormer is trained with a shape-contained loss, which not only enforces the piecewise alignment between the ground truth and the predicted curves but also makes curves' positions and shapes consistent with each other. Without bells and whistles about text pre-training, our method is superior to the previous state-of-the-art text detectors on the arbitrary-shaped text datasets.
翻訳日:2023-08-30 16:01:53 公開日:2023-08-29
# モデル生成モデル:多様なタスクとリソース制約に対するdnnの迅速なカスタマイズ

Generative Model for Models: Rapid DNN Customization for Diverse Tasks and Resource Constraints ( http://arxiv.org/abs/2308.15003v1 )

ライセンス: Link先を確認
Wenxing Xu, Yuanchun Li, Jiacheng Liu, Yi Sun, Zhengyang Cao, Yixuan Li, Hao Wen, Yunxin Liu(参考訳) 大規模で均一なクラウドベースのディープラーニングモデルとは異なり、エッジデプロイモデルは通常、ドメイン固有のタスクやリソース制限された環境のカスタマイズを要求する。 このようなカスタマイズプロセスは、エッジシナリオの多様性と各シナリオのトレーニング負荷のため、コストと時間がかかります。 資源指向の迅速なカスタマイズとタスク指向のカスタマイズには,様々なアプローチが提案されているが,どちらも同時に達成することは困難である。 生成AIとニューラルネットワークのモジュラー構成性からインスピレーションを得たNN-Factoryは、さまざまなエッジシナリオ用にカスタマイズされた軽量モデルを生成するための1対1のフレームワークである。 鍵となるアイデアは、生成モデルを使ってカスタマイズされたモデルを直接生成することです。 NN-Factoryの主なコンポーネントは、異なるタスクを達成するために条件付きアクティベート可能な事前訓練されたモジュールを備えたモジュールスーパーネットと、タスクとスパース性要件に従ってモジュールを操作する生成モジュールアセンブラである。 エッジシナリオが与えられると、nn-factoryはモジュールを組み立てるための最適な戦略を探すことによって、エッジタスクに特化したコンパクトなモデルを効率的にカスタマイズできる。 異なるエッジデバイスを用いた画像分類とオブジェクト検出タスクの実験に基づいて、NN-Factoryは数秒で高品質なタスクやリソース固有のモデルを生成することができる。

Unlike cloud-based deep learning models that are often large and uniform, edge-deployed models usually demand customization for domain-specific tasks and resource-limited environments. Such customization processes can be costly and time-consuming due to the diversity of edge scenarios and the training load for each scenario. Although various approaches have been proposed for rapid resource-oriented customization and task-oriented customization respectively, achieving both of them at the same time is challenging. Drawing inspiration from the generative AI and the modular composability of neural networks, we introduce NN-Factory, an one-for-all framework to generate customized lightweight models for diverse edge scenarios. The key idea is to use a generative model to directly produce the customized models, instead of training them. The main components of NN-Factory include a modular supernet with pretrained modules that can be conditionally activated to accomplish different tasks and a generative module assembler that manipulate the modules according to task and sparsity requirements. Given an edge scenario, NN-Factory can efficiently customize a compact model specialized in the edge task while satisfying the edge resource constraints by searching for the optimal strategy to assemble the modules. Based on experiments on image classification and object detection tasks with different edge devices, NN-Factory is able to generate high-quality task- and resource-specific models within few seconds, faster than conventional model customization approaches by orders of magnitude.
翻訳日:2023-08-30 16:01:25 公開日:2023-08-29
# 時間知識グラフ外挿における履歴情報の限界の検討

Exploring the Limits of Historical Information for Temporal Knowledge Graph Extrapolation ( http://arxiv.org/abs/2308.15002v1 )

ライセンス: Link先を確認
Yi Xu, Junjie Ou, Hui Xu, Luoyi Fu, Lei Zhou, Xinbing Wang, Chenghu Zhou(参考訳) 時間経過に伴うエンティティ間の動的関係と相互作用を表す時間的知識グラフは、イベント予測に有望なアプローチとして認識されている。 しかしながら、ほとんどの時間的知識グラフ推論手法の制限は、出来事の再発や周期性に大きく依存しているため、歴史的相互作用を欠いたエンティティに関する将来の出来事を推測する上での課題となる。 実際、現在の状況は、しばしば、直接観測できない歴史的情報と基礎となる要因の組み合わせの結果である。 そこで本研究では,時間的知識グラフの補間のための履歴情報の限界を調査し,新しい学習枠組みに基づくコントラストイベントネットワーク(cenet)と呼ばれるイベント予測モデルを提案する。 CENETは、歴史的および非歴史的依存関係の両方を学び、与えられたクエリに最もマッチする最も潜在的なエンティティを識別する。 同時に、コントラスト学習を開始することで、クエリの表現を訓練し、現在のモーメントが歴史的事象や非歴史的事象に依存するかどうかを調べる。 これらの表現はさらに、出力がブールマスクであるバイナリ分類器を訓練し、検索空間内の関連エンティティを示すのに役立つ。 推論プロセスの間、cenetは最終的な結果を生成するためにマスクベースの戦略を用いる。 提案モデルを5つのベンチマークグラフで評価した。 その結果、CENETは、ほとんどのメトリクスにおいて既存のすべてのメソッドを著しく上回り、イベントベースのデータセットにおける過去の最先端ベースラインよりも少なくとも8.3%のHits@1の改善を実現している。

Temporal knowledge graphs, representing the dynamic relationships and interactions between entities over time, have been identified as a promising approach for event forecasting. However, a limitation of most temporal knowledge graph reasoning methods is their heavy reliance on the recurrence or periodicity of events, which brings challenges to inferring future events related to entities that lack historical interaction. In fact, the current state of affairs is often the result of a combination of historical information and underlying factors that are not directly observable. To this end, we investigate the limits of historical information for temporal knowledge graph extrapolation and propose a new event forecasting model called Contrastive Event Network (CENET) based on a novel training framework of historical contrastive learning. CENET learns both the historical and non-historical dependency to distinguish the most potential entities that best match the given query. Simultaneously, by launching contrastive learning, it trains representations of queries to probe whether the current moment is more dependent on historical or non-historical events. These representations further help train a binary classifier, whose output is a boolean mask, indicating the related entities in the search space. During the inference process, CENET employs a mask-based strategy to generate the final results. We evaluate our proposed model on five benchmark graphs. The results demonstrate that CENET significantly outperforms all existing methods in most metrics, achieving at least 8.3% relative improvement of Hits@1 over previous state-of-the-art baselines on event-based datasets.
翻訳日:2023-08-30 16:00:57 公開日:2023-08-29
# サブミクロンスケール結晶相制御による薄膜tio$_2$におけるerエミッタの準決定論的局在

Quasi-deterministic Localization of Er Emitters in Thin Film TiO$_2$ through Submicron-scale Crystalline Phase Control ( http://arxiv.org/abs/2308.14999v1 )

ライセンス: Link先を確認
Sean E. Sullivan, Jonghoon Ahn, Tao Zhou, Preetha Saha, Martin V. Holt, Supratik Guha, F. J. Heremans, Manish Kumar Singh(参考訳) 遮蔽された4f軌道により、希土類イオン(reis)は、ホスト結晶マトリックスに埋め込まれた場合でも優れたコヒーレンス特性を持つ光学および電子スピン遷移を提供し、有望な量子エミッタと量子情報処理のための記憶としての有用性を強調する。 REIsの中で、三価エルビウム(Er$^{3+}$)は、テレコムCバンドの光遷移を持ち、光ファイバーの伝送に理想的であり、量子通信への応用に適している。 Er$^{3+}$エミッタの薄膜TiO$_2$プラットフォームへの展開はスケーラブルな統合に向けた有望なステップであるが、多くの固体系と同様に、量子エミッタの決定論的空間配置はオープンな課題である。 si上のtio$_2$薄膜中のer$^{3+}$エミッタの光共鳴を局所的に調整する手段としてレーザーアニーリングを検討した。 ナノスケールx線回折測定と極低温光ルミネッセンス分光法の両方を用いて, グラニュラー成長による局所結晶性の向上により, 希薄な相転移にアナターゼを誘導できることを示した。 er:tio$_2$のパーセンテージはルチルに変換され、er$^{3+}$の光遷移ブルーシフトは13nmに変化する。 レーザーアニーリング時間の変化の効果を考察し、光学活性er:rutileの量はレーザーパワーと線形に増加することを示した。 さらに, 量子フォトニクスにおいて重要となる微細加工si構造の局所相変換を実証する。

With their shielded 4f orbitals, rare-earth ions (REIs) offer optical and electron spin transitions with good coherence properties even when embedded in a host crystal matrix, highlighting their utility as promising quantum emitters and memories for quantum information processing. Among REIs, trivalent erbium (Er$^{3+}$) uniquely has an optical transition in the telecom C-band, ideal for transmission over optical fibers, and making it well-suited for applications in quantum communication. The deployment of Er$^{3+}$ emitters into a thin film TiO$_2$ platform has been a promising step towards scalable integration; however, like many solid-state systems, the deterministic spatial placement of quantum emitters remains an open challenge. We investigate laser annealing as a means to locally tune the optical resonance of Er$^{3+}$ emitters in TiO$_2$ thin films on Si. Using both nanoscale X-ray diffraction measurements and cryogenic photoluminescence spectroscopy, we show that tightly focused below-gap laser annealing can induce anatase to rutile phase transitions in a nearly diffraction-limited area of the films and improve local crystallinity through grain growth. As a percentage of the Er:TiO$_2$ is converted to rutile, the Er$^{3+}$ optical transition blueshifts by 13 nm. We explore the effects of changing laser annealing time and show that the amount of optically active Er:rutile increases linearly with laser power. We additionally demonstrate local phase conversion on microfabricated Si structures, which holds significance for quantum photonics.
翻訳日:2023-08-30 16:00:32 公開日:2023-08-29
# 局所対称性を持つハミルトニアンの対称性保護フラットバンド条件

Symmetry-protected flatband condition for Hamiltonians with local symmetry ( http://arxiv.org/abs/2308.14997v1 )

ライセンス: Link先を確認
Jung-Wan Ryu, Alexei Andreanov, Hee Chul Park, Jae-Ho Han(参考訳) 平面バンドを持つ強結合ハミルトニアンに対して、単一の単位セルを占有するコンパクトな局所固有状態を持つ対称性に基づく条件を導出する。 これらの条件は、ハミルトニアンと交換し、コンパクト局所状態とフラットバンドを保証する局所対称性と関連するユニタリ作用素に基づいている。 我々は、与えられた対称性を持つ単純ハミルトニアンを持つコンパクト局所状態とフラットバンドの条件を説明する。 これらの結果を、長距離ホッピングを持つハミルトニアンや高次元ハミルトニアンのような一般の場合にも適用する。

We derive symmetry-based conditions for tight-binding Hamiltonians with flatbands to have compact localized eigenstates occupying a single unit cell. The conditions are based on unitary operators commuting with the Hamiltonian and associated with local symmetries that guarantee compact localized states and a flatband. We illustrate the conditions for compact localized states and flatbands with simple Hamiltonians with given symmetries. We also apply these results to general cases such as the Hamiltonian with long-range hoppings and higher-dimensional Hamiltonian.
翻訳日:2023-08-30 15:59:58 公開日:2023-08-29
# WSAM: 敵攻撃者としてのスタイル拡張からの視覚的説明と画像分類への影響

WSAM: Visual Explanations from Style Augmentation as Adversarial Attacker and Their Influence in Image Classification ( http://arxiv.org/abs/2308.14995v1 )

ライセンス: Link先を確認
Felipe Moreno-Vera and Edgar Medina and Jorge Poco(参考訳) 現在、畳み込みニューラルネットワーク(cnn)は形ではなくテクスチャ認識に強く偏っているため、スタイル拡張が注目を集めている。 既存のスタイリング手法の多くは、埋め込みベクトルにおいて低忠実度スタイル転送または弱いスタイル表現を実行する。 本稿では,雑音付加を伴う確率的サンプリングを用いたスタイル拡張アルゴリズムについて概説し,一般線形変換におけるランダム化の改善について述べる。 我々の拡張戦略では、すべてのモデルが画像スタイリングに対して驚くべき堅牢性を示すだけでなく、以前の手法よりも優れており、STL-10データセットの最先端性能を上回っている。 さらに,様々なスタイル変化を考慮したモデル解釈の分析を行う。 同時に,学習環境におけるディープニューラルアーキテクチャに適用した場合のパフォーマンスを示す包括的実験を比較した。

Currently, style augmentation is capturing attention due to convolutional neural networks (CNN) being strongly biased toward recognizing textures rather than shapes. Most existing styling methods either perform a low-fidelity style transfer or a weak style representation in the embedding vector. This paper outlines a style augmentation algorithm using stochastic-based sampling with noise addition to improving randomization on a general linear transformation for style transfer. With our augmentation strategy, all models not only present incredible robustness against image stylizing but also outperform all previous methods and surpass the state-of-the-art performance for the STL-10 dataset. In addition, we present an analysis of the model interpretations under different style variations. At the same time, we compare comprehensive experiments demonstrating the performance when applied to deep neural architectures in training settings.
翻訳日:2023-08-30 15:59:49 公開日:2023-08-29
# ICARUS:Androidベースの無人航空機(UAV)による空の視線検索と救助

ICARUS: An Android-Based Unmanned Aerial Vehicle (UAV) Search and Rescue Eye in the Sky ( http://arxiv.org/abs/2308.14994v1 )

ライセンス: Link先を確認
Manuel Luis C. Delos Santos (1), Jerum B. Dasalla (2), Jomar C. Feliciano (3), Dustin Red B. Cabatay (4), ((1)(3)(4) Asian Institute of Computer Studies, Philippines, (2) Philippine State College of Aeronautics)(参考訳) 本研究の目的は,クワッドコプターを用いた無人航空機(uav)の開発であり,ビデオ監視,地図座標,医薬品キットや食品パックを積載した展開可能なパラシュート,遠隔操作による衝突警報システム,androidアプリケーションと統合して捜索・救助作業を支援することにある。 サンプルまたは集団における変数間の関係を記述することによってデータを要約するための機能的プロトタイプ、定量的および記述的統計の開発のための応用研究。 クワッドコプターは、フィリピンのカルーカンシティとケソンシティの回答者を選定するために、事前に定義された変数を用いて、調査機器を用いてその受容性をテストする評価を行った。 デモグラフィックのプロフィールと既知の問題と懸念は、30人の回答者によって回答された。 結果は表1と表2にまとめて配布された。 人口統計学的には、特定地域内のsarオペレータ数は等しく分布しており、多くは男性、独身者、および31歳以上の年齢層内である。 問題と懸念では、最も一般的な捜索と救助は地上捜索と救助であった。 ヒューマンエラーは、手術ユニットのほとんどの損傷の主な原因である。 プロトタイプは有用で、受け入れられるという意味では、ドローン技術が捜索と救助活動を改善することに同意した。 Androidとドローンの技術を活用する革新的な方法は、フィリピンにおけるSAR事業の改善に向けた新たなステップである。 LiPo電池は高い容量で交換されなければならず、ドローンオペレーターは訓練コースを実行し、フィリピン民間航空局(CAAP)の許可を得る必要がある。

The purpose of this paper is to develop an unmanned aerial vehicle (UAV) using a quadcopter with the capability of video surveillance, map coordinates, a deployable parachute with a medicine kit or a food pack as a payload, a collision warning system, remotely controlled, integrated with an android application to assist in search and rescue operations. Applied research for the development of the functional prototype, quantitative and descriptive statistics to summarize data by describing the relationship between variables in a sample or population. The quadcopter underwent an evaluation using a survey instrument to test its acceptability using predefined variables to select respondents within Caloocan City and Quezon City, Philippines. Demographic profiles and known issues and concerns were answered by 30 respondents. The results were summarized and distributed in Tables 1 and 2. In terms of demographic profiles, the number of SAR operators within the specified areas is distributed equally, most are male, single, and within the age bracket of 31 and above. In issues and concerns, the most common type of search and rescue was ground search and rescue. Human error is the primary cause of most injuries in operating units. The prototype was useful and everyone agreed, in terms of acceptability, drone technology will improve search and rescue operations. The innovative way of utilizing Android and drone technology is a new step towards the improvement of SAR operations in the Philippines. The LiPo battery must be replaced with a higher capacity and the drone operator should undergo a training course and secure a permit from the Civil Aviation Authority of the Philippines (CAAP).
翻訳日:2023-08-30 15:59:36 公開日:2023-08-29
# 人工知能における連続学習への神経インスパイアされた適応性の導入

Incorporating Neuro-Inspired Adaptability for Continual Learning in Artificial Intelligence ( http://arxiv.org/abs/2308.14991v1 )

ライセンス: Link先を確認
Liyuan Wang, Xingxing Zhang, Qian Li, Mingtian Zhang, Hang Su, Jun Zhu, Yi Zhong(参考訳) 継続的な学習は、現実世界に強い適応性を持つ人工知能(AI)を強化することを目的としている。 この目的のためには、メモリ安定性と学習可塑性を適切にバランスさせ、観測された分布を捉えるのに十分な互換性を得る必要がある。 既存の進歩は主に破滅的な忘れを克服するために記憶の安定性を維持することに集中しているが、生物知能(bi)のように漸進的な変化を柔軟に対応させることは難しいままである。 本稿では,複数の学習モジュールによる記憶を積極的に制御する堅牢なショウジョウバエ学習システムをモデル化することにより,パラメータ分布の古い記憶を適切に抑制し,学習の可塑性を向上し,ソリューションの互換性を確保するために複数階層アーキテクチャをコーディネートする手法を提案する。 広範な理論的検証と経験的検証を通じて、このアプローチは、連続学習のパフォーマンス、特にタスク・インクリメンタルな設定におけるシナプス正規化法よりも明らかに向上するだけでなく、神経学的適応機構の理解を前進させ、aiとbiを共に進めるための新しいパラダイムとなる可能性がある。

Continual learning aims to empower artificial intelligence (AI) with strong adaptability to the real world. For this purpose, a desirable solution should properly balance memory stability with learning plasticity, and acquire sufficient compatibility to capture the observed distributions. Existing advances mainly focus on preserving memory stability to overcome catastrophic forgetting, but remain difficult to flexibly accommodate incremental changes as biological intelligence (BI) does. By modeling a robust Drosophila learning system that actively regulates forgetting with multiple learning modules, here we propose a generic approach that appropriately attenuates old memories in parameter distributions to improve learning plasticity, and accordingly coordinates a multi-learner architecture to ensure solution compatibility. Through extensive theoretical and empirical validation, our approach not only clearly enhances the performance of continual learning, especially over synaptic regularization methods in task-incremental settings, but also potentially advances the understanding of neurological adaptive mechanisms, serving as a novel paradigm to progress AI and BI together.
翻訳日:2023-08-30 15:59:10 公開日:2023-08-29
# 混合ミーバーシップモデルにおける混合確率とランキングの推定

Inferences on Mixing Probabilities and Ranking in Mixed-Membership Models ( http://arxiv.org/abs/2308.14988v1 )

ライセンス: Link先を確認
Sohom Bhattacharya, Jianqing Fan, Jikai Hou(参考訳) ネットワークデータは、ネットワークの潜伏構造を理解することが最も重要な経済や保健ネットワークを含む多くのビッグデータアプリケーションで広く利用されている。 本稿では,Degree-Corrected Mixed Membership (DCMM)モデルを用いてネットワークをモデル化する。 dcmmモデルでは、各ノード $i$ に対して、会員ベクトル $\boldsymbol{\pi}_i = (\boldsymbol{\pi}_i(1), \boldsymbol{\pi}_i(2),\ldots, \boldsymbol{\pi}_i(k))$ が存在し、ここで$\boldsymbol{\pi}_i(k)$ は、ノード $i$ がコミュニティ $k$ に与える重みを表す。 我々は$\boldsymbol{\pi}_i(k)$s に対する新しい有限サンプル展開を導出し、会員混合確率および他の関連する集団量の漸近分布と信頼区間を得ることができる。 これは会員プロファイルの不確実性定量化に関する重要なギャップを埋める。 さらに,特定のコミュニティにおける会員混合確率に基づく頂点のランク付け手法を開発し,関連する統計的推測を行う。 マルチプライヤブートストラップ法は,特定のコミュニティに対する個々のメンバのプロファイルのランク付けのために提案されている。 さらに, 実データと合成データの両方で数値実験を行い, 理論的結果の有効性を実証した。

Network data is prevalent in numerous big data applications including economics and health networks where it is of prime importance to understand the latent structure of network. In this paper, we model the network using the Degree-Corrected Mixed Membership (DCMM) model. In DCMM model, for each node $i$, there exists a membership vector $\boldsymbol{\pi}_ i = (\boldsymbol{\pi}_i(1), \boldsymbol{\pi}_i(2),\ldots, \boldsymbol{\pi}_i(K))$, where $\boldsymbol{\pi}_i(k)$ denotes the weight that node $i$ puts in community $k$. We derive novel finite-sample expansion for the $\boldsymbol{\pi}_i(k)$s which allows us to obtain asymptotic distributions and confidence interval of the membership mixing probabilities and other related population quantities. This fills an important gap on uncertainty quantification on the membership profile. We further develop a ranking scheme of the vertices based on the membership mixing probabilities on certain communities and perform relevant statistical inferences. A multiplier bootstrap method is proposed for ranking inference of individual member's profile with respect to a given community. The validity of our theoretical results is further demonstrated by via numerical experiments in both real and synthetic data examples.
翻訳日:2023-08-30 15:58:50 公開日:2023-08-29
# アンサンブル領域適応型転がり軸受の故障診断のための構成的インクリメンタル学習

Constructive Incremental Learning for Fault Diagnosis of Rolling Bearings with Ensemble Domain Adaptation ( http://arxiv.org/abs/2308.14983v1 )

ライセンス: Link先を確認
Jiang Liu and Wei Dai(参考訳) 各種作業条件における転がり軸受の故障診断が実用上の問題となっていることから, サンプルの入手が限られていることが課題である。 さらに、外部環境の複雑さと転がり軸受の構造は、しばしばランダム性やファジィ性によって特徴づけられる欠陥を示し、断層特性の効果的な抽出を妨げ、故障診断の精度を制限する。 そこで本研究では,CIL-EDA(Constructive Incremental Learning-based ensemble domain adapt)アプローチという新しいアプローチを提案する。 具体的には、確率的構成ネットワーク(SCN)上に実装され、マルチドメインでの適応性を向上させる。 具体的には、ウェーブレットパケット分解(WPD)とともに雲の特徴抽出手法を用いて、複数の解像度から故障情報の不確実性を捉える。 その後、構築的インクリメンタル学習に基づくドメイン適応(CIL-DA)を開発し、ドメインマッチングを通じて各隠れノードのクロスドメイン学習能力を向上し、ターゲットドメインとソースドメインの両方から限定されたラベル付きデータを活用して堅牢なフォールト分類器を構築する。 最後に、CIL-DAと並列アンサンブル学習を統合したCIL-EDAの多数投票により、故障診断結果を得る。 実験の結果,CIL-DAはいくつかの領域適応法より優れており,CIL-EDAは数ショットのシナリオで常に最先端の故障診断法より優れていた。

Given the prevalence of rolling bearing fault diagnosis as a practical issue across various working conditions, the limited availability of samples compounds the challenge. Additionally, the complexity of the external environment and the structure of rolling bearings often manifests faults characterized by randomness and fuzziness, hindering the effective extraction of fault characteristics and restricting the accuracy of fault diagnosis. To overcome these problems, this paper presents a novel approach termed constructive Incremental learning-based ensemble domain adaptation (CIL-EDA) approach. Specifically, it is implemented on stochastic configuration networks (SCN) to constructively improve its adaptive performance in multi-domains. Concretely, a cloud feature extraction method is employed in conjunction with wavelet packet decomposition (WPD) to capture the uncertainty of fault information from multiple resolution aspects. Subsequently, constructive Incremental learning-based domain adaptation (CIL-DA) is firstly developed to enhance the cross-domain learning capability of each hidden node through domain matching and construct a robust fault classifier by leveraging limited labeled data from both target and source domains. Finally, fault diagnosis results are obtained by a majority voting of CIL-EDA which integrates CIL-DA and parallel ensemble learning. Experimental results demonstrate that our CIL-DA outperforms several domain adaptation methods and CIL-EDA consistently outperforms state-of-art fault diagnosis methods in few-shot scenarios.
翻訳日:2023-08-30 15:58:19 公開日:2023-08-29
# 従来のIR手法によるニューラルランクモデルの改良

Improving Neural Ranking Models with Traditional IR Methods ( http://arxiv.org/abs/2308.15027v1 )

ライセンス: Link先を確認
Anik Saha, Oktie Hassanzadeh, Alex Gittens, Jian Ni, Kavitha Srinivas, Bulent Yener(参考訳) 大規模トランスモデルに基づくニューラルランキング法は近年,情報検索コミュニティにおいて注目され,主要な商用ソリューションに採用されている。 それでも計算コストは高く、専用のコーパスには大量のラベル付きデータが必要である。 本稿では,文書検索のためのバッグ・オブ・エンベディングモデルである低リソースの代替案について検討し,情報検索タスクを微調整した大規模トランスフォーマーモデルと競合することを示す。 その結果,従来のキーワードマッチング手法であるtf-idfと浅い埋め込みモデルの組み合わせは,3つのデータセットにおける複雑なニューラルネットワークのランキングモデルのパフォーマンスとよく競合するための低コストな経路を提供することがわかった。 さらに、TF-IDF測定を追加することで、これらのタスクにおける大規模微調整モデルの性能が向上する。

Neural ranking methods based on large transformer models have recently gained significant attention in the information retrieval community, and have been adopted by major commercial solutions. Nevertheless, they are computationally expensive to create, and require a great deal of labeled data for specialized corpora. In this paper, we explore a low resource alternative which is a bag-of-embedding model for document retrieval and find that it is competitive with large transformer models fine tuned on information retrieval tasks. Our results show that a simple combination of TF-IDF, a traditional keyword matching method, with a shallow embedding model provides a low cost path to compete well with the performance of complex neural ranking models on 3 datasets. Furthermore, adding TF-IDF measures improves the performance of large-scale fine tuned models on these tasks.
翻訳日:2023-08-30 15:49:50 公開日:2023-08-29
# 単一ショット単一モード光2パラメータ変位推定法

Single-shot single-mode optical two-parameter displacement estimation beyond classical limit ( http://arxiv.org/abs/2308.15024v1 )

ライセンス: Link先を確認
Fumiya Hanamura, Warit Asavanant, Seigo Kikura, Moeto Mishima, Shigehito Miki, Hirotaka Terai, Masahiro Yabuno, Fumihiro China, Kosuke Fukui, Mamoru Endo, and Akira Furusawa(参考訳) 不確実性原理は位相空間における変位パラメータの両成分の正確な測定を禁止する。 理論上、この限界は単一光子状態を用いて、単発および単モード設定(f. hanamura et al., phys. rev. a 104, 062601 (2021))で打ち負かすことができることが示されている。 本稿では,古典的限界を実験的に破って検証する。 光学では、これは非ガウス状態を用いて変位の両パラメータを推定する最初の実験である。 この結果は、量子エラー補正など、多くの重要な応用に関係している。

Uncertainty principle prohibits the precise measurement of both components of displacement parameters in phase space. We have theoretically shown that this limit can be beaten using single-photon states, in a single-shot and single-mode setting [F. Hanamura et al., Phys. Rev. A 104, 062601 (2021)]. In this paper, we validate this by experimentally beating the classical limit. In optics, this is the first experiment to estimate both parameters of displacement using non-Gaussian states. This result is related to many important applications, such as quantum error correction.
翻訳日:2023-08-30 15:49:37 公開日:2023-08-29
# 逐次要約による大規模言語モデルにおける長期対話記憶の実現

Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models ( http://arxiv.org/abs/2308.15022v1 )

ライセンス: Link先を確認
Qingyue Wang, Liang Ding, Yanan Cao, Zhiliang Tian, Shi Wang, Dacheng Tao, Li Guo(参考訳) 多くのオープンドメイン対話システムは、特に長期会話において重要な情報を忘れることに悩まされる。 既存の作品は通常、特定の検索者や要約者を訓練して過去から重要な情報を取得する。 この問題を軽減するため,大規模言語モデル(LLM)を用いて要約/メモリを再帰的に生成し,長期記憶能力を向上させることを提案する。 具体的には、まずLLMを刺激して、小さな対話コンテキストを記憶し、次に前のメモリと後続のコンテキストを使って再帰的に新しいメモリを生成する。 最後に、LLMは最新のメモリの助けを借りて、非常に一貫性のある応答を容易に生成できる。 提案手法はChatGPTとtext-davinci-003を用いて評価し,より広範に利用されている公開データセットを用いて,長文会話においてより一貫した応答を生成可能であることを示す。 特に,本手法はLLMが極めて長いコンテキストをモデル化するための潜在的な解決策である。 コードとスクリプトは後でリリースされる。

Most open-domain dialogue systems suffer from forgetting important information, especially in a long-term conversation. Existing works usually train the specific retriever or summarizer to obtain key information from the past, which is time-consuming and highly depends on the quality of labeled data. To alleviate this problem, we propose to recursively generate summaries/ memory using large language models (LLMs) to enhance long-term memory ability. Specifically, our method first stimulates LLMs to memorize small dialogue contexts and then recursively produce new memory using previous memory and following contexts. Finally, the LLM can easily generate a highly consistent response with the help of the latest memory. We evaluate our method using ChatGPT and text-davinci-003, and the experiments on the widely-used public dataset show that our method can generate more consistent responses in a long-context conversation. Notably, our method is a potential solution to enable the LLM to model the extremely long context. Code and scripts will be released later.
翻訳日:2023-08-30 15:49:25 公開日:2023-08-29
# GPUを用いたハイブリッドSAT解の大規模並列連続探索

Massively Parallel Continuous Local Search for Hybrid SAT Solving on GPUs ( http://arxiv.org/abs/2308.15020v1 )

ライセンス: Link先を確認
Yunuo Cen, Zhiwei Zhang, Xuanyao Fong(参考訳) コンフリクト駆動型節学習(CDCL)に基づく最新技術(SOTA)SATソルバは、優れたエンジニアリング成功を達成しているが、そのシーケンシャルな性質は、グラフィクス処理ユニット(GPU)のようなプラットフォーム上でのアクセラレーションのために抽出できる並列性を制限する。 本研究では,勾配駆動型連続局所探索(CLS)に基づく高並列ハイブリッドSATソルバであるFastFourierSATを提案する。 これは、従来の cls 法の主要な計算課題である基本対称多項式(英語版)(esps)を計算するための高速フーリエ変換(fft)に基づく畳み込みに触発された新しい並列アルゴリズムによって実現される。 アルゴリズムの複雑さは、最も古い結果と一致します。 さらに,本アルゴリズムが生み出す並列性はgpuをアクセラレーションに活用し,従来のcls法に比べて大幅に改善する。 また,再起動ヒューリスティックスをCRSに組み込んで探索効率を向上させることを提案する。 いくつかのベンチマークでSOTA並列SATソルバとの比較を行った。 この結果から,FastFourierSATはCPU上で実装されたプロトタイプの100倍以上の速度で勾配を計算することがわかった。 さらにFastFourierSATは、ほとんどのインスタンスを解決し、より大きなインスタンスで有望なパフォーマンスを示す。

Although state-of-the-art (SOTA) SAT solvers based on conflict-driven clause learning (CDCL) have achieved remarkable engineering success, their sequential nature limits the parallelism that may be extracted for acceleration on platforms such as the graphics processing unit (GPU). In this work, we propose FastFourierSAT, a highly parallel hybrid SAT solver based on gradient-driven continuous local search (CLS). This is realized by a novel parallel algorithm inspired by the Fast Fourier Transform (FFT)-based convolution for computing the elementary symmetric polynomials (ESPs), which is the major computational task in previous CLS methods. The complexity of our algorithm matches the best previous result. Furthermore, the substantial parallelism inherent in our algorithm can leverage the GPU for acceleration, demonstrating significant improvement over the previous CLS approaches. We also propose to incorporate the restart heuristics in CLS to improve search efficiency. We compare our approach with the SOTA parallel SAT solvers on several benchmarks. Our results show that FastFourierSAT computes the gradient 100+ times faster than previous prototypes implemented on CPU. Moreover, FastFourierSAT solves most instances and demonstrates promising performance on larger-size instances.
翻訳日:2023-08-30 15:49:08 公開日:2023-08-29
# 一方向倍率・デマグニフィケーションのためのピラミッド回折光ネットワーク

Pyramid diffractive optical networks for unidirectional magnification and demagnification ( http://arxiv.org/abs/2308.15019v1 )

ライセンス: Link先を確認
Bijie Bai, Xilin Yang, Tianyi Gan, Jingxi Li, Deniz Mengu, Mona Jarrahi, Aydogan Ozcan(参考訳) 拡散型深層ニューラルネットワーク(D2NN)は、教師付き深層学習を用いて最適化され、入力フィールドと出力フィールド・オブ・ビュー(FOV)の間の様々な計算タスクを全光学的に実装する。 本稿では,一方向像拡大とデマグニゼーションに最適化されたピラミッド構造回折光ネットワーク設計(p-d2nn)を提案する。 このP-D2NN設計では、差動層は画像の倍率やデマグニフィケーションの方向に合わせてピラミッド状に拡大される。 本研究は,このp-d2nn設計が,一方向画像の倍率化と縮約作業に有効であることを明らかにし,一方向画像形成を阻害しながら,一方向画像の高忠実度拡大あるいは縮尺画像を生成する。 一様サイズの連続回折層を持つ従来のd2nn設計と比較して、p-d2nn設計は光プロセッサボリューム内の回折自由度の半分しか使わず、一方向拡大タスクで同様の性能を達成する。 さらに、単一の照明波長で訓練されたにもかかわらず、広い波長の照明波長にわたって一方向の像拡大/縮退機能を維持できる。 このピラミッド構造を用いて、波長多重拡散ネットワークを設計し、一方向拡大器と一方向デマジネータを2つの異なる照明波長で同時に動作させた。 また, 単色テラヘルツ照明を用いてP-D2NNアーキテクチャの有効性を実験的に検証し, 数値シミュレーションと一致させた。 P-D2NNは、タスク固有のビジュアルプロセッサを設計するための物理に着想を得た戦略を提供する。

Diffractive deep neural networks (D2NNs) are composed of successive transmissive layers optimized using supervised deep learning to all-optically implement various computational tasks between an input and output field-of-view (FOV). Here, we present a pyramid-structured diffractive optical network design (which we term P-D2NN), optimized specifically for unidirectional image magnification and demagnification. In this P-D2NN design, the diffractive layers are pyramidally scaled in alignment with the direction of the image magnification or demagnification. Our analyses revealed the efficacy of this P-D2NN design in unidirectional image magnification and demagnification tasks, producing high-fidelity magnified or demagnified images in only one direction, while inhibiting the image formation in the opposite direction - confirming the desired unidirectional imaging operation. Compared to the conventional D2NN designs with uniform-sized successive diffractive layers, P-D2NN design achieves similar performance in unidirectional magnification tasks using only half of the diffractive degrees of freedom within the optical processor volume. Furthermore, it maintains its unidirectional image magnification/demagnification functionality across a large band of illumination wavelengths despite being trained with a single illumination wavelength. With this pyramidal architecture, we also designed a wavelength-multiplexed diffractive network, where a unidirectional magnifier and a unidirectional demagnifier operate simultaneously in opposite directions, at two distinct illumination wavelengths. The efficacy of the P-D2NN architecture was also validated experimentally using monochromatic terahertz illumination, successfully matching our numerical simulations. P-D2NN offers a physics-inspired strategy for designing task-specific visual processors.
翻訳日:2023-08-30 15:48:39 公開日:2023-08-29
# c2g2:潜在拡散モデルを用いた制御可能なコペアジェスチャ生成

C2G2: Controllable Co-speech Gesture Generation with Latent Diffusion Model ( http://arxiv.org/abs/2308.15016v1 )

ライセンス: Link先を確認
Longbin Ji, Pengfei Wei, Yi Ren, Jinglin Liu, Chen Zhang, Xiang Yin(参考訳) 自動デジタルアバターアニメーションには協調ジェスチャー生成が不可欠である。 しかし、既存の手法は不安定なトレーニングや時間的不整合といった問題に悩まされ、特に高忠実で包括的なジェスチャーを生成する。 さらに、これらの手法は、生成したジェスチャの話者識別と時間編集を効果的に制御できない。 時間潜時情報を捕捉し,実用的な制御を行うことに着目し,C2G2 という名前の制御可能な音声合成フレームワークを提案する。 具体的には,潜伏拡散モデルによる2段階の時間依存性増強戦略を提案する。 さらに、C2G2に2つの重要な特徴、すなわち話者固有のデコーダを導入し、話者に関連する実長骨格を生成する。 ベンチマークジェスチャデータセットに関する広範囲な実験により,提案するc2g2の有効性が検証された。 プロジェクトのデモページへのリンクはhttps://c2g2-gesture.github.io/c2_gestureにある。

Co-speech gesture generation is crucial for automatic digital avatar animation. However, existing methods suffer from issues such as unstable training and temporal inconsistency, particularly in generating high-fidelity and comprehensive gestures. Additionally, these methods lack effective control over speaker identity and temporal editing of the generated gestures. Focusing on capturing temporal latent information and applying practical controlling, we propose a Controllable Co-speech Gesture Generation framework, named C2G2. Specifically, we propose a two-stage temporal dependency enhancement strategy motivated by latent diffusion models. We further introduce two key features to C2G2, namely a speaker-specific decoder to generate speaker-related real-length skeletons and a repainting strategy for flexible gesture generation/editing. Extensive experiments on benchmark gesture datasets verify the effectiveness of our proposed C2G2 compared with several state-of-the-art baselines. The link of the project demo page can be found at https://c2g2-gesture.github.io/c2_gesture
翻訳日:2023-08-30 15:48:11 公開日:2023-08-29
# シリコンスピンクビットにおける共振トンネルによる読み出し

Readout using Resonant Tunneling in Silicon Spin Qubits ( http://arxiv.org/abs/2308.15015v1 )

ライセンス: Link先を確認
Tetsufumi Tanamoto and Keiji Ono(参考訳) スピン量子ビットシステムは量子コンピューティングの有望な候補の1つである。 量子ドット(QD)アレイは多くの研究者によって集中的に研究されている。 アップスピン状態とダウンスピン状態のエネルギー差は非常に小さいため、この分野では量子ビット状態の検出が重要となる。 さらに、キュービットシステムの制御には多くのワイヤが必要である。 したがって、qubitsとwiresの統合も重要な問題である。 本研究では,従来のトランジスタで制御された共鳴トンネル法を用いてQDアレイの測定過程を理論的に検討した。 その結果,共振トンネルの非線形特性により,コヒーレンス時間における測定回数が100を超えることが示唆された。 また,従来のトランジスタによる測定結果の読み出しについても検討した。

Spin qubit systems are one of the promising candidates for quantum computing. The quantum dot (QD) arrays are intensively investigated by many researchers. Because the energy-difference between the up-spin and down-spin states is very small, the detection of the qubit state is of prime importance in this field. Moreover, many wires are required to control qubit systems. Therefore, the integration of qubits and wires is also an important issue. In this study, the measurement process of QD arrays is theoretically investigated using resonant tunneling, controlled by a conventional transistor. It is shown that the number of possible measurements during coherence time can exceed a hundred under the backaction of the measurements owing to the nonlinear characteristics of resonant tunneling. It is also discussed to read out the measurement results by the conventional transistor.
翻訳日:2023-08-30 15:47:54 公開日:2023-08-29
# TransPrompt v2: クロスタスクテキスト分類のための転送可能なプロンプトフレームワーク

TransPrompt v2: A Transferable Prompting Framework for Cross-task Text Classification ( http://arxiv.org/abs/2308.15010v1 )

ライセンス: Link先を確認
Jianing Wang, Chengyu Wang, Cen Chen, Ming Gao, Jun Huang, Aoying Zhou(参考訳) テキスト分類は自然言語処理(NLP)において最も必須課題の1つである。 プレトレーニング言語モデル(PLM)による最近の進歩は,この課題において顕著な成功を収めている。 しかし、plmによって得られた満足度の高い結果は、大量のタスク固有のラベル付きデータに大きく依存しており、データアクセスとプライバシの制約のため、多くのアプリケーションシナリオでは実現不可能である。 最近提案されたプロンプトベースの微調整パラダイムは、タスク固有のテンプレートを用いた数ショットテキスト分類のためのPLMの性能を向上させる。 しかし, 相互強化のため, 課題間でどのように知識を伝達できるかは明らかでない。 そこで本研究では,テキスト分類タスク間の数ショット学習のためのトランスプロンプトv2を提案する。 同様のタスクで学習するには、マルチタスクメタ知識獲得(mma)手順を使用して、クロスタスク転送可能な知識をキャプチャするメタリーナーをトレーニングします。 遠隔タスクを学習するために,さらにタスクタイプ記述をプロンプトに注入し,複数のタスク間のタイプ内およびタイプ間プロンプト埋め込みをキャプチャする。 さらに、2つのデバイアステクニックは、トレーニングされたメタリーナーをよりタスクに依存しない、あらゆるタスクに対する偏りのないものにするために設計されている。 その後、メタリーナーはパラメータの初期化をより良くすることで、それぞれの特定のタスクに適応することができる。 大規模な実験により、TransPrompt v2は複数のNLPタスクやデータセットに対してシングルタスクとクロスタスクの強いベースラインを上回ります。 さらに、メタリーナーは、これまで見つからなかったタスクでplmの性能を効果的に改善できることを示す。 さらに、transprompt v2は、完全なトレーニングセットで学習する場合、強力な微調整ベースラインを上回る。

Text classification is one of the most imperative tasks in natural language processing (NLP). Recent advances with pre-trained language models (PLMs) have shown remarkable success on this task. However, the satisfying results obtained by PLMs heavily depend on the large amounts of task-specific labeled data, which may not be feasible in many application scenarios due to data access and privacy constraints. The recently-proposed prompt-based fine-tuning paradigm improves the performance of PLMs for few-shot text classification with task-specific templates. Yet, it is unclear how the prompting knowledge can be transferred across tasks, for the purpose of mutual reinforcement. We propose TransPrompt v2, a novel transferable prompting framework for few-shot learning across similar or distant text classification tasks. For learning across similar tasks, we employ a multi-task meta-knowledge acquisition (MMA) procedure to train a meta-learner that captures the cross-task transferable knowledge. For learning across distant tasks, we further inject the task type descriptions into the prompt, and capture the intra-type and inter-type prompt embeddings among multiple distant tasks. Additionally, two de-biasing techniques are further designed to make the trained meta-learner more task-agnostic and unbiased towards any tasks. After that, the meta-learner can be adapted to each specific task with better parameters initialization. Extensive experiments show that TransPrompt v2 outperforms single-task and cross-task strong baselines over multiple NLP tasks and datasets. We further show that the meta-learner can effectively improve the performance of PLMs on previously unseen tasks. In addition, TransPrompt v2 also outperforms strong fine-tuning baselines when learning with full training sets.
翻訳日:2023-08-30 15:47:44 公開日:2023-08-29
# 安全線形バンディットにおける問題幾何の活用

Exploiting Problem Geometry in Safe Linear Bandits ( http://arxiv.org/abs/2308.15006v1 )

ライセンス: Link先を確認
Spencer Hutchinson, Berkay Turan, Mahnoosh Alizadeh(参考訳) 安全線形バンドイット問題は、学習者の動作が全てのラウンドにおいて不確実な線形制約を満たす必要がある古典線形バンドイット問題のバージョンである。 多くの実世界の環境に適用できるため、近年ではこの問題が注目されている。 特定の問題設定の幾何を利用することにより、よく分離された問題インスタンスと有限個の星凸集合であるアクションセットの両方に対する改善された後悔保証を達成することができる。 さらに,この問題パラメータを適応的に選択し,既成アルゴリズムと同等に良好な後悔の保証を享受できる新しいアルゴリズムを提案する。 最後に,制約が凸である安全な線形バンディット設定の一般化を導入し,新しい凸解析に基づくアプローチを用いて,アルゴリズムと解析をこの設定に適用する。 シミュレーションの結果、様々なランダムなサンプル設定のための既存のアルゴリズムよりも性能が向上した。

The safe linear bandit problem is a version of the classic linear bandit problem where the learner's actions must satisfy an uncertain linear constraint at all rounds. Due its applicability to many real-world settings, this problem has received considerable attention in recent years. We find that by exploiting the geometry of the specific problem setting, we can achieve improved regret guarantees for both well-separated problem instances and action sets that are finite star convex sets. Additionally, we propose a novel algorithm for this setting that chooses problem parameters adaptively and enjoys at least as good regret guarantees as existing algorithms. Lastly, we introduce a generalization of the safe linear bandit setting where the constraints are convex and adapt our algorithms and analyses to this setting by leveraging a novel convex-analysis based approach. Simulation results show improved performance over existing algorithms for a variety of randomly sampled settings.
翻訳日:2023-08-30 15:47:17 公開日:2023-08-29
# 最適輸送を考慮した合成特徴量による少数ショット物体検出

Few-Shot Object Detection via Synthetic Features with Optimal Transport ( http://arxiv.org/abs/2308.15005v1 )

ライセンス: Link先を確認
Anh-Khoa Nguyen Vu, Thanh-Toan Do, Vinh-Tiep Nguyen, Tam Le, Minh-Triet Tran, Tam V. Nguyen(参考訳) 少ないショットオブジェクト検出は、限られたトレーニングサンプルで画像内のオブジェクトを同時にローカライズし、分類することを目的としている。 しかし、既存の少数ショットオブジェクト検出手法のほとんどは、多様性に欠けるいくつかの新しいクラスの特徴を抽出することに焦点を当てている。 したがって、データ分散をキャプチャするには不十分かもしれない。 そこで本稿では,この制限に対処するために,新しいクラスに対して合成データを生成するようにジェネレータを訓練する新しい手法を提案する。 それでも、新しいクラスでジェネレータを直接トレーニングすることは、新しいデータがないため有効ではない。 この問題を解決するために、我々は大規模なベースクラスのデータセットを活用します。 私たちの包括的な目標は、ベースデータセットのデータバリエーションをキャプチャするジェネレータをトレーニングすることにあります。 次に、学習したジェネレータで合成データを生成することで、キャプチャしたバリエーションを新しいクラスに変換する。 そこで本研究では, 実データと合成データの分布間の最適な輸送距離を最小限に抑えるため, 最適輸送損失で発電機を訓練することを提案する。 2つのベンチマークデータセットに対する大規模な実験により、提案手法が最先端の手法であることを示す。 ソースコードは利用可能である。

Few-shot object detection aims to simultaneously localize and classify the objects in an image with limited training samples. However, most existing few-shot object detection methods focus on extracting the features of a few samples of novel classes that lack diversity. Hence, they may not be sufficient to capture the data distribution. To address that limitation, in this paper, we propose a novel approach in which we train a generator to generate synthetic data for novel classes. Still, directly training a generator on the novel class is not effective due to the lack of novel data. To overcome that issue, we leverage the large-scale dataset of base classes. Our overarching goal is to train a generator that captures the data variations of the base dataset. We then transform the captured variations into novel classes by generating synthetic data with the trained generator. To encourage the generator to capture data variations on base classes, we propose to train the generator with an optimal transport loss that minimizes the optimal transport distance between the distributions of real and synthetic data. Extensive experiments on two benchmark datasets demonstrate that the proposed method outperforms the state of the art. Source code will be available.
翻訳日:2023-08-30 15:47:02 公開日:2023-08-29
# 音声対話のためのテキストベース対話状態トラッカーの適応

Adapting text-based dialogue state tracker for spoken dialogues ( http://arxiv.org/abs/2308.15053v1 )

ライセンス: Link先を確認
Jaeseok Yoon (1), Seunghyun Hwang (1), Ran Han (2), Jeonguk Bang (2), Kee-Eung Kim (1 and 3) ((1) Kim Jaechul Graduate School of AI, KAIST, Seoul, Republic of Korea, (2) Electronics Telecommunications Research Institute (ETRI), Daejeon, Republic of Korea, (3) School of Computing, KAIST, Daejeon, Republic of Korea)(参考訳) 対話システム技術コンペティション(DSTC)を通じて対話システムに顕著な進歩があったが、音声インタフェースを用いた堅牢なタスク指向対話システムを構築する上での重要な課題の1つである。 テキストベースの対話システムでは、コーパスが書かれた大量のデータセットがあるが、音声対話を持つものは非常に少ないため、ほとんどが進歩している。 しかし、siriやalexaのような音声アシスタントシステムに見られるように、その成功を音声対話に移すことは実際的に重要である。 本稿では,dstc11における音声認識対話システム技術チャレンジトラックに参加する,高度に成功したモデルの構築に向けた技術努力について述べる。 本モデルは,(1)音声とテキストとのギャップを埋める自動音声認識誤り訂正,(2)スロット記述を用いたスロットと値を推定するテキストベース対話システム(d3st),(3)推定スロット値の誤りを復元するための後処理,の3つの主要モジュールからなる。 本研究は,音声対話コーパスにテキストベースの対話状態トラッカを適応させるために,明示的な自動音声認識誤り訂正モジュール,後処理,データ拡張を用いることが重要であることを示す。

Although there have been remarkable advances in dialogue systems through the dialogue systems technology competition (DSTC), it remains one of the key challenges to building a robust task-oriented dialogue system with a speech interface. Most of the progress has been made for text-based dialogue systems since there are abundant datasets with written corpora while those with spoken dialogues are very scarce. However, as can be seen from voice assistant systems such as Siri and Alexa, it is of practical importance to transfer the success to spoken dialogues. In this paper, we describe our engineering effort in building a highly successful model that participated in the speech-aware dialogue systems technology challenge track in DSTC11. Our model consists of three major modules: (1) automatic speech recognition error correction to bridge the gap between the spoken and the text utterances, (2) text-based dialogue system (D3ST) for estimating the slots and values using slot descriptions, and (3) post-processing for recovering the error of the estimated slot value. Our experiments show that it is important to use an explicit automatic speech recognition error correction module, post-processing, and data augmentation to adapt a text-based dialogue state tracker for spoken dialogue corpora.
翻訳日:2023-08-30 15:42:37 公開日:2023-08-29
# iBARLE: imBalance-Aware Room Layout Estimation

iBARLE: imBalance-Aware Room Layout Estimation ( http://arxiv.org/abs/2308.15050v1 )

ライセンス: Link先を確認
Taotao Jing, Lichen Wang, Naji Khosravan, Zhiqiang Wan, Zachary Bessinger, Zhengming Ding, Sing Bing Kang(参考訳) 部屋レイアウト推定は、1つのパノラマからレイアウトを予測する。 モデルのトレーニングには大規模で多様な部屋形状のデータセットが必要である。 しかし、レイアウトの複雑さ、カメラの位置、シーンの外観の変化など、実際のデータセットには大きな不均衡がある。 これらの問題はモデルトレーニングのパフォーマンスに大きな影響を与えます。 そこで本研究では,ImBalance-Aware Room Layout Estimation (iBARLE) フレームワークを提案する。 iBARLEは,(1)外観領域の一般化を促進する外観変化生成(AVG)モジュール,(2)複合構造混合(CSMix)モジュール,(3)複雑なレイアウトにおけるオクルージョンをより効果的に説明できる勾配に基づくレイアウト目的関数から構成される。 すべてのモジュールは共同でトレーニングされ、最高のパフォーマンスを達成するのに役立ちます。 ZInD~\cite{cruz2021zillow}データセットに基づく実験とアブレーション研究は、iBARLEが他のレイアウト推定ベースラインと比較して最先端の性能を持っていることを示している。

Room layout estimation predicts layouts from a single panorama. It requires datasets with large-scale and diverse room shapes to train the models. However, there are significant imbalances in real-world datasets including the dimensions of layout complexity, camera locations, and variation in scene appearance. These issues considerably influence the model training performance. In this work, we propose the imBalance-Aware Room Layout Estimation (iBARLE) framework to address these issues. iBARLE consists of (1) Appearance Variation Generation (AVG) module, which promotes visual appearance domain generalization, (2) Complex Structure Mix-up (CSMix) module, which enhances generalizability w.r.t. room structure, and (3) a gradient-based layout objective function, which allows more effective accounting for occlusions in complex layouts. All modules are jointly trained and help each other to achieve the best performance. Experiments and ablation studies based on ZInD~\cite{cruz2021zillow} dataset illustrate that iBARLE has state-of-the-art performance compared with other layout estimation baselines.
翻訳日:2023-08-30 15:41:58 公開日:2023-08-29
# 暗黙的ポーズ正規化によるポーズフリー神経放射場

Pose-Free Neural Radiance Fields via Implicit Pose Regularization ( http://arxiv.org/abs/2308.15049v1 )

ライセンス: Link先を確認
Jiahui Zhang, Fangneng Zhan, Yingchen Yu, Kunhao Liu, Rongliang Wu, Xiaoqin Zhang, Ling Shao, Shijian Lu(参考訳) Pose-free Neural Radiance Field (NeRF) は、NeRFを無作為な多視点画像で訓練することを目的としており、近年非常に大きな成功を収めている。 既存のほとんどの研究は、粗いポーズ推定器をレンダリングされた画像で訓練するパイプラインを共有し、続いて推定されたポーズと神経放射場を共同で最適化する。 しかし、ポーズ推定器はレンダリング画像のみを用いて訓練されるため、実際の画像とレンダリング画像との領域ギャップにより、ポーズ推定は通常、実際の画像に対して偏りや不正確なため、実際の画像のポーズ推定や、さらに共同最適化における局所最小値に対するロバスト性が低い。 IR-NeRFは、暗黙的なポーズ正則化を導入し、ポーズ推定を非ポーズ実画像で洗練し、実際の画像に対するポーズ推定の堅牢性を向上させる。 特定のシーンの2D画像の収集により、IR-NeRFはシーンの特徴を記憶するシーンコードブックを構築し、シーン固有のポーズ分布を予め暗黙的にキャプチャする。 これにより、推定されたポーズがポーズ分布内にある場合に限り、2次元実画像がシーンコードブックから適切に再構築できるという根拠に基づいて、シーン先行してポーズ推定のロバスト性を促進することができる。 広汎な実験により、IR-NeRFは優れた新規なビュー合成を実現し、複数の合成データセットと実際のデータセットで一貫して最先端の性能を発揮することが示されている。

Pose-free neural radiance fields (NeRF) aim to train NeRF with unposed multi-view images and it has achieved very impressive success in recent years. Most existing works share the pipeline of training a coarse pose estimator with rendered images at first, followed by a joint optimization of estimated poses and neural radiance field. However, as the pose estimator is trained with only rendered images, the pose estimation is usually biased or inaccurate for real images due to the domain gap between real images and rendered images, leading to poor robustness for the pose estimation of real images and further local minima in joint optimization. We design IR-NeRF, an innovative pose-free NeRF that introduces implicit pose regularization to refine pose estimator with unposed real images and improve the robustness of the pose estimation for real images. With a collection of 2D images of a specific scene, IR-NeRF constructs a scene codebook that stores scene features and captures the scene-specific pose distribution implicitly as priors. Thus, the robustness of pose estimation can be promoted with the scene priors according to the rationale that a 2D real image can be well reconstructed from the scene codebook only when its estimated pose lies within the pose distribution. Extensive experiments show that IR-NeRF achieves superior novel view synthesis and outperforms the state-of-the-art consistently across multiple synthetic and real datasets.
翻訳日:2023-08-30 15:41:21 公開日:2023-08-29
# 大規模言語モデルは人間のような概念組織に収束する

Large language models converge toward human-like concept organization ( http://arxiv.org/abs/2308.15047v1 )

ライセンス: Link先を確認
Mathias Lykke Gammelgaard, Jonathan Gabel Christiansen, Anders S{\o}gaard(参考訳) 大規模言語モデルは、知識抽出、推論、対話において人間のようなパフォーマンスを示すが、このパフォーマンスが記憶とパターンマッチングによって最もよく説明されているか、あるいは人間のような推論的セマンティクスや世界知識を反映しているかは議論の余地がある。 WikiDataのような知識ベースは、推論意味論と世界知識の大規模で高品質な表現を提供する。 大規模言語モデルは,そのような知識ベースにおける概念の組織化方法と非常によく似た方法で概念を体系化することを学ぶ。 知識ベースは集合的知識、制度的知識、および大きな言語モデルであり、原文からそのような知識を誘導しているようである。 4つの言語モデルと3つの知識グラフの埋め込みにまたがる、より人間的な概念構造がより大きく、より優れたモデルで示されています。

Large language models show human-like performance in knowledge extraction, reasoning and dialogue, but it remains controversial whether this performance is best explained by memorization and pattern matching, or whether it reflects human-like inferential semantics and world knowledge. Knowledge bases such as WikiData provide large-scale, high-quality representations of inferential semantics and world knowledge. We show that large language models learn to organize concepts in ways that are strikingly similar to how concepts are organized in such knowledge bases. Knowledge bases model collective, institutional knowledge, and large language models seem to induce such knowledge from raw text. We show that bigger and better models exhibit more human-like concept organization, across four families of language models and three knowledge graph embeddings.
翻訳日:2023-08-30 15:40:39 公開日:2023-08-29
# 準エルミート量子力学とユーザフレンドリー行列ハミルトンの新たなクラス

Quasi-Hermitian quantum mechanics and a new class of user-friendly matrix Hamiltonians ( http://arxiv.org/abs/2308.15043v1 )

ライセンス: Link先を確認
Olaf Lechtenfeld and Miloslav Znojil(参考訳) 従来のSchr\"{o}dinger の量子力学の定式化において、状態 $\psi$ のユニタリ進化は、自己共役でなければならないハミルトニアン $\mathfrak{h}$ によってヒルベルト空間 ${\cal L}$ において制御される。 近年、`quasi-hermitian''による理論の再構成では、$\mathfrak{h}$ を同スペクトルのアバター $h = \omega^{-1}\mathfrak{h}\omega$ から$\omega^\dagger\omega = \theta \neq i$ に置き換えている。 別の、明らかに非物理的ヒルベルト空間 ${\cal H}$ で作用するが、修正ハミルトニアン$H \neq H^\dagger$ は修正内積計量 $\Theta$ に関して自己共役と見なすことができる。 h$ の非hermiticityの一般的な技術的 ``user-unfriendliness'' に動機づけられた論文では、ハミルトニアンの特定の新しい族である $h$ を紹介し、記述します。

In the conventional Schr\"{o}dinger's formulation of quantum mechanics the unitary evolution of a state $\psi$ is controlled, in Hilbert space ${\cal L}$, by a Hamiltonian $\mathfrak{h}$ which must be self-adjoint. In the recent, ``quasi-Hermitian'' reformulation of the theory one replaces $\mathfrak{h}$ by its isospectral but non-Hermitian avatar $H = \Omega^{-1}\mathfrak{h}\Omega$ with $\Omega^\dagger\Omega = \Theta \neq I$. Although acting in another, manifestly unphysical Hilbert space ${\cal H}$, the amended Hamiltonian $H \neq H^\dagger$ can be perceived as self-adjoint with respect to the amended inner-product metric $\Theta$. In our paper motivated by a generic technical ``user-unfriendliness'' of the non-Hermiticity of $H$ we introduce and describe a specific new family of Hamiltonians $H$ for which the metrics $\Theta$ become available in closed form.
翻訳日:2023-08-30 15:40:23 公開日:2023-08-29
# バイアス付き二鎖結合bose-hubbardラダーの量子位相

Quantum phases of the biased two-chain-coupled Bose-Hubbard Ladder ( http://arxiv.org/abs/2308.15042v1 )

ライセンス: Link先を確認
Jingtao Fan, Xiaofan Zhou, and Suotang Jia(参考訳) 2鎖結合はしごにおけるボソンの量子位相について検討する。 このボソニック・ラダーは概して偏りのある構成であり、ラダーの2つの鎖は現場での相互作用と潜在的エネルギーが劇的に異なる可能性がある。 数値密度行列再正規化群法を用いて,種々のパラメータ空間における相転移を解析する。 鎖間トンネルの増大に伴い, 絶縁-超流体および超流体-超流体-絶縁量子相転移のシグネチャが得られた。 興味深いことに、ある中間値との相互作用を調整すれば、システムは絶縁相と超流動相の間の再帰的な量子相転移を示すことができる。 相互作用バイアスが無限の場合, 位相境界に関する予測が数値結果と大きく一致しているような解析的処理には, モデルが適用可能であることを示す。 最終的に,システムを異なる位相挙動のレジームに分離するいくつかの臨界パラメータを明らかにし,バイアスド・アンド・アンバイアスド・ボソニック・ラダーシステムの典型的特性を簡潔に比較した。 私たちの仕事はボース=ハッバード物理学を豊かにする。

We investigate the quantum phases of bosons in a two-chain-coupled ladder. This bosonic ladder is generally in a biased configuration, meaning that the two chains of the ladder can have dramatically different on-site interactions and potential energies. Adopting the numerical density-matrix renormalization-group method, we analyze the phase transitions in various parameter spaces. We find signatures of both insulating-to-superfluid and superfluid-to-insulating quantum phase transitions as the interchain tunnelling is increased. Interestingly, tunning the interaction to some intermediate values, the system can exhibit a reentrant quantum phase transition between insulating and superfluid phases. We show that for infinite interaction bias, the model is amenable to some analytical treatments, whose prediction about the phase boundary is in great agreement with the numerical results. We finally clarify some critical parameters which separate the system into regimes with distinct phase behaviours, and briefly compare typical properties of the biased and unbiased bosonic ladder systems. Our work enriches the Bose-Hubbard physics.
翻訳日:2023-08-30 15:39:51 公開日:2023-08-29
# r^3: 自律ロボットのためのリアルタイム深層強化学習

R^3: On-device Real-Time Deep Reinforcement Learning for Autonomous Robotics ( http://arxiv.org/abs/2308.15039v1 )

ライセンス: Link先を確認
Zexin Li, Aritra Samanta, Yufei Li, Andrea Soltoggio, Hyoseung Kim and Cong Liu(参考訳) 自律型ロボットシステム(自動運転車やロボット検索や救助など)は、動的環境におけるdrl(deep reinforcement learning)モデルの継続的適応のために、効率的なオンデバイストレーニングを必要とする。 この研究は、大規模な実証研究を通じて明らかになったように、メモリ制約下でのタイミングとアルゴリズム性能のバランスをとるオンデバイスリアルタイムDRLの課題を理解し、解決する必要があることによる。 この複雑なバランスは、DRLトレーニングの2つの重要なパラメータ、バッチサイズとバッファサイズの共最適化を必要とする。 これらのパラメータの設定はタイミングやアルゴリズムのパフォーマンスに大きく影響するが、(残念なことに)ほぼ最適の性能を達成するには相当なメモリ割り当てが必要となる。 本稿では,リアルタイムdrlトレーニングにおけるタイミング,メモリ,アルゴリズム性能を管理するための総合的なソリューションであるr^3を提案する。 R^3 採用 (i)時間最適化のための動的バッチサイズ付き期限駆動フィードバックループ。 (ii)メモリフットプリントを削減し、再生バッファサイズを大きくするための効率的なメモリ管理 (iii)ヒューリスティック解析により誘導されるランタイムコーディネータと、メモリリソース予約を動的に調整するランタイムプロファイラ。 これらのコンポーネントは、オンデバイスDRLトレーニングのトレードオフに協力的に取り組み、メモリ外エラー(OOM)のリスクを最小限に抑えながら、タイミングとアルゴリズムのパフォーマンスを改善する。 自律ロボットシステムで一般的に採用されている3つのハードウェアプラットフォーム上で,様々なDRLフレームワークとベンチマークを用いてR^3を広範囲に実装し,評価した。 さらに、R^3と一般的な現実的な自律走行車シミュレータを統合し、実世界の応用性を実証する。 評価の結果、R^3は様々なプラットフォームで有効であり、一貫したレイテンシ性能とタイミング予測性を最小限のオーバーヘッドで確保できることがわかった。

Autonomous robotic systems, like autonomous vehicles and robotic search and rescue, require efficient on-device training for continuous adaptation of Deep Reinforcement Learning (DRL) models in dynamic environments. This research is fundamentally motivated by the need to understand and address the challenges of on-device real-time DRL, which involves balancing timing and algorithm performance under memory constraints, as exposed through our extensive empirical studies. This intricate balance requires co-optimizing two pivotal parameters of DRL training -- batch size and replay buffer size. Configuring these parameters significantly affects timing and algorithm performance, while both (unfortunately) require substantial memory allocation to achieve near-optimal performance. This paper presents R^3, a holistic solution for managing timing, memory, and algorithm performance in on-device real-time DRL training. R^3 employs (i) a deadline-driven feedback loop with dynamic batch sizing for optimizing timing, (ii) efficient memory management to reduce memory footprint and allow larger replay buffer sizes, and (iii) a runtime coordinator guided by heuristic analysis and a runtime profiler for dynamically adjusting memory resource reservations. These components collaboratively tackle the trade-offs in on-device DRL training, improving timing and algorithm performance while minimizing the risk of out-of-memory (OOM) errors. We implemented and evaluated R^3 extensively across various DRL frameworks and benchmarks on three hardware platforms commonly adopted by autonomous robotic systems. Additionally, we integrate R^3 with a popular realistic autonomous car simulator to demonstrate its real-world applicability. Evaluation results show that R^3 achieves efficacy across diverse platforms, ensuring consistent latency performance and timing predictability with minimal overhead.
翻訳日:2023-08-30 15:39:33 公開日:2023-08-29
# i か l: テキストライン認識モデルのテスト時間適応か

Is it an i or an l: Test-time Adaptation of Text Line Recognition Models ( http://arxiv.org/abs/2308.15037v1 )

ライセンス: Link先を確認
Debapriya Tula, Sujoy Paul, Gagan Madan, Peter Garst, Reeve Ingle, Gaurav Aggarwal(参考訳) 画像からテキスト行を認識することは難しい問題であり、特に筆跡のバリエーションが大きい手書き文書では問題となる。 テキスト行認識モデルは通常、実データや合成データで訓練されるが、手書き文字が精査できない場合や画像取得プロセスがノイズやぼやけ、圧縮などの汚職をもたらす場合、そのようなモデルは頻繁に誤りを犯すことがある。 書式は一般に個人にとって非常に一貫性があり、そのようなモデルが犯した誤りを正すために利用することができる。 そこで本研究では,テスト中にテキスト列認識モデルを適用する問題を提案する。 我々は、複数のテキスト行からなる単一のテスト画像のみを与えられた場合、ラベル無しで、画像上でより良く機能するようにモデルを適用するという、挑戦的で現実的な設定に焦点をあてる。 本稿では,言語モデルからのフィードバックを用いて,各イテレーションに自信のある自己ラベルを付けて光モデルを更新する反復的自己学習手法を提案する。 信頼度尺度は、局所的な領域におけるモデルの予測のばらつきを評価する拡張メカニズムに基づいている。 提案手法の厳密な評価を,いくつかのベンチマークデータセットと,その破損したバージョンで行う。 複数のスクリプトにまたがる複数のデータセットの実験結果から,提案手法はテスト時に数回の自己学習を行うだけで,文字誤り率を最大8%向上させることができた。

Recognizing text lines from images is a challenging problem, especially for handwritten documents due to large variations in writing styles. While text line recognition models are generally trained on large corpora of real and synthetic data, such models can still make frequent mistakes if the handwriting is inscrutable or the image acquisition process adds corruptions, such as noise, blur, compression, etc. Writing style is generally quite consistent for an individual, which can be leveraged to correct mistakes made by such models. Motivated by this, we introduce the problem of adapting text line recognition models during test time. We focus on a challenging and realistic setting where, given only a single test image consisting of multiple text lines, the task is to adapt the model such that it performs better on the image, without any labels. We propose an iterative self-training approach that uses feedback from the language model to update the optical model, with confident self-labels in each iteration. The confidence measure is based on an augmentation mechanism that evaluates the divergence of the prediction of the model in a local region. We perform rigorous evaluation of our method on several benchmark datasets as well as their corrupted versions. Experimental results on multiple datasets spanning multiple scripts show that the proposed adaptation method offers an absolute improvement of up to 8% in character error rate with just a few iterations of self-training at test time.
翻訳日:2023-08-30 15:39:02 公開日:2023-08-29
# 動的エキスパートスワッピングによる資源制約エッジデバイス上でのMoEモデルの実現

Serving MoE Models on Resource-constrained Edge Devices via Dynamic Expert Swapping ( http://arxiv.org/abs/2308.15030v1 )

ライセンス: Link先を確認
Rui Kong, Yuanchun Li, Qingtian Feng, Weijun Wang, Linghe Kong, Yunxin Liu(参考訳) エキスパートの混合(mixed of experts, moe)は、条件付きアクティベートされた並列ニューラルネットワークモジュール(experts)によってモデル能力を向上させるディープラーニングの一般的なテクニックである。 しかし、リソース制約のあるレイテンシクリティカルエッジシナリオでMoEモデルを提供するのは、モデルのサイズと複雑さが大幅に増加するため、難しい。 本稿では,moeモデルの振る舞いパターンを連続的な推論シナリオで解析することで,時間的局所性,交換性,スキップ可能な計算など,専門家のアクティベーションに関する3つの重要な観察結果を得る。 そこで本研究では,リソース制約付き連続moeモデルの推論フレームワークpc-moeを提案する。 PC-MoEの中核は、リソース消費を減らすために使われる重要な専門家のサブセットをインテリジェントに維持する新しいデータ構造であるパラメータ委員会である。 パラメーター委員会の最適設定はプロファイリング誘導委員会プランナーによってオフラインで行われ、実行時に専門家のスワップとリクエストハンドリングは適応委員会スケジューラによって管理される。 pc-moeの有効性を評価するために,共通コンピュータビジョンと自然言語処理タスクにおける最先端moeモデルを用いた実験を行った。 その結果,PC-MoEによる資源消費とモデル精度の最適トレードオフが示された。 例えば、Swin-MoEモデルによるオブジェクト検出タスクでは、我々のアプローチは、0.10%の精度でメモリ使用量とレイテンシを42.34%と18.63%削減できる。

Mixture of experts (MoE) is a popular technique in deep learning that improves model capacity with conditionally-activated parallel neural network modules (experts). However, serving MoE models in resource-constrained latency-critical edge scenarios is challenging due to the significantly increased model size and complexity. In this paper, we first analyze the behavior pattern of MoE models in continuous inference scenarios, which leads to three key observations about the expert activations, including temporal locality, exchangeability, and skippable computation. Based on these observations, we introduce PC-MoE, an inference framework for resource-constrained continuous MoE model serving. The core of PC-MoE is a new data structure, Parameter Committee, that intelligently maintains a subset of important experts in use to reduce resource consumption. The optimal configuration of Parameter Committee is found offline by a profiling-guided committee planner, and expert swapping and request handling at runtime are managed by an adaptive committee scheduler. To evaluate the effectiveness of PC-MoE, we conduct experiments using state-of-the-art MoE models on common computer vision and natural language processing tasks. The results demonstrate optimal trade-offs between resource consumption and model accuracy achieved by PC-MoE. For instance, on object detection tasks with the Swin-MoE model, our approach can reduce memory usage and latency by 42.34% and 18.63% with only 0.10% accuracy degradation.
翻訳日:2023-08-30 15:38:38 公開日:2023-08-29
# 時間多重リピータを用いたネットワーク上の絡み合いルーティング

Entanglement Routing over Networks with Time Multiplexed Repeaters ( http://arxiv.org/abs/2308.15028v1 )

ライセンス: Link先を確認
Emily A Van Milligen, Eliana Jacobson, Ashlesha Patil, Gayane Vardoyan, Don Towsley, and Saikat Guha(参考訳) 量子ネットワークは、リピータノードを使用して、隣人と外部ベルペアを生成でき、確率$p$のiidと、ある程度の確率$q$で成功する内部ベル状態測定(BSM)を実行することで、消費者に長距離の絡み合わせることができる。 これらの確率の実際の値は、問題のネットワークの実験的パラメータに依存する。 グローバルリンク状態の知識は、2つのコンシューマ間の絡み合いの発生率を最大化するために必要だが、ネットワークの動的な性質のため、これは理にかなわない要求である。 この研究は、異なる時間ステップでBSMを実行することができる時間多重リピータで動作する、ローカルリンク状態の知識、マルチパスルーティングプロトコルを評価する。 本研究は、初期遅延も増大するが、時間多重化ブロック長($k$)で平均レートが増加することを示した。 ステップ関数メモリデコヒーレンスモデルを導入し、平均$\mu$で指数関数的に分配された時間において量子メモリに量子ビットを保持すると、最適な$k$$$k_\text{opt}$)値が現れる。 p$が減少するか$\mu$が増加すると、$k_\text{opt}$は増加する。 この値は、時間多重化の利点が、以前に確立された絡み合ったペアを失うリスクの増加とバランスをとれるためである。

Quantum networks will be able to service consumers with long distance entanglement by use of repeater nodes that can both generate external Bell pairs with their neighbors, iid with probability $p$, as well as perform internal Bell State Measurements (BSMs) which succeed with some probability $q$. The actual values of these probabilities is dependent upon the experimental parameters of the network in question. While global link state knowledge is needed to maximize the rate of entanglement generation between any two consumers, this may be an unreasonable request due to the dynamic nature of the network. This work evaluates a local link state knowledge, multi-path routing protocol that works with time multiplexed repeaters that are able to perform BSMs across different time steps. This study shows that the average rate increases with the time multiplexing block length, $k$, although the initial latency also increases. When a step function memory decoherence model is introduced so that qubits are held in the quantum memory for a time exponentially distributed with mean $\mu$, an optimal $k$ ($k_\text{opt}$) value appears. As $p$ decreases or $\mu$ increases the value of $k_\text{opt}$ increases. This value is such that the benefits from time multiplexing are balanced with the increased risk of losing a previously established entangled pair.
翻訳日:2023-08-30 15:38:12 公開日:2023-08-29
# 対向ロジット更新による対向ロジット性の向上

Advancing Adversarial Robustness Through Adversarial Logit Update ( http://arxiv.org/abs/2308.15072v1 )

ライセンス: Link先を確認
Hao Xuan, Peican Zhu, Xingyu Li(参考訳) ディープニューラルネットワークは敵の摂動に影響を受けやすい。 敵の訓練と敵の浄化は最も広く知られている防衛戦略の一つである。 これらの手法は異なる論理を持つが、どちらもラベル予測を生成するために絶対ロジット値に依存している。 本研究は, 敵意攻撃が成功した場合のロジット差を理論的に解析し, 敵対的ロジット更新(alu, adversarial logit update)という新しい原理を提案し, 敵意的サンプルのラベルを推定する。 ALUに基づく新しい分類パラダイムを導入し、モデルの対向ロバスト性向上に事前および後ロジット差を利用した。 モデル学習に逆データや追加データを必要とせずに、我々のクリーンなデータ合成モデルは、逆サンプル検出とALUに基づくデータ分類の両方のために、訓練済みの様々なモデルに容易に適用できる。 CIFAR-10, CIFAR-100, および小画像Netデータセットの広範な実験により, 提案手法は単純なコンポーネントであっても, 幅広い敵攻撃に対する最先端の手法と比較して, 優れた堅牢性を実現することが示された。 当社のpython実装は補足ドキュメントとして提出され、論文の受理時に公開されます。

Deep Neural Networks are susceptible to adversarial perturbations. Adversarial training and adversarial purification are among the most widely recognized defense strategies. Although these methods have different underlying logic, both rely on absolute logit values to generate label predictions. In this study, we theoretically analyze the logit difference around successful adversarial attacks from a theoretical point of view and propose a new principle, namely Adversarial Logit Update (ALU), to infer adversarial sample's labels. Based on ALU, we introduce a new classification paradigm that utilizes pre- and post-purification logit differences for model's adversarial robustness boost. Without requiring adversarial or additional data for model training, our clean data synthesis model can be easily applied to various pre-trained models for both adversarial sample detection and ALU-based data classification. Extensive experiments on both CIFAR-10, CIFAR-100, and tiny-ImageNet datasets show that even with simple components, the proposed solution achieves superior robustness performance compared to state-of-the-art methods against a wide range of adversarial attacks. Our python implementation is submitted in our Supplementary document and will be published upon the paper's acceptance.
翻訳日:2023-08-30 15:30:00 公開日:2023-08-29
# DiffBIR: 生成拡散に先立ってブラインド画像復元を目指す

DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior ( http://arxiv.org/abs/2308.15070v1 )

ライセンス: Link先を確認
Xinqi Lin, Jingwen He, Ziyan Chen, Zhaoyang Lyu, Ben Fei, Bo Dai, Wanli Ouyang, Yu Qiao, Chao Dong(参考訳) 本稿では,事前訓練したテキスト・画像拡散モデルを利用したブラインド画像復元問題に対するDiffBIRを提案する。 私たちのフレームワークは2段階のパイプラインを採用しています。 第1段階では,多様な劣化にまたがって復元モジュールを事前訓練し,実世界のシナリオにおける一般化能力を改善する。 第2段階は潜在拡散モデルの生成能力を利用して現実的な画像復元を実現する。 具体的には、インジェクティブ変調サブネットワークであるLAControlNetを導入し、事前学習した安定拡散はその生成能力を維持する。 最後に,推論中に遅延画像ガイダンスを導入することで,品質と忠実度をバランスさせるコントロール可能なモジュールを提案する。 大規模な実験は、合成データセットと実世界のデータセット上での視覚的画像の超解像と視覚的顔復元タスクに対する最先端のアプローチよりも優れていることを示した。 コードはhttps://github.com/XPixelGroup/DiffBIRで入手できる。

We present DiffBIR, which leverages pretrained text-to-image diffusion models for blind image restoration problem. Our framework adopts a two-stage pipeline. In the first stage, we pretrain a restoration module across diversified degradations to improve generalization capability in real-world scenarios. The second stage leverages the generative ability of latent diffusion models, to achieve realistic image restoration. Specifically, we introduce an injective modulation sub-network -- LAControlNet for finetuning, while the pre-trained Stable Diffusion is to maintain its generative ability. Finally, we introduce a controllable module that allows users to balance quality and fidelity by introducing the latent image guidance in the denoising process during inference. Extensive experiments have demonstrated its superiority over state-of-the-art approaches for both blind image super-resolution and blind face restoration tasks on synthetic and real-world datasets. The code is available at https://github.com/XPixelGroup/DiffBIR.
翻訳日:2023-08-30 15:29:39 公開日:2023-08-29
# MadSGM:スコアベース生成モデルによる多変量異常検出

MadSGM: Multivariate Anomaly Detection with Score-based Generative Models ( http://arxiv.org/abs/2308.15069v1 )

ライセンス: Link先を確認
Haksoo Lim, Sewon Park, Minjung Kim, Jaehoon Lee, Seonkyu Lim, Noseong Park(参考訳) 時系列異常検出は、時系列の最も基本的なタスクの1つである。 時系列予測や分類とは異なり、異常観測の収集とラベル付けが難しいため、時系列異常検出は通常、教師なし(または自己監督)の訓練を必要とする。 また,既存の手法の多くは,異常測定の限られた形態に頼っているため,あらゆる状況において最適かどうかは不明である。 この目的のために,MadSGMと呼ばれるスコアベース生成モデルに基づく多変量時系列異常検出器を提案する。 一 再建に基づくもの 二 密度に基づく、及び 三 勾配に基づく異常の測定 また,時系列異常検出のための条件付きスコアネットワークとその復調スコアマッチング損失を設計する。 5つの実世界のベンチマークデータセットの実験は、MadSGMが最も堅牢で正確な予測を達成していることを示している。

The time-series anomaly detection is one of the most fundamental tasks for time-series. Unlike the time-series forecasting and classification, the time-series anomaly detection typically requires unsupervised (or self-supervised) training since collecting and labeling anomalous observations are difficult. In addition, most existing methods resort to limited forms of anomaly measurements and therefore, it is not clear whether they are optimal in all circumstances. To this end, we present a multivariate time-series anomaly detector based on score-based generative models, called MadSGM, which considers the broadest ever set of anomaly measurement factors: i) reconstruction-based, ii) density-based, and iii) gradient-based anomaly measurements. We also design a conditional score network and its denoising score matching loss for the time-series anomaly detection. Experiments on five real-world benchmark datasets illustrate that MadSGM achieves the most robust and accurate predictions.
翻訳日:2023-08-30 15:29:23 公開日:2023-08-29
# 異常検出のための総合的拡張フレームワーク

A Comprehensive Augmentation Framework for Anomaly Detection ( http://arxiv.org/abs/2308.15068v1 )

ライセンス: Link先を確認
Jiang Lin, Yaping Yan(参考訳) データ拡張法は一般に異常検出モデルのトレーニングに統合される。 Previous approaches have primarily focused on replicating real-world anomalies or enhancing diversity, without considering that the standard of anomaly varies across different classes, potentially leading to a biased training distribution.This paper analyzes crucial traits of simulated anomalies that contribute to the training of reconstructive networks and condenses them into several methods, thus creating a comprehensive framework by selectively utilizing appropriate combinations.Furthermore, we integrate this framework with a reconstruction-based approach and concurrently propose a split training strategy that alleviates the issue of overfitting while avoiding introducing interference to the reconstruction process. mvtec anomaly detection dataset で行った評価により,本手法は従来の最先端のアプローチ,特にオブジェクトクラスを上回っており,一般化可能性を評価するために,本手法は特定の種類の異常のみを含むため,特徴の異なる異常を含むシミュレーションデータセットを生成する。 実験の結果,実世界のシナリオで発生する様々な予期せぬ異常に対して効果的に一般化できる可能性が示された。

Data augmentation methods are commonly integrated into the training of anomaly detection models. Previous approaches have primarily focused on replicating real-world anomalies or enhancing diversity, without considering that the standard of anomaly varies across different classes, potentially leading to a biased training distribution.This paper analyzes crucial traits of simulated anomalies that contribute to the training of reconstructive networks and condenses them into several methods, thus creating a comprehensive framework by selectively utilizing appropriate combinations.Furthermore, we integrate this framework with a reconstruction-based approach and concurrently propose a split training strategy that alleviates the issue of overfitting while avoiding introducing interference to the reconstruction process. The evaluations conducted on the MVTec anomaly detection dataset demonstrate that our method outperforms the previous state-of-the-art approach, particularly in terms of object classes.To evaluate generalizability, we generate a simulated dataset comprising anomalies with diverse characteristics since the original test samples only include specific types of anomalies and may lead to biased evaluations. Experimental results demonstrate that our approach exhibits promising potential for generalizing effectively to various unforeseen anomalies encountered in real-world scenarios.
翻訳日:2023-08-30 15:29:08 公開日:2023-08-29
# 断熱量子計算による近似真空からの真空期待値の抽出

Extracting vacuum expectation values from approximate vacuum prepared by the adiabatic quantum computation ( http://arxiv.org/abs/2308.15066v1 )

ライセンス: Link先を確認
Kazuto Oshima(参考訳) 断熱量子計算により得られた近似真空から真空期待値を抽出する手法を提案する。 階層構造を持つ複数のアンシラビットを用いて,近似精度を徐々に向上させる。 古典的にエミュレートされたデジタル量子シミュレータを用いた(1+1)次元シュウィンガーモデルに基づく典型的な1量子ビット系と2量子ビット系のシミュレーション結果を示す。

We propose a procedure to extract vacuum expectation values from approximate vacuum prepared by the adiabatic quantum computation. We use plural ancilla bits with hierarchical structure, intending to gradually put up approximate precision. We exhibit simulation results for a typical one-qubit system and a two-qubits system based on the (1+1)-dimensional Schwinger model using classically emulated digital quantum simulator.
翻訳日:2023-08-30 15:28:51 公開日:2023-08-29
# 異種人物再同定のための相互モダリティ情報ボトルネック表現の学習

Learning Cross-modality Information Bottleneck Representation for Heterogeneous Person Re-Identification ( http://arxiv.org/abs/2308.15063v1 )

ライセンス: Link先を確認
Haichao Shi, Mandi Luo, Xiao-Yu Zhang, Ran He(参考訳) Visible-Infrared person re-identification (VI-ReID)は、インテリジェントビデオ監視において重要な課題である。 既存の手法は主に共有特徴空間の学習に重点を置いており、可視光と赤外光の相違を減らし、情報冗長性と相補性という2つの問題をまだ未解決のまま残している。 この目的のために、アイデンティティ非関連情報を適切に排除し、モダリティ特化情報を補うことが重要であり、依然として困難な取り組みである。 上記の課題に対処するため,CMInfoNetという新たな相互情報・モーダリティコンセンサスネットワークを提案し,最も代表的な情報を用いてモーダリティ不変のアイデンティティ特徴を抽出し,冗長性を低減した。 本手法の重要な洞察は,相互情報のボトルネックトレードオフを最適化することにより,よりアイデンティティ関連情報を捕捉し,無関係な部分を圧縮する最適な表現を見つけることである。 さらに,歩行者を識別する最も顕著な部分を見つけるための自動探索戦略を提案する。 クロスモダリティとイントラモダリティのバリエーションを排除するために、タスク固有のガイダンスのための可視性と赤外線モダリティを調整するモダリティコンセンサスモジュールを考案する。 さらに、キー部分の識別のために、グローバルローカルな特徴表現も取得できる。 SYSU-MM01、RegDB、Occluded-DukeMTMC、Occluded-REID、Partial-REID、Partial\_iLIDSの4つのベンチマーク実験の結果、CMInfoNetの有効性が示された。

Visible-Infrared person re-identification (VI-ReID) is an important and challenging task in intelligent video surveillance. Existing methods mainly focus on learning a shared feature space to reduce the modality discrepancy between visible and infrared modalities, which still leave two problems underexplored: information redundancy and modality complementarity. To this end, properly eliminating the identity-irrelevant information as well as making up for the modality-specific information are critical and remains a challenging endeavor. To tackle the above problems, we present a novel mutual information and modality consensus network, namely CMInfoNet, to extract modality-invariant identity features with the most representative information and reduce the redundancies. The key insight of our method is to find an optimal representation to capture more identity-relevant information and compress the irrelevant parts by optimizing a mutual information bottleneck trade-off. Besides, we propose an automatically search strategy to find the most prominent parts that identify the pedestrians. To eliminate the cross- and intra-modality variations, we also devise a modality consensus module to align the visible and infrared modalities for task-specific guidance. Moreover, the global-local feature representations can also be acquired for key parts discrimination. Experimental results on four benchmarks, i.e., SYSU-MM01, RegDB, Occluded-DukeMTMC, Occluded-REID, Partial-REID and Partial\_iLIDS dataset, have demonstrated the effectiveness of CMInfoNet.
翻訳日:2023-08-30 15:28:43 公開日:2023-08-29
# 畳み込みニューラルネットワークを用いたAIoT型ドラム転写ロボット

AIoT-Based Drum Transcription Robot using Convolutional Neural Networks ( http://arxiv.org/abs/2308.15061v1 )

ライセンス: Link先を確認
Yukun Su, Yi Yang(参考訳) 情報技術の発展により、ロボット技術は様々な分野で大きな進歩を遂げている。 これらの新技術は、産業、農業、教育などの分野でロボットを利用できる。 本稿では,aiotとフォグ・コンピューティング技術を用いて,音楽の書き起こしをリアルタイムで自動的に完了させるドラムロボットを提案する。 具体的には、データストレージ用のクラウドノード、リアルタイムコンピューティングのためのエッジノード、データ指向実行アプリケーションノードからなるドラムロボットシステムである。 ドラム演奏の分析とドラムの書き起こしを実現するため,高速エッジ計算のために端末装置により効果的に展開可能なドラムを分類する軽量畳み込みニューラルネットワークモデルを提案する。 実験の結果,提案システムはより競争力のある性能を実現でき,多様なスマートアプリケーションやサービスを享受できることがわかった。

With the development of information technology, robot technology has made great progress in various fields. These new technologies enable robots to be used in industry, agriculture, education and other aspects. In this paper, we propose a drum robot that can automatically complete music transcription in real-time, which is based on AIoT and fog computing technology. Specifically, this drum robot system consists of a cloud node for data storage, edge nodes for real-time computing, and data-oriented execution application nodes. In order to analyze drumming music and realize drum transcription, we further propose a light-weight convolutional neural network model to classify drums, which can be more effectively deployed in terminal devices for fast edge calculations. The experimental results show that the proposed system can achieve more competitive performance and enjoy a variety of smart applications and services.
翻訳日:2023-08-30 15:28:15 公開日:2023-08-29
# OEBench: 実世界のリレーショナルデータストリームにおけるオープン環境問題の調査

OEBench: Investigating Open Environment Challenges in Real-World Relational Data Streams ( http://arxiv.org/abs/2308.15059v1 )

ライセンス: Link先を確認
Yiqun Diao, Yutong Yang, Qinbin Li, Bingsheng He, Mian Lu(参考訳) リレーショナルデータセットは現実世界のシナリオで広く利用されており、通常はストリーミング形式で配信される。 このタイプのデータストリームは、分散ドリフト、異常値、新興クラス、機能変更など、マシンラーニングのオープン環境の課題として最近紹介されたユニークな課題を示すことができる。 データストリームのインクリメンタルな学習に関する作業もいくつか行われているが,その評価は主に,手作業による分割データセットで行われている。 さらに、いくつかの実世界のストリーミングデータセットが利用可能であるが、これらのオープン環境の課題が広まっているか、既存のインクリメンタル学習アルゴリズムが実際のデータセットでどのように機能するかは定かではない。 このギャップを埋めるために,リレーショナルデータストリームにおけるオープン環境の課題を評価するために,oebenchというオープン環境ベンチマークを開発した。 具体的には、55の実世界のストリーミングデータセットを調査し、オープン環境シナリオが実際に現実のデータセットに広く浸透していることを確認する。 ベンチマークにより,機械学習モデルが実世界のデータストリーム内の分散シフトや異常,あるいは信頼できないデータによって著しく損なわれる場合,オープン環境のシナリオに適用された場合,データ量の増加はモデル精度を一貫して向上しないことがわかった。 現在の技術は、オープン環境がもたらすこれらの課題を効果的に緩和するには不十分である。 したがって、オープン環境シナリオの現実的な新しい課題に取り組むために、さらなる研究を行うことを約束している。

Relational datasets are widespread in real-world scenarios and are usually delivered in a streaming fashion. This type of data stream can present unique challenges, such as distribution drifts, outliers, emerging classes, and changing features, which have recently been described as open environment challenges for machine learning. While some work has been done on incremental learning for data streams, their evaluations are mostly conducted with manually partitioned datasets. Moreover, while several real-world streaming datasets are available, it is uncertain whether these open environment challenges are prevalent and how existing incremental learning algorithms perform on real datasets. To fill this gap, we develop an Open Environment Benchmark named OEBench to evaluate open environment challenges in relational data streams. Specifically, we investigate 55 real-world streaming datasets and establish that open environment scenarios are indeed widespread in real-world datasets, which presents significant challenges for stream learning algorithms. Through benchmarks, we find that increased data quantity may not consistently enhance the model accuracy when applied in open environment scenarios, where machine learning models can be significantly compromised by distribution shifts, anomalies, or untrustworthy data within real-world data streams. The current techniques are insufficient in effectively mitigating these challenges posed by open environments. Thus, it is promising to conduct more researches to address real-world new challenges of open environment scenarios.
翻訳日:2023-08-30 15:28:00 公開日:2023-08-29
# 拡張現実グラスインタラクションのための消費者層ベース視覚ブレインマシンインタフェース

A Consumer-tier based Visual-Brain Machine Interface for Augmented Reality Glasses Interactions ( http://arxiv.org/abs/2308.15056v1 )

ライセンス: Link先を確認
Yuying Jiang, Fan Bai, Zicheng Zhang, Xiaochen Ye, Zheng Liu, Zhiping Shi, Jianwei Yao, Xiaojun Liu, Fangkun Zhu, Junling Li Qian Guo, Xiaoan Wang, Junwen Luo(参考訳) Objective.Visual-Brain Machine Interface (V-BMI)は拡張現実(AR)産業のための新しいインタラクション技術を提供する。 いくつかの最先端の研究は、その高精度でリアルタイムな相互作用能力を実証している。 しかし、ほとんどの研究は、実生活のARメガネ応用において厳格で適用が難しい脳波デバイスを採用している。 本稿では,拡張現実(AR)メガネインタラクションに特化したコンシューマ層型ビジュアルブレイン・マシン・インテフェイス(V-BMI)システムを提案する。 アプローチ。 開発システムは、ARメガネアプリケーション用に特定された、高速なセットアップ、信頼性の高い記録、快適なウェアラブル体験の恩恵を受けるウェアラブルハードウェアで構成されている。 このハードウェアを補完して,モジュール構成をモジュール化してスケーラビリティを向上させるとともに,システム内のリアルタイムインタラクションを容易にするソフトウェアフレームワークを考案した。 主な結果。 開発したハードウェアは110g,120x85x23mmのみであり,ピーク電圧のピーク電圧は1.5uV未満であり,V-BMIベースの怒り鳥ゲームとIoT(Internet of Thing) ARアプリケーションを分解し,直感的な経験と効率の相互作用を実証した。 リアルタイムの相互作用精度は商用ARメガネの85~96パーセンテージ(DTIは2.24秒、ITR65ビット分)である。 重要なこと。 本研究は,コンシューマベースのV-BMIARメガネにハードウェア・ソフトウェア・フレームワークを提供することを示唆する。 また、コンシューマグレードのV-BMIベースのARシステムにおいて、いくつかの重要な設計要素を導出する。 1)ARメガネ応用にはコンピュータビジョンアルゴリズムによる刺激パターン分類法の動的適応が必要であり, 2) システムの安定性と遅延低減を促進するアルゴリズム的ローカライゼーション。

Objective.Visual-Brain Machine Interface(V-BMI) has provide a novel interaction technique for Augmented Reality (AR) industries. Several state-of-arts work has demonstates its high accuracy and real-time interaction capbilities. However, most of the studies employ EEGs devices that are rigid and difficult to apply in real-life AR glasseses application sceniraros. Here we develop a consumer-tier Visual-Brain Machine Inteface(V-BMI) system specialized for Augmented Reality(AR) glasses interactions. Approach. The developed system consists of a wearable hardware which takes advantages of fast set-up, reliable recording and comfortable wearable experience that specificized for AR glasses applications. Complementing this hardware, we have devised a software framework that facilitates real-time interactions within the system while accommodating a modular configuration to enhance scalability. Main results. The developed hardware is only 110g and 120x85x23 mm, which with 1 Tohm and peak to peak voltage is less than 1.5 uV, and a V-BMI based angry bird game and an Internet of Thing (IoT) AR applications are deisgned, we demonstrated such technology merits of intuitive experience and efficiency interaction. The real-time interaction accuracy is between 85 and 96 percentages in a commercial AR glasses (DTI is 2.24s and ITR 65 bits-min ). Significance. Our study indicates the developed system can provide an essential hardware-software framework for consumer based V-BMI AR glasses. Also, we derive several pivotal design factors for a consumer-grade V-BMI-based AR system: 1) Dynamic adaptation of stimulation patterns-classification methods via computer vision algorithms is necessary for AR glasses applications; and 2) Algorithmic localization to foster system stability and latency reduction.
翻訳日:2023-08-30 15:27:35 公開日:2023-08-29
# 低リソース言語の形態的用語集に対する分類学的損失

Taxonomic Loss for Morphological Glossing of Low-Resource Languages ( http://arxiv.org/abs/2308.15055v1 )

ライセンス: Link先を確認
Michael Ginn and Alexis Palmer(参考訳) Morpheme glossingは自動言語ドキュメンテーションにおいて重要なタスクであり、他の下流アプリケーションに大きな恩恵をもたらすことができる。 最先端の光沢システムは、既存の大量のデータを持つ言語で非常によく機能するが、低リソース言語のための有用なモデルを作成することはより困難である。 本稿では,形態情報を利用した分類損失関数を用いて,データ不足時の形態的光沢化を向上する手法を提案する。 この損失関数の使用は単一ラベルの予測精度において標準損失関数より優れているわけではないが、トップnの予測ラベルを考えるとより良い予測が得られる。 この特性は, ループ内アノテーション設定において, 分類学的損失関数が有効であることを示唆する。

Morpheme glossing is a critical task in automated language documentation and can benefit other downstream applications greatly. While state-of-the-art glossing systems perform very well for languages with large amounts of existing data, it is more difficult to create useful models for low-resource languages. In this paper, we propose the use of a taxonomic loss function that exploits morphological information to make morphological glossing more performant when data is scarce. We find that while the use of this loss function does not outperform a standard loss function with regards to single-label prediction accuracy, it produces better predictions when considering the top-n predicted labels. We suggest this property makes the taxonomic loss function useful in a human-in-the-loop annotation setting.
翻訳日:2023-08-30 15:27:08 公開日:2023-08-29
# 自己説明可能なGNNはどの程度忠実か?

How Faithful are Self-Explainable GNNs? ( http://arxiv.org/abs/2308.15096v1 )

ライセンス: Link先を確認
Marc Christiansen, Lea Villadsen, Zhiqiang Zhong, Stefano Teso, Davide Mottin(参考訳) 自己説明可能なディープニューラルネットワークは、モデルの推論に忠実なアントホックな局所的説明を出力できる最近のモデルのクラスであり、表現力と解釈可能性の間のギャップを埋めるための一歩である。 自己説明型グラフニューラルネットワーク(gnns)は、グラフデータのコンテキストでこれを達成することを目指している。 これらのモデルは、忠実性の観点から暗黙の保証を満たしているか? この拡張要約では、異なる忠実性の尺度を用いて、複数の自己説明可能なgnnの忠実性を分析し、モデル自体と評価メトリクスの両方においていくつかの制限を特定し、今後の方向性を概説する。

Self-explainable deep neural networks are a recent class of models that can output ante-hoc local explanations that are faithful to the model's reasoning, and as such represent a step forward toward filling the gap between expressiveness and interpretability. Self-explainable graph neural networks (GNNs) aim at achieving the same in the context of graph data. This begs the question: do these models fulfill their implicit guarantees in terms of faithfulness? In this extended abstract, we analyze the faithfulness of several self-explainable GNNs using different measures of faithfulness, identify several limitations -- both in the models themselves and in the evaluation metrics -- and outline possible ways forward.
翻訳日:2023-08-30 15:20:53 公開日:2023-08-29
# 作物・雑草分類の量的回帰校正による群条件適合予測

Group-Conditional Conformal Prediction via Quantile Regression Calibration for Crop and Weed Classification ( http://arxiv.org/abs/2308.15094v1 )

ライセンス: Link先を確認
Paul Melki (IMS), Lionel Bombrun (IMS), Boubacar Diallo, J\'er\^ome Dias, Jean-Pierre da Costa (IMS)(参考訳) ディープラーニングの予測モデルが多くの精密農業システムの不可欠な部分になるにつれて、このような自動化ソリューションの採用の障壁は、これらの高度に複雑で不透明で不確定なモデルに対するユーザの信頼の欠如である。 実際、ディープニューラルネットワークは、特に農業のためのコンピュータビジョンで直面するような、高度に制御されていない環境において、システムの性能を認証するために使用できる明示的な保証を備えていない。 本稿では, 実環境下での雑草や作物の深い視覚的分類の問題に対して, ほぼ仮定なく, ブラックボックス予測マシンの予測性能について, 有効な統計的保証を提供するコンフォメーション予測フレームワークを提案する。 このフレームワークは、その実践的な側面と、モデルカバレッジに限界保証を提供するAdaptive Prediction Sets (APS) アプローチに沿った特別な注意を払って公開されている。 Marginal results are then shown to be insufficient to guarantee performance on all groups of individuals in the population as characterized by their environmental and pedo-climatic auxiliary data gathered during image acquisition.To tackle this shortcoming, group-conditional conformal approaches are presented: the ''classical'' method that consists of iteratively applying the APS procedure on all groups, and a proposed elegant reformulation and implementation of the procedure using quantile regression on group membership indicators. 提案手法の有効性を示す実験結果を示し, 得られた限界APSと比較した。

As deep learning predictive models become an integral part of a large spectrum of precision agricultural systems, a barrier to the adoption of such automated solutions is the lack of user trust in these highly complex, opaque and uncertain models. Indeed, deep neural networks are not equipped with any explicit guarantees that can be used to certify the system's performance, especially in highly varying uncontrolled environments such as the ones typically faced in computer vision for agriculture.Fortunately, certain methods developed in other communities can prove to be important for agricultural applications. This article presents the conformal prediction framework that provides valid statistical guarantees on the predictive performance of any black box prediction machine, with almost no assumptions, applied to the problem of deep visual classification of weeds and crops in real-world conditions. The framework is exposed with a focus on its practical aspects and special attention accorded to the Adaptive Prediction Sets (APS) approach that delivers marginal guarantees on the model's coverage. Marginal results are then shown to be insufficient to guarantee performance on all groups of individuals in the population as characterized by their environmental and pedo-climatic auxiliary data gathered during image acquisition.To tackle this shortcoming, group-conditional conformal approaches are presented: the ''classical'' method that consists of iteratively applying the APS procedure on all groups, and a proposed elegant reformulation and implementation of the procedure using quantile regression on group membership indicators. Empirical results showing the validity of the proposed approach are presented and compared to the marginal APS then discussed.
翻訳日:2023-08-30 15:20:40 公開日:2023-08-29
# AIに頼めるか?

Can We Rely on AI? ( http://arxiv.org/abs/2308.15092v1 )

ライセンス: Link先を確認
Desmond J. Higham(参考訳) 過去10年間、敵対的攻撃アルゴリズムはディープラーニングツールの不安定性を明らかにしてきた。 これらのアルゴリズムは、特に高いリスク設定において、人工知能の安全性、信頼性、解釈可能性に関する問題を引き起こす。 現実的な見地からすると、攻撃戦略と防衛戦略の間にはエスカレーションの戦争があった。 より理論的なレベルでは、研究者は攻撃の存在と計算可能性に関するより大きな画像問題も研究している。 ここでは,応用数学および計算数学の研究者が興味を持つであろう側面に注目し,そのトピックの概要を紹介する。

Over the last decade, adversarial attack algorithms have revealed instabilities in deep learning tools. These algorithms raise issues regarding safety, reliability and interpretability in artificial intelligence; especially in high risk settings. From a practical perspective, there has been a war of escalation between those developing attack and defence strategies. At a more theoretical level, researchers have also studied bigger picture questions concerning the existence and computability of attacks. Here we give a brief overview of the topic, focusing on aspects that are likely to be of interest to researchers in applied and computational mathematics.
翻訳日:2023-08-30 15:20:15 公開日:2023-08-29
# 2羽の鳥を1石で殺す:音声キャプションシステムも音声テキスト検索に使えるのか?

Killing two birds with one stone: Can an audio captioning system also be used for audio-text retrieval? ( http://arxiv.org/abs/2308.15090v1 )

ライセンス: Link先を確認
Etienne Labb\'e (IRIT-SAMoVA), Thomas Pellegrini (IRIT-SAMoVA), Julien Pinquier (IRIT-SAMoVA)(参考訳) Automated Audio Captioning (AAC) は、テキストによる音声記録を記述できるシステムを開発することを目的としている。 対照的に、Audio-Text Retrieval (ATR) システムは、与えられたテキストクエリ (Text-to-Audio) やその逆 (Audio-to-Text) に最適な音声記録を見つけようとする。 これらのタスクは異なるタイプのシステムを必要とする: AACはシーケンス・ツー・シーケンスモデルを使用し、ATRは共有射影部分空間内の音声とテキストの表現を比較するランキングモデルを使用する。 しかし,本研究では,新しいタスクを微調整することなく,修正されていないAACシステムのATR機能を探索することにより,AACとATRの関係を解明する。 我々のAACシステムは、オーディオタグ付けのためにAudioSetで訓練されたオーディオエンコーダ(ConvNeXt-Tiny)と、文を生成するトランスフォーマーデコーダで構成される。 AACでは、Closoでは0.298、AudioCapsでは0.472のSPIDEr-FLスコアを達成した。 ATRでは、任意のオーディオ/カプセル対に対して得られた標準のクロスエントロピー損失値を用いる。 ClothoとAudioCapsのデータセットの実験結果は、この単純なアプローチによる適切なリコール値を示している。 たとえば、Au-dioCapsのText-to-Audio R@1値0.382は、外部データを持たない現在の最先端手法よりも高い。 興味深いことに、音声テキスト検索には損失値の正規化が不可欠である。

Automated Audio Captioning (AAC) aims to develop systems capable of describing an audio recording using a textual sentence. In contrast, Audio-Text Retrieval (ATR) systems seek to find the best matching audio recording(s) for a given textual query (Text-to-Audio) or vice versa (Audio-to-Text). These tasks require different types of systems: AAC employs a sequence-to-sequence model, while ATR utilizes a ranking model that compares audio and text representations within a shared projection subspace. However, this work investigates the relationship between AAC and ATR by exploring the ATR capabilities of an unmodified AAC system, without fine-tuning for the new task. Our AAC system consists of an audio encoder (ConvNeXt-Tiny) trained on AudioSet for audio tagging, and a transformer decoder responsible for generating sentences. For AAC, it achieves a high SPIDEr-FL score of 0.298 on Clotho and 0.472 on AudioCaps on average. For ATR, we propose using the standard Cross-Entropy loss values obtained for any audio/caption pair. Experimental results on the Clotho and AudioCaps datasets demonstrate decent recall values using this simple approach. For instance, we obtained a Text-to-Audio R@1 value of 0.382 for Au-dioCaps, which is above the current state-of-the-art method without external data. Interestingly, we observe that normalizing the loss values was necessary for Audio-to-Text retrieval.
翻訳日:2023-08-30 15:20:08 公開日:2023-08-29
# 深層学習を用いたウィリス円に沿った血管分岐の自動検出と分類

Using deep learning for an automatic detection and classification of the vascular bifurcations along the Circle of Willis ( http://arxiv.org/abs/2308.15088v1 )

ライセンス: Link先を確認
Rafic Nader, Romain Bourcier, Florent Autrusseau (LTeN)(参考訳) ほとんどの頭蓋内動脈瘤(ICA)は、The Circle of Willis(CoW)と呼ばれる脳血管樹の特定の部分に発生する。 特に、主にこの円形構造を構成する主要な動脈分岐の15に発生する。 したがって、効率的かつタイムリーな診断のために、それぞれの興味の分岐(BoI)を正確に認識できる方法を開発することが重要である。 実際、ICAを開発するリスクが高いことを示す分岐液の自動抽出によって、神経放射線学者は最も危険な領域を素早く見ることができる。 最近の人工知能の取り組みにより、Deep Learningは多くのパターン認識タスクにおいて最高のパフォーマンス技術であることが判明した。 また, 医用画像解析のために様々な手法が考案されている。 本研究の目的は,神経放射線科医がICAの発生リスクの高い分岐点を迅速に発見できるようにすることである。 これは、人工知能がMRI内の関心領域へのアクセスを促進するコンピュータ支援診断スキームと見なすことができる。 本研究では,ウィリス円を形成する興味の分岐を完全自動検出し,認識する手法を提案する。 いくつかのニューラルネットワークアーキテクチャがテストされ、分岐認識率を徹底的に評価した。

Most of the intracranial aneurysms (ICA) occur on a specific portion of the cerebral vascular tree named the Circle of Willis (CoW). More particularly, they mainly arise onto fifteen of the major arterial bifurcations constituting this circular structure. Hence, for an efficient and timely diagnosis it is critical to develop some methods being able to accurately recognize each Bifurcation of Interest (BoI). Indeed, an automatic extraction of the bifurcations presenting the higher risk of developing an ICA would offer the neuroradiologists a quick glance at the most alarming areas. Due to the recent efforts on Artificial Intelligence, Deep Learning turned out to be the best performing technology for many pattern recognition tasks. Moreover, various methods have been particularly designed for medical image analysis purposes. This study intends to assist the neuroradiologists to promptly locate any bifurcation presenting a high risk of ICA occurrence. It can be seen as a Computer Aided Diagnosis scheme, where the Artificial Intelligence facilitates the access to the regions of interest within the MRI. In this work, we propose a method for a fully automatic detection and recognition of the bifurcations of interest forming the Circle of Willis. Several neural networks architectures have been tested, and we thoroughly evaluate the bifurcation recognition rate.
翻訳日:2023-08-30 15:19:36 公開日:2023-08-29
# 高調波発生における半古典的画像の限界について

On the limitations of the semi-classical picture in high harmonic generation ( http://arxiv.org/abs/2308.15087v1 )

ライセンス: Link先を確認
Philipp Stammer(参考訳) 高調波発生過程の量子光学的定式化の最近の進歩は、成功した半古典的モデルがその限界に達する点に達した。 最近まで、この過程を駆動する光源は、古典的な画像と一致してレーザーによって提供されると考えられていた。 しかし、量子光学は、明るい圧縮真空やフォック状態のような古典的領域を超えた光場を考えることができる。 両方の磁場状態は電場振幅を消失させるが、十分な高強度の高調波放射を発生させる可能性がある。 これは、ここで議論されるような半古典的図の妥当性に関する新たな疑問を提起する。

The recent progress in the quantum optical formulation of the process of high harmonic generation has reached a point where the successful semi-classical model reaches its limitations. Until recently the light source which drives the process was considered to be provided by a laser, in agreement with the classical picture. However, quantum optics allows to consider light fields beyond the classical realm, such as bright squeezed vacuum or Fock states. Both field states have vanishing electric field amplitudes, but can still lead to the generation of high harmonic radiation for sufficiently high intensities. This poses new questions about the range of validity of the semi-classical picture, which is the matter discussed here.
翻訳日:2023-08-30 15:19:22 公開日:2023-08-29
# サンプル学習によるサンプル化への学習

Learning to Upsample by Learning to Sample ( http://arxiv.org/abs/2308.15085v1 )

ライセンス: Link先を確認
Wenze Liu, Hao Lu, Hongtao Fu, Zhiguo Cao(参考訳) 超軽量で効果的な動的アップサンプラーであるDySampleを提案する。 CARAFE、FADE、SAPAといった最近のカーネルベースの動的アップサンプラーから顕著なパフォーマンス向上が見られる一方で、時間を要する動的畳み込みと、動的カーネルの生成に使用される追加のサブネットワークによって、多くのワークロードが導入されている。 さらに、FADEとSAPAの高解像度機能ガイダンスの必要性は、アプリケーションのシナリオを制限します。 これらの問題に対処するため、動的畳み込みを回避し、よりリソース効率が良く、PyTorchの標準内蔵関数で容易に実装できる点サンプリングの観点から定式化する。 まずは素直なデザインを示し、次に新しいアップサンプラーであるDySampleに向けて、そのアップサンプリング動作を強化する方法についてデモする。 以前のカーネルベースの動的アップサンプラーと比較して、DySampleはカスタマイズされたCUDAパッケージを必要とせず、パラメータ、FLOP、GPUメモリ、レイテンシがはるかに少ない。 軽量な特徴の他に、dysampleはセマンティクスセグメンテーション、オブジェクト検出、インスタンスセグメンテーション、panoptic segmentation、単眼深度推定を含む5つの密集した予測タスクで他のアップサンプラーを上回る。 コードはhttps://github.com/tiny-smart/dysampleで入手できる。

We present DySample, an ultra-lightweight and effective dynamic upsampler. While impressive performance gains have been witnessed from recent kernel-based dynamic upsamplers such as CARAFE, FADE, and SAPA, they introduce much workload, mostly due to the time-consuming dynamic convolution and the additional sub-network used to generate dynamic kernels. Further, the need for high-res feature guidance of FADE and SAPA somehow limits their application scenarios. To address these concerns, we bypass dynamic convolution and formulate upsampling from the perspective of point sampling, which is more resource-efficient and can be easily implemented with the standard built-in function in PyTorch. We first showcase a naive design, and then demonstrate how to strengthen its upsampling behavior step by step towards our new upsampler, DySample. Compared with former kernel-based dynamic upsamplers, DySample requires no customized CUDA package and has much fewer parameters, FLOPs, GPU memory, and latency. Besides the light-weight characteristics, DySample outperforms other upsamplers across five dense prediction tasks, including semantic segmentation, object detection, instance segmentation, panoptic segmentation, and monocular depth estimation. Code is available at https://github.com/tiny-smart/dysample.
翻訳日:2023-08-30 15:19:12 公開日:2023-08-29
# ハイパースペクトルリモートセンシング画像に対するテイラー変分損失を用いたクラス優先無作為学習

Class Prior-Free Positive-Unlabeled Learning with Taylor Variational Loss for Hyperspectral Remote Sensing Imagery ( http://arxiv.org/abs/2308.15081v1 )

ライセンス: Link先を確認
Hengwei Zhao, Xinyu Wang, Jingtao Li, Yanfei Zhong(参考訳) ハイパースペクトルリモートセンシングイメージ(hsi)におけるポジティブ・アンラベル・ラーニング(pu learning)は、様々な地球視覚応用において幅広い展望を持つポジティブ・アンラベル・データからバイナリ分類器を学習することを目的としている。 しかし、PU学習が限定ラベル付きHSIに適合する場合、ラベルなしデータが最適化プロセスを支配し、ラベルなしデータにオーバーフィットする。 本稿では,hsi pu 学習において,テイラー級数展開によるラベルなしデータの勾配の重みを低減し,ネットワークがオーバーフィッティングとアンダーフィッティングのバランスを取ることを可能にするテイラー変分損失を提案する。 さらに、自己校正最適化戦略は、トレーニングプロセスの安定化を図っている。 7つのベンチマークデータセット(合計21タスク)の実験により,提案手法の有効性が検証された。 コードは https://github.com/Hengwei-Zhao96/T-HOneCls.com にある。

Positive-unlabeled learning (PU learning) in hyperspectral remote sensing imagery (HSI) is aimed at learning a binary classifier from positive and unlabeled data, which has broad prospects in various earth vision applications. However, when PU learning meets limited labeled HSI, the unlabeled data may dominate the optimization process, which makes the neural networks overfit the unlabeled data. In this paper, a Taylor variational loss is proposed for HSI PU learning, which reduces the weight of the gradient of the unlabeled data by Taylor series expansion to enable the network to find a balance between overfitting and underfitting. In addition, the self-calibrated optimization strategy is designed to stabilize the training process. Experiments on 7 benchmark datasets (21 tasks in total) validate the effectiveness of the proposed method. Code is at: https://github.com/Hengwei-Zhao96/T-HOneCls.
翻訳日:2023-08-30 15:18:47 公開日:2023-08-29
# LAMBO:エッジインテリジェンスを活用した大規模言語モデル

LAMBO: Large Language Model Empowered Edge Intelligence ( http://arxiv.org/abs/2308.15078v1 )

ライセンス: Link先を確認
Li Dong, Feibo Jiang, Yubo Peng, Kezhi Wang, Kun Yang, Cunhua Pan, Robert Schober(参考訳) 次世代エッジインテリジェンスは、オフロードシステムなど、さまざまなアプリケーションに大きなメリットをもたらすことが期待されている。 しかし、従来のDeep Offloadingアーキテクチャは、不均一な制約、部分的な認識、不確実な一般化、トラクタビリティの欠如など、いくつかの問題に直面している。 この文脈では、大規模な言語モデル(LLM)とのオフロードの統合は多くの利点を示す。 そこで,モバイルエッジコンピューティング (MEC) のための LLM-based Offloading (LAMBO) フレームワークを提案する。 (i) 入力埋め込み(ie)は、高い品質の学習可能なベクトルを通して、制約や促しを伴うオフロードシステムの情報を表現するのに用いられる。 (ii)非対称エンコーダデコーダ(aed)モデルは,深いエンコーダと浅いデコーダを備えた意思決定モジュールである。 マルチヘッド自己注意方式に基づくハイパフォーマンスを実現する。 三 アクタークリティカル強化学習(ACRL)モジュールであって、対応するプロンプトの下で異なる最適化タスクのためにAED全体を事前訓練するために使用されるもの (4) AEDのデコーダ部分を動的環境変化に適応させながら微調整することができる専門家フィードバック(ALEF)からのアクティブラーニング。 シミュレーションの結果,提案する LAMBO フレームワークの利点を裏付けるものである。

Next-generation edge intelligence is anticipated to bring huge benefits to various applications, e.g., offloading systems. However, traditional deep offloading architectures face several issues, including heterogeneous constraints, partial perception, uncertain generalization, and lack of tractability. In this context, the integration of offloading with large language models (LLMs) presents numerous advantages. Therefore, we propose an LLM-Based Offloading (LAMBO) framework for mobile edge computing (MEC), which comprises four components: (i) Input embedding (IE), which is used to represent the information of the offloading system with constraints and prompts through learnable vectors with high quality; (ii) Asymmetric encoderdecoder (AED) model, which is a decision-making module with a deep encoder and a shallow decoder. It can achieve high performance based on multi-head self-attention schemes; (iii) Actor-critic reinforcement learning (ACRL) module, which is employed to pre-train the whole AED for different optimization tasks under corresponding prompts; and (iv) Active learning from expert feedback (ALEF), which can be used to finetune the decoder part of the AED while adapting to dynamic environmental changes. Our simulation results corroborate the advantages of the proposed LAMBO framework.
翻訳日:2023-08-30 15:18:31 公開日:2023-08-29
# 電位エネルギーレンズによるモデル伝達可能性の探索

Exploring Model Transferability through the Lens of Potential Energy ( http://arxiv.org/abs/2308.15074v1 )

ライセンス: Link先を確認
Xiaotong Li, Zixuan Hu, Yixiao Ge, Ying Shan, Ling-Yu Duan(参考訳) トランスファー学習は、事前学習されたディープラーニングモデルの膨大な可用性のために、コンピュータビジョンタスクにおいて重要になっている。 しかし、特定の下流タスクのための多様なプールから最適な事前学習モデルを選択することは、依然として課題である。 既存の訓練済みモデルの伝達可能性を測定する方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存するが、微調整中に基礎となる表現力学の影響を見落とし、特に自己教師付きモデルでは信頼性の低い結果をもたらす。 本稿では,これらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。 我々は、ポテンシャルエネルギーのレンズを通してモデル選択の課題を再構築し、微調整ダイナミクスに影響を与える相互作用力を直接モデル化する。 動的表現の運動を捉えて力駆動物理モデル内のポテンシャルエネルギーを減少させることで、伝達可能性の推定のための拡張されたより安定した観測を得ることができる。 10のダウンストリームタスクと12の自己教師付きモデルに関する実験結果から,提案手法が既存のランキング手法にシームレスに統合され,その性能が向上し,モデル選択タスクの有効性とトランスファー学習のメカニズム理解の可能性が示された。 コードはhttps://github.com/lixiaotong97/PEDで入手できる。

Transfer learning has become crucial in computer vision tasks due to the vast availability of pre-trained deep learning models. However, selecting the optimal pre-trained model from a diverse pool for a specific downstream task remains a challenge. Existing methods for measuring the transferability of pre-trained models rely on statistical correlations between encoded static features and task labels, but they overlook the impact of underlying representation dynamics during fine-tuning, leading to unreliable results, especially for self-supervised models. In this paper, we present an insightful physics-inspired approach named PED to address these challenges. We reframe the challenge of model selection through the lens of potential energy and directly model the interaction forces that influence fine-tuning dynamics. By capturing the motion of dynamic representations to decline the potential energy within a force-driven physical model, we can acquire an enhanced and more stable observation for estimating transferability. The experimental results on 10 downstream tasks and 12 self-supervised models demonstrate that our approach can seamlessly integrate into existing ranking techniques and enhance their performances, revealing its effectiveness for the model selection task and its potential for understanding the mechanism in transfer learning. Code will be available at https://github.com/lixiaotong97/PED.
翻訳日:2023-08-30 15:18:09 公開日:2023-08-29
# 大規模視覚言語モデルにおける幻覚の評価と分析

Evaluation and Analysis of Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2308.15126v1 )

ライセンス: Link先を確認
Junyang Wang, Yiyang Zhou, Guohai Xu, Pengcheng Shi, Chenlin Zhao, Haiyang Xu, Qinghao Ye, Ming Yan, Ji Zhang, Jihua Zhu, Jitao Sang, Haoyu Tang(参考訳) LVLM(Large Vision-Language Models)は近年大きな成功を収めている。 しかし、LVLMは、多くのシナリオにおける実用性を制限する幻覚の問題に悩まされている。 幻覚とは、視覚入力に存在しないLVLMの反応の情報であり、実質的な結果の潜在的なリスクを引き起こす。 LVLMにおける幻覚評価の研究は限られている。 本稿では,LLMに基づく幻覚評価フレームワークである大規模言語モデル(HaELM)に基づく幻覚評価を提案する。 HaELMはChatGPTに匹敵するおよそ95%のパフォーマンスを実現し、低コスト、再現性、プライバシー保護、ローカルデプロイメントなど、さらなる利点がある。 HELMを応用し,現在のLVLMにおける幻覚の評価を行った。 さらに,lvlmsの幻覚に寄与する因子を分析し,幻覚問題を緩和するための有用な提案を行う。 私たちのトレーニングデータと人間のアノテーション幻覚データは、まもなく公開される予定だ。

Large Vision-Language Models (LVLMs) have recently achieved remarkable success. However, LVLMs are still plagued by the hallucination problem, which limits the practicality in many scenarios. Hallucination refers to the information of LVLMs' responses that does not exist in the visual input, which poses potential risks of substantial consequences. There has been limited work studying hallucination evaluation in LVLMs. In this paper, we propose Hallucination Evaluation based on Large Language Models (HaELM), an LLM-based hallucination evaluation framework. HaELM achieves an approximate 95% performance comparable to ChatGPT and has additional advantages including low cost, reproducibility, privacy preservation and local deployment. Leveraging the HaELM, we evaluate the hallucination in current LVLMs. Furthermore, we analyze the factors contributing to hallucination in LVLMs and offer helpful suggestions to mitigate the hallucination problem. Our training data and human annotation hallucination data will be made public soon.
翻訳日:2023-08-30 15:09:38 公開日:2023-08-29
# SpikeBERT: BERTから2段階の知識蒸留をトレーニングした言語スパイクフォーマ

SpikeBERT: A Language Spikformer Trained with Two-Stage Knowledge Distillation from BERT ( http://arxiv.org/abs/2308.15122v1 )

ライセンス: Link先を確認
Changze Lv, Tianlong Li, Jianhan Xu, Chenxi Gu, Zixuan Ling, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang(参考訳) spiking neural networks (snns)は、よりエネルギー効率の良い方法でディープニューラルネットワークを実装するための有望な手段を提供する。 しかし、言語タスクのための既存のSNNのネットワークアーキテクチャは単純すぎるため、ディープアーキテクチャは十分に検討されていないため、BERTのような主流のトランスフォーマーベースネットワークと比較して大きな性能差がある。 この目的のために,最近発表されたスパイキングトランス(すなわちspikformer)を改良し,言語タスクの処理を可能にするとともに,bert からの知識を大量のラベルなしテキストに蒸留し,同じトレーニング例で微調整されたbert からタスク固有インスタンスに微調整することにより,事前学習を組み合わせる2段階の知識蒸留法を提案する。 広範にわたる実験により、我々の手法で訓練されたSpikeBERTは、最先端のSNNより優れており、よりエネルギー消費の少ない英語と中国語のテキスト分類タスクにおいてBERTに匹敵する結果が得られた。

Spiking neural networks (SNNs) offer a promising avenue to implement deep neural networks in a more energy-efficient way. However, the network architectures of existing SNNs for language tasks are too simplistic, and deep architectures have not been fully explored, resulting in a significant performance gap compared to mainstream transformer-based networks such as BERT. To this end, we improve a recently-proposed spiking transformer (i.e., Spikformer) to make it possible to process language tasks and propose a two-stage knowledge distillation method for training it, which combines pre-training by distilling knowledge from BERT with a large collection of unlabelled texts and fine-tuning with task-specific instances via knowledge distillation again from the BERT fine-tuned on the same training examples. Through extensive experimentation, we show that the models trained with our method, named SpikeBERT, outperform state-of-the-art SNNs and even achieve comparable results to BERTs on text classification tasks for both English and Chinese with much less energy consumption.
翻訳日:2023-08-30 15:09:23 公開日:2023-08-29
# AIに基づく教育用表情認識ソリューション--教師と他のカテゴリーの検討

AI-Based Facial Emotion Recognition Solutions for Education: A Study of Teacher-User and Other Categories ( http://arxiv.org/abs/2308.15119v1 )

ライセンス: Link先を確認
R. Yamamoto Ravenor(参考訳) 既存のAIベースの顔の感情認識(FER)に関する情報は、コンピュータ科学以外の分野では容易には理解できない。 ほとんどの支持者はFERを方法論、実装、分析の点で分類し、教育における応用は比較的少ない。 本論文は主に、FERツールの教師(潜在的)ユーザに関するものである。 本研究は,情緒的教育目標の古典分類と関連する理論に基づいて,教師の向き,条件,選好による3部分類を提案する。 また、提案された「教師-ユーザ」カテゴリを構造化するための前提条件として、文献から見出されたferソリューションのタイプを「技術」と「アプリケーション」のカテゴリにまとめ、整理する。 本研究は, 教師とferの関係について, 支持者, 批判者, 利用者の理解に影響を及ぼすものである。

Existing information on AI-based facial emotion recognition (FER) is not easily comprehensible by those outside the field of computer science, requiring cross-disciplinary effort to determine a categorisation framework that promotes the understanding of this technology, and its impact on users. Most proponents classify FER in terms of methodology, implementation and analysis; relatively few by its application in education; and none by its users. This paper is concerned primarily with (potential) teacher-users of FER tools for education. It proposes a three-part classification of these teachers, by orientation, condition and preference, based on a classical taxonomy of affective educational objectives, and related theories. It also compiles and organises the types of FER solutions found in or inferred from the literature into "technology" and "applications" categories, as a prerequisite for structuring the proposed "teacher-user" category. This work has implications for proponents', critics', and users' understanding of the relationship between teachers and FER.
翻訳日:2023-08-30 15:09:00 公開日:2023-08-29
# チェスボード上の大規模言語モデル:ChatGPTの形式的言語理解と複雑な推論スキルに関する研究

Large Language Models on the Chessboard: A Study on ChatGPT's Formal Language Comprehension and Complex Reasoning Skills ( http://arxiv.org/abs/2308.15118v1 )

ライセンス: Link先を確認
Mu-Tien Kuo, Chih-Chung Hsueh, Richard Tzong-Han Tsai(参考訳) 大規模言語モデルは自然言語処理に力を入れてきたが、チェスのような形式的な言語理解を必要とする複雑な推論タスクの習熟度はいまだに研究されていない。 本稿では,複雑な推論タスクにチェスを応用した,OpenAIによる洗練された言語モデルChatGPTの性能について検討する。 動きの合法性と質の両方を調べる堅牢な指標を通じて,ChatGPTのチェスボード理解,チェス規則の遵守,戦略的意思決定能力を評価する。 本評価では,ChatGPTの言語理解に影響を及ぼす注意機構の限界を認識し,未発達の自己制御能力を明らかにする。 また,本研究では,ChatGPTのゲームプレイにおけるコヒーレント戦略への適合性や,モデルにより多くの自然言語が提示されたり,チェスボードの状態に対するより精巧な理解が得られた場合に,決定的主張の顕著な上昇を明らかにした。 これらの知見は、自然言語処理を超えた言語モデルの能力の探求に寄与し、人間のような認知能力を示すモデルに対する今後の研究に有用な情報を提供する。

While large language models have made strides in natural language processing, their proficiency in complex reasoning tasks requiring formal language comprehension, such as chess, remains less investigated. This paper probes the performance of ChatGPT, a sophisticated language model by OpenAI in tackling such complex reasoning tasks, using chess as a case study. Through robust metrics examining both the legality and quality of moves, we assess ChatGPT's understanding of the chessboard, adherence to chess rules, and strategic decision-making abilities. Our evaluation identifies limitations within ChatGPT's attention mechanism that affect its formal language comprehension and uncovers the model's underdeveloped self-regulation abilities. Our study also reveals ChatGPT's propensity for a coherent strategy in its gameplay and a noticeable uptick in decision-making assertiveness when the model is presented with a greater volume of natural language or possesses a more lucid understanding of the state of the chessboard. These findings contribute to the growing exploration of language models' abilities beyond natural language processing, providing valuable information for future research towards models demonstrating human-like cognitive abilities.
翻訳日:2023-08-30 15:08:41 公開日:2023-08-29
# 複合型メタラーニングによるタンパク質シミュレータの精密調整

Mixup-Augmented Meta-Learning for Sample-Efficient Fine-Tuning of Protein Simulators ( http://arxiv.org/abs/2308.15116v1 )

ライセンス: Link先を確認
Jingbang Chen, Yian Wang, Xingwei Qu, Shuangjia Zheng, Yaodong Yang, Hao Dong, Jie Fu(参考訳) 分子動力学シミュレーションは生体分子の研究の基本的な道具として登場した。 同時に、分子が変動可能な様々な条件下で粒子の集合のシミュレーションを行うことが望ましい。 本稿では,分子動力学の課題に対してソフトプロンプトに基づく学習法を探索し,適応する。 私たちのモデルは、限られたトレーニングデータを使用して、未発見の分散シナリオに著しく一般化することができます。 我々の研究は、テストケースとしての温度に焦点を当てているが、我々のアプローチの汎用性は、圧力や体積などの連続的な動的条件を通した効率的なシミュレーションを可能にする。 枠組みには2つの段階があります 1)データミキシング技術による事前学習を行い,分子構造データと温度プロンプトを増強し,その比率をスムーズに増やしカリキュラム学習法を適用する。 2) メタラーニングに基づくファインチューニングフレームワークは, ファインチューニングプロセスのサンプル効率を向上し, ソフト・プロンプトチューニングを向上する。 包括的実験により,本フレームワークはドメイン内データの精度を向上し,未知および分布外サンプルの強力な一般化能力を示した。

Molecular dynamics simulations have emerged as a fundamental instrument for studying biomolecules. At the same time, it is desirable to perform simulations of a collection of particles under various conditions in which the molecules can fluctuate. In this paper, we explore and adapt the soft prompt-based learning method to molecular dynamics tasks. Our model can remarkably generalize to unseen and out-of-distribution scenarios with limited training data. While our work focuses on temperature as a test case, the versatility of our approach allows for efficient simulation through any continuous dynamic conditions, such as pressure and volumes. Our framework has two stages: 1) Pre-trains with data mixing technique, augments molecular structure data and temperature prompts, then applies a curriculum learning method by increasing the ratio of them smoothly. 2) Meta-learning-based fine-tuning framework improves sample-efficiency of fine-tuning process and gives the soft prompt-tuning better initialization points. Comprehensive experiments reveal that our framework excels in accuracy for in-domain data and demonstrates strong generalization capabilities for unseen and out-of-distribution samples.
翻訳日:2023-08-30 15:08:20 公開日:2023-08-29
# DiffusionVMR:ビデオモーメント検索のための拡散モデル

DiffusionVMR: Diffusion Model for Video Moment Retrieval ( http://arxiv.org/abs/2308.15109v1 )

ライセンス: Link先を確認
Henghao Zhao, Kevin Qinghong Lin, Rui Yan and Zechao Li(参考訳) ビデオモーメント検索は、言語クエリに基づいて、未編集のビデオからターゲットモーメントを検索することを目的とした、基本的な視覚言語タスクである。 既存のメソッドは通常、検索のサポートセットとして、手動または前もって生成ネットワークを介して多数の提案を生成します。 オブジェクト検出における拡散モデルの成功に触発されて,ビデオモーメント検索を,柔軟性と時間を要する提案生成を解消するためのデノイジング生成プロセスとして再構成することを目的とした。 そこで本研究では,雑音からランダムスパンを直接候補として抽出し,対象モーメントにデノイジング学習を導入するための新しい提案フリーフレームワークであるdiffencevmrを提案する。 トレーニング中、ガウスノイズが実際のモーメントに追加され、モデルはこのプロセスを逆転する方法を学ぶように訓練される。 推論において、時間スパンのセットは初期ノイズから最終出力へと徐々に洗練される。 特に、DiffusionVMRのトレーニングと推論は分離されており、任意の数のランダムスパンをトレーニングフェーズと整合性を持たずに推論に使用することができる。 広く使われている3つのベンチマーク(QVHighlight、Charades-STA、TACoS)で実施された大規模な実験は、DiffusionVMRの有効性を最先端の手法と比較することによって示している。

Video moment retrieval is a fundamental visual-language task that aims to retrieve target moments from an untrimmed video based on a language query. Existing methods typically generate numerous proposals manually or via generative networks in advance as the support set for retrieval, which is not only inflexible but also time-consuming. Inspired by the success of diffusion models on object detection, this work aims at reformulating video moment retrieval as a denoising generation process to get rid of the inflexible and time-consuming proposal generation. To this end, we propose a novel proposal-free framework, namely DiffusionVMR, which directly samples random spans from noise as candidates and introduces denoising learning to ground target moments. During training, Gaussian noise is added to the real moments, and the model is trained to learn how to reverse this process. In inference, a set of time spans is progressively refined from the initial noise to the final output. Notably, the training and inference of DiffusionVMR are decoupled, and an arbitrary number of random spans can be used in inference without being consistent with the training phase. Extensive experiments conducted on three widely-used benchmarks (i.e., QVHighlight, Charades-STA, and TACoS) demonstrate the effectiveness of the proposed DiffusionVMR by comparing it with state-of-the-art methods.
翻訳日:2023-08-30 15:07:59 公開日:2023-08-29
# サイドオブザーバを用いた確率グラフ帯域学習

Stochastic Graph Bandit Learning with Side-Observations ( http://arxiv.org/abs/2308.15107v1 )

ライセンス: Link先を確認
Xueping Gong and Jiheng Zhang(参考訳) 本稿では,一般関数空間とグラフフィードバックを用いた確率的文脈的バンディットについて検討する。 本稿では,基礎となるグラフ構造と報酬ギャップに適応してこの問題に対処するアルゴリズムを提案する。 私たちの知る限りでは、この確率的な設定でギャップ依存の上界を提供するのはアルゴリズムが初めてで、 [35] に残された研究のギャップを橋渡しします。 提案手法は,[31,33,35]と比較して, 後悔の上限を改良し, グラフィカル量の知識を必要としない。 後悔の上限という観点から計算効率と効果を実証するために数値実験を行った。 これらの結果は,確率的文脈帯域の領域をグラフフィードバックで前進させる上でのアルゴリズムの重要性を強調し,様々な領域における実践的応用への道を開いた。

In this paper, we investigate the stochastic contextual bandit with general function space and graph feedback. We propose an algorithm that addresses this problem by adapting to both the underlying graph structures and reward gaps. To the best of our knowledge, our algorithm is the first to provide a gap-dependent upper bound in this stochastic setting, bridging the research gap left by the work in [35]. In comparison to [31,33,35], our method offers improved regret upper bounds and does not require knowledge of graphical quantities. We conduct numerical experiments to demonstrate the computational efficiency and effectiveness of our approach in terms of regret upper bounds. These findings highlight the significance of our algorithm in advancing the field of stochastic contextual bandits with graph feedback, opening up avenues for practical applications in various domains.
翻訳日:2023-08-30 15:07:34 公開日:2023-08-29
# 動的不変量に基づく一階トロッター分解

The first-order Trotter decomposition in the dynamical-invariant basis ( http://arxiv.org/abs/2308.15100v1 )

ライセンス: Link先を確認
Takuya Hatomura(参考訳) トロッター分解はハミルトンシミュレーション(デジタル量子シミュレーション)の基本的なアプローチである。 第一階のトロッター分解は最も単純なもので、対象動力学からの偏差は不確かさの観点から小さな係数の第一階である。 本稿では、動的不変量に基づく一階トロッター分解について考察する。 状態依存不等式を用いることで、この分解の偏差は小さい係数の2階目であることを示す。 さらに、この分解は、例えば、反断熱駆動による断熱に対するショートカットのデジタル実装の有用な例を含むことを示す。

The Trotter decomposition is a basic approach to Hamiltonian simulation (digital quantum simulation). The first-order Trotter decomposition is the simplest one, whose deviations from target dynamics are of the first order of a small coefficient in terms of the infidelity. In this paper, we consider the first-order Trotter decomposition in the dynamical-invariant basis. By using a state-dependent inequality, we point out that deviations of this decomposition are of the second order of a small coefficient. Moreover, we also show that this decomposition includes a useful example, i.e., digital implementation of shortcuts to adiabaticity by counterdiabatic driving.
翻訳日:2023-08-30 15:07:19 公開日:2023-08-29
# 解釈可能なモデルからの確率的データセット再構成

Probabilistic Dataset Reconstruction from Interpretable Models ( http://arxiv.org/abs/2308.15099v1 )

ライセンス: Link先を確認
Julien Ferry (LAAS-ROC), Ulrich A\"ivodji (ETS), S\'ebastien Gambs (UQAM), Marie-Jos\'e Huguet (LAAS-ROC), Mohamed Siala (LAAS-ROC)(参考訳) 解釈可能性はしばしば、信頼できる機械学習の重要な要件として指摘される。 しかし、本質的に解釈可能なモデルの学習とリリースは、基礎となるトレーニングデータに関する情報を漏洩させる。 このような開示は直接プライバシーと矛盾する可能性があるため、そのような侵害によるプライバシーへの影響の正確な定量化は根本的な問題である。 例えば、以前の研究では、決定木の構造を利用してトレーニングデータセットの確率論的再構成を構築することが示されており、再構成の不確実性は情報漏洩の関連指標である。 本稿では,他の解釈可能なモデルやより汎用的な知識を扱えるという意味で,これらの確率的再構成を一般化する新しい枠組みを提案する。 また,解釈可能なモデルの構造に関する現実的な仮定の下では,復元の不確かさを効率的に計算できることを示す。 最後に,厳密あるいはヒューリスティックな学習アルゴリズムに関連する理論的情報漏洩を比較することにより,決定木と規則リストの両方に対するアプローチの適用性を示す。 以上の結果から, 最適解釈モデルはよりコンパクトであり, 訓練データに関する情報は, 特定の精度レベルにおいて, 厳格に構築されたモデルよりも漏えいが少ないことが示唆された。

Interpretability is often pointed out as a key requirement for trustworthy machine learning. However, learning and releasing models that are inherently interpretable leaks information regarding the underlying training data. As such disclosure may directly conflict with privacy, a precise quantification of the privacy impact of such breach is a fundamental problem. For instance, previous work have shown that the structure of a decision tree can be leveraged to build a probabilistic reconstruction of its training dataset, with the uncertainty of the reconstruction being a relevant metric for the information leak. In this paper, we propose of a novel framework generalizing these probabilistic reconstructions in the sense that it can handle other forms of interpretable models and more generic types of knowledge. In addition, we demonstrate that under realistic assumptions regarding the interpretable models' structure, the uncertainty of the reconstruction can be computed efficiently. Finally, we illustrate the applicability of our approach on both decision trees and rule lists, by comparing the theoretical information leak associated to either exact or heuristic learning algorithms. Our results suggest that optimal interpretable models are often more compact and leak less information regarding their training data than greedily-built ones, for a given accuracy level.
翻訳日:2023-08-30 15:07:10 公開日:2023-08-29
# 自然発生HRIのための逐次アノテーション:最初の洞察

Sequential annotations for naturally-occurring HRI: first insights ( http://arxiv.org/abs/2308.15097v1 )

ライセンス: Link先を確認
Lucien Tisserand (ICAR), Fr\'ed\'eric Armetta (SyCoSMA, LIRIS), Heike Baldauf-Quilliatre (ICAR), Antoine Bouquin (SyCoSMA, LIRIS), Salima Hassas (SyCoSMA, LIRIS), Mathieu Lefort (LIRIS, SyCoSMA)(参考訳) 本稿では,会話分析の逐次解析とマルチモーダル解析から,組込み会話エージェントによるインタラクションを改善する手法について説明する。 ユースケースはpepperロボットで、ライブラリのユーザに通知し、向き付けすることが期待されている。 より良いインタラクティブスキーマの提案と学習のために、私たちは自然に発生する対話のコーパスを作成し、コミュニティが利用できるようにしています。 そこで本研究では,人間とロボットの対話における言語とマルチモーダル資源の利用に関する理論的基礎に基づくアノテーション実践を提案する。 CCS CONCEPTS $\bullet$ Computing Methodologies $\rightarrow$ Discourse, dialogue and pragmatics; $\bullet$ Human-centered Computing $\rightarrow$ Text input; HCI理論、概念、モデル、フィールドスタディ。

We explain the methodology we developed for improving the interactions accomplished by an embedded conversational agent, drawing from Conversation Analytic sequential and multimodal analysis. The use case is a Pepper robot that is expected to inform and orient users in a library. In order to propose and learn better interactive schema, we are creating a corpus of naturally-occurring interactions that will be made available to the community. To do so, we propose an annotation practice based on some theoretical underpinnings about the use of language and multimodal resources in human-robot interaction. CCS CONCEPTS $\bullet$ Computing methodologies $\rightarrow$ Discourse, dialogue and pragmatics; $\bullet$ Human-centered computing $\rightarrow$ Text input; HCI theory, concepts and models; Field studies.
翻訳日:2023-08-30 15:06:53 公開日:2023-08-29
# ブラックホールの外側の重ね合わせにおける検出器のホーキング放射

Hawking radiation for detectors in superposition of locations outside a black hole ( http://arxiv.org/abs/2308.15149v1 )

ライセンス: Link先を確認
Jerzy Paczos, Luis C. Barbado(参考訳) ホーキング放射(英: Hawking radiation)は、ブラックホールから放出される量子自然の熱黒体放射である。 ホーキング放射を説明する一般的な方法の1つは、ブラックホールの近傍で静的な軌道をたどり、放射の量子場と相互作用する検出器を考えることである。 本研究では,シュワルツシルト時空における静的軌道の量子的重ね合わせに追従する検出器によって知覚されるホーキング放射について検討する。 質量を持たない実スカラー場と相互作用した後、検出器の量子状態を分析する。 我々は、ある軌道と励起レベルに対して、検出器の最終状態には消滅しないコヒーレンスが存在することを発見した。 次に、これらのコヒーレンスの軌道依存性を検出器に追従して検討し、検出器の励起後に磁場が残される可能性のある異なる状態の識別可能性と関連づける。 我々は、量子場の粒子の空間分布と伝播の観点から、その結果を解釈する。

Hawking radiation is the proposed thermal black-body radiation of quantum nature emitted from a black hole. One common way to give an account of Hawking radiation is to consider a detector that follows a static trajectory in the vicinity of a black hole and interacts with the quantum field of the radiation. In the present work, we study the Hawking radiation perceived by a detector that follows a quantum superposition of static trajectories in Schwarzschild spacetime, instead of a unique well-defined trajectory. We analyze the quantum state of the detector after the interaction with a massless real scalar field. We find that for certain trajectories and excitation levels, there are non-vanishing coherences in the final state of the detector. We then examine the dependence of these coherences on the trajectories followed by the detector and relate them to the distinguishability of the different possible states in which the field is left after the excitation of the detector. We interpret our results in terms of the spatial distribution and propagation of particles of the quantum field.
翻訳日:2023-08-30 15:01:06 公開日:2023-08-29
# 量子変化点と絡み合い蒸留

Quantum change point and entanglement distillation ( http://arxiv.org/abs/2308.15148v1 )

ライセンス: Link先を確認
Abhishek Banerjee, Pratapaditya Bej, Somshubhro Bandyopadhyay(参考訳) 局所演算と古典通信(LOCC)のパラダイムにおける量子変化点問題について検討する。 具体的には、エンタングルペアをデフォルト状態で放出するが、ある段階で突然変異を起こし、直交エンタングル状態を生成するソースを考える。 このようなソースから作成され、離れた観測者間で共有される絡み合ったペアのシーケンスは、各絡み合ったペアのアイデンティティが不明であるため、量子情報処理タスクには使用できない。 与えられたシーケンスのすべての点が変化点となる確率が等しく、変化が起こらない可能性があると仮定すると、変化点を特定して自由絡み合ったペアを蒸留する非常に良いLOCCプロトコルが提示される。 次に、ソースが既知の集合に属する未知の絡み合った状態に切り替わる、この問題のバリエーションについて考察する。 ここでは、既定および全ての可能な突然変異を含む状態の局所的な区別可能性を示す:それらが局所的に区別可能であれば、問題は以前の状態に還元されるが、そうでない場合には、具体例で示すように、変異状態、変化点、蒸留絡みをまだ特定することができる。

We study the quantum change point problem within the paradigm of local operations and classical communication (LOCC). Specifically, we consider a source that emits entangled pairs in a default state but undergoes mutation at some stage and begins producing an orthogonal entangled state. A sequence of entangled pairs prepared from such a source and shared between distant observers cannot be used for quantum information processing tasks as the identity of each entangled pair remains unknown. Assuming every point of a given sequence is equally likely to be the change point, including the possibility that no change occurs, we present a pretty-good LOCC protocol that identifies the change point and distills free entangled pairs. Next, we consider a variation of this problem where the source switches to an unknown entangled state that belongs to a known set. Here we show the local distinguishability of the collection of states, containing the default and all possible mutations, plays a crucial role: if they are locally distinguishable, the problem reduces to the previous one, but if not, one may still identify the mutated state, the change point, and distill entanglement, as we illustrate with a concrete example.
翻訳日:2023-08-30 15:00:50 公開日:2023-08-29
# 強化学習と生成事前学習モデルを用いた四足歩行ロボットの生活習慣と遊び

Lifelike Agility and Play on Quadrupedal Robots using Reinforcement Learning and Generative Pre-trained Models ( http://arxiv.org/abs/2308.15143v1 )

ライセンス: Link先を確認
Lei Han, Qingxu Zhu, Jiapeng Sheng, Chong Zhang, Tingguang Li, Yizheng Zhang, He Zhang, Yuzhen Liu, Cheng Zhou, Rui Zhao, Jie Li, Yufeng Zhang, Rui Wang, Wanchao Chi, Xiong Li, Yonghui Zhu, Lingzhu Xiang, Xiao Teng, Zhengyou Zhang(参考訳) 動物や人間からの知識を要約することは、ロボットのイノベーションを刺激する。 本研究では,複雑な環境下での生活習慣や戦略を生かした実際の動物のように,脚のあるロボットを駆動する枠組みを提案する。 言語や画像理解における印象的なパフォーマンスを実感する大きな事前学習モデルに触発されて,ロボットが本物の動物のように振る舞うことを刺激するモーター制御信号を生成する,高度な深層生成モデルの力を導入する。 タスク固有な従来のコントローラやエンド・ツー・エンドのRLとは異なり,動物行動の表現的知識を維持するために,動物行動データセットを用いた事前学習モデルを提案する。 事前学習されたモデルは十分なプリミティブレベルの知識を持っているが、環境に依存しない。 その後、狭い空間を乗り越えたり、ハードルを飛び越えたり、散らばったブロックの上を自由に走ったりといった、以前のアプローチでは考えられない多くの難題を乗り越えて、環境に合わせた学習の段階に再利用される。 最後に、タスク固有のコントローラは、以前の段階からの知識を再利用することで、複雑な下流タスクを解決するように訓練される。 各段階に関する知識を充実させることは、他のレベルの知識の使用に影響を与えない。 この柔軟なフレームワークは、異なるレベルで継続的な知識蓄積の可能性を提供します。 トレーニングされたマルチレベルコントローラをMAXロボットに適用し、室内で開発された四足歩行ロボットで、動物を模倣し、複雑な障害物を横切り、設計上の挑戦的なマルチエージェントのチェイスタッグゲームでプレイする。 本研究は,ロボット制御のフロンティアに,多段階事前学習知識の再利用と,現実世界における高度に複雑な下流課題の解決に関する新たな洞察を与えるものである。

Summarizing knowledge from animals and human beings inspires robotic innovations. In this work, we propose a framework for driving legged robots act like real animals with lifelike agility and strategy in complex environments. Inspired by large pre-trained models witnessed with impressive performance in language and image understanding, we introduce the power of advanced deep generative models to produce motor control signals stimulating legged robots to act like real animals. Unlike conventional controllers and end-to-end RL methods that are task-specific, we propose to pre-train generative models over animal motion datasets to preserve expressive knowledge of animal behavior. The pre-trained model holds sufficient primitive-level knowledge yet is environment-agnostic. It is then reused for a successive stage of learning to align with the environments by traversing a number of challenging obstacles that are rarely considered in previous approaches, including creeping through narrow spaces, jumping over hurdles, freerunning over scattered blocks, etc. Finally, a task-specific controller is trained to solve complex downstream tasks by reusing the knowledge from previous stages. Enriching the knowledge regarding each stage does not affect the usage of other levels of knowledge. This flexible framework offers the possibility of continual knowledge accumulation at different levels. We successfully apply the trained multi-level controllers to the MAX robot, a quadrupedal robot developed in-house, to mimic animals, traverse complex obstacles, and play in a designed challenging multi-agent Chase Tag Game, where lifelike agility and strategy emerge on the robots. The present research pushes the frontier of robot control with new insights on reusing multi-level pre-trained knowledge and solving highly complex downstream tasks in the real world.
翻訳日:2023-08-30 15:00:31 公開日:2023-08-29
# 言語意味情報の導入によるマルチモーダル視覚符号化モデル

A Multimodal Visual Encoding Model Aided by Introducing Verbal Semantic Information ( http://arxiv.org/abs/2308.15142v1 )

ライセンス: Link先を確認
Shuxiao Ma and Linyuan Wang and Bin Yan(参考訳) 生物学的研究により、脳皮質の言語意味情報は、追加の情報源として、視覚的エンコーディングのような非言語意味タスクに参加することが明らかとなった。 しかし、従来の視覚符号化モデルは、この生物学的発見と矛盾する言語意味情報を含まない。 本稿では,刺激画像と関連するテキスト情報に基づくマルチモーダル視覚情報符号化ネットワークモデルを提案する。 視覚情報符号化ネットワークモデルは、刺激画像を入力として、テキスト画像生成モデルによって生成されたテキスト情報を言語意味情報として活用する。 このアプローチは、ビジュアルエンコーディングモデルに新しい情報を注入する。 その後、Transformerネットワークは画像とテキストの特徴情報を整列し、マルチモーダルな特徴空間を作成する。 畳み込みネットワークは、このマルチモーダル特徴空間からボクセル空間にマッピングし、マルチモーダル視覚情報符号化ネットワークモデルを構築する。 実験の結果,ネットワークモデルを用いたマルチモーダル視覚情報符号化が,トレーニングコストで先行モデルを上回ることがわかった。 被験者1の脳の左半球のボクセル予測では、パフォーマンスが約15.87%向上し、右半球では約4.6%向上する。 マルチモーダルビジュアルエンコーディングネットワークモデルは、優れたエンコーディング性能を示す。 さらに, アブレーション実験により, 提案モデルが脳の視覚情報処理をシミュレートする可能性が示唆された。

Biological research has revealed that the verbal semantic information in the brain cortex, as an additional source, participates in nonverbal semantic tasks, such as visual encoding. However, previous visual encoding models did not incorporate verbal semantic information, contradicting this biological finding. This paper proposes a multimodal visual information encoding network model based on stimulus images and associated textual information in response to this issue. Our visual information encoding network model takes stimulus images as input and leverages textual information generated by a text-image generation model as verbal semantic information. This approach injects new information into the visual encoding model. Subsequently, a Transformer network aligns image and text feature information, creating a multimodal feature space. A convolutional network then maps from this multimodal feature space to voxel space, constructing the multimodal visual information encoding network model. Experimental results demonstrate that the proposed multimodal visual information encoding network model outperforms previous models under the exact training cost. In voxel prediction of the left hemisphere of subject 1's brain, the performance improves by approximately 15.87%, while in the right hemisphere, the performance improves by about 4.6%. The multimodal visual encoding network model exhibits superior encoding performance. Additionally, ablation experiments indicate that our proposed model better simulates the brain's visual information processing.
翻訳日:2023-08-30 14:59:59 公開日:2023-08-29
# 心臓mr画像分類のためのディープラーニングモデル校正改善のための不確実性対応トレーニング

Uncertainty Aware Training to Improve Deep Learning Model Calibration for Classification of Cardiac MR Images ( http://arxiv.org/abs/2308.15141v1 )

ライセンス: Link先を確認
Tareen Dawood, Chen Chen, Baldeep S. Sidhua, Bram Ruijsink, Justin Goulda, Bradley Porter, Mark K. Elliott, Vishal Mehta, Christopher A. Rinaldi, Esther Puyol-Anton, Reza Razavi, Andrew P. King(参考訳) 予測の不確かさの定量化は、従来のパフォーマンスメトリクスの報告よりも信頼性の高い人工知能(ai)モデルを開発する方法の一つとして認識されている。 臨床決定支援設定におけるそれらの役割を考えるとき、AI分類モデルは、正しい予測の信頼性を最大化し、正しい予測の信頼性を理想的に避けるべきである。 これを行うモデルは、自信に関して十分に調整されていると言われている。 しかし、これらのモデルをトレーニングする際のキャリブレーションを改善する方法、すなわちトレーニング戦略を不確実なものにするためには、比較的注意が払われていない。 本研究では,2つの最先端手法と比較した3つの新しい不確実性認識学習戦略を評価する。 心臓再同期療法 (CRT) と冠動脈疾患 (CAD) の2つの臨床応用について, 心磁気共鳴 (CMR) 画像による検討を行った。 分類精度と最も一般的なキャリブレーション尺度である期待キャリブレーション誤差(ece)の両面で最もパフォーマンスの高いモデルは、信頼度重み法であり、信頼度の高い不正確な予測を明示的に罰するためにサンプルの損失を重み付けする新しいアプローチである。 この方法は,不確実性認識戦略を含まないベースライン分類器と比較して,crt応答予測のeceを17%,cad診断を22%削減した。 いずれのアプリケーションにおいても,CEの低減とともに,CRT応答予測とCAD診断において,精度が69%から70%,70%から72%にわずかに向上した。 しかし,本解析では,キャリブレーション手法の違いによる最適モデルの一貫性の欠如が確認された。 これは、医療における複雑なリスクの高いアプリケーションのトレーニングやモデルの選択において、パフォーマンスメトリクスを慎重に考慮する必要があることを示している。

Quantifying uncertainty of predictions has been identified as one way to develop more trustworthy artificial intelligence (AI) models beyond conventional reporting of performance metrics. When considering their role in a clinical decision support setting, AI classification models should ideally avoid confident wrong predictions and maximise the confidence of correct predictions. Models that do this are said to be well-calibrated with regard to confidence. However, relatively little attention has been paid to how to improve calibration when training these models, i.e., to make the training strategy uncertainty-aware. In this work we evaluate three novel uncertainty-aware training strategies comparing against two state-of-the-art approaches. We analyse performance on two different clinical applications: cardiac resynchronisation therapy (CRT) response prediction and coronary artery disease (CAD) diagnosis from cardiac magnetic resonance (CMR) images. The best-performing model in terms of both classification accuracy and the most common calibration measure, expected calibration error (ECE) was the Confidence Weight method, a novel approach that weights the loss of samples to explicitly penalise confident incorrect predictions. The method reduced the ECE by 17% for CRT response prediction and by 22% for CAD diagnosis when compared to a baseline classifier in which no uncertainty-aware strategy was included. In both applications, as well as reducing the ECE there was a slight increase in accuracy from 69% to 70% and 70% to 72% for CRT response prediction and CAD diagnosis respectively. However, our analysis showed a lack of consistency in terms of optimal models when using different calibration measures. This indicates the need for careful consideration of performance metrics when training and selecting models for complex high-risk applications in healthcare.
翻訳日:2023-08-30 14:59:39 公開日:2023-08-29
# QDistRnd: 量子誤り訂正符号の距離を計算するためのGAPパッケージ

QDistRnd: A GAP package for computing the distance of quantum error-correcting codes ( http://arxiv.org/abs/2308.15140v1 )

ライセンス: Link先を確認
Leonid P. Pryadko, Vadim A. Shabashov, and Valerii K. Kozin(参考訳) GAPパッケージQDistRndは、有限体GF(q)上で線形な量子低密度パリティチェック符号の最小距離を求める確率的アルゴリズムを実装している。 各ステップにおいて、いくつかの符号語はより小さな重みに偏った分布からランダムに引き出される。 対応する重みは距離上の上限を更新するために使用され、最終的にコードの最小距離に収束する。 性能保証はないが、最小ウェイトコードワードが発見された確率を推定するために経験的な収束基準が与えられる。 さらに、q-ary量子符号に関連する行列を格納するためのフォーマットを導入し、提供されたインポート/エクスポート機能を介して実装する。 このフォーマットであるMTXEは、NISTが開発したMaTrix Market eXchange (MTX) Coordinateフォーマットをベースにしており、このフォーマットとの完全な後方互換性のために設計されている。 したがって、MTXEファイルはMTXをサポートするあらゆるソフトウェアパッケージで読めます。

The GAP package QDistRnd implements a probabilistic algorithm for finding the minimum distance of a quantum low-density parity-check code linear over a finite field GF(q). At each step several codewords are randomly drawn from a distribution biased toward smaller weights. The corresponding weights are used to update the upper bound on the distance, which eventually converges to the minimum distance of the code. While there is no performance guarantee, an empirical convergence criterion is given to estimate the probability that a minimum weight codeword has been found. In addition, a format for storing matrices associated with q-ary quantum codes is introduced and implemented via the provided import/export functions. The format, MTXE, is based on the well established MaTrix market eXchange (MTX) Coordinate format developed at NIST, and is designed for full backward compatibility with this format. Thus, MTXE files are readable by any software package which supports MTX.
翻訳日:2023-08-30 14:59:08 公開日:2023-08-29
# 特徴ピラミッドネットワークと空間的リカレントニューラルネットワークに基づく腹部多臓器分割

Abdominal Multi-Organ Segmentation Based on Feature Pyramid Network and Spatial Recurrent Neural Network ( http://arxiv.org/abs/2308.15137v1 )

ライセンス: Link先を確認
Yuhan Song, Armagan Elibol, Nak Young Chong(参考訳) 近年のAIの進歩が従来の診断手法の衰退を引き起こしているため、エンドツーエンドの診断の実現は急速に近づいている。 超音波画像分割は診断過程において重要なステップである。 高精度でロバストなセグメンテーションモデルがプロセスを促進し、ソノグラフの負担を軽減する。 従来の研究とは対照的に,(1)臓器や組織の大きさが異なる,(2)人体内の解剖学的構造が相対的に一定の空間的関係を形成する,という2つの超音波画像の特徴を考慮に入れる。 これら2つのアイデアに基づいて,FPN(Feature Pyramid Network)とSRNN(Spatial Recurrent Neural Network)を組み合わせた画像分割モデルを提案する。 我々は,FPNを用いて異なるスケールの解剖学的構造を抽出し,腹部超音波像の空間的特徴を抽出するためにSRNNをどのように実装したかについて議論した。

As recent advances in AI are causing the decline of conventional diagnostic methods, the realization of end-to-end diagnosis is fast approaching. Ultrasound image segmentation is an important step in the diagnostic process. An accurate and robust segmentation model accelerates the process and reduces the burden of sonographers. In contrast to previous research, we take two inherent features of ultrasound images into consideration: (1) different organs and tissues vary in spatial sizes, (2) the anatomical structures inside human body form a relatively constant spatial relationship. Based on those two ideas, we propose a new image segmentation model combining Feature Pyramid Network (FPN) and Spatial Recurrent Neural Network (SRNN). We discuss why we use FPN to extract anatomical structures of different scales and how SRNN is implemented to extract the spatial context features in abdominal ultrasound images.
翻訳日:2023-08-30 14:58:51 公開日:2023-08-29
# cagra:gpuの高並列グラフ構成と近似最近傍探索

CAGRA: Highly Parallel Graph Construction and Approximate Nearest Neighbor Search for GPUs ( http://arxiv.org/abs/2308.15136v1 )

ライセンス: Link先を確認
Hiroyuki Ootomo, Akira Naruse, Corey Nolet, Ray Wang, Tamas Feher, Yong Wang(参考訳) 近似Nearest Neighbor Search(ANNS)は、情報検索やコンピュータビジョンから自然言語処理、レコメンダシステムまで、データマイニングと人工知能にまたがる様々な分野において重要な役割を果たす。 近年,データ量は急増しており,近接探索の計算コストは概ね禁じられ,近似手法の採用が求められている。 グラフベースのアプローチのバランスの取れた性能とリコールは、ANNSアルゴリズムにおいて近年大きな注目を集めているが、大規模並列および汎用コンピューティングが広く使われているにもかかわらず、GPUとマルチコアプロセッサのパワーを活用する研究はごくわずかである。 このギャップを埋めるために,並列計算ハードウェアを用いた近接グラフと探索アルゴリズムを導入する。 現代のハードウェアの高性能機能を活用することで,本手法は顕著な効率向上を実現する。 特に,提案手法は,近接グラフ構築における既存のCPUおよびGPUベースの手法を超越し,大小両方の探索において高いスループットを示すとともに,精度の両立を図っている。 グラフ構築時間において,提案手法であるCAGRAは,CPU SOTA実装の一つであるHNSWよりも2.2~27倍高速である。 90%から95%のリコール範囲における大規模クエリスループットでは,HNSWよりも33~77倍,GPUのSOTA実装より3.8~8.8倍高速である。 単一のクエリでは、HNSWよりも95%リコールで3.4~53倍高速である。

Approximate Nearest Neighbor Search (ANNS) plays a critical role in various disciplines spanning data mining and artificial intelligence, from information retrieval and computer vision to natural language processing and recommender systems. Data volumes have soared in recent years and the computational cost of an exhaustive exact nearest neighbor search is often prohibitive, necessitating the adoption of approximate techniques. The balanced performance and recall of graph-based approaches have more recently garnered significant attention in ANNS algorithms, however, only a few studies have explored harnessing the power of GPUs and multi-core processors despite the widespread use of massively parallel and general-purpose computing. To bridge this gap, we introduce a novel parallel computing hardware-based proximity graph and search algorithm. By leveraging the high-performance capabilities of modern hardware, our approach achieves remarkable efficiency gains. In particular, our method surpasses existing CPU and GPU-based methods in constructing the proximity graph, demonstrating higher throughput in both large- and small-batch searches while maintaining compatible accuracy. In graph construction time, our method, CAGRA, is 2.2~27x faster than HNSW, which is one of the CPU SOTA implementations. In large-batch query throughput in the 90% to 95% recall range, our method is 33~77x faster than HNSW, and is 3.8~8.8x faster than the SOTA implementations for GPU. For a single query, our method is 3.4~53x faster than HNSW at 95% recall.
翻訳日:2023-08-30 14:58:36 公開日:2023-08-29
# バイクオリティ・ラーニング:クローズドセット分布シフトを扱うアルゴリズムを設計するフレームワーク

Biquality Learning: a Framework to Design Algorithms Dealing with Closed-Set Distribution Shifts ( http://arxiv.org/abs/2308.15132v1 )

ライセンス: Link先を確認
Pierre Nodet and Vincent Lemaire and Alexis Bondu and Antoine Cornu\'ejols(参考訳) 弱い監視とデータセットシフトを持つデータから機械学習モデルをトレーニングすることは依然として難しい。 これらの2つの状況が発生した時にアルゴリズムを設計することはあまり研究されておらず、既存のアルゴリズムが常に最も複雑な分布シフトを扱うことはできない。 このようなアルゴリズムを設計するのには、バイ品質のデータ設定が適していると考えています。 興味の分散からサンプリングされた信頼されたデータセットと、データセットのシフトと監督の弱点(別名分布シフト)を持つ信頼できないデータセットである。 トレーニング時に利用可能な信頼できないデータセットは、任意の分散シフトを扱うアルゴリズムの設計を可能にする。 本研究では,ラベル雑音文学と共変量シフト文学に触発された2つの手法を提案する。 実世界のデータセットにおける概念ドリフトとクラス条件シフトを合成的に導入する2つの新しい手法を実験した。 両品質学習アルゴリズムの開発が分散的変化に頑健であることは今後の研究にとって興味深い問題である。

Training machine learning models from data with weak supervision and dataset shifts is still challenging. Designing algorithms when these two situations arise has not been explored much, and existing algorithms cannot always handle the most complex distributional shifts. We think the biquality data setup is a suitable framework for designing such algorithms. Biquality Learning assumes that two datasets are available at training time: a trusted dataset sampled from the distribution of interest and the untrusted dataset with dataset shifts and weaknesses of supervision (aka distribution shifts). The trusted and untrusted datasets available at training time make designing algorithms dealing with any distribution shifts possible. We propose two methods, one inspired by the label noise literature and another by the covariate shift literature for biquality learning. We experiment with two novel methods to synthetically introduce concept drift and class-conditional shifts in real-world datasets across many of them. We opened some discussions and assessed that developing biquality learning algorithms robust to distributional changes remains an interesting problem for future research.
翻訳日:2023-08-30 14:58:09 公開日:2023-08-29
# 不純物から遠い1次元ボース気体の密度

The density of a one-dimensional Bose gas far from an impurity ( http://arxiv.org/abs/2308.15130v1 )

ライセンス: Link先を確認
Aleksandra Petkovic and Zoran Ristivojevic(参考訳) 我々は, 1次元弱相互作用ボース気体中の不純物を考察し, ボース気体の密度分布を解析的に計算する。 平均場近似では、不純物からの距離を増大させることで、ボースガス密度は、治癒長さを超える距離における平均熱力学限界値に指数関数的に速く飽和する。 量子揺らぎの効果は、この挙動を劇的に変化させ、平均密度からの密度偏差の動力法則が崩壊する。 ヒーリング長さよりも長く、不純物結合強度に比例する新しい長さスケールよりも短い距離では、パワーロー指数は2ドルであり、最長距離では対応する指数は3ドルになる。 後者のクロスオーバーは2つの特別なケースには存在しない。 最初のものは無限に強く結合した不純物に対して実現され、密度の偏差は常に指数 2$ で崩壊する。 第2の特別なケースは、新しい長さスケールが、例えば弱い不純物カップリングにおいて、ヒーリングの長さよりも小さい場合であり、密度偏差は常に指数3$で崩壊する。 得られた結果は不純物カップリング強度を正確に把握し, ボースガスの粒子間相互作用における先行次数を考慮した。

We consider an impurity in a one-dimensional weakly-interacting Bose gas and analytically calculate the density profile of the Bose gas. Within the mean-field approximation, by increasing the distance from the impurity, the Bose gas density saturates exponentially fast to its mean thermodynamic-limit value at distances beyond the healing length. The effect of quantum fluctuations drastically changes this behavior, leading to a power law decay of the density deviation from the mean density. At distances longer than the healing length and shorter than a new length scale proportional to the impurity coupling strength, the power-law exponent is $2$, while at longest distances the corresponding exponent becomes $3$. The latter crossover does not exist in two special cases. The first one is realized for infinitely strongly coupled impurity; then the density deviation always decays with the exponent $2$. The second special case occurs when the new length scale is smaller than the healing length, i.e., at weak impurity coupling; then the density deviation always decays with the exponent $3$. The obtained results are exact in the impurity coupling strength and account for the leading order in the interaction between the particles of the Bose gas.
翻訳日:2023-08-30 14:57:52 公開日:2023-08-29
# シンボリックLTLfベストエフォート合成

Symbolic LTLf Best-Effort Synthesis ( http://arxiv.org/abs/2308.15178v1 )

ライセンス: Link先を確認
Giuseppe De Giacomo, Gianmarco Parretti, Shufang Zhu(参考訳) 非決定論的環境におけるタスクを満たすエージェントを考える。 環境がどのように振る舞うかに関わらずタスクを遂行する戦略が存在しない場合、エージェントは少なくともそのタスクの遂行を妨げる戦略の採用を避けるべきである。 最善合成はこの直感を捉えている。 本稿では,有限トレース(LTLf)上での線形時間論理の最適合成のための記号的アプローチを考案し,比較する。 これらのアプローチは、同じ基本的なコンポーネントに基づいていますが、これらのコンポーネントの組み合わせの仕方を変えるため、経験的評価によって確認されたアプローチのパフォーマンスに大きな影響を与えます。

We consider an agent acting to fulfil tasks in a nondeterministic environment. When a strategy that fulfills the task regardless of how the environment acts does not exist, the agent should at least avoid adopting strategies that prevent from fulfilling its task. Best-effort synthesis captures this intuition. In this paper, we devise and compare various symbolic approaches for best-effort synthesis in Linear Temporal Logic on finite traces (LTLf). These approaches are based on the same basic components, however they change in how these components are combined, and this has a significant impact on the performance of the approaches as confirmed by our empirical evaluations.
翻訳日:2023-08-30 14:50:22 公開日:2023-08-29
# Grad-CAMによる視覚的説明は、より深いニューラルネットワークに信頼性が高いか? 肺気胸自動診断の1例

Is visual explanation with Grad-CAM more reliable for deeper neural networks? a case study with automatic pneumothorax diagnosis ( http://arxiv.org/abs/2308.15172v1 )

ライセンス: Link先を確認
Zirui Qiu, Hassan Rivaz, Yiming Xiao(参考訳) 深層学習技術は様々な臨床課題において最先端のパフォーマンスを提供してきたが、意思決定プロセスに関する説明責任は、これらの手法の信頼性を大幅に向上させ、より安全かつ迅速な臨床導入を可能にしている。 高柔軟性により、コンピュータ支援診断において様々なディープラーニングモデルの推論過程を直感的に解釈するために、勾配強調クラスアクティベーションマッピング(grad-cam)が広く採用されている。 しかし、この技術の人気にもかかわらず、さまざまなディープラーニングアーキテクチャにおけるGrad-CAMのパフォーマンスに関する体系的な研究はいまだに欠けている。 本研究では,x線スキャンにおける気胸自動診断のケーススタディを用いて,ネットワークの深さとアーキテクチャタイプの影響に着目し,さまざまなディープラーニングモデルにおけるその頑健性と有効性について検討した。 以上の結果から,より深いニューラルネットワークは気胸診断精度の向上に必ずしも寄与せず,GradCAMの有効性もネットワークアーキテクチャによって異なることが明らかとなった。

While deep learning techniques have provided the state-of-the-art performance in various clinical tasks, explainability regarding their decision-making process can greatly enhance the credence of these methods for safer and quicker clinical adoption. With high flexibility, Gradient-weighted Class Activation Mapping (Grad-CAM) has been widely adopted to offer intuitive visual interpretation of various deep learning models' reasoning processes in computer-assisted diagnosis. However, despite the popularity of the technique, there is still a lack of systematic study on Grad-CAM's performance on different deep learning architectures. In this study, we investigate its robustness and effectiveness across different popular deep learning models, with a focus on the impact of the networks' depths and architecture types, by using a case study of automatic pneumothorax diagnosis in X-ray scans. Our results show that deeper neural networks do not necessarily contribute to a strong improvement of pneumothorax diagnosis accuracy, and the effectiveness of GradCAM also varies among different network architectures.
翻訳日:2023-08-30 14:50:06 公開日:2023-08-29
# 位置マップデータを用いた軽量3次元濃密顔ランドマーク推定モデル

A lightweight 3D dense facial landmark estimation model from position map data ( http://arxiv.org/abs/2308.15170v1 )

ライセンス: Link先を確認
Shubhajit Basak, Sathish Mangapuram, Gabriel Costache, Rachel McDonnell, Michael Schukat(参考訳) 近年,顔分析タスクにおける3Dデータの取り込みが注目されている。 人間の顔のより正確で詳細な表現を提供するが、3Dの顔データは2Dの顔画像よりも複雑で高価である。 高価な3Dスキャナーか、ノイズに敏感な深度センサーに頼らなければならない。 もう一つの選択肢は、根拠となる真実の3Dデータなしで、教師なしの方法で、未調整の2D画像から3D顔の再構築である。 しかし、そのような手法は計算コストが高く、学習したモデルのサイズはモバイルや他のエッジデバイスアプリケーションには適さない。 顔全体に密集した3Dランドマークを予測すれば、この問題を克服できる。 密集したランドマークを含む公開データセットが存在しないため、既存の顔位置マップデータから顔全体に520個のキーポイントを含む密集したキーポイントトレーニングデータセットを作成するパイプラインを提案する。 生成されたデータで軽量なmobilenetベースのregressorモデルをトレーニングする。 密集したランドマークを持つ評価データセットにアクセスできないため,68個のキーポイント検出タスクに対して評価を行った。 実験結果から, モデルサイズが小さく, 計算コストが最小であるにもかかわらず, 既存の手法よりも優れていた。 また、定性評価は、訓練されたモデルの極端頭部ポーズ角および他の顔のバリエーションや閉塞角の効率性を示す。

The incorporation of 3D data in facial analysis tasks has gained popularity in recent years. Though it provides a more accurate and detailed representation of the human face, accruing 3D face data is more complex and expensive than 2D face images. Either one has to rely on expensive 3D scanners or depth sensors which are prone to noise. An alternative option is the reconstruction of 3D faces from uncalibrated 2D images in an unsupervised way without any ground truth 3D data. However, such approaches are computationally expensive and the learned model size is not suitable for mobile or other edge device applications. Predicting dense 3D landmarks over the whole face can overcome this issue. As there is no public dataset available containing dense landmarks, we propose a pipeline to create a dense keypoint training dataset containing 520 key points across the whole face from an existing facial position map data. We train a lightweight MobileNet-based regressor model with the generated data. As we do not have access to any evaluation dataset with dense landmarks in it we evaluate our model against the 68 keypoint detection task. Experimental results show that our trained model outperforms many of the existing methods in spite of its lower model size and minimal computational cost. Also, the qualitative evaluation shows the efficiency of our trained models in extreme head pose angles as well as other facial variations and occlusions.
翻訳日:2023-08-30 14:49:21 公開日:2023-08-29
# unseenを暴く - マイクロビヘイビアグラフ推論による隠れた意図の発見

Uncovering the Unseen: Discover Hidden Intentions by Micro-Behavior Graph Reasoning ( http://arxiv.org/abs/2308.15169v1 )

ライセンス: Link先を確認
Zhuo Zhou, Wenxuan Liu, Danni Xu, Zheng Wang, Jian Zhao(参考訳) 本稿では,新しい難解な隠れ意図発見(hid)タスクを提案する。 通常の行動に対する共通の意図を識別するための視覚的表現に基づく既存の意図認識タスクとは異なり、HIDは人間が異常な行動に対する意図を隠そうとするときに隠された意図を発見することに焦点を当てている。 HIDは、隠された意図が通常の意図と区別する明らかな視覚的表現を欠いているという点において、ユニークな課題を提示している。 幸いなことに、社会学的・心理学的な観点から、隠された意図と正常な意図の違いは、視線、注意、表情などの複数のマイクロ行動から説明できる。 そこで我々はまず,マイクロビヘイビアと隠れ意図の関係を発見し,グラフ構造を用いて隠れ意図を推論する。 HIDの分野での研究を容易にするために,HIDの典型的な盗難シナリオの隠れ意図アノテーションを含むセミナルデータセットを構築した。 広範な実験により, 提案手法により, hidタスクの性能が9.9\%向上することが判明した。

This paper introduces a new and challenging Hidden Intention Discovery (HID) task. Unlike existing intention recognition tasks, which are based on obvious visual representations to identify common intentions for normal behavior, HID focuses on discovering hidden intentions when humans try to hide their intentions for abnormal behavior. HID presents a unique challenge in that hidden intentions lack the obvious visual representations to distinguish them from normal intentions. Fortunately, from a sociological and psychological perspective, we find that the difference between hidden and normal intentions can be reasoned from multiple micro-behaviors, such as gaze, attention, and facial expressions. Therefore, we first discover the relationship between micro-behavior and hidden intentions and use graph structure to reason about hidden intentions. To facilitate research in the field of HID, we also constructed a seminal dataset containing a hidden intention annotation of a typical theft scenario for HID. Extensive experiments show that the proposed network improves performance on the HID task by 9.9\% over the state-of-the-art method SBP.
翻訳日:2023-08-30 14:48:54 公開日:2023-08-29
# デジタル双生児のオントロジー : 体系的文献レビュー

Ontologies in Digital Twins: A Systematic Literature Review ( http://arxiv.org/abs/2308.15168v1 )

ライセンス: Link先を確認
Erkan Karabulut, Salvatore F. Pileggi, Paul Groth and Victoria Degeler(参考訳) Digital Twins (DT) はサイバー物理システムの監視と推論を容易にする。 研究活動の激化や産業の進歩により、近年は次第に人気が高まっている。 Cognitive Twinsは、最近、DTにセマンティックWeb技術が関与するために作られた新しい概念である。 近年の研究では、知識表現、相互運用性、自動推論の観点から、DTの文脈におけるオントロジーと知識グラフの関連性について論じている。 しかし、セマンティックテクノロジー、特にオントロジーがどのようにDT内で利用されるかについての包括的な分析は存在しない。 この体系的文献レビュー(slr)は、dtに関するオントロジーの提案または恩恵を受ける82の論文の分析に基づいている。 本稿では、参照DTアーキテクチャに基づく構造解析や、製造やインフラといった異なるドメインに特異的に対処するアプリケーション固有の分析など、さまざまな分析の観点を用いる。 このレビューではまた、DTにおけるオントロジーと知識グラフの使用に関するオープンな問題と研究の方向性を明らかにしている。

Digital Twins (DT) facilitate monitoring and reasoning processes in cyber-physical systems. They have progressively gained popularity over the past years because of intense research activity and industrial advancements. Cognitive Twins is a novel concept, recently coined to refer to the involvement of Semantic Web technology in DTs. Recent studies address the relevance of ontologies and knowledge graphs in the context of DTs, in terms of knowledge representation, interoperability and automatic reasoning. However, there is no comprehensive analysis of how semantic technologies, and specifically ontologies, are utilized within DTs. This Systematic Literature Review (SLR) is based on the analysis of 82 research articles, that either propose or benefit from ontologies with respect to DT. The paper uses different analysis perspectives, including a structural analysis based on a reference DT architecture, and an application-specific analysis to specifically address the different domains, such as Manufacturing and Infrastructure. The review also identifies open issues and possible research directions on the usage of ontologies and knowledge graphs in DTs.
翻訳日:2023-08-30 14:48:33 公開日:2023-08-29
# ヘイスタックの針:実施から5年後のGDPR第15条に基づくアクセス権の分析

Needle in the Haystack: Analyzing the Right of Access According to GDPR Article 15 Five Years after the Implementation ( http://arxiv.org/abs/2308.15166v1 )

ライセンス: Link先を確認
Daniela P\"ohn and Niklas M\"orsdorf and Wolfgang Hommel(参考訳) 一般データ保護規則(GDPR)は、2018年に欧州連合内の個人のデータ保護を強化するために制定された。 1つの重要な側面は、個人が自分の個人情報を理解できる形でアクセスする権利を与える第15条である。 欧州人にサービスを提供する組織は、そのプロセスと機能を最適化し、第15条に従うために5年を要した。 本研究は,GDPR 第15条の要求に対して,組織からの回答を提出・受信するプロセスを検討することを目的とする。 定量的分析により、さまざまなウェブサイトからデータを取得し、データの適合度、受信したデータ、データを要求する個人が直面する課題を理解する。 この調査は、全世界とドイツで活動する組織、ブラウザwebサイトとアプリベースの利用、さまざまな種類のwebサイトを区別している。 したがって、一部のウェブサイトは手動でデータをコンパイルしているため、待ち時間が長くなると結論づける。 いくつかの例外は、いかなるデータにも応答せず、機械可読データも提供しなかった(GDRP条20)。 この研究の結果は、個人がデータ要求やアクセスの際に直面する10のパターンも明らかにしている。

The General Data Protection Regulation (GDPR) was implemented in 2018 to strengthen and harmonize the data protection of individuals within the European Union. One key aspect is Article 15, which gives individuals the right to access their personal data in an understandable format. Organizations offering services to Europeans had five years' time to optimize their processes and functions to comply with Article 15. This study aims to explore the process of submitting and receiving the responses of organizations to GDPR Article 15 requests. A quantitative analysis obtains data from various websites to understand the level of conformity, the data received, and the challenges faced by individuals who request their data. The study differentiates organizations operating worldwide and in Germany, browser website- and app-based usage, and different types of websites. Thereby, we conclude that some websites still compile the data manually, resulting in longer waiting times. A few exceptions did not respond with any data or deliver machine-readable data (GDRP Article 20). The findings of the study additionally reveal ten patterns individuals face when requesting and accessing their data.
翻訳日:2023-08-30 14:48:12 公開日:2023-08-29
# ABS-SGD:不均一GPUクラスタに対する適応バッチサイズ付き遅延同期確率勾配Descentアルゴリズム

ABS-SGD: A Delayed Synchronous Stochastic Gradient Descent Algorithm with Adaptive Batch Size for Heterogeneous GPU Clusters ( http://arxiv.org/abs/2308.15164v1 )

ライセンス: Link先を確認
Xin Zhou, Ling Chen, Houming Wu(参考訳) モデルとデータセットのサイズが大きくなるにつれて、モデルを並列にトレーニングすることがますます一般的になっています。 しかし、既存の分散確率勾配降下(sgd)アルゴリズムは計算資源の利用不足と不均一クラスタでの収束不足に苦しんでいる。 本稿では,不均一GPUクラスタに対する適応バッチサイズ (ABS-SGD) の遅延同期SGDアルゴリズムを提案する。 ABS-SGDでは、ワーカはグローバル同期を行い、遅延勾配を蓄積し、累積遅延勾配を使用してパラメータを更新する。 作業者は遅延勾配に対するグローバル同期を行うが、事前にバッチサイズを指定せずに次のバッチの計算を実行し、次のグローバル同期が始まるまで継続し、計算リソースの完全な利用を実現する。 勾配遅延は1回しか起こらないため、定常勾配問題を緩和することができる。 理論的には異種クラスターにおけるABS-SGDの収束を証明している。 3種類のヘテロジニアスクラスタにおける広範囲な実験により、abs-sgdは計算資源をフル活用し、モデルの収束を加速できることが示されている: 4人のワーカーでresnet18ネットワークをトレーニングすると、abs-sgdは、最高のベースラインアルゴリズムと比較して平均で1.30倍の収束速度を増加させる。

As the size of models and datasets grows, it has become increasingly common to train models in parallel. However, existing distributed stochastic gradient descent (SGD) algorithms suffer from insufficient utilization of computational resources and poor convergence in heterogeneous clusters. In this paper, we propose a delayed synchronous SGD algorithm with adaptive batch size (ABS-SGD) for heterogeneous GPU clusters. In ABS-SGD, workers perform global synchronization to accumulate delayed gradients and use the accumulated delayed gradients to update parameters. While workers are performing global synchronization for delayed gradients, they perform the computation of the next batch without specifying batch size in advance, which lasts until the next global synchronization starts, realizing the full utilization of computational resources. Since the gradient delay is only one iteration, the stale gradient problem can be alleviated. We theoretically prove the convergence of ABS-SGD in heterogeneous clusters. Extensive experiments in three types of heterogeneous clusters demonstrate that ABS-SGD can make full use of computational resources and accelerate model convergence: When training ResNet18 network with 4 workers, ABS-SGD increases the convergence speed by 1.30x on average compared with the best baseline algorithm.
翻訳日:2023-08-30 14:47:53 公開日:2023-08-29
# モデル予測制御器の改良について

On the improvement of model-predictive controllers ( http://arxiv.org/abs/2308.15157v1 )

ライセンス: Link先を確認
L. F\'eret, A. Gepperth, S. Lambeck(参考訳) 本稿では,mpc(synthetic model-predictive control)問題を調査し,内部予測モデル(pm)の精度の向上がコントローラ全体の改善を自動的に伴っていることを示す。 強化学習(RL)とは対照的に、MPCはPMを用いて制御システムのその後の状態を予測する。 モデル予測制御器の品質にpmの精度がどのように変換されるかを評価するため、dnnベースのpmと最適なベースラインpmを比較し、複雑さの異なる3つのよく知られた制御問題と比較する。 ベースラインPMはCS自体のシミュレーションにアクセスして完全精度を達成する。 得られた結果に基づき、pmの改善は、アクション選択などの他のコンポーネントの影響を考慮せずに、コントローラ全体を常に改善する(この記事では、進化的最適化に依存している)。

This article investigates synthetic model-predictive control (MPC) problems to demonstrate that an increased precision of the internal prediction model (PM) automatially entails an improvement of the controller as a whole. In contrast to reinforcement learning (RL), MPC uses the PM to predict subsequent states of the controlled system (CS), instead of directly recommending suitable actions. To assess how the precision of the PM translates into the quality of the model-predictive controller, we compare a DNN-based PM to the optimal baseline PM for three well-known control problems of varying complexity. The baseline PM achieves perfect accuracy by accessing the simulation of the CS itself. Based on the obtained results, we argue that an improvement of the PM will always improve the controller as a whole, without considering the impact of other components such as action selection (which, in this article, relies on evolutionary optimization).
翻訳日:2023-08-30 14:47:32 公開日:2023-08-29
# 陰謀者の解剖:包括的Twitterデータセットによるトラストの公開

The Anatomy of Conspirators: Unveiling Traits using a Comprehensive Twitter Dataset ( http://arxiv.org/abs/2308.15154v1 )

ライセンス: Link先を確認
Margherita Gambini, Serena Tardelli, Maurizio Tesconi(参考訳) 陰謀説をめぐる議論は、オンライン環境に広まる偽情報の中で、現在活発に進んでいる。 この分野での研究は、ソーシャルメディア上の陰謀論の検出に焦点が当てられ、限られたデータセットに依存することが多い。 本研究では,2022年を通じて共謀活動に従事するアカウントを含むTwitterデータセットを構築するための新しい手法を提案する。 我々のアプローチは、特定の陰謀理論や情報操作に依存しないデータ収集に焦点を当てている。 さらに、我々のデータセットは、陰謀活動に関わる個人とかなり比較可能なランダムに選択されたユーザーからなる制御グループを含む。 この包括的な収集作業により、合計15万のアカウントと3700万のツイートがタイムラインから抽出された。 我々は,トピックス,プロファイル,行動特性の3次元にわたる2つのグループの比較分析を行った。 その結果,共謀と制御の利用者は,プロファイルのメタデータ特性で類似性を示した。 しかし, 行動・活動の面では, 特に議論された話題, 使用用語, トレンドに対する態度について, 大きく異なっていた。 興味深いことに、2つのグループ間のボットユーザの存在には大きな違いはなく、陰謀と自動化が直交する概念であることを示唆している。 最後に,93個の特徴量を用いて共謀者を識別する分類器を開発し,その一部はトロル識別のための文献として一般的に用いられている。 その結果、高い精度(平均F1スコア0.98%)を示し、陰謀関連アカウントに関連する最も差別的な特徴を明らかにすることができた。

The discourse around conspiracy theories is currently thriving amidst the rampant misinformation prevalent in online environments. Research in this field has been focused on detecting conspiracy theories on social media, often relying on limited datasets. In this study, we present a novel methodology for constructing a Twitter dataset that encompasses accounts engaged in conspiracy-related activities throughout the year 2022. Our approach centers on data collection that is independent of specific conspiracy theories and information operations. Additionally, our dataset includes a control group comprising randomly selected users who can be fairly compared to the individuals involved in conspiracy activities. This comprehensive collection effort yielded a total of 15K accounts and 37M tweets extracted from their timelines. We conduct a comparative analysis of the two groups across three dimensions: topics, profiles, and behavioral characteristics. The results indicate that conspiracy and control users exhibit similarity in terms of their profile metadata characteristics. However, they diverge significantly in terms of behavior and activity, particularly regarding the discussed topics, the terminology used, and their stance on trending subjects. Interestingly, there is no significant disparity in the presence of bot users between the two groups, suggesting that conspiracy and automation are orthogonal concepts. Finally, we develop a classifier to identify conspiracy users using 93 features, some of which are commonly employed in literature for troll identification. The results demonstrate a high accuracy level (with an average F1 score of 0.98%), enabling us to uncover the most discriminative features associated with conspiracy-related accounts.
翻訳日:2023-08-30 14:47:20 公開日:2023-08-29
# 文脈埋め込みを用いた逐次モデリングのためのスパイクニューラルネットワークの可能性

Unleashing the Potential of Spiking Neural Networks for Sequential Modeling with Contextual Embedding ( http://arxiv.org/abs/2308.15150v1 )

ライセンス: Link先を確認
Xinyi Chen, Jibin Wu, Huajin Tang, Qinyuan Ren, Kay Chen Tan(参考訳) ヒトの脳は、意思決定のために時間的に離れた感覚入力を統合する優れた能力を示す。 しかし、既存の脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、長期の時間的関係をモデル化する上で、生物学的に相性がよくない。 この問題に対処するため,本稿では,新しい文脈埋め込みLeaky Integrate-and-Fire(CE-LIF)スパイキングニューロンモデルを提案する。 具体的には、CE-LIFモデルは、適応的なニューロン発射閾値に、厳密に設計されたコンテキスト埋め込みコンポーネントを組み込むことにより、スパイキングニューロンのメモリ記憶を向上し、効果的なシーケンシャルモデリングを容易にする。 さらに、CE-LIFモデルが長期の時間的信用割当を可能にするかを明らかにするために理論的解析を行う。 注目すべきは、最先端の繰り返しSNNと比較して、CE-LIFニューロンからなるフィードフォワードSNNは、分類精度、ネットワーク収束速度、メモリ容量の観点から、広範囲な逐次モデリングタスクにおいて優れた性能を示すことである。

The human brain exhibits remarkable abilities in integrating temporally distant sensory inputs for decision-making. However, existing brain-inspired spiking neural networks (SNNs) have struggled to match their biological counterpart in modeling long-term temporal relationships. To address this problem, this paper presents a novel Contextual Embedding Leaky Integrate-and-Fire (CE-LIF) spiking neuron model. Specifically, the CE-LIF model incorporates a meticulously designed contextual embedding component into the adaptive neuronal firing threshold, thereby enhancing the memory storage of spiking neurons and facilitating effective sequential modeling. Additionally, theoretical analysis is provided to elucidate how the CE-LIF model enables long-term temporal credit assignment. Remarkably, when compared to state-of-the-art recurrent SNNs, feedforward SNNs comprising the proposed CE-LIF neurons demonstrate superior performance across extensive sequential modeling tasks in terms of classification accuracy, network convergence speed, and memory capacity.
翻訳日:2023-08-30 14:46:56 公開日:2023-08-29
# FurChat: オープンとクローズドドメインの対話と表情を組み合わせたLLMを用いた会話エージェント

FurChat: An Embodied Conversational Agent using LLMs, Combining Open and Closed-Domain Dialogue with Facial Expressions ( http://arxiv.org/abs/2308.15214v1 )

ライセンス: Link先を確認
Neeraj Cherakara, Finny Varghese, Sheena Shabana, Nivan Nelson, Abhiram Karukayil, Rohith Kulothungan, Mohammed Afil Farhan, Birthe Nesset, Meriam Moujahid, Tanvi Dinkar, Verena Rieser, Oliver Lemon(参考訳) 本研究では,大言語モデル (LLM) を用いて,アクセプティストとして機能し,表情とともにオープンドメインとクローズドドメインの対話を混合して生成できる対話エージェントの具体化を実証する。 このシステムをFurhatロボットにデプロイし、対話中に言語と非言語の両方の手がかりを利用できるようにした。 このシステムは、National Robotariumが自然の会話を通じて訪問者と対話し、施設、研究、ニュース、今後のイベントなどの情報を提供するように設計されている。 このシステムは最先端のgpt-3.5モデルを利用して、プロンプトエンジニアリングに基づいて、ドメイン一般の会話や表情とともにそのような情報を生成する。

We demonstrate an embodied conversational agent that can function as a receptionist and generate a mixture of open and closed-domain dialogue along with facial expressions, by using a large language model (LLM) to develop an engaging conversation. We deployed the system onto a Furhat robot, which is highly expressive and capable of using both verbal and nonverbal cues during interaction. The system was designed specifically for the National Robotarium to interact with visitors through natural conversations, providing them with information about the facilities, research, news, upcoming events, etc. The system utilises the state-of-the-art GPT-3.5 model to generate such information along with domain-general conversations and facial expressions based on prompt engineering.
翻訳日:2023-08-30 14:40:41 公開日:2023-08-29
# コードスイッチングのトリガーとしての共有語彙項目

Shared Lexical Items as Triggers of Code Switching ( http://arxiv.org/abs/2308.15209v1 )

ライセンス: Link先を確認
Shuly Wintner and Safaa Shehadi and Yuli Zeira and Doreen Osmelak and Yuval Nov(参考訳) バイリンガル話者はなぜコードスイッチ(2つの言語を混ぜる)するのか? この自然かつユビキタスな現象を説明するいくつかの理論の中で、トリガー仮説は、スイッチポイントに隣接する語彙的トリガー(特に認識と固有名)の存在に関するコードスイッチングに関するものである。 3つの言語ペアの5つの大きなデータセットに基づいて、話し言葉と書き言葉の両方の対話を反映した、より豊かでより微妙なトリガー仮説の探求を提供する。 以上の結果から,両言語が共有するメンタルレキシコンに存在すると仮定される単語は,実際にコードスイッチングが引き起こされること,スイッチポイントから引き起こされるトリガーの距離に依存すること,トリガーが切替に先行するか否か,あるいはそれに続くか,トリガーワードの語源には依存しないことが示唆された。 したがって,語彙的トリガとコードスイッチの関係に関するいくつかの仮説に対して,強固で堅牢な証拠に基づく確認を行う。

Why do bilingual speakers code-switch (mix their two languages)? Among the several theories that attempt to explain this natural and ubiquitous phenomenon, the Triggering Hypothesis relates code-switching to the presence of lexical triggers, specifically cognates and proper names, adjacent to the switch point. We provide a fuller, more nuanced and refined exploration of the triggering hypothesis, based on five large datasets in three language pairs, reflecting both spoken and written bilingual interactions. Our results show that words that are assumed to reside in a mental lexicon shared by both languages indeed trigger code-switching; that the tendency to switch depends on the distance of the trigger from the switch point; and on whether the trigger precedes or succeeds the switch; but not on the etymology of the trigger words. We thus provide strong, robust, evidence-based confirmation to several hypotheses on the relationships between lexical triggers and code-switching.
翻訳日:2023-08-30 14:40:26 公開日:2023-08-29
# Fact Checking Explanations の生成のベンチマーク

Benchmarking the Generation of Fact Checking Explanations ( http://arxiv.org/abs/2308.15202v1 )

ライセンス: Link先を確認
Daniel Russo, Serra Sinem Tekiroglu, Marco Guerini(参考訳) 誤報と戦うことは難しいが、重要な課題だ。 手動の事実チェックに携わる専門家が増えているにもかかわらず、この活動は時間がかかり、毎日生産されるフェイクニュースの量に追随することができない。 したがって、このプロセスの自動化は誤った情報を抑制するのに役立つ。 これまでのところ、研究者は主に主張の妥当性の分類に焦点を当ててきた。 そこで本論文では, 正当性(主張が真か偽かのどちらかに分類される理由をテキストで説明する)の生成に対処し, 新たなデータセットと高度なベースラインでベンチマークする。 特に,非構造化知識(ニュース記事)に対する要約アプローチに注目し,抽出的・抽象的戦略を実験する。 結果の汎用性を評価するために,2つの異なるスタイルと構造からなるデータセットを用いた。 その結果,生産要約の正当化はクレーム情報から恩恵を受け,特にクレーム駆動抽出によって抽象的な要約性能が向上することが示唆された。 最後に、クロスデータセット実験は性能低下に苦しむが、2つのデータセットの組み合わせでトレーニングされたユニークなモデルは、効率的な方法でスタイル情報を保持できることを示す。

Fighting misinformation is a challenging, yet crucial, task. Despite the growing number of experts being involved in manual fact-checking, this activity is time-consuming and cannot keep up with the ever-increasing amount of Fake News produced daily. Hence, automating this process is necessary to help curb misinformation. Thus far, researchers have mainly focused on claim veracity classification. In this paper, instead, we address the generation of justifications (textual explanation of why a claim is classified as either true or false) and benchmark it with novel datasets and advanced baselines. In particular, we focus on summarization approaches over unstructured knowledge (i.e. news articles) and we experiment with several extractive and abstractive strategies. We employed two datasets with different styles and structures, in order to assess the generalizability of our findings. Results show that in justification production summarization benefits from the claim information, and, in particular, that a claim-driven extractive step improves abstractive summarization performances. Finally, we show that although cross-dataset experiments suffer from performance degradation, a unique model trained on a combination of the two datasets is able to retain style information in an efficient manner.
翻訳日:2023-08-30 14:40:05 公開日:2023-08-29
# 次はどこへ行くの? ヒューマンモビリティ予測器としての大規模言語モデル

Where Would I Go Next? Large Language Models as Human Mobility Predictors ( http://arxiv.org/abs/2308.15197v1 )

ライセンス: Link先を確認
Xinglei Wang, Meng Fang, Zichao Zeng, Tao Cheng(参考訳) 正確な人間の移動予測は、疫病モデル、輸送計画、緊急対応など、さまざまな領域で多くの重要な応用を支えている。 モビリティデータのスパース性と人々の日常生活活動の確率的性質から、人々の位置を正確に予測することは課題である。 最近開発された大規模言語モデル(LLM)は、多くの言語関連タスクにおいて優れた性能を示したが、人間のモビリティ研究への適用性はまだ明らかになっていない。 このギャップに対処するため、本論文は人間の移動予測タスクにおけるLLMの可能性について考察する。 人間の移動データを解析するためのLLMの言語理解と推論能力を活用する新しい手法 LLM-Mob を提案する。 本研究では,人間の移動における長期的・短期的依存を捉え,予測対象の時間情報を用いて時間認識予測を可能にするために,歴史的滞留と文脈留置の概念を提案する。 さらに,LLMがより正確な予測を生成できるように,文脈包摂的プロンプトを設計する。 本手法の総合評価により, LLM-Mobは, 高精度かつ解釈可能な予測を行う上で優れており, 人体移動予測技術の進歩におけるLLMの未完成の可能性を強調している。 我々の研究は、複雑なドメイン固有モデルの構築から、言語命令を通じて正確な予測を行う汎用LLMへの移行という、人間のモビリティモデリングにおける重要なパラダイムシフトを示唆している。 この作業のコードはhttps://github.com/xlwang233/llm-mobで入手できる。

Accurate human mobility prediction underpins many important applications across a variety of domains, including epidemic modelling, transport planning, and emergency responses. Due to the sparsity of mobility data and the stochastic nature of people's daily activities, achieving precise predictions of people's locations remains a challenge. While recently developed large language models (LLMs) have demonstrated superior performance across numerous language-related tasks, their applicability to human mobility studies remains unexplored. Addressing this gap, this article delves into the potential of LLMs for human mobility prediction tasks. We introduce a novel method, LLM-Mob, which leverages the language understanding and reasoning capabilities of LLMs for analysing human mobility data. We present concepts of historical stays and context stays to capture both long-term and short-term dependencies in human movement and enable time-aware prediction by using time information of the prediction target. Additionally, we design context-inclusive prompts that enable LLMs to generate more accurate predictions. Comprehensive evaluations of our method reveal that LLM-Mob excels in providing accurate and interpretable predictions, highlighting the untapped potential of LLMs in advancing human mobility prediction techniques. We posit that our research marks a significant paradigm shift in human mobility modelling, transitioning from building complex domain-specific models to harnessing general-purpose LLMs that yield accurate predictions through language instructions. The code for this work is available at https://github.com/xlwang233/LLM-Mob.
翻訳日:2023-08-30 14:39:46 公開日:2023-08-29
# 反現実的説明者の集まり

Ensemble of Counterfactual Explainers ( http://arxiv.org/abs/2308.15194v1 )

ライセンス: Link先を確認
Riccardo Guidotti, Salvatore Ruggieri(参考訳) 説明可能な人工知能 (xai) では、最小性、行動可能性、安定性、多様性、可能性、判別力といった反事実インスタンスの望ましい特性に焦点を当てた、いくつかの反事実的説明が提案されている。 我々は,これらの特性のサブセットのみを提供する弱い説明器を,それらすべてをカバーする強力な手法に拡張する反事実説明器のアンサンブルを提案する。 このアンサンブルは、インスタンスと機能のサンプルで弱い説明器を実行し、多様性駆動の選択関数を利用して結果を組み合わせる。 この手法はモデル非依存であり、オートエンコーダに基づくラップ方式により、データ非依存である。

In eXplainable Artificial Intelligence (XAI), several counterfactual explainers have been proposed, each focusing on some desirable properties of counterfactual instances: minimality, actionability, stability, diversity, plausibility, discriminative power. We propose an ensemble of counterfactual explainers that boosts weak explainers, which provide only a subset of such properties, to a powerful method covering all of them. The ensemble runs weak explainers on a sample of instances and of features, and it combines their results by exploiting a diversity-driven selection function. The method is model-agnostic and, through a wrapping approach based on autoencoders, it is also data-agnostic.
翻訳日:2023-08-30 14:39:20 公開日:2023-08-29
# 大規模言語モデルによる心理的カウンセリングの強化:非プロのための多面的意思決定支援システム

Enhancing Psychological Counseling with Large Language Model: A Multifaceted Decision-Support System for Non-Professionals ( http://arxiv.org/abs/2308.15192v1 )

ライセンス: Link先を確認
Guanghui Fu, Qing Zhao, Jianqiang Li, Dan Luo, Changwei Song, Wei Zhai, Shuo Liu, Fan Wang, Yan Wang, Lijuan Cheng, Juan Zhang, Bing Xiang Yang(参考訳) ソーシャルメディアの現代的状況では、多くのユーザーが否定的な感情を表現しており、中には強い自殺意図を示すものもある。 この状況は、効果的な精神介入を遂行できる訓練された精神カウンセラーの必要性の根底にある。 しかしながら、これらのプロフェッショナルの開発は、しばしば命令的だが時間を要する作業である。 その結果、この能力における非専門家やボランティアの動員が差し迫った懸念となっている。 人工知能の能力、特に最近の大規模言語モデルの進歩を活用することで、この課題に対する有効な解決策が得られます。 本稿では,非専門家がオンラインユーザ談話に心理的介入を行うのを完全支援するために,大規模言語モデルの構築を基礎とした新しいモデルを提案する。 この枠組みは、非専門的なカウンセラーの力を有意義に活用することができる。 専門知識の異なる10人の専門的心理カウンセラーを対象に,5つの批判的側面からシステムを評価する総合的な調査を行った。 その結果,本システムでは,患者の問題を相対的精度で分析し,プロレベルの方策を推奨し,非専門職のサポートを強化することができることを確認した。 この研究は、心理学の分野における大規模言語モデルの適用の説得力のある検証となり、コミュニティベースのメンタルヘルスサポートの新しいパラダイムの基礎となる。

In the contemporary landscape of social media, an alarming number of users express negative emotions, some of which manifest as strong suicidal intentions. This situation underscores a profound need for trained psychological counselors who can enact effective mental interventions. However, the development of these professionals is often an imperative but time-consuming task. Consequently, the mobilization of non-professionals or volunteers in this capacity emerges as a pressing concern. Leveraging the capabilities of artificial intelligence, and in particular, the recent advances in large language models, offers a viable solution to this challenge. This paper introduces a novel model constructed on the foundation of large language models to fully assist non-professionals in providing psychological interventions on online user discourses. This framework makes it plausible to harness the power of non-professional counselors in a meaningful way. A comprehensive study was conducted involving ten professional psychological counselors of varying expertise, evaluating the system across five critical dimensions. The findings affirm that our system is capable of analyzing patients' issues with relative accuracy and proffering professional-level strategies recommendations, thereby enhancing support for non-professionals. This research serves as a compelling validation of the application of large language models in the field of psychology and lays the groundwork for a new paradigm of community-based mental health support.
翻訳日:2023-08-30 14:39:07 公開日:2023-08-29
# 非決定性計画領域におけるltlfベストエフォート合成

LTLf Best-Effort Synthesis in Nondeterministic Planning Domains ( http://arxiv.org/abs/2308.15188v1 )

ライセンス: Link先を確認
Giuseppe De Giacomo, Gianmarco Parretti, Shufang Zhu(参考訳) 有限トレース(ltlf)上の線形時相論理で表される目標に対する完全可観測非決定性領域(fond)における最善の戦略(いわゆる計画)について検討する。 最善戦略の概念は、可能なあらゆる非決定論的環境反応に対する目標を達成するエージェント戦略が存在しない場合にも対処するために導入された。 このような戦略は可能ならば目標を達成し、そうしなければ最善を尽くします。 非決定論的計画領域の特異性を生かしたベストエフォート戦略を合成するゲーム理論手法を提案する。 我々はその正しさを正式に示し、その効果を実験的に実証し、計画領域を汎用環境仕様として再表現することに基づく直接的最善合成アプローチに関してはるかに高いスケーラビリティを示す。

We study best-effort strategies (aka plans) in fully observable nondeterministic domains (FOND) for goals expressed in Linear Temporal Logic on Finite Traces (LTLf). The notion of best-effort strategy has been introduced to also deal with the scenario when no agent strategy exists that fulfills the goal against every possible nondeterministic environment reaction. Such strategies fulfill the goal if possible, and do their best to do so otherwise. We present a game-theoretic technique for synthesizing best-effort strategies that exploit the specificity of nondeterministic planning domains. We formally show its correctness and demonstrate its effectiveness experimentally, exhibiting a much greater scalability with respect to a direct best-effort synthesis approach based on re-expressing the planning domain as generic environment specifications.
翻訳日:2023-08-30 14:38:45 公開日:2023-08-29
# トーリック変種における超曲面のホッジ理論と量子物理学の最近の発展

Hodge Theory of Hypersurfaces in Toric Varieties and Recent Developments in Quantum Physics ( http://arxiv.org/abs/2308.15187v1 )

ライセンス: Link先を確認
Victor V. Batyrev(参考訳) これは1993年7月11日にエッセン大学で行われた著者のリハビリテーションである。 写本には2つの部分がある。 1つ目は、ゴレンシュタイントーリック・ファノ多様体におけるカラビ・ヤウ超曲面の鏡の組合せ構成である。 2つ目は、代数トーリのアフィン超曲面の混合ホッジ構造の変化と、一般化された超幾何函数のゲルファント・カプラノフ・ゼレヴィンスキー理論との関係に関する著者による結果と、トーリック多様体のカラビ・ヤウ超曲面のミラー対称性への応用である。

This is the author's Habilitation which took place at University of Essen on July 11, 1993. The manuscript contains two parts. The first one is devoted to the author's combinatorial construction of mirrors of Calabi-Yau hypersurfaces in Gorenstein toric Fano varieties. The second one contains author's results on the variation of mixed Hodge structures of affine hypersurfaces in algebraic tori and their connection to Gelfand-Kapranov-Zelevinsky theory of generalized hypergeometric functions and their applications to the mirror symmetry for Calabi-Yau hypersurfaces in toric varieties.
翻訳日:2023-08-30 14:38:31 公開日:2023-08-29
# 到達性と安全性の環境仕様に基づくltlf合成

LTLf Synthesis Under Environment Specifications for Reachability and Safety Properties ( http://arxiv.org/abs/2308.15184v1 )

ライセンス: Link先を確認
Benjamin Aminof, Giuseppe De Giacomo, Antonio Di Stasio, Hugo Francon, Sasha Rubin, Shufang Zhu(参考訳) 本稿では,環境仕様下でのLTLf合成を任意の到達性と安全性のために検討する。 我々はエージェントタスクと環境仕様の両方のプロパティを考慮に入れ,合成アルゴリズムの完全なランドスケープを提供する。 いずれの場合も、特定のアルゴリズム(問題の最適wrt複雑性)を考案し、その正確性を証明する。 アルゴリズムは一般的なビルディングブロックを異なる方法で組み合わせる。 文献で研究されている例もあれば、初めて研究される例もある。

In this paper, we study LTLf synthesis under environment specifications for arbitrary reachability and safety properties. We consider both kinds of properties for both agent tasks and environment specifications, providing a complete landscape of synthesis algorithms. For each case, we devise a specific algorithm (optimal wrt complexity of the problem) and prove its correctness. The algorithms combine common building blocks in different ways. While some cases are already studied in literature others are studied here for the first time.
翻訳日:2023-08-30 14:38:18 公開日:2023-08-29
# ランダム森林とLASSOによる小面積推定

Small Area Estimation with Random Forests and the LASSO ( http://arxiv.org/abs/2308.15180v1 )

ライセンス: Link先を確認
Victoire Michal, Jon Wakefield, Alexandra M. Schmidt, Alicia Cavanaugh, Brian Robinson and Jill Baumgartner(参考訳) 本研究では,サンプルデータを含む領域数が推定対象面積のごく一部である場合,モデルに基づく小面積推定のためのランダム森林法とLASSO法を検討する。 調査対象地域,調査対象地域,およびすべての地域において,外部からの補助情報が利用可能であり,目的は利害関係の予測に補助変数を使用することである。 我々は、アラルレベルのランダム林とLASSOアプローチを、頻繁な前方変動選択法とベイズ縮小法と比較した。 さらに,ランダム林とラッソ林から得られた推定の不確実性を測定するために,同一分布データの仮定を緩和する分割共形手順の修正を提案する。 この研究は、第6次living standard survey(glss)と2010年の人口調査から得られたガーナのデータを動機としている。 両データセットを用いて平均世帯ログ消費量を推定する。 結果変数は全領域の3\%(5019中136)のGLSSでのみ測定され、両方のデータセットから170以上の潜在的な共変量が存在する。 検討した4つのモデリング手法のうち, ベイズ収縮は, バイアス, mse, 予測区間被覆率, スコアの点で, クロス・バリデーション・スタディにより評価した。 GAMA領域にまたがる1.3倍の変動を示すログ消費地域推定値として,面積間の実質的な変動がみられた。 西部は最も貧しい地域であり、アクラ大都市圏は最も裕福な地域である。

We consider random forests and LASSO methods for model-based small area estimation when the number of areas with sampled data is a small fraction of the total areas for which estimates are required. Abundant auxiliary information is available for the sampled areas, from the survey, and for all areas, from an exterior source, and the goal is to use auxiliary variables to predict the outcome of interest. We compare areal-level random forests and LASSO approaches to a frequentist forward variable selection approach and a Bayesian shrinkage method. Further, to measure the uncertainty of estimates obtained from random forests and the LASSO, we propose a modification of the split conformal procedure that relaxes the assumption of identically distributed data. This work is motivated by Ghanaian data available from the sixth Living Standard Survey (GLSS) and the 2010 Population and Housing Census. We estimate the areal mean household log consumption using both datasets. The outcome variable is measured only in the GLSS for 3\% of all the areas (136 out of 5019) and more than 170 potential covariates are available from both datasets. Among the four modelling methods considered, the Bayesian shrinkage performed the best in terms of bias, MSE and prediction interval coverages and scores, as assessed through a cross-validation study. We find substantial between-area variation, the log consumption areal point estimates showing a 1.3-fold variation across the GAMA region. The western areas are the poorest while the Accra Metropolitan Area district gathers the richest areas.
翻訳日:2023-08-30 14:38:11 公開日:2023-08-29
# 詳細分析による初等中等教育における回転拡張蒸留

Rotation Augmented Distillation for Exemplar-Free Class Incremental Learning with Detailed Analysis ( http://arxiv.org/abs/2308.15236v1 )

ライセンス: Link先を確認
Xiuwei Chen, Xiaobin Chang(参考訳) クラスインクリメンタル学習(cil)は、インクリメンタルタスクに沿って、古いクラスと新しいクラスの両方を認識することを目的としている。 cilのディープニューラルネットワークは壊滅的な忘れることに悩まされ、いくつかのアプローチは、この問題を軽減するために、exemplar-based setとして知られる以前のタスクからのexemplarの節約に依存している。 反対に,本論文では,古いクラスサンプルを保存しないexemplar-free設定に着目した。 新しいクラスからの監督だけで深層機能学習の可塑性と安定性のバランスをとることはより難しい。 既存のExemplar-Free CILメソッドの多くは、全体的なパフォーマンスのみを報告し、さらなる分析を欠いている。 本研究では, 相補的指標を用いて異なる手法を詳細に検討する。 さらに, 簡易なCIL法である回転拡張蒸留法 (RAD) を提案し, この手法は, Exemplar-Free 設定下での最上位性能の1つを実現する。 詳細な分析によると、RADは塑性と安定性のバランスが優れている。 最後に、最先端メソッドのさらなるデモと比較のために、初期クラスを減らした、より困難な例のない設定を行う。

Class incremental learning (CIL) aims to recognize both the old and new classes along the increment tasks. Deep neural networks in CIL suffer from catastrophic forgetting and some approaches rely on saving exemplars from previous tasks, known as the exemplar-based setting, to alleviate this problem. On the contrary, this paper focuses on the Exemplar-Free setting with no old class sample preserved. Balancing the plasticity and stability in deep feature learning with only supervision from new classes is more challenging. Most existing Exemplar-Free CIL methods report the overall performance only and lack further analysis. In this work, different methods are examined with complementary metrics in greater detail. Moreover, we propose a simple CIL method, Rotation Augmented Distillation (RAD), which achieves one of the top-tier performances under the Exemplar-Free setting. Detailed analysis shows our RAD benefits from the superior balance between plasticity and stability. Finally, more challenging exemplar-free settings with fewer initial classes are undertaken for further demonstrations and comparisons among the state-of-the-art methods.
翻訳日:2023-08-30 14:30:13 公開日:2023-08-29
# PronounFlow: 文中の名詞を校正するためのハイブリッドアプローチ

PronounFlow: A Hybrid Approach for Calibrating Pronouns in Sentences ( http://arxiv.org/abs/2308.15235v1 )

ライセンス: Link先を確認
Nicos Isaak(参考訳) あらゆる本をめくったり、歌の歌詞を聞いたりすると、特定の場合、特に機械にとって理解が妨げられる代名詞が出てくる。 認知機械が生活に広まるにつれ、様々な課題の下で代名詞を解決するために多くのシステムが開発されてきた。 これを踏まえると、文中の代名詞を曖昧にすることができるシステムを持つことは、人間に見られるような常識と推論能力を持つ機械の寄付に寄与すると考えられている。 しかし、これらのシステムが現代英語で直面する問題の一つは、男性、女性、または複数形を使って問題を全て回避しようとする、ジェンダー代名詞の欠如である。 人間性(humanity)は全身的な意味でのシステムの構築を目標としているため、文字中の代名詞(複数またはエピセン語など)は、必ずしも性別が分かっていない不特定な実体を指す。 これは既存のコリファレンス解決システムに余分な障壁を与えませんか? これらの質問に答えるために、両方の世界の長所を生かしたニューラルシンボリックシステムの実装を通じて、代名詞と実体で英語の文を読み、どれが互いに結びついていないかを識別し、バイアスを避けるために使用するかを提案するシステムであるPronounFlowを採用している。 実験の結果,PronounFlowは文中の代名詞を代用するだけでなく,代名詞不明瞭化処理による代名詞解決システムの実現にも有効であることがわかった。

Flip through any book or listen to any song lyrics, and you will come across pronouns that, in certain cases, can hinder meaning comprehension, especially for machines. As the role of having cognitive machines becomes pervasive in our lives, numerous systems have been developed to resolve pronouns under various challenges. Commensurate with this, it is believed that having systems able to disambiguate pronouns in sentences will help towards the endowment of machines with commonsense and reasoning abilities like those found in humans. However, one problem these systems face with modern English is the lack of gender pronouns, where people try to alternate by using masculine, feminine, or plural to avoid the whole issue. Since humanity aims to the building of systems in the full-bodied sense we usually reserve for people, what happens when pronouns in written text, like plural or epicene ones, refer to unspecified entities whose gender is not necessarily known? Wouldn't that put extra barriers to existing coreference resolution systems? Towards answering those questions, through the implementation of a neural-symbolic system that utilizes the best of both worlds, we are employing PronounFlow, a system that reads any English sentence with pronouns and entities, identifies which of them are not tied to each other, and makes suggestions on which to use to avoid biases. Undertaken experiments show that PronounFlow not only alternates pronouns in sentences based on the collective human knowledge around us but also considerably helps coreference resolution systems with the pronoun disambiguation process.
翻訳日:2023-08-30 14:29:56 公開日:2023-08-29
# 解釈解析と組み合わせた分類対応ニューラルトピックモデル - 衝突分類のための

Classification-Aware Neural Topic Model Combined With Interpretable Analysis -- For Conflict Classification ( http://arxiv.org/abs/2308.15232v1 )

ライセンス: Link先を確認
Tianyu Liang, Yida Mu, Soonho Kim, Darline Larissa Kengne Kuate, Julie Lang, Rob Vos, Xingyi Song(参考訳) 多くの紛争が常に世界に影響を与える。 本稿では,これらの紛争を効果的に分析するために,紛争情報分類とトピック発見のための分類認識ニューラルネットワーク(CANTM-IA)を提案する。 このモデルは、解釈可能性分析の導入により、分類結果と発見トピックの信頼できる解釈を提供する。 同時に、モデルアーキテクチャに解釈を導入し、モデルの分類性能を改善し、データの詳細にさらに焦点を合わせられるようにする。 最後に、モデルアーキテクチャはモデルの複雑さを減らすために最適化される。

A large number of conflict events are affecting the world all the time. In order to analyse such conflict events effectively, this paper presents a Classification-Aware Neural Topic Model (CANTM-IA) for Conflict Information Classification and Topic Discovery. The model provides a reliable interpretation of classification results and discovered topics by introducing interpretability analysis. At the same time, interpretation is introduced into the model architecture to improve the classification performance of the model and to allow interpretation to focus further on the details of the data. Finally, the model architecture is optimised to reduce the complexity of the model.
翻訳日:2023-08-30 14:29:26 公開日:2023-08-29
# LLMを用いた多人数ゴールトラッキング:事前学習, 微調整, プロンプトエンジニアリングの比較

Multi-party Goal Tracking with LLMs: Comparing Pre-training, Fine-tuning, and Prompt Engineering ( http://arxiv.org/abs/2308.15231v1 )

ライセンス: Link先を確認
Angus Addlesee, Weronika Siei\'nska, Nancie Gunson, Daniel Hern\'andez Garcia, Christian Dondrup, Oliver Lemon(参考訳) 本稿では,現在のLarge Language Models(LLMs)がタスク指向多人数会話(MPCs)をどの程度捉えることができるかを評価する。 患者と同伴者、そして病院のソーシャルロボットの間に29個のmpcを記録・転写した。 そして、このコーパスをマルチパーティのゴールトラッキングとインテントスロット認識にアノテートした。 人々は目標を共有し、お互いの目標に答え、他の人の目標をMPCで提供します。 我々はT5を微調整し、LEDでDialogLMをトレーニングするための事前訓練タスクを作成し、GPT-3.5-turboで迅速なエンジニアリング技術を採用し、この新しいタスクを限られたデータで完成させる方法を決定する。 gpt-3.5-turboは、数ショット設定で他を著しく上回った。 言い換える」スタイルのプロンプトは、コーパスの7%をアノテートされた会話の例として与えると、最高の実行方法であった。 目標追跡MPCの62.32%、インテントスロット認識MPCの69.57%を正しく注釈付けした。 ストーリー'スタイルはモデル幻覚を素早く増やし、安全クリティカルな設定で展開すれば有害になる可能性がある。 我々は、マルチパーティ会話は依然として最先端のllmに挑戦していると結論づける。

This paper evaluates the extent to which current Large Language Models (LLMs) can capture task-oriented multi-party conversations (MPCs). We have recorded and transcribed 29 MPCs between patients, their companions, and a social robot in a hospital. We then annotated this corpus for multi-party goal-tracking and intent-slot recognition. People share goals, answer each other's goals, and provide other people's goals in MPCs - none of which occur in dyadic interactions. To understand user goals in MPCs, we compared three methods in zero-shot and few-shot settings: we fine-tuned T5, created pre-training tasks to train DialogLM using LED, and employed prompt engineering techniques with GPT-3.5-turbo, to determine which approach can complete this novel task with limited data. GPT-3.5-turbo significantly outperformed the others in a few-shot setting. The `reasoning' style prompt, when given 7% of the corpus as example annotated conversations, was the best performing method. It correctly annotated 62.32% of the goal tracking MPCs, and 69.57% of the intent-slot recognition MPCs. A `story' style prompt increased model hallucination, which could be detrimental if deployed in safety-critical settings. We conclude that multi-party conversations still challenge state-of-the-art LLMs.
翻訳日:2023-08-30 14:29:18 公開日:2023-08-29
# 変分オートエンコーダによる未確認ユーザへの推薦

Providing Previously Unseen Users Fair Recommendations Using Variational Autoencoders ( http://arxiv.org/abs/2308.15230v1 )

ライセンス: Link先を確認
Bj{\o}rnar Vass{\o}y, Helge Langseth, Benjamin Kille(参考訳) 機械学習における公平性の定義は、例えば、ユーザの性別や年齢がモデルに影響を与えるべきではないなど、人口統計的なユーザ情報に制約のあるモデルを必要とする。 パーソナライズされたレコメンデーションシステムは、明示的なユーザフォーカスとユーザモデリングを通じて、特にこの定義に違反しがちである。 明示的なユーザモデリングは、多くのレコメンデーションシステムにおいて、目に見えないユーザにレコメンデーションを提供することができない側面でもある。 本稿では,変分オートエンコーダに基づくレコメンダシステムにおいて,人口統計情報の符号化を制限して識別を緩和する新しい手法を提案する。 このアプローチはトレーニングデータに表現されていないユーザに対して、公正なレコメンデーションを付与し、評価することができる。

An emerging definition of fairness in machine learning requires that models are oblivious to demographic user information, e.g., a user's gender or age should not influence the model. Personalized recommender systems are particularly prone to violating this definition through their explicit user focus and user modelling. Explicit user modelling is also an aspect that makes many recommender systems incapable of providing hitherto unseen users with recommendations. We propose novel approaches for mitigating discrimination in Variational Autoencoder-based recommender systems by limiting the encoding of demographic information. The approaches are capable of, and evaluated on, providing users that are not represented in the training data with fair recommendations.
翻訳日:2023-08-30 14:28:54 公開日:2023-08-29
# フラクソニウム量子ビット上の高忠実トランスモンカプラ活性化CCZゲート

High-fidelity transmon coupler activated CCZ gate on fluxonium qubits ( http://arxiv.org/abs/2308.15229v1 )

ライセンス: Link先を確認
Ilya A. Simakov, Grigoriy S. Mazhorin, Ilya N. Moskalenko, Seidali S. Seidov, Ilya S. Besedin(参考訳) トッフォリゲートは量子情報理論において特別な位置を占める。 複雑な量子アルゴリズムを効率的に実装するための道を開く。 超伝導量子ビットに基づく量子プロセッサの著しい進歩にもかかわらず、高忠実度3量子ビット演算の実現は依然として難しい問題である。 本稿では,トランスモン量子ビットを介して容量的に接続されたフラックスニウム上に高忠実なcczゲートを,カプラ上のマイクロ波パルスにより活性化する新しい方法を提案する。 アプローチの主な利点は、相対的速さ、校正の単純さ、望ましくない縦ZZ相互作用の顕著な抑制である。 ノイズレスモデルでは,95n長ゲートの99.99%以上の忠実度を実測回路パラメータで数値シミュレーションし,従来のデコヒーレンス率で約0.25%の誤差を推定する。

The Toffoli gate takes a special place in the quantum information theory. It opens up a path for efficient implementation of complex quantum algorithms. Despite tremendous progress of the quantum processors based on the superconducting qubits, realization of a high-fidelity three-qubit operation is still a challenging problem. Here, we propose a novel way to perform a high-fidelity CCZ gate on fluxoniums capacitively connected via a transmon qubit, activated by a microwave pulse on the coupler. The main advantages of the approach are relative quickness, simplicity of calibration and significant suppression of the unwanted longitudinal ZZ interaction. We provide numerical simulation of 95-ns long gate of higher than 99.99% fidelity with realistic circuit parameters in the noiseless model and estimate an error of about 0.25% under the conventional decoherence rates.
翻訳日:2023-08-30 14:28:42 公開日:2023-08-29
# CLIPTrans:マルチモーダル機械翻訳のための事前学習モデルによる視覚的知識の伝達

CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine Translation ( http://arxiv.org/abs/2308.15226v1 )

ライセンス: Link先を確認
Devaansh Gupta, Siddhant Kharbanda, Jiawei Zhou, Wanhua Li, Hanspeter Pfister, Donglai Wei(参考訳) 視覚的知識でニューラルマシン翻訳(NMT)を強化するマルチモーダル機械翻訳(MMT)システムの開発への関心が高まっている。 この問題の設定では、トレーニング中に画像を補助情報として使用し、最近では推論中にその使用を廃止する。 この目的に向けて、以前の作品は、特に低リソース言語のための、注釈付き多言語視覚言語データの不足のため、強力なmmtモデルをスクラッチからトレーニングする上での課題に直面している。 同時に、NMTのための多言語事前学習モデルや、視覚言語タスクのための多モーダル事前学習モデルが流入しており、特に英語では例外的な一般化能力を示している。 しかし、これらは生成タスクに整列したマルチモーダルな多言語機能を提供していないため、MTMには直接適用されない。 この問題を軽減するために,MMT の複雑なモジュールを設計する代わりに,独立に事前訓練されたマルチモーダル M-CLIP と多言語 mBART を適応した CLIPTrans を提案する。 埋め込み空間を整列させるために、mBARTは、軽量マッピングネットワークを通じて生成されたプレフィックスシーケンスによってM-CLIP特徴に条件付けされる。 これを2段階のパイプラインでトレーニングし、実際の翻訳タスクの前にイメージキャプションでモデルをウォームアップする。 実験を通じて、このフレームワークの利点を実証し、その結果、平均+2.67 BLEUで標準ベンチマークの最先端を推し進める。 コードはwww.github.com/devaansh100/CLIPTransで参照できる。

There has been a growing interest in developing multimodal machine translation (MMT) systems that enhance neural machine translation (NMT) with visual knowledge. This problem setup involves using images as auxiliary information during training, and more recently, eliminating their use during inference. Towards this end, previous works face a challenge in training powerful MMT models from scratch due to the scarcity of annotated multilingual vision-language data, especially for low-resource languages. Simultaneously, there has been an influx of multilingual pre-trained models for NMT and multimodal pre-trained models for vision-language tasks, primarily in English, which have shown exceptional generalisation ability. However, these are not directly applicable to MMT since they do not provide aligned multimodal multilingual features for generative tasks. To alleviate this issue, instead of designing complex modules for MMT, we propose CLIPTrans, which simply adapts the independently pre-trained multimodal M-CLIP and the multilingual mBART. In order to align their embedding spaces, mBART is conditioned on the M-CLIP features by a prefix sequence generated through a lightweight mapping network. We train this in a two-stage pipeline which warms up the model with image captioning before the actual translation task. Through experiments, we demonstrate the merits of this framework and consequently push forward the state-of-the-art across standard benchmarks by an average of +2.67 BLEU. The code can be found at www.github.com/devaansh100/CLIPTrans.
翻訳日:2023-08-30 14:28:27 公開日:2023-08-29
# DDMからDNNへ:プロセスデータと意思決定モデルを用いて人間とAIのインタラクションを改善する

From DDMs to DNNs: Using process data and models of decision-making to improve human-AI interactions ( http://arxiv.org/abs/2308.15225v1 )

ライセンス: Link先を確認
Mrugsen Nagsen Gopnarayan, Jaan Aru, Sebastian Gluth(参考訳) 過去数十年にわたり、認知神経科学者や行動経済学者は意思決定の過程を詳細に記述し、時間とともに意思決定の出現をモデル化する価値を認識してきた。 例えば、決定に要する時間は、決定そのものだけでなく、真の隠れた選好についてより明らかにすることができる。 同様に、眼球運動や神経記録などの進行中の意思決定プロセスを追跡するデータは、決定が下されても、悪用できる重要な情報を含んでいる。 ここでは、人工知能(AI)の研究は、意思決定が時間とともにどのように現れるかについての洞察に強く焦点を合わせ、関連するプロセスデータを組み込んで、AIの予測を全般的および人間とAIのインタラクションで改善するのに役立つと論じる。 まず, ノイズの蓄積による決定を前提とした高度に確立された計算枠組みを導入し, 心理学, 神経科学, 経済学における実証研究を紹介する。 次に、マルチエージェントAIにおける現在のアプローチが、プロセスデータや意思決定のモデルをどの程度取り入れているかについて議論する。 最後に、AIのトレーニングと使用にエビデンス蓄積フレームワークをもっと原則的に組み込むことが、将来的には人間とAIのインタラクションを改善するのにどのように役立つかを概説する。

Over the past decades, cognitive neuroscientists and behavioral economists have recognized the value of describing the process of decision making in detail and modeling the emergence of decisions over time. For example, the time it takes to decide can reveal more about an agents true hidden preferences than only the decision itself. Similarly, data that track the ongoing decision process such as eye movements or neural recordings contain critical information that can be exploited, even if no decision is made. Here, we argue that artificial intelligence (AI) research would benefit from a stronger focus on insights about how decisions emerge over time and incorporate related process data to improve AI predictions in general and human-AI interactions in particular. First, we introduce a highly established computational framework that assumes decisions to emerge from the noisy accumulation of evidence, and we present related empirical work in psychology, neuroscience, and economics. Next, we discuss to what extent current approaches in multi-agent AI do or do not incorporate process data and models of decision making. Finally, we outline how a more principled inclusion of the evidence-accumulation framework into the training and use of AI can help to improve human-AI interactions in the future.
翻訳日:2023-08-30 14:28:04 公開日:2023-08-29
# 多変量時系列分類のための説明法の評価

Evaluating Explanation Methods for Multivariate Time Series Classification ( http://arxiv.org/abs/2308.15223v1 )

ライセンス: Link先を確認
Davide Italo Serramazza, Thu Trang Nguyen, Thach Le Nguyen, Georgiana Ifrim(参考訳) 多変量時系列分類は、データが時間と複数のチャンネルにまたがって記録されるアプリケーションにおいて重要な計算タスクである。 例えば、スマートウォッチは人の動きの加速度と方向を記録し、これらの信号は多変量時系列として記録される。 このデータを分類することで、人間の動きやフィットネスレベルなどの様々な特性を理解し予測することができる。 多くのアプリケーションでは、分類だけでは十分ではなく、モデルが何を学ぶかを分類すると同時に理解する必要があります(例えば、データ内の情報に基づいて、なぜ予測が与えられたのか)。 本稿では,多変量時系列分類(MTSC)に適した説明手法の分析と評価に焦点をあてる。 我々は,分類決定に最も関係のあるチャネルと時系列を指摘できる,塩分に基づく説明手法に注目した。 我々は,人気かつ正確な時系列分類器であるROCKETとdResNetと,SHAPとdCAMの2つを解析した。 これらの手法を3つの合成データセットと2つの実世界のデータセットで検討し,説明の量的・質的分析を行う。 チャネルの連結による多変量データセットのフラット化は,マルチ変量分類器を直接使用するだけでなく,mtscへのshapの適応も良好であることがわかった。 さらに、私たちが使用した一般的な合成データセットは時系列解析には適さないこともわかりました。

Multivariate time series classification is an important computational task arising in applications where data is recorded over time and over multiple channels. For example, a smartwatch can record the acceleration and orientation of a person's motion, and these signals are recorded as multivariate time series. We can classify this data to understand and predict human movement and various properties such as fitness levels. In many applications classification alone is not enough, we often need to classify but also understand what the model learns (e.g., why was a prediction given, based on what information in the data). The main focus of this paper is on analysing and evaluating explanation methods tailored to Multivariate Time Series Classification (MTSC). We focus on saliency-based explanation methods that can point out the most relevant channels and time series points for the classification decision. We analyse two popular and accurate multivariate time series classifiers, ROCKET and dResNet, as well as two popular explanation methods, SHAP and dCAM. We study these methods on 3 synthetic datasets and 2 real-world datasets and provide a quantitative and qualitative analysis of the explanations provided. We find that flattening the multivariate datasets by concatenating the channels works as well as using multivariate classifiers directly and adaptations of SHAP for MTSC work quite well. Additionally, we also find that the popular synthetic datasets we used are not suitable for time series analysis.
翻訳日:2023-08-30 14:27:38 公開日:2023-08-29
# Optron: ループでのトレーニングによる医用画像のレジストレーションの改善

Optron: Better Medical Image Registration via Training in the Loop ( http://arxiv.org/abs/2308.15216v1 )

ライセンス: Link先を確認
Yicheng Chen, Shengxiang Ji, Yuelin Xin, Kun Han, Xiaohui Xie(参考訳) これまで、医用画像登録の分野では、主に2つのパラダイム、従来の最適化ベースの方法とディープラーニングベースの方法があった。 これらのパラダイムにはそれぞれ長所があり、本研究では両方の世界を最大限に活用することを目指しています。 新しいディープラーニングモデルを開発する代わりに、シンプルで一般化可能な堅牢なトレーニングアーキテクチャを設計しました。 我々は,ループ内トレーニングの概念を組み込んだ一般的なトレーニングアーキテクチャである optron を提案する。 トレーニングループのプラグアンドプレイオプティマイザモジュールを通じて、ディープラーニングモデルの予測結果を反復的に最適化することにより、教師なしのトレーニングプロセスに擬似基底真理を導入する。 また、トレーニングプロセスを教師付きトレーニングに近づけることで、モデルのパフォーマンスと収束速度を継続的に改善することができる。 本手法はモデルとデータセットの様々な組み合わせで評価し, ixiデータセット上での最先端性能を実現し, 従来手法のトランスモーフを+1.6%dscで大幅に改善した。 さらに、Optronは他のモデルやデータセットで一貫してポジティブな結果を得た。 これは、VoxelMorph と ViT-V-Net の検証 DSC を、それぞれ IXI 上で +2.3% と +2.2% に増加させ、我々の方法の一般化可能性を示している。 私たちの実装はhttps://github.com/miraclefactory/optronで公開しています。

Previously, in the field of medical image registration, there are primarily two paradigms, the traditional optimization-based methods, and the deep-learning-based methods. Each of these paradigms has its advantages, and in this work, we aim to take the best of both worlds. Instead of developing a new deep learning model, we designed a robust training architecture that is simple and generalizable. We present Optron, a general training architecture incorporating the idea of training-in-the-loop. By iteratively optimizing the prediction result of a deep learning model through a plug-and-play optimizer module in the training loop, Optron introduces pseudo ground truth to an unsupervised training process. And by bringing the training process closer to that of supervised training, Optron can consistently improve the models' performance and convergence speed. We evaluated our method on various combinations of models and datasets, and we have achieved state-of-the-art performance on the IXI dataset, improving the previous state-of-the-art method TransMorph by a significant margin of +1.6% DSC. Moreover, Optron also consistently achieved positive results with other models and datasets. It increases the validation DSC for VoxelMorph and ViT-V-Net by +2.3% and +2.2% respectively on IXI, demonstrating our method's generalizability. Our implementation is publicly available at https://github.com/miraclefactory/optron
翻訳日:2023-08-30 14:27:14 公開日:2023-08-29
# インテリジェントタスク自動化のためのLLMのスマートフォン活用

Empowering LLM to use Smartphone for Intelligent Task Automation ( http://arxiv.org/abs/2308.15272v1 )

ライセンス: Link先を確認
Hao Wen, Yuanchun Li, Guohong Liu, Shanhui Zhao, Tao Yu, Toby Jia-Jun Li, Shiqi Jiang, Yunhao Liu, Yaqin Zhang, Yunxin Liu(参考訳) モバイルタスク自動化は,スマートフォンとの音声ベースのハンズフリーユーザインタラクションを実現するための,魅力的なテクニックだ。 しかし、既存のアプローチは、言語理解能力の制限と開発者やエンドユーザが必要とする非自明な手作業のため、スケーラビリティに乏しい。 言語理解と推論における大規模言語モデル(LLM)の最近の進歩は、タスク準備、理解、実行が統一言語モデルによって扱われるモデル中心の観点から問題を再考するきっかけとなった。 本研究では,任意のタスクを手作業で処理できるモバイルタスク自動化システムであるautodroidを紹介する。 重要な洞察は、llmの共通センス知識と、アプリケーションのドメイン固有の知識を自動動的解析によって組み合わせることです。 主なコンポーネントには、uiとllmを橋渡しする機能対応のui表現方法、llmのアプリ固有のドメイン知識を強化する探索ベースのメモリ注入技術、モデル推論のコストを削減するマルチグラニュラ性クエリ最適化モジュールなどがある。 我々はAutoDroidを、オンラインGPT-4/GPT-3.5やオンデバイスVicunaを含む市販のLCMと統合し、158の共通タスクを備えたメモリ拡張Androidタスク自動化のための新しいベンチマークでパフォーマンスを評価する。 その結果、AutoDroidは精度90.9%のアクションを正確に生成でき、成功率71.3%のタスクが完了し、GPT-4のベースラインを36.4%、39.7%上回った。 AutoDroidのデモ、ベンチマークスイート、ソースコードはhttps://autodroid-sys.github.io/で公開される。

Mobile task automation is an attractive technique that aims to enable voice-based hands-free user interaction with smartphones. However, existing approaches suffer from poor scalability due to the limited language understanding ability and the non-trivial manual efforts required from developers or end-users. The recent advance of large language models (LLMs) in language understanding and reasoning inspires us to rethink the problem from a model-centric perspective, where task preparation, comprehension, and execution are handled by a unified language model. In this work, we introduce AutoDroid, a mobile task automation system that can handle arbitrary tasks on any Android application without manual efforts. The key insight is to combine the commonsense knowledge of LLMs and domain-specific knowledge of apps through automated dynamic analysis. The main components include a functionality-aware UI representation method that bridges the UI with the LLM, exploration-based memory injection techniques that augment the app-specific domain knowledge of LLM, and a multi-granularity query optimization module that reduces the cost of model inference. We integrate AutoDroid with off-the-shelf LLMs including online GPT-4/GPT-3.5 and on-device Vicuna, and evaluate its performance on a new benchmark for memory-augmented Android task automation with 158 common tasks. The results demonstrated that AutoDroid is able to precisely generate actions with an accuracy of 90.9%, and complete tasks with a success rate of 71.3%, outperforming the GPT-4-powered baselines by 36.4% and 39.7%. The demo, benchmark suites, and source code of AutoDroid will be released at https://autodroid-sys.github.io/.
翻訳日:2023-08-30 14:20:09 公開日:2023-08-29
# NOVIS: 終端から終端に近いビデオインスタンスセグメンテーションの1例

NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation ( http://arxiv.org/abs/2308.15266v1 )

ライセンス: Link先を確認
Tim Meinhardt and Matt Feiszli and Yuchen Fan and Laura Leal-Taixe and Rakesh Ranjan(参考訳) 最近まで、ビデオインスタンスセグメンテーション(vis)コミュニティは、オフラインメソッドは一般的にフレームによるオンライン処理よりも優れているという共通の信念の下で運営されていた。 しかし、最近のオンライン手法の成功は、特に挑戦的で長いビデオシーケンスに対するこの信念に疑問を呈している。 我々は、この研究を最近の観察に対する反論として理解し、コミュニティに対して、ほぼオンラインに近いVISアプローチに焦点を合わせるよう訴える。 本論を支持するために,様々な処理パラダイムに関する詳細な解析と,新しいエンドツーエンドトレーニング可能なnovis(near-online video instance segmentation)法を提案する。 我々のトランスモデルでは,フレームクリップの時空間マスクボリュームを直接予測し,重複埋め込みによるクリップ間のインスタンス追跡を行う。 NOVISは、手作りの追跡ヒューリスティックを回避する最初のニアオンラインVISアプローチである。 我々は既存のすべてのVIS手法を大きなマージンで上回り、YouTube-VIS (2019/2021) とOVISベンチマークの両方で最新の結果を提供する。

Until recently, the Video Instance Segmentation (VIS) community operated under the common belief that offline methods are generally superior to a frame by frame online processing. However, the recent success of online methods questions this belief, in particular, for challenging and long video sequences. We understand this work as a rebuttal of those recent observations and an appeal to the community to focus on dedicated near-online VIS approaches. To support our argument, we present a detailed analysis on different processing paradigms and the new end-to-end trainable NOVIS (Near-Online Video Instance Segmentation) method. Our transformer-based model directly predicts spatio-temporal mask volumes for clips of frames and performs instance tracking between clips via overlap embeddings. NOVIS represents the first near-online VIS approach which avoids any handcrafted tracking heuristics. We outperform all existing VIS methods by large margins and provide new state-of-the-art results on both YouTube-VIS (2019/2021) and the OVIS benchmarks.
翻訳日:2023-08-30 14:19:38 公開日:2023-08-29
# OCR後モデルによるOCR性能向上:補正改善のためのグリフ埋め込みの採用

Enhancing OCR Performance through Post-OCR Models: Adopting Glyph Embedding for Improved Correction ( http://arxiv.org/abs/2308.15262v1 )

ライセンス: Link先を確認
Yung-Hsin Chen and Yuli Zhou(参考訳) 本研究は,ocrモデルの限界を克服するポストocrモデルの可能性を調査し,glyph埋め込みがポストocr補正性能に与える影響を検討する。 本研究では,OCR後修正モデルを開発した。 この手法の斬新さは、CharBERTと独自の埋め込み技術を用いてOCR出力を埋め込み、文字の視覚的特徴を捉えることである。 以上の結果から,OCR後の修正はOCRモデルの欠陥に効果的に対処し,グリフ埋め込みにより個々の単語を修正できるなど,優れた結果が得られることがわかった。

The study investigates the potential of post-OCR models to overcome limitations in OCR models and explores the impact of incorporating glyph embedding on post-OCR correction performance. In this study, we have developed our own post-OCR correction model. The novelty of our approach lies in embedding the OCR output using CharBERT and our unique embedding technique, capturing the visual characteristics of characters. Our findings show that post-OCR correction effectively addresses deficiencies in inferior OCR models, and glyph embedding enables the model to achieve superior results, including the ability to correct individual words.
翻訳日:2023-08-30 14:19:16 公開日:2023-08-29
# let there be sound: ハイクオリティな音声をサイレントビデオから再構築する

Let There Be Sound: Reconstructing High Quality Speech from Silent Videos ( http://arxiv.org/abs/2308.15256v1 )

ライセンス: Link先を確認
Ji-Hoon Kim, Jaehun Kim, Joon Son Chung(参考訳) この研究の目的は、唇の動きだけで高品質な音声を再構築することである。 音声合成システムにおける重要な課題は,(1)ホモフェーンの存在,(2)複数の発声変化に起因する一対多のマッピングであり,誤発音と過度な発声が生じる。 本稿では,複数視点から一対多のマッピング問題を緩和することにより,生成品質を著しく向上する新しい音声合成システムを提案する。 具体的には,(1)ホモフェーンを曖昧にするための自己教師型音声表現,(2)多様な音声スタイルをモデル化するための音響的分散情報を含む。 さらに、上記の問題を解決するために、生成した音声の詳細をキャプチャし、洗練するフローベースのpost-netを採用する。 提案手法は, 人間の発話に近い生成品質を達成し, 音声の自然さと知性において, 既存の手法よりも高い精度で実現可能であることを示す。 合成サンプルは匿名のデモページ(https://mm.kaist.ac.kr/projects/LTBS)で入手できる。

The goal of this work is to reconstruct high quality speech from lip motions alone, a task also known as lip-to-speech. A key challenge of lip-to-speech systems is the one-to-many mapping caused by (1) the existence of homophenes and (2) multiple speech variations, resulting in a mispronounced and over-smoothed speech. In this paper, we propose a novel lip-to-speech system that significantly improves the generation quality by alleviating the one-to-many mapping problem from multiple perspectives. Specifically, we incorporate (1) self-supervised speech representations to disambiguate homophenes, and (2) acoustic variance information to model diverse speech styles. Additionally, to better solve the aforementioned problem, we employ a flow based post-net which captures and refines the details of the generated speech. We perform extensive experiments and demonstrate that our method achieves the generation quality close to that of real human utterance, outperforming existing methods in terms of speech naturalness and intelligibility by a large margin. Synthesised samples are available at the anonymous demo page: https://mm.kaist.ac.kr/projects/LTBS.
翻訳日:2023-08-30 14:19:05 公開日:2023-08-29
# 相対的ガウスのメカニズムとプライベートグラディエント蛍光への応用

The Relative Gaussian Mechanism and its Application to Private Gradient Descent ( http://arxiv.org/abs/2308.15250v1 )

ライセンス: Link先を確認
Hadrien Hendrikx, Paul Mangold and Aur\'elien Bellet(参考訳) リリース前にベクトル値クエリにガウスノイズを追加することで構成されるガウスメカニズム(GM)は、標準的なプライバシ保護メカニズムである。 特に、クエリがL2感度特性(隣り合う2つの入力の出力間のL2距離は有界)を尊重すると、GMはR'enyi Differential Privacy (RDP)を保証する。 残念ながら、L2感度の正確なバウンドは難しいため、プライバシーのバウンドは緩い。 本研究では,2つの問合せ出力間の距離の境界が基準に依存する可能性がある相対的l2感度仮定を考察する。 この仮定を利用して、雑音の分散が出力のノルムに依存する相対ガウス機構(RGM)を導入する。 相対的なL2感度下でのRDPパラメータの厳密な境界を証明し、出力依存ノイズを用いて生じるプライバシー損失を特徴付ける。 特に、RGMは自然に出力のノルムを制御する潜在変数に適応することを示す。 最後に、我々のフレームワークをインスタンス化し、相対的なL2感度仮定に自然に適合する問題であるPrivate Gradient Descentの厳密な保証を示す。

The Gaussian Mechanism (GM), which consists in adding Gaussian noise to a vector-valued query before releasing it, is a standard privacy protection mechanism. In particular, given that the query respects some L2 sensitivity property (the L2 distance between outputs on any two neighboring inputs is bounded), GM guarantees R\'enyi Differential Privacy (RDP). Unfortunately, precisely bounding the L2 sensitivity can be hard, thus leading to loose privacy bounds. In this work, we consider a Relative L2 sensitivity assumption, in which the bound on the distance between two query outputs may also depend on their norm. Leveraging this assumption, we introduce the Relative Gaussian Mechanism (RGM), in which the variance of the noise depends on the norm of the output. We prove tight bounds on the RDP parameters under relative L2 sensitivity, and characterize the privacy loss incurred by using output-dependent noise. In particular, we show that RGM naturally adapts to a latent variable that would control the norm of the output. Finally, we instantiate our framework to show tight guarantees for Private Gradient Descent, a problem that naturally fits our relative L2 sensitivity assumption.
翻訳日:2023-08-30 14:18:44 公開日:2023-08-29
# 神経機械翻訳に対する敵意攻撃に対する分類誘導的アプローチ

A Classification-Guided Approach for Adversarial Attacks against Neural Machine Translation ( http://arxiv.org/abs/2308.15246v1 )

ライセンス: Link先を確認
Sahar Sadrizadeh, Ljiljana Dolamic, Pascal Frossard(参考訳) ニューラルマシン翻訳(nmt)モデルは、注意深く作られた入力の摂動がターゲットモデルを誤解させる可能性がある敵の攻撃に対して脆弱であることが示されている。 本稿では,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。 本攻撃では,NMTモデルによる翻訳が対象言語の原文翻訳と異なるクラスに属する意味保存的敵例を作成することを目的としている。 従来の攻撃とは異なり、我々の新しいアプローチは、全体的な意味を変えることによって翻訳により実質的な影響を及ぼし、分類器によって決定される異なるクラスに繋がる。 本攻撃に対するNMTモデルのロバスト性を評価するため,ターゲットNMTモデルの出力変換と分類器の出力ロジットをアタックプロセスに組み込むことにより,既存のブラックボックスワード置換攻撃の強化を提案する。 既存の未標的攻撃との比較を含む様々な環境での大規模な実験は、提案攻撃が出力翻訳のクラスを変更することに成功し、翻訳により大きな影響を及ぼすことを示した。 この新たなパラダイムは,従来の翻訳品質よりも翻訳のクラスに着目して,NMTシステムの脆弱性を示すことができる。

Neural Machine Translation (NMT) models have been shown to be vulnerable to adversarial attacks, wherein carefully crafted perturbations of the input can mislead the target model. In this paper, we introduce ACT, a novel adversarial attack framework against NMT systems guided by a classifier. In our attack, the adversary aims to craft meaning-preserving adversarial examples whose translations by the NMT model belong to a different class than the original translations in the target language. Unlike previous attacks, our new approach has a more substantial effect on the translation by altering the overall meaning, which leads to a different class determined by a classifier. To evaluate the robustness of NMT models to this attack, we propose enhancements to existing black-box word-replacement-based attacks by incorporating output translations of the target NMT model and the output logits of a classifier within the attack process. Extensive experiments in various settings, including a comparison with existing untargeted attacks, demonstrate that the proposed attack is considerably more successful in altering the class of the output translation and has more effect on the translation. This new paradigm can show the vulnerabilities of NMT systems by focusing on the class of translation rather than the mere translation quality as studied traditionally.
翻訳日:2023-08-30 14:18:21 公開日:2023-08-29
# 推薦のための知識に基づく多重適応空間融合

Knowledge-based Multiple Adaptive Spaces Fusion for Recommendation ( http://arxiv.org/abs/2308.15244v1 )

ライセンス: Link先を確認
Meng Yuan, Fuzhen Zhuang, Zhao Zhang, Deqing Wang and Jin Dong(参考訳) 知識グラフ(KG)には豊富な意味情報が含まれているため、近年はKG強化レコメンデーション手法が流入している。 既存の手法のほとんどは曲率を考慮せずにユークリッド空間に基づいて完全に設計されている。 しかし、最近の研究では、巨大なグラフ構造データは非常に非ユークリッド的性質を示すことが明らかになっている。 本研究は,これらの観察に動機づけられ,知識に基づく多重適応空間融合法,すなわちmckgを提案する。 特定の多様体のみを採用する既存の方法とは異なり、双曲空間、ユークリッド空間、球面空間と一致する統一空間を導入する。 さらに,複数の統一空間を注意して融合し,より優れた知識伝達のための高品質な埋め込みを得る。 さらに,双曲空間と球面空間の両方から得られるプルおよびプッシュプロセスを可能にする幾何認識最適化手法を提案する。 具体的には、双曲空間において、原点に近い領域に小さいマージンを設定し、非常に類似した正の項目と負の項目を区別することを導出する。 同時に、モデルが十分なエラー許容度を持つことを保証するために、原点から遠く離れた領域により大きなマージンを設定しました。 同様の方法は球面空間にも適用される。 3つの実世界のデータセットに対する大規模な実験は、MCKGが最先端のレコメンデーション手法よりも大幅に改善されていることを示している。 さらなるアブレーション実験は、MCKGの合理性と有効性を正当化し、多空間融合と幾何認識最適化戦略の重要性を検証する。

Since Knowledge Graphs (KGs) contain rich semantic information, recently there has been an influx of KG-enhanced recommendation methods. Most of existing methods are entirely designed based on euclidean space without considering curvature. However, recent studies have revealed that a tremendous graph-structured data exhibits highly non-euclidean properties. Motivated by these observations, in this work, we propose a knowledge-based multiple adaptive spaces fusion method for recommendation, namely MCKG. Unlike existing methods that solely adopt a specific manifold, we introduce the unified space that is compatible with hyperbolic, euclidean and spherical spaces. Furthermore, we fuse the multiple unified spaces in an attention manner to obtain the high-quality embeddings for better knowledge propagation. In addition, we propose a geometry-aware optimization strategy which enables the pull and push processes benefited from both hyperbolic and spherical spaces. Specifically, in hyperbolic space, we set smaller margins in the area near to the origin, which is conducive to distinguishing between highly similar positive items and negative ones. At the same time, we set larger margins in the area far from the origin to ensure the model has sufficient error tolerance. The similar manner also applies to spherical spaces. Extensive experiments on three real-world datasets demonstrate that the MCKG has a significant improvement over state-of-the-art recommendation methods. Further ablation experiments verify the importance of multi-space fusion and geometry-aware optimization strategy, justifying the rationality and effectiveness of MCKG.
翻訳日:2023-08-30 14:18:01 公開日:2023-08-29
# CompASデータセットにおけるグループ間の信頼性ギャップ

Reliability Gaps Between Groups in COMPAS Dataset ( http://arxiv.org/abs/2308.15243v1 )

ライセンス: Link先を確認
Tim R\"az(参考訳) 本稿では,リスク評価機器(RAI)のレータ間信頼性について検討する。 主な疑問は、異なる社会的に健全な集団が、RAIの相互信頼の欠如、すなわち異なるグループに対する誤りがそれぞれ異なる影響を与えるかどうかである。 本研究は,CompASデータセットのシミュレーション研究により検討した。 制御されたノイズの度合いは予測モデルの入力データに注入され、ノイズは誤りを犯す合成レーダとして解釈できる。 主な発見は、CompASデータセット内のグループ間で出力信頼性が体系的に異なることである。 違いの徴候は、使用される格間統計(cohen's kappa, byrt's pabak, icc)の種類と、特に、グループの有病率の予測の補正が使用されるかどうかによって異なる。

This paper investigates the inter-rater reliability of risk assessment instruments (RAIs). The main question is whether different, socially salient groups are affected differently by a lack of inter-rater reliability of RAIs, that is, whether mistakes with respect to different groups affects them differently. The question is investigated with a simulation study of the COMPAS dataset. A controlled degree of noise is injected into the input data of a predictive model; the noise can be interpreted as a synthetic rater that makes mistakes. The main finding is that there are systematic differences in output reliability between groups in the COMPAS dataset. The sign of the difference depends on the kind of inter-rater statistic that is used (Cohen's Kappa, Byrt's PABAK, ICC), and in particular whether or not a correction of predictions prevalences of the groups is used.
翻訳日:2023-08-30 14:17:37 公開日:2023-08-29
# ローコードプラットフォームの自然言語とsql

Natural language to SQL in low-code platforms ( http://arxiv.org/abs/2308.15239v1 )

ライセンス: Link先を確認
Sofia Aparicio, Samuel Arcadinho, Jo\~ao Nadkarni, David Apar\'icio, Jo\~ao Lages, Mariana Louren\c{c}o, Bart{\l}omiej Matejczyk, Filipe Assun\c{c}\~ao(参考訳) ローコードプラットフォームにおける開発者の最大の課題のひとつは、SQLクエリを使用してデータベースからデータを取得することだ。 本稿では,自然言語(nl)を記述してデータを取得するパイプラインを提案する。 本研究では,outsystemsユーザが最も頻繁に実行するsqlクエリをカバーするデータの収集,ラベル付け,検証を行う。 このデータを使ってSQLを生成するNLモデルをトレーニングします。 これに加えて、フィードバックループを含むパイプライン全体を記述し、プロダクションデータを迅速に収集し、SQL生成モデルの再トレーニングに使用することができます。 クラウドソーシングを用いて26k nlとsqlペアを収集し,本番データからさらに1kペアを取得する。 最後に、開発者がプロンプトでNLクエリを入力し、結果のSQLクエリのユーザフレンドリな表現を受け取ることができるUIを開発する。 A/Bテストは4つの異なるモデルを比較し、機能の採用率で240%の改善、エンゲージメント率で220%、本番環境に投入した最初のモデルと比較して90%の失敗率の低下を観察し、継続的に機能を改善する上でのパイプラインの有効性を示します。

One of the developers' biggest challenges in low-code platforms is retrieving data from a database using SQL queries. Here, we propose a pipeline allowing developers to write natural language (NL) to retrieve data. In this study, we collect, label, and validate data covering the SQL queries most often performed by OutSystems users. We use that data to train a NL model that generates SQL. Alongside this, we describe the entire pipeline, which comprises a feedback loop that allows us to quickly collect production data and use it to retrain our SQL generation model. Using crowd-sourcing, we collect 26k NL and SQL pairs and obtain an additional 1k pairs from production data. Finally, we develop a UI that allows developers to input a NL query in a prompt and receive a user-friendly representation of the resulting SQL query. We use A/B testing to compare four different models in production and observe a 240% improvement in terms of adoption of the feature, 220% in terms of engagement rate, and a 90% decrease in failure rate when compared against the first model that we put into production, showcasing the effectiveness of our pipeline in continuously improving our feature.
翻訳日:2023-08-30 14:17:20 公開日:2023-08-29
# 特徴選択と分類による周期的マルウェア検出の評価

Assessing Cyclostationary Malware Detection via Feature Selection and Classification ( http://arxiv.org/abs/2308.15237v1 )

ライセンス: Link先を確認
Mike Nkongolo(参考訳) 周期定常性は、信号分析やネットワークセキュリティで一般的に使用される信号やプロセスの周期的な統計的変動を伴う。 攻撃の文脈では、cyclostationarityはネットワークトラフィック内の悪意のある行動を検出するのに役立ち、例えばdistributed denial of service (ddos)攻撃におけるトラフィックパターンやマルウェア内の隠れた通信チャネルなどである。 このアプローチは、異常パターンを特定し、ネットワーク侵入検知システム(NIDS)に潜在的な攻撃を認識させ、既知の脅威と新しい脅威の両方に対する保護を強化することでセキュリティを強化する。 本研究は, サイクロスタリーマルウェアの挙動の同定とその検出に焦点をあてる。 主な目的は、NIDSで使用される重要なサイクロ定常的特徴を特定することである。 これらの特徴はborutaやprincipal component analysis(pca)といったアルゴリズムを用いて抽出され、最も重要なサイクロスタリーパターンを見つけるために分類される。 本論文の目的は,サイクロスタミリティによって定期的に変化するマルウェアの挙動を明らかにすることである。 この研究は、KDD99、NSL-KDD、UGRansomeデータセットといった確立されたデータセットを使用することで、NIDSにおけるサイクロ定常マルウェアの発見の重要性を強調している。 UGRansomeデータセットは異常検出研究のために設計されており、ゼロデイ攻撃の正常および異常なネットワーク脅威カテゴリを含む。 ランダムフォレスト(RF)とサポートベクトルマシン(SVM)のアルゴリズムを用いて比較を行い,ボルタとPCAの有効性を評価した。 その結果,PCA は Boruta 単独でサイクロ定常ネットワークの特徴パターンを抽出するよりも有望であることが示唆された。 さらに、この分析では、インターネットプロトコルをマルウェアが使用する最も顕著なサイクロ定常特徴パターンとして特定している。 特に、UGRansomeデータセットはKDD99とNSL-KDDより優れており、RFアルゴリズムを用いた署名マルウェア検出では99%、SVMでは98%の精度である。

Cyclostationarity involves periodic statistical variations in signals and processes, commonly used in signal analysis and network security. In the context of attacks, cyclostationarity helps detect malicious behaviors within network traffic, such as traffic patterns in Distributed Denial of Service (DDoS) attacks or hidden communication channels in malware. This approach enhances security by identifying abnormal patterns and informing Network Intrusion Detection Systems (NIDSs) to recognize potential attacks, enhancing protection against both known and novel threats. This research focuses on identifying cyclostationary malware behavior and its detection. The main goal is to pinpoint essential cyclostationary features used in NIDSs. These features are extracted using algorithms such as Boruta and Principal Component Analysis (PCA), and then categorized to find the most significant cyclostationary patterns. The aim of this article is to reveal periodically changing malware behaviors through cyclostationarity. The study highlights the importance of spotting cyclostationary malware in NIDSs by using established datasets like KDD99, NSL-KDD, and the UGRansome dataset. The UGRansome dataset is designed for anomaly detection research and includes both normal and abnormal network threat categories of zero-day attacks. A comparison is made using the Random Forest (RF) and Support Vector Machine (SVM) algorithms, while also evaluating the effectiveness of Boruta and PCA. The findings show that PCA is more promising than using Boruta alone for extracting cyclostationary network feature patterns. Additionally, the analysis identifies the internet protocol as the most noticeable cyclostationary feature pattern used by malware. Notably, the UGRansome dataset outperforms the KDD99 and NSL-KDD, achieving 99% accuracy in signature malware detection using the RF algorithm and 98% with the SVM.
翻訳日:2023-08-30 14:17:01 公開日:2023-08-29
# MSFlow: 教師なし異常検出のためのマルチスケールフローベースフレームワーク

MSFlow: Multi-Scale Flow-based Framework for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2308.15300v1 )

ライセンス: Link先を確認
Yixuan Zhou, Xing Xu, Jingkuan Song, Fumin Shen, Heng Tao Shen(参考訳) 教師なし異常検出(UAD)は、多くの研究関心を集め、異常のないサンプルのみをトレーニング用に利用できる広範囲の応用を推進している。 一部のUADアプリケーションは、異常情報なしで、さらに異常領域を見つけることを意図している。 異常サンプルやアノテーションの欠如はUDA性能を悪化させるが、異常検出や非教師なしの局所化には不都合ながら強力な統計モデルである正規化フローが適している。 フローベース確率モデルは、異常のないデータのみに基づいて訓練され、通常のデータよりもはるかに低い確率を割り当てることで、予測不可能な異常を効率的に識別することができる。 それでも予測不能な異常の大きさの変化は、高精度な異常検出と局所化のためのフローベース手法に別の不都合をもたらす。 異常サイズの変動を一般化するために,非対称並列流と融合流を組み合わせたMSFlowと呼ばれる新しいマルチスケールフローベースフレームワークを提案する。 さらに,画像の異常検出と画素の異常検出には,その差に応じて異なる多スケールアグリゲーション戦略が採用されている。 提案するmsflowは,3つの異常検出データセットで評価される。 特に、挑戦的なMVTec ADベンチマークにおいて、我々のMSFlowは、検出されたAUORCスコアが99.7%、ローカライゼーションされたAUCROCスコアが98.8%、Proスコアが97.1%の新しい最先端を達成する。 再現可能なコードはhttps://github.com/cool-xuan/msflowで入手できる。

Unsupervised anomaly detection (UAD) attracts a lot of research interest and drives widespread applications, where only anomaly-free samples are available for training. Some UAD applications intend to further locate the anomalous regions without any anomaly information. Although the absence of anomalous samples and annotations deteriorates the UAD performance, an inconspicuous yet powerful statistics model, the normalizing flows, is appropriate for anomaly detection and localization in an unsupervised fashion. The flow-based probabilistic models, only trained on anomaly-free data, can efficiently distinguish unpredictable anomalies by assigning them much lower likelihoods than normal data. Nevertheless, the size variation of unpredictable anomalies introduces another inconvenience to the flow-based methods for high-precision anomaly detection and localization. To generalize the anomaly size variation, we propose a novel Multi-Scale Flow-based framework dubbed MSFlow composed of asymmetrical parallel flows followed by a fusion flow to exchange multi-scale perceptions. Moreover, different multi-scale aggregation strategies are adopted for image-wise anomaly detection and pixel-wise anomaly localization according to the discrepancy between them. The proposed MSFlow is evaluated on three anomaly detection datasets, significantly outperforming existing methods. Notably, on the challenging MVTec AD benchmark, our MSFlow achieves a new state-of-the-art with a detection AUORC score of up to 99.7%, localization AUCROC score of 98.8%, and PRO score of 97.1%. The reproducible code is available at https://github.com/cool-xuan/msflow.
翻訳日:2023-08-30 14:09:24 公開日:2023-08-29
# TaskLAMA: 言語モデルの複雑なタスク理解を提案する

TaskLAMA: Probing the Complex Task Understanding of Language Models ( http://arxiv.org/abs/2308.15299v1 )

ライセンス: Link先を確認
Quan Yuan, Mehran Kazemi, Xin Xu, Isaac Noble, Vaiva Imbrasaite, Deepak Ramachandran(参考訳) 構造化複合タスク分解(Structured Complex Task Decomposition、SCTD)は、複雑な現実世界のタスク(結婚式の計画など)を、タスクの達成に寄与する個々のステップ上の有向非循環グラフに分解する問題である。 SCTDは補助計画ツールの重要な構成要素であり、コモンセンス推論システムの課題である。 本研究では,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。 本稿では,この問題に対する高品質なヒューマンアノテートデータセットと,複数のベースラインに対するllmの性能を公平に評価するための新しい指標を提案する。 実験の結果、llmは複雑なタスクを個々のステップに効果的に分解でき、最高のベースラインに対して15%から280%の相対的な改善が得られました。 また、ベースモデルに対して7%から37%の相対的な改善を行い、パフォーマンスをさらに向上させるいくつかのアプローチを提案している。 しかし,LLMは相反する時間的依存関係の予測に苦慮しており,複雑なタスクに対する理解のギャップが明らかになっている。

Structured Complex Task Decomposition (SCTD) is the problem of breaking down a complex real-world task (such as planning a wedding) into a directed acyclic graph over individual steps that contribute to achieving the task, with edges specifying temporal dependencies between them. SCTD is an important component of assistive planning tools, and a challenge for commonsense reasoning systems. We probe how accurately SCTD can be done with the knowledge extracted from Large Language Models (LLMs). We introduce a high-quality human-annotated dataset for this problem and novel metrics to fairly assess performance of LLMs against several baselines. Our experiments reveal that LLMs are able to decompose complex tasks into individual steps effectively, with a relative improvement of 15% to 280% over the best baseline. We also propose a number of approaches to further improve their performance, with a relative improvement of 7% to 37% over the base model. However, we find that LLMs still struggle to predict pairwise temporal dependencies, which reveals a gap in their understanding of complex tasks.
翻訳日:2023-08-30 14:08:57 公開日:2023-08-29
# KGConv - Wikidataによる会話コーパス

KGConv, a Conversational Corpus grounded in Wikidata ( http://arxiv.org/abs/2308.15298v1 )

ライセンス: Link先を確認
Quentin Brabant, Gwenole Lecorve, Lina M. Rojas-Barahona, Claire Gardent(参考訳) KGConvは、71kの会話からなる大きな会話コーパスで、各質問応答対がWikidataの事実に基づいている。 会話には平均8.6の質問が含まれており、Wikidataの各事実に対して、テンプレート、ヒューマンアノテーション、手作りルール、質問書き換えニューラルモデルを用いて、対応する質問の複数のバリエーション(平均12)を提供する。 我々は知識に基づく対話型質問生成のタスクのベースラインを提供する。 KGConvは、Wikidataのトリプルからのシングルターン質問生成、質問書き換え、会話からの質問応答、知識グラフからの質問応答、クイズ生成など、他の世代や分析タスクにも利用できる。

We present KGConv, a large, conversational corpus of 71k conversations where each question-answer pair is grounded in a Wikidata fact. Conversations contain on average 8.6 questions and for each Wikidata fact, we provide multiple variants (12 on average) of the corresponding question using templates, human annotations, hand-crafted rules and a question rewriting neural model. We provide baselines for the task of Knowledge-Based, Conversational Question Generation. KGConv can further be used for other generation and analysis tasks such as single-turn question generation from Wikidata triples, question rewriting, question answering from conversation or from knowledge graphs and quiz generation.
翻訳日:2023-08-30 14:08:35 公開日:2023-08-29
# 非符号および符号付き整数重み付きネットワークにおけるハイブリッドメンバーシップ遅延距離モデル

A Hybrid Membership Latent Distance Model for Unsigned and Signed Integer Weighted Networks ( http://arxiv.org/abs/2308.15293v1 )

ライセンス: Link先を確認
Nikolaos Nakis, Abdulkadir \c{C}elikkanat, Morten M{\o}rup(参考訳) グラフ表現学習(GRL)は、ネットワーク埋め込み、リンク予測、ノード分類のためのツールを提供する複雑なネットワークの理解を深めるための重要なツールとなっている。 本稿では, 潜在距離モデル (ldm) が潜在単純度にどのように制約されるかを検討することにより, ハイブリッドなメンバシップ・相対距離モデル (hm-ldm) を提案する。 単純体の角の長さを制御することにより、潜在空間の体積を体系的に制御することができる。 これにより、スペースがより制限されるにつれてコミュニティが明らかになり、単純ックスボリュームがゼロになるにつれてハードメンバーシップが回復される。 さらに、Skellam分布を利用して、符号付き重み付きネットワークを考慮し、HM-LDMを符号付きHybrid Membership-Latent Distance Model(sHM-LDM)に拡張する。 重要なことに、誘導可能性関数は、正のリンクを持つノードを明示的に引き付け、負の相互作用を持つノードを抑える。 複数の実ネットワーク上でHM-LDMとsHM-LDMの有用性を示す。 提案手法は明確な構造を識別するだけでなく,抽出されたアスペクトとノードがどのように関連し,リンク予測の面で有利な性能を示すかを示す。 さらに、学習したソフトメンバーシップは、異なるパターンをハイライトする容易に解釈可能なネットワーク可視化を可能にする。

Graph representation learning (GRL) has become a prominent tool for furthering the understanding of complex networks providing tools for network embedding, link prediction, and node classification. In this paper, we propose the Hybrid Membership-Latent Distance Model (HM-LDM) by exploring how a Latent Distance Model (LDM) can be constrained to a latent simplex. By controlling the edge lengths of the corners of the simplex, the volume of the latent space can be systematically controlled. Thereby communities are revealed as the space becomes more constrained, with hard memberships being recovered as the simplex volume goes to zero. We further explore a recent likelihood formulation for signed networks utilizing the Skellam distribution to account for signed weighted networks and extend the HM-LDM to the signed Hybrid Membership-Latent Distance Model (sHM-LDM). Importantly, the induced likelihood function explicitly attracts nodes with positive links and deters nodes from having negative interactions. We demonstrate the utility of HM-LDM and sHM-LDM on several real networks. We find that the procedures successfully identify prominent distinct structures, as well as how nodes relate to the extracted aspects providing favorable performances in terms of link prediction when compared to prominent baselines. Furthermore, the learned soft memberships enable easily interpretable network visualizations highlighting distinct patterns.
翻訳日:2023-08-30 14:08:21 公開日:2023-08-29
# ecg分析の定量化に向けて : 状態空間モデル,自己スーパービジョン,患者メタデータの活用

Towards quantitative precision for ECG analysis: Leveraging state space models, self-supervision and patient metadata ( http://arxiv.org/abs/2308.15291v1 )

ライセンス: Link先を確認
Temesgen Mehari, Nils Strodthoff(参考訳) ディープラーニングは自動心電図解析のためのモデリング手法として好まれている。 本研究では,これらのシステムの量的精度向上を目的とした3つの要素について検討する。 これらのコンポーネントは、主に畳み込みモデルに基づく既存の最先端以上のパフォーマンスを一貫して向上させる。 まず、構造化状態空間モデル(SSM)を利用して、より表現力のあるアーキテクチャを探索する。 これらのモデルでは、時系列データの長期的な依存関係を捉えることが期待されている。 SSMを我々のアプローチに組み込むことで、より良いパフォーマンスを達成するだけでなく、この分野における長年の質問に対する洞察を得ることができます。 具体的には、標準的な診断タスクでは、500Hzなどのサンプリングレートを100Hzと比較しても利点がない。 同様に、モデルの入力サイズを3秒を超えて拡張しても、大きな改善は起こらない。 次に,コントラスト型予測符号化を用いた自己教師付き学習により,ssmsの性能がさらに向上することを示す。 自己スーパービジョンを活用することで、モデルがより堅牢で代表的な特徴を学習し、分析精度が向上する。 最後に、総合的なベンチマークシナリオから離脱し、ECG信号と共に基本的な統計メタデータを入力として組み込む。 この患者メタデータの包含は、信号自体にのみ依存する従来の慣行から外れている。 注目すべきは、この追加が常に予測性能にポジティブな影響をもたらすことだ。 我々は,次世代のECG分析アルゴリズムを開発する際には,これら3つのコンポーネントが考慮されるべきであると考えている。

Deep learning has emerged as the preferred modeling approach for automatic ECG analysis. In this study, we investigate three elements aimed at improving the quantitative accuracy of such systems. These components consistently enhance performance beyond the existing state-of-the-art, which is predominantly based on convolutional models. Firstly, we explore more expressive architectures by exploiting structured state space models (SSMs). These models have shown promise in capturing long-term dependencies in time series data. By incorporating SSMs into our approach, we not only achieve better performance, but also gain insights into long-standing questions in the field. Specifically, for standard diagnostic tasks, we find no advantage in using higher sampling rates such as 500Hz compared to 100Hz. Similarly, extending the input size of the model beyond 3 seconds does not lead to significant improvements. Secondly, we demonstrate that self-supervised learning using contrastive predictive coding can further improve the performance of SSMs. By leveraging self-supervision, we enable the model to learn more robust and representative features, leading to improved analysis accuracy. Lastly, we depart from synthetic benchmarking scenarios and incorporate basic demographic metadata alongside the ECG signal as input. This inclusion of patient metadata departs from the conventional practice of relying solely on the signal itself. Remarkably, this addition consistently yields positive effects on predictive performance. We firmly believe that all three components should be considered when developing next-generation ECG analysis algorithms.
翻訳日:2023-08-30 14:07:53 公開日:2023-08-29
# artxai:ファジィテクニックを用いたアートイメージの深層表現学習をキュレートする人工知能

ARTxAI: Explainable Artificial Intelligence Curates Deep Representation Learning for Artistic Images using Fuzzy Techniques ( http://arxiv.org/abs/2308.15284v1 )

ライセンス: Link先を確認
Javier Fumanal-Idocin, Javier Andreu-Perez, Oscar Cord\'on, Hani Hagras, Humberto Bustince(参考訳) 自動アート分析は、異なる画像処理技術を用いて芸術作品の分類と分類を行う。 芸術的なイメージを扱う場合、従来の画像処理と比較して、さらなる考慮が必要となる。 これは、作者や場面、その画風によって大きく変化するためである。 これは、あるタスクで非常にうまく機能するが、絵画に含まれる視覚および象徴的な情報全体を把握しない特徴をもたらす可能性がある。 本稿では,芸術的画像分類における異なるタスクから得られた特徴が,類似する他の特徴を解決するのにどのように適しているかを示す。 芸術分類システムの一般化能力と性能を改善するための様々な方法を提案する。 さらに,ファジィルールを考慮した深層学習モデルを用いて画像の既知の視覚特性をマッピングする,説明可能な人工知能手法を提案する。 これらのルールは、各タスクを解決するためのパターンと変数を示し、各パターンがどの程度効果的かを示す。 その結果、提案するコンテキスト認識機能は、特定のタスクに応じて、他のコンテキスト認識および非コンテキスト認識ソリューションよりも、最大6\%$および26\%$の正確な結果が得られることがわかった。 また、これらのモデルで使用される特徴のいくつかは、原画像の視覚的特徴と他の特徴とより明確に相関できることを示した。

Automatic art analysis employs different image processing techniques to classify and categorize works of art. When working with artistic images, we need to take into account further considerations compared to classical image processing. This is because such artistic paintings change drastically depending on the author, the scene depicted, and their artistic style. This can result in features that perform very well in a given task but do not grasp the whole of the visual and symbolic information contained in a painting. In this paper, we show how the features obtained from different tasks in artistic image classification are suitable to solve other ones of similar nature. We present different methods to improve the generalization capabilities and performance of artistic classification systems. Furthermore, we propose an explainable artificial intelligence method to map known visual traits of an image with the features used by the deep learning model considering fuzzy rules. These rules show the patterns and variables that are relevant to solve each task and how effective is each of the patterns found. Our results show that our proposed context-aware features can achieve up to $6\%$ and $26\%$ more accurate results than other context- and non-context-aware solutions, respectively, depending on the specific task. We also show that some of the features used by these models can be more clearly correlated to visual traits in the original image than others.
翻訳日:2023-08-30 14:07:32 公開日:2023-08-29
# 準同型数を持つ構造ノード埋め込み

Structural Node Embeddings with Homomorphism Counts ( http://arxiv.org/abs/2308.15283v1 )

ライセンス: Link先を確認
Hinrikus Wolf, Luca Oeljeklaus, Pascal K\"uhner, Martin Grohe(参考訳) 1967年にLov\'aszによって初めて発見されたグラフ準同型数は、グラフベースの機械学習において強力なツールとして関心を集めている。 grohe (pods 2020) はグラフレベルの機械学習やノードレベルのタスクで準同型数を使用するための理論的基礎を提案した。 その性質上、局所的な構造情報を取り込み、堅牢な構造埋め込みを作成することができる。 グラフレベルのタスクに対する最初のアプローチは、Nguyen と Maehara (ICML 2020) によるものであるが、同型数に基づくノード埋め込みの有効性を実験的に示す。 ノードラベル、ノードウェイト、エッジウェイトに富んだこれらは、グラフデータの解釈可能な表現を提供し、機械学習モデルの説明可能性を高める。 本稿では, 様々な下流タスクに適した準同型不変準同型数に基づく埋め込みに関する理論的枠組みを提案する。 本手法は有界木幅グラフクラスに対するグラフ準同型カウントの効率的な計算可能性に基いて,実世界のアプリケーションのための実用的なソリューションとなる。 ベンチマークデータセットで実験を行い,その表現性を示す。 我々の結果は最先端のニューラルネットワークアーキテクチャの精度に合わないが、他の高度なグラフ学習モデルに匹敵する。 注目すべきは、各機能の説明可能性を保証することで、我々のアプローチは相違することです。 SVMやRandom Forestsのような解釈可能な機械学習アルゴリズムを統合することで、シームレスでエンドツーエンドで説明可能なパイプラインを構築します。 本研究は,性能と解釈可能性の両方を提供するグラフベースの技術の発展に寄与する。

Graph homomorphism counts, first explored by Lov\'asz in 1967, have recently garnered interest as a powerful tool in graph-based machine learning. Grohe (PODS 2020) proposed the theoretical foundations for using homomorphism counts in machine learning on graph level as well as node level tasks. By their very nature, these capture local structural information, which enables the creation of robust structural embeddings. While a first approach for graph level tasks has been made by Nguyen and Maehara (ICML 2020), we experimentally show the effectiveness of homomorphism count based node embeddings. Enriched with node labels, node weights, and edge weights, these offer an interpretable representation of graph data, allowing for enhanced explainability of machine learning models. We propose a theoretical framework for isomorphism-invariant homomorphism count based embeddings which lend themselves to a wide variety of downstream tasks. Our approach capitalises on the efficient computability of graph homomorphism counts for bounded treewidth graph classes, rendering it a practical solution for real-world applications. We demonstrate their expressivity through experiments on benchmark datasets. Although our results do not match the accuracy of state-of-the-art neural architectures, they are comparable to other advanced graph learning models. Remarkably, our approach demarcates itself by ensuring explainability for each individual feature. By integrating interpretable machine learning algorithms like SVMs or Random Forests, we establish a seamless, end-to-end explainable pipeline. Our study contributes to the advancement of graph-based techniques that offer both performance and interpretability.
翻訳日:2023-08-30 14:07:10 公開日:2023-08-29
# ADFA:unsupervised Medical Anomaly Detectionのための注意増強型Top-k特徴適応

ADFA: Attention-augmented Differentiable top-k Feature Adaptation for Unsupervised Medical Anomaly Detection ( http://arxiv.org/abs/2308.15280v1 )

ライセンス: Link先を確認
Yiming Huang, Guole Liu, Yaoru Luo, Ge Yang(参考訳) 注記データの不足、特にまれな疾患では、トレーニングデータの多様性と検出可能な病変の範囲が制限され、医用画像における教師付き異常検出の重要な課題が提示される。 そこで本研究では,ADFA (Attention-Augmented Differentiable Top-k Feature Adaptation) による画像異常検出手法を提案する。 この方法は、ImageNetで事前訓練されたワイド-ResNet50-2(WR50)ネットワークを使用して、初期特徴表現を抽出する。 関連するチャネル情報を保存しつつチャネル次元を低減し、抽出した特徴に注意喚起パッチ記述器を用いる。 次に,パッチ記述子を訓練するために微分可能なtop-k特徴適応を適用し,抽出した特徴表現を新しいベクトル空間にマッピングし,異常を効果的に検出する。 実験の結果、ADFAは複数の挑戦的な医療画像データセットの最先端(SOTA)手法よりも優れており、医学的異常検出の有効性が確認されている。

The scarcity of annotated data, particularly for rare diseases, limits the variability of training data and the range of detectable lesions, presenting a significant challenge for supervised anomaly detection in medical imaging. To solve this problem, we propose a novel unsupervised method for medical image anomaly detection: Attention-Augmented Differentiable top-k Feature Adaptation (ADFA). The method utilizes Wide-ResNet50-2 (WR50) network pre-trained on ImageNet to extract initial feature representations. To reduce the channel dimensionality while preserving relevant channel information, we employ an attention-augmented patch descriptor on the extracted features. We then apply differentiable top-k feature adaptation to train the patch descriptor, mapping the extracted feature representations to a new vector space, enabling effective detection of anomalies. Experiments show that ADFA outperforms state-of-the-art (SOTA) methods on multiple challenging medical image datasets, confirming its effectiveness in medical anomaly detection.
翻訳日:2023-08-30 14:06:47 公開日:2023-08-29
# 光機械系の量子相転移

Quantum Phase Transitions in Optomechanical Systems ( http://arxiv.org/abs/2308.15278v1 )

ライセンス: Link先を確認
Bo Wang, Franco Nori, Ze-Liang Xiang(参考訳) 本稿では,共振器とメカニカルモードを組み合わせた光学系の基底状態特性について検討する。 正確な解は、キャビティと機械的周波数の比$\eta$が無限大となるときに与えられる。 この解は、連続的または離散的対称性を破って基底状態におけるコヒーレント光子占有を示し、平衡量子相転移(qpt)を示す。 u(1)=ブロークフェーズでは、不安定なゴールドストーンモードが励起される。 Z_2$対称性を持つモデルでは、空洞の圧縮真空と機械的モードの間の相互(有限$\eta$)または一方向($\eta \rightarrow \infty$)依存関係を発見する。 特にキャビティが要求されるスクイーズパラメータに沿って圧縮されたフィールドによって駆動されると、$Z_2$-breakken 位相の領域を変更でき、結合強度を著しく低減して QPT に到達することができる。 さらに、原子をキャビティモードに結合することにより、ハイブリッドシステムは、光学力学および光原子系によって協調的に決定されるハイブリッド臨界点においてqptを行うことができる。 これらの結果は、この光学系が新しい臨界現象を探索する他の相転移モデルを補完していることを示唆している。

In this letter, we investigate the ground state properties of an optomechanical system consisting of a coupled cavity and mechanical modes. An exact solution is given when the ratio $\eta$ between the cavity and mechanical frequencies tends to infinity. This solution reveals a coherent photon occupation in the ground state by breaking continuous or discrete symmetries, exhibiting an equilibrium quantum phase transition (QPT). In the $U(1)$-broken phase, an unstable Goldstone mode can be excited. In the model featuring $Z_2$ symmetry, we discover the mutually (in the finite $\eta$) or unidirectionally (in $\eta \rightarrow \infty$) dependent relation between the squeezed vacuum of the cavity and mechanical modes. In particular, when the cavity is driven by a squeezed field along the required squeezing parameter, it enables modifying the region of $Z_2$-broken phase and significantly reducing the coupling strength to reach QPTs. Furthermore, by coupling atoms to the cavity mode, the hybrid system can undergo a QPT at a hybrid critical point, which is cooperatively determined by the optomechanical and light-atom systems. These results suggest that this optomechanical system complements other phase transition models for exploring novel critical phenomena.
翻訳日:2023-08-30 14:06:29 公開日:2023-08-29
# クロスモーダル検索と推論:クロスモーダル検索によるゼロショット分類の改善

Cross-Modal Retrieval Meets Inference:Improving Zero-Shot Classification with Cross-Modal Retrieval ( http://arxiv.org/abs/2308.15273v1 )

ライセンス: Link先を確認
Seongha Eom, Namgyu Ho, Jaehoon Oh and Se-Young Yun(参考訳) 対照的な言語画像事前訓練(CLIP)は,新規なテキストラベルを用いた画像分類において,顕著なゼロショット分類能力を示した。 既存の作業では下流タスクの微調整によるクリップの強化が試みられているが、これらは不注意なクラスのパフォーマンス低下を招き、ゼロショットの一般化に影響を与えている。 本稿では,外部データセットから容易に使用可能な画像テキストペアを活用して,推論中のクロスモーダルガイダンスを行うことで,この課題を解決することを目的とする。 そこで本研究では,(1)クロスモーダル検索と(2)モーダル信頼に基づくアンサンブルの2つのステップからなる新しい推論手法であるX-MoReを提案する。 クエリ画像が与えられた場合、CLIPのクロスモーダル表現のパワーを利用して、外部画像-テキストペアデータセットから関連するテキスト情報を検索する。 そして,元のクエリ画像と検索したテキストとのより信頼性の高いモダリティに重みを割り当て,最終的な予測に寄与する。 x-moreは、追加のトレーニングを必要とせず、さまざまなタスクのロバストなパフォーマンスを示し、クリップのゼロショット能力を最大化するためにクロスモーダル機能を利用する効果を示している。

Contrastive language-image pre-training (CLIP) has demonstrated remarkable zero-shot classification ability, namely image classification using novel text labels. Existing works have attempted to enhance CLIP by fine-tuning on downstream tasks, but these have inadvertently led to performance degradation on unseen classes, thus harming zero-shot generalization. This paper aims to address this challenge by leveraging readily available image-text pairs from an external dataset for cross-modal guidance during inference. To this end, we propose X-MoRe, a novel inference method comprising two key steps: (1) cross-modal retrieval and (2) modal-confidence-based ensemble. Given a query image, we harness the power of CLIP's cross-modal representations to retrieve relevant textual information from an external image-text pair dataset. Then, we assign higher weights to the more reliable modality between the original query image and retrieved text, contributing to the final prediction. X-MoRe demonstrates robust performance across a diverse set of tasks without the need for additional training, showcasing the effectiveness of utilizing cross-modal features to maximize CLIP's zero-shot ability.
翻訳日:2023-08-30 14:06:07 公開日:2023-08-29
# 学習型人間接触特徴マップによるロボット学習の強化

Enhancing Robot Learning through Learned Human-Attention Feature Maps ( http://arxiv.org/abs/2308.15327v1 )

ライセンス: Link先を確認
Daniel Scheuchenstuhl, Stefan Ulmer, Felix Resch, Luigi Berducci, Radu Grosu(参考訳) ロボット工学、特に複雑な視覚入力において、ロバストで効率的な学習は難しい問題である。 複雑な視覚シーンを迅速に処理し、環境の変化に反応する人間の注意機構にヒントを得て、ロボット学習に焦点に関する補助的な情報を埋め込むことで、学習プロセスの効率性と堅牢性を高めることができると考えている。 本稿では,人間の注意を近似予測モデルでモデル化し,エミュレートするための新しいアプローチを提案する。 次に、この出力を活用して、下流学習タスクに構造化された補助機能マップとして提供します。 実世界における手動運転の人注記録から予測モデルを学習し,この考え方を検証する。 物体検出と模倣学習という2つの学習課題にアプローチを試行する。 実験の結果,予測された人間の注意が組み込まれれば,トレーニングされたモデルの分散サンプルへの堅牢性が向上し,低データレジーム環境での学習が速くなることが示された。 本研究は,ロボットの表現学習に構造化補助情報を組み込む可能性を強調し,研究の新たな道を開く。 すべてのコードとデータはオンラインで入手できる。

Robust and efficient learning remains a challenging problem in robotics, in particular with complex visual inputs. Inspired by human attention mechanism, with which we quickly process complex visual scenes and react to changes in the environment, we think that embedding auxiliary information about focus point into robot learning would enhance efficiency and robustness of the learning process. In this paper, we propose a novel approach to model and emulate the human attention with an approximate prediction model. We then leverage this output and feed it as a structured auxiliary feature map into downstream learning tasks. We validate this idea by learning a prediction model from human-gaze recordings of manual driving in the real world. We test our approach on two learning tasks - object detection and imitation learning. Our experiments demonstrate that the inclusion of predicted human attention leads to improved robustness of the trained models to out-of-distribution samples and faster learning in low-data regime settings. Our work highlights the potential of incorporating structured auxiliary information in representation learning for robotics and opens up new avenues for research in this direction. All code and data are available online.
翻訳日:2023-08-30 13:56:31 公開日:2023-08-29
# FedLogic: 大規模言語モデルのための解釈可能なフェデレーション・ドメイン・オブ・ワットの連鎖選択

FedLogic: Interpretable Federated Multi-Domain Chain-of-Thought Prompt Selection for Large Language Models ( http://arxiv.org/abs/2308.15324v1 )

ライセンス: Link先を確認
Pengwei Xing, Songtao Lu, Han Yu(参考訳) 大規模言語モデル (LLM) から迅速かつ正確な応答を引き出すための '`'chain-of- Thought (CoT)'' の推論を活用することは、研究の関心を急速に引き寄せている。 ここで注目すべき課題は、最適なプロンプトの設計や選択方法だ。 プロンプト選択のプロセスは試行錯誤に依存しており、LCMから生成された対応する新しい応答に基づいてユーザによる連続的な調整と入力プロンプトの組み合わせを含む。 さらに,LLMがユーザインタラクションから学んだ数学的問題解決能力を用いて,ナラティブライティングの課題に対処するための最小限の研究も行われている。 マルチドメインcotプロンプト選択シナリオにおいて,汎用性とパーソナライゼーションのバランス原理を検討するために,フェデレーション論理ルール学習手法(feedlogic)を提案する。 我々は,多領域CoTプロンプト選択ジレンマの理論的形式化と対話的エミュレーションを,連合LDMの文脈で導入する。 両レベルプログラムとして結合確率モデリングの問題を提起し、COTのプロンプト選択精度をルールジェネレータとしてLLM関数をファジィスコアベースのルール選択に例えるようにした。 FedLogicは変動予測最大化(V-EM)によってこの問題を解決する。 さらに、この確率的モデリングフレームワークに2つのKL分割制約を組み込んで、広い検索空間の管理とCoTのクロスドメインパーソナライゼーションの達成の複雑さを克服する。 我々の知る限り、FedLogicはLLMに対する最初の解釈可能かつ原則化された多ドメインCoTプロンプト選択アプローチである。

Leveraging ``chain-of-thought (CoT)'' reasoning to elicit rapid and precise responses from large language models (LLMs) is rapidly attracting research interest. A notable challenge here is how to design or select optimal prompts. The process of prompt selection relies on trial and error, involving continuous adjustments and combinations of input prompts by users based on the corresponding new responses generated from LLMs. Furthermore, minimal research has been conducted to explore how LLMs employ the mathematical problem-solving capabilities learned from user interactions to address issues in narrative writing. To improve interpretability and explore the balance principle between generality and personalization under a multi-domain CoT prompt selection scenario, we propose the Federated Logic rule learning approach (FedLogic). We introduce a theoretical formalization and interactive emulation of the multi-domain CoT prompt selection dilemma in the context of federated LLMs. We cast the problem of joint probability modeling as a bilevel program, where the CoT prompt selection intricacy can be likened to a fuzzy score-based rule selection with the LLMs function as rule generators. FedLogic solves this problem through variational expectation maximization (V-EM). In addition, we incorporate two KL-divergence constraints within this probabilistic modeling framework to surmount the intricacies of managing extensive search spaces and accomplishing cross-domain personalization of CoTs. To the best of our knowledge, FedLogic is the first interpretable and principled federated multi-domain CoT prompt selection approach for LLMs.
翻訳日:2023-08-30 13:56:13 公開日:2023-08-29
# 顔解析のための均質タン変換による閉塞型深部畳み込みニューラルネットワーク

Occlusion-Aware Deep Convolutional Neural Network via Homogeneous Tanh-transforms for Face Parsing ( http://arxiv.org/abs/2308.15323v1 )

ライセンス: Link先を確認
Weihua Liu, Chaochao Lin, Haoping Yu, Said Boumaraf, Zhaoqiong Pi(参考訳) 顔解析は、各意味的顔成分のピクセル単位のラベルマップを推論する。 しかし、特に新型コロナウイルスの流行で顔の閉塞が一般的な状況になった場合、顔の閉塞を見逃し、単一の顔の外のいくつかの文脈的領域を無視している。 画像の照明理論に着想を得て,中心視と周辺視を融合させる4つのタン変換からなる,画像前処理のための新しい均一タン変換を提案する。 提案手法は咬合下の顔解析のジレンマに対処し,周辺状況のさらなる情報を圧縮する。 均質なtanh変換に基づいて,隠蔽顔解析のためのオクルージョン対応畳み込みニューラルネットワークを提案する。 タン・ポーラ空間とタン・カルテシアン空間の両方で情報を結合し、受容場を拡張できる。 さらに,閉塞領域の境界に焦点を合わせるために,閉塞認識損失を導入する。 ネットワークはシンプルで柔軟性があり、エンドツーエンドでトレーニングできる。 このデータセットは、CelebAMask-HQ、Short-Video Face Parsing、およびHelenデータセットを含むいくつかの学術的または産業的なデータセットから手動で精製され、公開されます。 実験により, 咬合下の顔解析の最先端手法を超越することを示す。

Face parsing infers a pixel-wise label map for each semantic facial component. Previous methods generally work well for uncovered faces, however overlook the facial occlusion and ignore some contextual area outside a single face, especially when facial occlusion has become a common situation during the COVID-19 epidemic. Inspired by the illumination theory of image, we propose a novel homogeneous tanh-transforms for image preprocessing, which made up of four tanh-transforms, that fuse the central vision and the peripheral vision together. Our proposed method addresses the dilemma of face parsing under occlusion and compresses more information of surrounding context. Based on homogeneous tanh-transforms, we propose an occlusion-aware convolutional neural network for occluded face parsing. It combines the information both in Tanh-polar space and Tanh-Cartesian space, capable of enhancing receptive fields. Furthermore, we introduce an occlusion-aware loss to focus on the boundaries of occluded regions. The network is simple and flexible, and can be trained end-to-end. To facilitate future research of occluded face parsing, we also contribute a new cleaned face parsing dataset, which is manually purified from several academic or industrial datasets, including CelebAMask-HQ, Short-video Face Parsing as well as Helen dataset and will make it public. Experiments demonstrate that our method surpasses state-of-art methods of face parsing under occlusion.
翻訳日:2023-08-30 13:55:42 公開日:2023-08-29
# 拡散モデルにおける露光バイアスの解明

Elucidating the Exposure Bias in Diffusion Models ( http://arxiv.org/abs/2308.15321v1 )

ライセンス: Link先を確認
Mang Ning, Mingxiao Li, Jianlin Su, Albert Ali Salah, Itir Onal Ertugrul(参考訳) 拡散モデルは印象的な生成能力を示しているが、トレーニングとサンプリングの入力ミスマッチとして説明される「暴露バイアス」問題は、深い探索に欠けている。 本稿では,まずサンプリング分布を解析的にモデル化し,各サンプリングステップにおける予測誤差を露光バイアス問題の根本原因として分類し,拡散モデルにおける露光バイアス問題を体系的に検討する。 さらに,この問題に対する潜在的な解決策を議論し,直観的な指標を提案する。 露光バイアスの解明とともに,エプシロンスケーリング(Epsilon Scaling)と呼ばれる簡易かつ効果的でトレーニングのない手法を提案し,露光バイアスを緩和する。 Epsilon Scalingは,ネットワーク出力(Epsilon)をスケールダウンし,トレーニングとサンプリングの間の入力ミスマッチを緩和することにより,トレーニング段階で学習したベクトル場に近いサンプリング軌道を明示的に移動させる。 様々な拡散フレームワーク (ADM, DDPM/DDIM, LDM) の実験, 無条件および条件設定, 決定論的対確率的サンプリングにより, 提案手法の有効性が検証された。

Diffusion models have demonstrated impressive generative capabilities, but their 'exposure bias' problem, described as the input mismatch between training and sampling, lacks in-depth exploration. In this paper, we systematically investigate the exposure bias problem in diffusion models by first analytically modelling the sampling distribution, based on which we then attribute the prediction error at each sampling step as the root cause of the exposure bias issue. Furthermore, we discuss potential solutions to this issue and propose an intuitive metric for it. Along with the elucidation of exposure bias, we propose a simple, yet effective, training-free method called Epsilon Scaling to alleviate the exposure bias. We show that Epsilon Scaling explicitly moves the sampling trajectory closer to the vector field learned in the training phase by scaling down the network output (Epsilon), mitigating the input mismatch between training and sampling. Experiments on various diffusion frameworks (ADM, DDPM/DDIM, LDM), unconditional and conditional settings, and deterministic vs. stochastic sampling verify the effectiveness of our method.
翻訳日:2023-08-30 13:55:19 公開日:2023-08-29
# 駆動活性化立方体相互作用によるボゾンモードの普遍制御

Universal control of a bosonic mode via drive-activated native cubic interactions ( http://arxiv.org/abs/2308.15320v1 )

ライセンス: Link先を確認
Axel M. Eriksson, Th\'eo S\'epulcre, Mikael Kervinen, Timo Hillmann, Marina Kudra, Simon Dupouy, Yong Lu, Maryam Khanahmadi, Jiaying Yang, Claudia Castillo Moreno, Per Delsing and Simone Gasparinetti(参考訳) 線形ボソニックモードは、量子情報処理のハードウェア効率の良い代替手段を提供するが、普遍制御にはいくつかの非線形性を必要とする。 フォトニクスにおける非線形性の欠如は、線形演算に依存するが立方晶相状態のような(非線形な)量子状態へのアクセスを必要とする、計測に基づく量子コンピューティングの符号化につながった。 対照的に、超伝導マイクロ波回路は設計可能な非線形性を提供するが、静的カー非線形性に苦しむ。 本稿では,超伝導非線形非対称誘導素子(SNAIL)共振器からなるボソニックモードの普遍制御を,SNAIL素子のネイティブ非線形性によって実現した。 我々は,Kerrフリー点付近でSNAILを動作させることで静的非線形性を抑え,高速フラックスパルスにより3次まで動的に非線形性を活性化する。 一般化されたスキューズ操作の普遍的集合と立方相ゲートを実験的に実現し,60 nsの立方相状態の定式化に利用した。 この結果から,ユニバーサル連続変数量子コンピューティングの実験分野が開始された。

Linear bosonic modes offer a hardware-efficient alternative for quantum information processing but require access to some nonlinearity for universal control. The lack of nonlinearity in photonics has led to encoded measurement-based quantum computing, which rely on linear operations but requires access to resourceful ('nonlinear') quantum states, such as cubic phase states. In contrast, superconducting microwave circuits offer engineerable nonlinearities but suffer from static Kerr nonlinearity. Here, we demonstrate universal control of a bosonic mode composed of a superconducting nonlinear asymmetric inductive element (SNAIL) resonator, enabled by native nonlinearities in the SNAIL element. We suppress static nonlinearities by operating the SNAIL in the vicinity of its Kerr-free point and dynamically activate nonlinearities up to third order by fast flux pulses. We experimentally realize a universal set of generalized squeezing operations, as well as the cubic phase gate, and exploit them to deterministically prepare a cubic phase state in 60 ns. Our results initiate the experimental field of universal continuous-variables quantum computing.
翻訳日:2023-08-30 13:54:59 公開日:2023-08-29
# 3D-MuPPET:3次元マルチピジョンポーズ推定と追跡

3D-MuPPET: 3D Multi-Pigeon Pose Estimation and Tracking ( http://arxiv.org/abs/2308.15316v1 )

ライセンス: Link先を確認
Urs Waldmann, Alex Hoi Hang Chan, Hemal Naik, M\'at\'e Nagy, Iain D. Couzin, Oliver Deussen, Bastian Goldluecke, Fumihiro Kano(参考訳) 動物の姿勢追跡のためのマーカーレス手法は近年開発が進んでいるが、3dで大きな動物集団を追跡するためのフレームワークやベンチマークはまだ不足している。 このギャップを克服するため、3D-MuPPETは最大10羽のハトをマルチビューで対話的に3Dポーズを推定・追跡するフレームワークである。 ポーズ推定器を訓練して、2Dのキーポイントと複数のハトのバウンディングボックスを推定し、キーポイントを3Dに三角測量する。 対応マッチングでは,まず第1フレームのグローバルIDに2D検出を動的にマッチングし,次に2Dトラッカーを用いて後続のフレームでの対応性を維持する。 我々は,根平均二乗誤差 (rmse) と正解率 (pck) に対する art 3d ポーズ推定器の状態と同等の精度を達成する。 また,単一ハトのデータでトレーニングしたモデルが,複数のハトを含むデータに対する比較結果を提供するという,新たなユースケースも紹介する。 これは、単一動物データへの注釈がマルチ動物データよりも労働集約性が低いため、新種へのドメインシフトを単純化することができる。 さらに,3D-MuPPETの推定速度を2Dで最大10fps,3Dで1.5fpsとベンチマークし,定量的な追跡評価を行い,その結果を得た。 最後に、3D-MuPPETは追加アノテーションの微調整をせずに自然環境でも動作することを示す。 我々の知る限りでは、室内と屋外の両方で機能する2D/3D姿勢と軌道追跡のためのフレームワークを最初に提示する。

Markerless methods for animal posture tracking have been developing recently, but frameworks and benchmarks for tracking large animal groups in 3D are still lacking. To overcome this gap in the literature, we present 3D-MuPPET, a framework to estimate and track 3D poses of up to 10 pigeons at interactive speed using multiple-views. We train a pose estimator to infer 2D keypoints and bounding boxes of multiple pigeons, then triangulate the keypoints to 3D. For correspondence matching, we first dynamically match 2D detections to global identities in the first frame, then use a 2D tracker to maintain correspondences accross views in subsequent frames. We achieve comparable accuracy to a state of the art 3D pose estimator for Root Mean Square Error (RMSE) and Percentage of Correct Keypoints (PCK). We also showcase a novel use case where our model trained with data of single pigeons provides comparable results on data containing multiple pigeons. This can simplify the domain shift to new species because annotating single animal data is less labour intensive than multi-animal data. Additionally, we benchmark the inference speed of 3D-MuPPET, with up to 10 fps in 2D and 1.5 fps in 3D, and perform quantitative tracking evaluation, which yields encouraging results. Finally, we show that 3D-MuPPET also works in natural environments without model fine-tuning on additional annotations. To the best of our knowledge we are the first to present a framework for 2D/3D posture and trajectory tracking that works in both indoor and outdoor environments.
翻訳日:2023-08-30 13:54:41 公開日:2023-08-29
# 3次元ポーズ推定のための時空間MLPグラフネットワーク

Spatio-temporal MLP-graph network for 3D human pose estimation ( http://arxiv.org/abs/2308.15313v1 )

ライセンス: Link先を確認
Tanvir Hassan and A. Ben Hamza(参考訳) グラフ畳み込みネットワークとその変種は3次元人間のポーズ推定において大きな可能性を示している。 その成功にもかかわらず、これらの手法のほとんどは身体関節間の空間的相関のみを考慮し、時間的相関を考慮せず、咬合の存在下での関係を捉える能力と固有の曖昧さを制限している。 この潜在的な弱点に対処するために、異なる関節間の通信を容易にする多層パーセプトロンブロックと、様々な特徴チャネル間の通信を可能にするグラフ重み付きヤコビネットワークブロックからなる時空間ネットワークアーキテクチャを提案する。 提案手法の主な特徴は,グラフフィルタリングと暗黙的フェアリングにより得られる新しい重み付きヤコビ特徴伝播則である。 2次元ポーズ列からの時間的情報を利用し、重み変調をモデルに統合することで、異なるノードの特徴変換のアンバングを可能にする。 また, グラフトポロジを学習可能な変調行列を用いて変化させることにより, 体節間の連結関係を超えて有意な相関関係を学習することを目的として, 隣接変調を用いた。 2つのベンチマークデータセットに関する広範囲な実験によって、このモデルの有効性が示され、最近の3次元ポーズ推定の最先端手法を上回っている。

Graph convolutional networks and their variants have shown significant promise in 3D human pose estimation. Despite their success, most of these methods only consider spatial correlations between body joints and do not take into account temporal correlations, thereby limiting their ability to capture relationships in the presence of occlusions and inherent ambiguity. To address this potential weakness, we propose a spatio-temporal network architecture composed of a joint-mixing multi-layer perceptron block that facilitates communication among different joints and a graph weighted Jacobi network block that enables communication among various feature channels. The major novelty of our approach lies in a new weighted Jacobi feature propagation rule obtained through graph filtering with implicit fairing. We leverage temporal information from the 2D pose sequences, and integrate weight modulation into the model to enable untangling of the feature transformations of distinct nodes. We also employ adjacency modulation with the aim of learning meaningful correlations beyond defined linkages between body joints by altering the graph topology through a learnable modulation matrix. Extensive experiments on two benchmark datasets demonstrate the effectiveness of our model, outperforming recent state-of-the-art methods for 3D human pose estimation.
翻訳日:2023-08-30 13:54:11 公開日:2023-08-29
# 自由電子の逐次位相同期光ゲーティング

Sequential phase-locked optical gating of free electrons ( http://arxiv.org/abs/2308.15310v1 )

ライセンス: Link先を確認
Fatemeh Chahshouri, and Nahid Talebi(参考訳) 自由電子パルスとレーザー誘起近接場光のコヒーレント量子相互作用の最近の進歩は、電子ウェーブレット形状に革命をもたらした。 これらの進歩に基づき, 位相同期相互作用系における低速電子と局在二極性プラズモンとのシーケンシャル相互作用の可能性について数値的に検討する。 遅い電子と光学的近接場との間の長い相互作用時間を利用して、自由電子波束変調におけるプラズモンダイナミクスの効果を探求することを目的としている。 以上の結果から, 相互作用開始点における局在二極性プラズモンの初期光学位相と相互作用領域間の位相オフセットは, 電子波動関数の横及び縦方向の反動を制御する制御パラメータとして機能することが示された。 また, 光の偏光状態は, 縦方向と横方向の反動を調整できる付加的な制御ノップであることを示した。 電子ウェーブレットの縦・横リコイルを精密に操作し,特定の回折角に沿って電子エネルギーを選択的に加速または減速させる逐次位相同期法が可能であることを示す。 これらの発見は、超高速電子光干渉法、電子波パケットの形成、量子情報処理のための新しい技術の開発に重要な意味を持つ。

Recent progress in coherent quantum interactions between free-electron pulses and laser-induced near-field light have revolutionized electron wavepacket shaping. Building on these advancements, we numerically explore the potential of sequential interactions between slow electrons and localized dipolar plasmons in a sequential phase-locked interaction scheme. Taking advantage of the prolonged interaction time between slow electrons and optical near-fields, we aim to explore the effect of plasmon dynamics on the free-electron wavepacket modulation. Our results demonstrate that the initial optical phase of the localized dipolar plasmon at the starting point of the interaction, along with the phase offset between the interaction zones, can serve as control parameters in manipulating the transverse and longitudinal recoil of the electron wavefunction. Moreover, it is shown that the polarization state of light is an additional control knop for tailoring the longitudinal and transverse recoils. We show that a sequential phase-locking method can be employed to precisely manipulate the longitudinal and transverse recoil of the electron wavepacket, leading to selective acceleration or deceleration of the electron energy along specific diffraction angles. These findings have important implications for the development of novel techniques for ultrafast electron-light interferometry, shaping the electron wave packet, and quantum information processing.
翻訳日:2023-08-30 13:53:49 公開日:2023-08-29
# 検索エンジン広告システムにおけるプライバシーリスクの理解

Understanding the Privacy Risks of Popular Search Engine Advertising Systems ( http://arxiv.org/abs/2308.15309v1 )

ライセンス: Link先を確認
Salim Chouaki, Oana Goga, Hamed Haddadi, Peter Snyder(参考訳) 本稿では,プライバシーに焦点をあてた検索エンジンで使用される広告システムのプライバシー特性を,初めて広範囲に計測する。 広告ベースのビジネスモデルであるStartPage、Qwant、DuckDuckGoの3つの人気のあるプライベート検索エンジン上で、検索広告のクリックが与える影響を、GoogleとBingの2つの主要なデータ共有モデルと比較する自動化手法を提案する。 広告をクリックすると、サードパーティがユーザーを追跡する可能性について、第1のストレージ、ドメインパスのリダイレクト、クリック前後のリクエストを分析して検討する。 その結果,プライバシー重視の検索エンジンは広告クリック時のプライバシー保護に失敗していることがわかった。 ユーザのリクエストは、bingの広告クリックの4%、qwantの広告クリックの86%、google、duckduckgo、startpageの広告クリックの100%のリディレクトリを通じて送信される。 さらに悪いことに、広告システムは、ほとんどの広告クリックで広告主にユニークなIDを渡すことによって、すべての検索エンジンの広告主と衝突する。 これらのIDは、ユーザーがリダイレクトされた時に記録したアクティビティに加えて、リダイレクト者が広告の目的地ウェブサイトでユーザーのアクティビティを集約することを可能にする。 全体として、プライバシー重視の検索エンジンと従来の検索エンジンの両方が、プライバシー強化されたブラウザでさえ、クロスサイトトラッキングを可能にするプライバシー保護行動に関与しているのを観察する。

We present the first extensive measurement of the privacy properties of the advertising systems used by privacy-focused search engines. We propose an automated methodology to study the impact of clicking on search ads on three popular private search engines which have advertising-based business models: StartPage, Qwant, and DuckDuckGo, and we compare them to two dominant data-harvesting ones: Google and Bing. We investigate the possibility of third parties tracking users when clicking on ads by analyzing first-party storage, redirection domain paths, and requests sent before, when, and after the clicks. Our results show that privacy-focused search engines fail to protect users' privacy when clicking ads. Users' requests are sent through redirectors on 4% of ad clicks on Bing, 86% of ad clicks on Qwant, and 100% of ad clicks on Google, DuckDuckGo, and StartPage. Even worse, advertising systems collude with advertisers across all search engines by passing unique IDs to advertisers in most ad clicks. These IDs allow redirectors to aggregate users' activity on ads' destination websites in addition to the activity they record when users are redirected through them. Overall, we observe that both privacy-focused and traditional search engines engage in privacy-harming behaviors allowing cross-site tracking, even in privacy-enhanced browsers.
翻訳日:2023-08-30 13:53:25 公開日:2023-08-29
# バイナリニューラルネットワークを用いたオンデバイス学習

On-Device Learning with Binary Neural Networks ( http://arxiv.org/abs/2308.15308v1 )

ライセンス: Link先を確認
Lorenzo Vorabbi, Davide Maltoni, Stefano Santi(参考訳) 既存の継続学習(CL)ソリューションは、低消費電力の組み込みCPU上にデプロイされたディープラーニングモデルのパワー、メモリ、計算に関する制約に部分的に対処するだけである。 本稿では、cl分野の最近の進歩と、重み付けとアクティベーションに1ビットを用いるバイナリニューラルネットワーク(bnn)の効率性を取り入れたclソリューションを提案する。 本稿では,CWR*(有効CLアプローチ)のハイブリッド量子化を提案する。これは,勾配更新ステップの精度向上と,遅延オーバーヘッドの最小化を実現するため,前向きと後向きのパスの相違を考慮したものである。 バックボーンとしてのバイナリネットワークの選択は、低消費電力デバイスの制約を満たすために不可欠であり、著者の知る限り、これはBNNでデバイス上での学習を証明する最初の試みである。 実験により,提案手法の有効性と妥当性を確認した。

Existing Continual Learning (CL) solutions only partially address the constraints on power, memory and computation of the deep learning models when deployed on low-power embedded CPUs. In this paper, we propose a CL solution that embraces the recent advancements in CL field and the efficiency of the Binary Neural Networks (BNN), that use 1-bit for weights and activations to efficiently execute deep learning models. We propose a hybrid quantization of CWR* (an effective CL approach) that considers differently forward and backward pass in order to retain more precision during gradient update step and at the same time minimizing the latency overhead. The choice of a binary network as backbone is essential to meet the constraints of low power devices and, to the best of authors' knowledge, this is the first attempt to prove on-device learning with BNN. The experimental validation carried out confirms the validity and the suitability of the proposed method.
翻訳日:2023-08-30 13:53:00 公開日:2023-08-29
# Detect, Augment, Compose, Adapt: オブジェクト検出における教師なしドメイン適応のための4つのステップ

Detect, Augment, Compose, and Adapt: Four Steps for Unsupervised Domain Adaptation in Object Detection ( http://arxiv.org/abs/2308.15353v1 )

ライセンス: Link先を確認
Mohamed L. Mekhalfi, Davide Boscaini, Fabio Poiesi(参考訳) 非教師なし領域適応(unsupervised domain adaptation、uda)は、アノテートされたデータなしでソース訓練された検出器を対象領域に適応させる際に、オブジェクト検出において重要な役割を果たす。 本稿では,自己超越と学習源と目標データを同時に活用する,新しい4段階UDA手法を提案する。 対象領域における真理の欠如を軽減するために,自己教師型学習を利用する。 本手法は,(1)疑似ラベルとして機能する各対象画像の最も信頼度の高い領域を識別する,(2)識別された領域を収穫して拡張したバージョンの集合を生成する,(3)これらを合成画像に結合する,(4)合成画像を用いてネットワークを対象領域に適応させる,というステップからなる。 クロスカメラ,クロスウェザー,合成から現実のシナリオ下での広範な実験を通じて,本手法は最先端の性能を実現し,平均精度(mAP)の2%以上向上した。 コードはhttps://github.com/MohamedTEV/DACAで公開されている。

Unsupervised domain adaptation (UDA) plays a crucial role in object detection when adapting a source-trained detector to a target domain without annotated data. In this paper, we propose a novel and effective four-step UDA approach that leverages self-supervision and trains source and target data concurrently. We harness self-supervised learning to mitigate the lack of ground truth in the target domain. Our method consists of the following steps: (1) identify the region with the highest-confidence set of detections in each target image, which serve as our pseudo-labels; (2) crop the identified region and generate a collection of its augmented versions; (3) combine these latter into a composite image; (4) adapt the network to the target domain using the composed image. Through extensive experiments under cross-camera, cross-weather, and synthetic-to-real scenarios, our approach achieves state-of-the-art performance, improving upon the nearest competitor by more than 2% in terms of mean Average Precision (mAP). The code is available at https://github.com/MohamedTEV/DACA.
翻訳日:2023-08-30 13:45:28 公開日:2023-08-29
# 稲作の歴史的パターンから中国・日本における現代言語利用の近代化・都市化以上の説明

Historical patterns of rice farming explain modern-day language use in China and Japan more than modernization and urbanization ( http://arxiv.org/abs/2308.15352v1 )

ライセンス: Link先を確認
Sharath Chandra Guntuku, Thomas Talhelm, Garrick Sherman, Angel Fan, Salvatore Giorgi, Liuqing Wei, Lyle H. Ungar(参考訳) 中国最大のソーシャルメディアプラットフォームであるWeiboの文化的な違いを研究するために、自然言語処理を使用して10億語を分析しました。 中国における文化的な差異(経済発展と都市と農村の差異)と、米と小麦の栽培の貧弱な遺産との2つの共通説明から予測した。 稲作農家は、より高い労働要件に対応するために、共同灌水ネットワークを調整し、労働を交換しなければならなかった。 対照的に小麦は降雨に依存し、半分の労力を必要とした。 この遺産が中国南部をより相互依存させたかどうかを検証する。 すべての単語のカテゴリーで、米は経済発展と都市化の2倍のばらつきを説明した。 田地は、密接な社会関係、総合的な思想、慎重で予防志向を反映した言葉が多く使われた。 そして、日本の都道府県を比較したTwitterデータを使用しました。 これは、異なる国家、言語、プラットフォームにおける米理論の重要な証拠となる。

We used natural language processing to analyze a billion words to study cultural differences on Weibo, one of China's largest social media platforms. We compared predictions from two common explanations about cultural differences in China (economic development and urban-rural differences) against the less-obvious legacy of rice versus wheat farming. Rice farmers had to coordinate shared irrigation networks and exchange labor to cope with higher labor requirements. In contrast, wheat relied on rainfall and required half as much labor. We test whether this legacy made southern China more interdependent. Across all word categories, rice explained twice as much variance as economic development and urbanization. Rice areas used more words reflecting tight social ties, holistic thought, and a cautious, prevention orientation. We then used Twitter data comparing prefectures in Japan, which largely replicated the results from China. This provides crucial evidence of the rice theory in a different nation, language, and platform.
翻訳日:2023-08-30 13:45:05 公開日:2023-08-29
# Lie-Poisson Neural Networks (LPNets): 対称性を持つハミルトン系のデータベースコンピューティング

Lie-Poisson Neural Networks (LPNets): Data-Based Computing of Hamiltonian Systems with Symmetries ( http://arxiv.org/abs/2308.15349v1 )

ライセンス: Link先を確認
Christopher Eldred, Fran\c{c}ois Gay-Balmaz, Sofiia Huraka, Vakhtang Putkaradze(参考訳) ハミルトン系の長期進化の正確なデータに基づく予測には、各時間ステップで適切な構造を保持するネットワークが必要である。 すべてのハミルトン系はポアソンブラケットとハミルトン系という2つの必須成分を含んでいる。 対称性を持つハミルトン系は、リーポアソン系(英語版)というパラダイムの例があり、衛星の動きから水中の乗り物、流体、物理応用、複雑な流体、プラズマ物理学まで幅広い物理現象のカテゴリーを記述することが示されている。 これらの系のポアソン括弧は対称性から、ハミルトニアンは基礎となる物理学から得られる。 我々は系の対称性を一次と見なしているので、リー・ポアソンのブラケットは正確には知られており、一方ハミルトニアンは物理学から来ており、不明、あるいは概ね知られていると考えられている。 このアプローチを用いて,ポアソンブラケットと,リー・ポアソン系(カシミール)の特殊関数を機械的精度で正確に保存する変換に基づくネットワークを開発する。 本稿では,変換のパラメータを高密度ニューラルネットワーク(lpnets)を用いてデータから計算するシステムと,変換の合成をビルディングブロック(g-lpnets)として使用するシステムについて述べる。 また,これらの手法をポアソンブラケットのより大きなクラスに適用する方法を示す。 得られた手法は、剛体(衛星)運動、水中車両、磁場中の粒子など、いくつかの例に適用する。 本稿では,物理システムの長期的ダイナミクスをシミュレーションする高精度なデータベース手法の構築に重要である。

An accurate data-based prediction of the long-term evolution of Hamiltonian systems requires a network that preserves the appropriate structure under each time step. Every Hamiltonian system contains two essential ingredients: the Poisson bracket and the Hamiltonian. Hamiltonian systems with symmetries, whose paradigm examples are the Lie-Poisson systems, have been shown to describe a broad category of physical phenomena, from satellite motion to underwater vehicles, fluids, geophysical applications, complex fluids, and plasma physics. The Poisson bracket in these systems comes from the symmetries, while the Hamiltonian comes from the underlying physics. We view the symmetry of the system as primary, hence the Lie-Poisson bracket is known exactly, whereas the Hamiltonian is regarded as coming from physics and is considered not known, or known approximately. Using this approach, we develop a network based on transformations that exactly preserve the Poisson bracket and the special functions of the Lie-Poisson systems (Casimirs) to machine precision. We present two flavors of such systems: one, where the parameters of transformations are computed from data using a dense neural network (LPNets), and another, where the composition of transformations is used as building blocks (G-LPNets). We also show how to adapt these methods to a larger class of Poisson brackets. We apply the resulting methods to several examples, such as rigid body (satellite) motion, underwater vehicles, a particle in a magnetic field, and others. The methods developed in this paper are important for the construction of accurate data-based methods for simulating the long-term dynamics of physical systems.
翻訳日:2023-08-30 13:44:51 公開日:2023-08-29
# 画面フラッシュ下の多様な攻撃タイプのためのロバストなフレームワーク、mobile face anti-spoofingの強化

Enhancing Mobile Face Anti-Spoofing: A Robust Framework for Diverse Attack Types under Screen Flash ( http://arxiv.org/abs/2308.15346v1 )

ライセンス: Link先を確認
Weihua Liu, Chaochao Lin, Yu Yan(参考訳) face anti-spoofing (fas) は顔認識システムを確保するために重要である。 しかし、手作りのバイナリやピクセルワイドラベルを持つ既存のFAS手法は、多種多様なプレゼンテーションアタック(PA)による制限がある。 本稿では,ATR-FASと呼ばれる光照射下でのアタック型頑健な顔反偽造フレームワークを提案する。 様々な攻撃タイプによる画像の違いにより、単一の二分分類ネットワークに基づく従来のFAS手法は、スプーフのクラス内距離が過大になり、決定境界学習が困難になる可能性がある。 そこで我々は,複数のネットワークを用いて複数フレームの深度マップを再構築し,各ネットワークの専門家を1種類の攻撃に利用した。 タイプゲートとフレームアテンションゲートからなるデュアルゲートモジュール(DGM)を導入し、それぞれ攻撃型認識と多フレームアテンション生成を行う。 DGMの出力は、複数の専門家ネットワークの結果を混合するために重みとして利用される。 マルチエキスパート混合物は、atr-fasがspoof微分深度マップを生成することができ、異なるタイプのpasに影響を受けずに安定してspoof顔を検出する。 さらに、元のフラッシュフレームを微分フレームに変換するための差分正規化手順も設計する。 このシンプルだが効果的な処理は、深度マップの生成を支援するフラッシュフレームの細部を強化する。 本フレームワークの有効性を検証するため,スマートフォン画面のダイナミックフラッシュの下で,12,660件のライブおよびスプーフビデオを含む大規模データセットを収集した。 大規模な実験により、提案されたATR-FASは既存の最先端手法を著しく上回っていることが示された。 コードとデータセットはhttps://github.com/Chaochao-Lin/ATR-FASで入手できる。

Face anti-spoofing (FAS) is crucial for securing face recognition systems. However, existing FAS methods with handcrafted binary or pixel-wise labels have limitations due to diverse presentation attacks (PAs). In this paper, we propose an attack type robust face anti-spoofing framework under light flash, called ATR-FAS. Due to imaging differences caused by various attack types, traditional FAS methods based on single binary classification network may result in excessive intra-class distance of spoof faces, leading to a challenge of decision boundary learning. Therefore, we employed multiple networks to reconstruct multi-frame depth maps as auxiliary supervision, and each network experts in one type of attack. A dual gate module (DGM) consisting of a type gate and a frame-attention gate is introduced, which perform attack type recognition and multi-frame attention generation, respectively. The outputs of DGM are utilized as weight to mix the result of multiple expert networks. The multi-experts mixture enables ATR-FAS to generate spoof-differentiated depth maps, and stably detects spoof faces without being affected by different types of PAs. Moreover, we design a differential normalization procedure to convert original flash frames into differential frames. This simple but effective processing enhances the details in flash frames, aiding in the generation of depth maps. To verify the effectiveness of our framework, we collected a large-scale dataset containing 12,660 live and spoof videos with diverse PAs under dynamic flash from the smartphone screen. Extensive experiments illustrate that the proposed ATR-FAS significantly outperforms existing state-of-the-art methods. The code and dataset will be available at https://github.com/Chaochao-Lin/ATR-FAS.
翻訳日:2023-08-30 13:44:23 公開日:2023-08-29
# IndGIC:低照度下での行動認識

IndGIC: Supervised Action Recognition under Low Illumination ( http://arxiv.org/abs/2308.15345v1 )

ライセンス: Link先を確認
Jingbo Zeng(参考訳) 人間の行動認識技術は、監視、モーションコントロール、人間とコンピュータの相互作用において大きな需要があるため、ますます注目を集めている。 しかし、画像強調法やラベリングコストなどの低照度ビデオデータセットの制限により、既存の手法はいくつかの問題に対処する。 ビデオベースのアプローチの中には、特定のデータセットの効果と効率性があるが、ほとんどのケースに一般化できないものもある。 本稿では,深層多入力ネットワークを用いた行動認識手法を提案する。 さらに,低照度映像を強調する独立したガンマ強度相関 (ind-gic) を提案し, 1フレームにつき1ガンマを生成し, エンハンス性能を向上させる。 本手法が有効であることを示すため,提案手法と既存手法との比較を行った。 実験結果から,本モデルはARIDデータセットの精度が高いことがわかった。

Technologies of human action recognition in the dark are gaining more and more attention as huge demand in surveillance, motion control and human-computer interaction. However, because of limitation in image enhancement method and low-lighting video datasets, e.g. labeling cost, existing methods meet some problems. Some video-based approached are effect and efficient in specific datasets but cannot generalize to most cases while others methods using multiple sensors rely heavily to prior knowledge to deal with noisy nature from video stream. In this paper, we proposes action recognition method using deep multi-input network. Furthermore, we proposed a Independent Gamma Intensity Corretion (Ind-GIC) to enhance poor-illumination video, generating one gamma for one frame to increase enhancement performance. To prove our method is effective, there is some evaluation and comparison between our method and existing methods. Experimental results show that our model achieves high accuracy in on ARID dataset.
翻訳日:2023-08-30 13:43:51 公開日:2023-08-29
# 画像境界からのディープニューラルネットワークに対する知覚不能な逆攻撃

Imperceptible Adversarial Attack on Deep Neural Networks from Image Boundary ( http://arxiv.org/abs/2308.15344v1 )

ライセンス: Link先を確認
Fahad Alrasheedi, Xin Zhong(参考訳) 畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)のようなディープニューラルネットワーク(DNN)はコンピュータビジョンの分野でうまく応用されているが、それらはDNNを騙し易く、よく考えられた敵例(AE)に弱いことが示されている。 AEsの研究は活発に行われており、2014年に発見されて以来、多くの敵対的な攻撃や説明が提案されている。 AEの存在の謎はまだ未解決の問題であり、DNNトレーニングアルゴリズムには盲点があることが多くの研究で示唆されている。 正常なオブジェクトは通常境界と重複しないため、境界はDNNモデルの注意事項ではない。 しかしながら、最近の研究では、境界がDNNモデルの挙動を支配することが示されている。 そこで本研究では,異なる視点からAEを考察し,入力画像境界を体系的に攻撃してAEを見出す,知覚不能な敵攻撃を提案する。 実験の結果,提案手法は,入力画像の32%(境界値から)と平均成功率95.2%,平均ピーク信号-雑音比41.37dBを用いて,6つのCNNモデルとViTを効果的に攻撃することがわかった。 対向境界幅とSRの関係や、対向境界がDNNモデルの注意をどう変えるかといった相関解析を行った。 本論文の発見は,AEsの理解を深める可能性があり,AEsの構築方法の異なる視点を提供する。

Although Deep Neural Networks (DNNs), such as the convolutional neural networks (CNN) and Vision Transformers (ViTs), have been successfully applied in the field of computer vision, they are demonstrated to be vulnerable to well-sought Adversarial Examples (AEs) that can easily fool the DNNs. The research in AEs has been active, and many adversarial attacks and explanations have been proposed since they were discovered in 2014. The mystery of the AE's existence is still an open question, and many studies suggest that DNN training algorithms have blind spots. The salient objects usually do not overlap with boundaries; hence, the boundaries are not the DNN model's attention. Nevertheless, recent studies show that the boundaries can dominate the behavior of the DNN models. Hence, this study aims to look at the AEs from a different perspective and proposes an imperceptible adversarial attack that systemically attacks the input image boundary for finding the AEs. The experimental results have shown that the proposed boundary attacking method effectively attacks six CNN models and the ViT using only 32% of the input image content (from the boundaries) with an average success rate (SR) of 95.2% and an average peak signal-to-noise ratio of 41.37 dB. Correlation analyses are conducted, including the relation between the adversarial boundary's width and the SR and how the adversarial boundary changes the DNN model's attention. This paper's discoveries can potentially advance the understanding of AEs and provide a different perspective on how AEs can be constructed.
翻訳日:2023-08-30 13:43:35 公開日:2023-08-29
# 冠動脈疾患早期診断のためのAIフレームワーク:境界SMOTE,オートエンコーダ,畳み込みニューラルネットワークアプローチの統合

AI Framework for Early Diagnosis of Coronary Artery Disease: An Integration of Borderline SMOTE, Autoencoders and Convolutional Neural Networks Approach ( http://arxiv.org/abs/2308.15339v1 )

ライセンス: Link先を確認
Elham Nasarian, Danial Sharifrazi, Saman Mohsenirad, Kwok Tsui, Roohallah Alizadehsani(参考訳) 冠動脈疾患 (CAD) の診断精度は, 人口統計, 症状, 臨床検査, 心電図, 心エコーデータなど, 様々な因子に依存する。 この文脈において、人工知能(AI)は、複数の因子から情報を合成することにより、診断過程の初期段階で高リスク患者を特定するのに役立つ。 この目的のために,CAD 病リスクに基づいて,機械学習アルゴリズムを用いて患者を分類する。 本研究では,データの不均衡とサンプルサイズが小さい場合に,より正確な予測を行うために,データのバランスと拡張を行う手法を考案し,本研究に寄与する。 この方法論は、特にデータ収集が高価でサンプルサイズが小さい場合に、他の様々な状況で使用できる。 実験の結果,提案手法の平均精度は95.36であり,ランダムフォレスト(RF),決定木(DT),サポートベクターマシン(SVM),ロジスティック回帰(LR),人工ニューラルネットワーク(ANN)よりも高かった。

The accuracy of coronary artery disease (CAD) diagnosis is dependent on a variety of factors, including demographic, symptom, and medical examination, ECG, and echocardiography data, among others. In this context, artificial intelligence (AI) can help clinicians identify high-risk patients early in the diagnostic process, by synthesizing information from multiple factors. To this aim, Machine Learning algorithms are used to classify patients based on their CAD disease risk. In this study, we contribute to this research filed by developing a methodology for balancing and augmenting data for more accurate prediction when the data is imbalanced and the sample size is small. The methodology can be used in a variety of other situations, particularly when data collection is expensive and the sample size is small. The experimental results revealed that the average accuracy of our proposed method for CAD prediction was 95.36, and was higher than random forest (RF), decision tree (DT), support vector machine (SVM), logistic regression (LR), and artificial neural network (ANN).
翻訳日:2023-08-30 13:43:05 公開日:2023-08-29
# 不信な量子ステアリング

Distrustful quantum steering ( http://arxiv.org/abs/2308.15337v1 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 量子ステアリング(quantum steering)は、非対称な量子非局所性の形式であり、当事者の1つの測定を信頼することができる。 本研究は,実用的考察から着想を得て,測定装置を完全に信頼できず,ある程度の精度しか持たないシナリオを検討する。 まず, 標準デバイス依存型量子トモグラフィーにそのような不正確さが及ぼす影響について検討する。 次に、この結果を用いて、相手の計測装置の1つに与える信頼の量に応じて、任意の一般的な操舵不平等の局所的な境界の変動を計算する。 これは、Aliceに対する小さな不信でさえ、量子状態が不安定である場合でも、当事者がステアビリティを観察する可能性があることを示すため、特に重要である。 さらに、この効果は高次元の量子ステアリングを観察する際により重要となる。

Quantum steering is an asymmetric form of quantum nonlocality where one can trust the measurements of one of the parties. In this work, inspired by practical considerations we investigate the scenario if one can not fully trust their measurement devices but only up to some precision. We first find the effect of such an imprecision on standard device-dependent quantum tomography. We then utilise this result to compute the variation in the local bound of any general steering inequality depending on the amount of trust one puts in one of the party's measurement devices. This is particularly important as we show that even a small distrust on Alice might cause the parties to observe steerability even if the quantum state is unsteerable. Furthermore, this effect becomes more relevant when observing higher dimensional quantum steering.
翻訳日:2023-08-30 13:42:44 公開日:2023-08-29
# 生成AIを用いた自動学生フィードバックの責任開発のためのフレームワーク

A Framework for Responsible Development of Automated Student Feedback with Generative AI ( http://arxiv.org/abs/2308.15334v1 )

ライセンス: Link先を確認
Euan D Lindsay, Aditya Johri, Johannes Bjerva(参考訳) 学生に豊富なフィードバックを提供することは、学生の学習を支援するために不可欠である。 最近のジェネレイティブaiの進歩、特に大言語モデリング(llm)は、繰り返し可能でスケーラブルで、瞬時に生成されたフィードバックを学生に届ける機会を提供し、これまで不足していた、高価な学習リソースを豊富に活用する。 このようなアプローチは、最近の人工知能(AI)と自然言語処理(NLP)の進歩により、技術的な観点から実現可能である。 aiシステムの魅力は、最も平凡なタスクを効果的に自動化できることにあるが、自動化が難しいため、ロングテールのマイノリティのニーズが見過ごされる"多数派tyranny of the majority"を導入するリスクがある。 価値と真正なフィードバックを生み出すマシンラーニングモデルの開発には、人間ドメインの専門家の入力が必要だ。 この専門知識(いつ、いつ、どのようにして)を捉えることで得られる選択は、結果のフィードバックの性質に重大な影響を与えるでしょう。 私たちのモデルをどのように維持するかは、学生コホートの文脈、理論、事前学習プロファイルの時間的変化を考慮して、そのフィードバックがどのように関係するかに影響を及ぼす。 これらの質問は倫理的な観点から重要であるが、運用の観点からも重要である。 答えが得られなければ、私たちのAI生成システムは、現代の学習環境において有用な機能であるために必要な信頼を欠くでしょう。 本稿では,自動フィードバックのフロンティアの概要を概説するとともに,自動フィードバックの提供に関わる倫理的問題を特定し,学術者がこのようなシステム開発に責任を負うように支援する枠組みを提案する。

Providing rich feedback to students is essential for supporting student learning. Recent advances in generative AI, particularly within large language modelling (LLM), provide the opportunity to deliver repeatable, scalable and instant automatically generated feedback to students, making abundant a previously scarce and expensive learning resource. Such an approach is feasible from a technical perspective due to these recent advances in Artificial Intelligence (AI) and Natural Language Processing (NLP); while the potential upside is a strong motivator, doing so introduces a range of potential ethical issues that must be considered as we apply these technologies. The attractiveness of AI systems is that they can effectively automate the most mundane tasks; but this risks introducing a "tyranny of the majority", where the needs of minorities in the long tail are overlooked because they are difficult to automate. Developing machine learning models that can generate valuable and authentic feedback requires the input of human domain experts. The choices we make in capturing this expertise -- whose, which, when, and how -- will have significant consequences for the nature of the resulting feedback. How we maintain our models will affect how that feedback remains relevant given temporal changes in context, theory, and prior learning profiles of student cohorts. These questions are important from an ethical perspective; but they are also important from an operational perspective. Unless they can be answered, our AI generated systems will lack the trust necessary for them to be useful features in the contemporary learning environment. This article will outline the frontiers of automated feedback, identify the ethical issues involved in the provision of automated feedback and present a framework to assist academics to develop such systems responsibly.
翻訳日:2023-08-30 13:42:30 公開日:2023-08-29
# 機械学習による量子同期の開始予測

Predicting the Onset of Quantum Synchronization Using Machine Learning ( http://arxiv.org/abs/2308.15330v1 )

ライセンス: Link先を確認
Felipe Mahlow, Bar{\i}\c{s} \c{C}akmak, G\"oktu\u{g} Karpat, \.Iskender Yal\c{c}{\i}nkaya, Felipe Fanchini(参考訳) オープンシステムにおける2つのキュービット間の環境誘起自然同期の出現を予測するために,機械学習アルゴリズムを適用した。 特に、量子ビットの開系力学を記述するために、グローバルおよびローカルな散逸体制を含む3つの異なるモデルを検討した。 k$-nearest neighborsアルゴリズムを用いて、これら3つの異なるモデルにおける量子ビット可観測器の早期予測値のみを用いて、量子ビットの長時間同期挙動を推定した。 本研究は, 機械学習に基づく手法を用いて, ダイナミクスの初期段階においても, 異なる同期現象の発生を高精度に決定できる可能性を明らかにした。 さらに, 量子ビット期待値のランダム誤差を考慮した実験において, ポテンシャル測定誤差に対するロバスト性を示す。 提案結果は,量子同期の決定に関する実験的研究において有用であることが証明できると考えられる。

We have applied a machine learning algorithm to predict the emergence of environment-induced spontaneous synchronization between two qubits in an open system setting. In particular, we have considered three different models, encompassing global and local dissipation regimes, to describe the open system dynamics of the qubits. We have utilized the $k$-nearest neighbors algorithm to estimate the long time synchronization behavior of the qubits only using the early time expectation values of qubit observables in these three distinct models. Our findings clearly demonstrate the possibility of determining the occurrence of different synchronization phenomena with high precision even at the early stages of the dynamics using a machine learning-based approach. Moreover, we show the robustness of our approach against potential measurement errors in experiments by considering random errors in qubit expectation values. We believe that the presented results can prove to be useful in experimental studies on the determination of quantum synchronization.
翻訳日:2023-08-30 13:41:59 公開日:2023-08-29
# 空中画像における物体検出モデルのロバスト性について

On the Robustness of Object Detection Models in Aerial Images ( http://arxiv.org/abs/2308.15378v1 )

ライセンス: Link先を確認
Haodong He, Jian Ding, and Gui-Song Xia(参考訳) オブジェクト検出モデルの堅牢性は、現実のシナリオに適用する際の大きな関心事である。 しかし、ほとんどのオブジェクト検出モデルの性能は、通常はきれいなデータセットで訓練され、評価されるため、破損を受けた画像に適用すると劣化する。 物体検出モデルのロバスト性を高めることは、特に複雑な背景、スケールや物体の向きのかなりの変化を特徴とする空中画像のために設計されたものにとって最も重要である。 本稿では,航空画像における物体検出モデルのロバスト性を評価することの課題について,画像が雲に影響されるシナリオを特に強調する。 本研究では,DOTA-v1.0に基づく2つの新しいベンチマークを紹介する。 第1のベンチマークは19の一般的な腐敗を含んでおり、第2のベンチマークは雲でできた画像に焦点を当てている。 主流物体検出モデルのロバスト性を体系的に評価し,多数のアブレーション実験を行った。 調査の結果,拡張型モデルアーキテクチャ,大規模ネットワーク,高度に構築されたモジュール,および厳密なデータ拡張戦略が,航空物体検出モデルの堅牢性を高めることがわかった。 提案するベンチマークと包括的実験解析は,空中画像におけるロバスト物体検出の研究を容易にする。 コードとデータセットは(https://github.com/hehaodong530/dota-c)。

The robustness of object detection models is a major concern when applied to real-world scenarios. However, the performance of most object detection models degrades when applied to images subjected to corruptions, since they are usually trained and evaluated on clean datasets. Enhancing the robustness of object detection models is of utmost importance, especially for those designed for aerial images, which feature complex backgrounds, substantial variations in scales and orientations of objects. This paper addresses the challenge of assessing the robustness of object detection models in aerial images, with a specific emphasis on scenarios where images are affected by clouds. In this study, we introduce two novel benchmarks based on DOTA-v1.0. The first benchmark encompasses 19 prevalent corruptions, while the second focuses on cloud-corrupted images-a phenomenon uncommon in natural pictures yet frequent in aerial photography. We systematically evaluate the robustness of mainstream object detection models and perform numerous ablation experiments. Through our investigations, we find that enhanced model architectures, larger networks, well-crafted modules, and judicious data augmentation strategies collectively enhance the robustness of aerial object detection models. The benchmarks we propose and our comprehensive experimental analyses can facilitate research on robust object detection in aerial images. Codes and datasets are available at: (https://github.com/hehaodong530/DOTA-C)
翻訳日:2023-08-30 13:37:49 公開日:2023-08-29
# 強電界イオン化における非相対論的強度の相対論的およびスピン軌道ダイナミクス

Relativistic and Spin-Orbit Dynamics at Non-Relativistic Intensities in Strong-Field Ionization ( http://arxiv.org/abs/2308.15374v1 )

ライセンス: Link先を確認
Andrew S. Maxwell and Lars Bojer Madsen(参考訳) 強磁場の運動エネルギーに対するスピン軌道動力学と相対論的補正は、10^{13}$--$10^{14}$ w/cm$^2$の近赤外場では長い間無視されてきた。 しかし、正確かつ柔軟な経路積分形式を用いて、微細構造、ブライト・パウリ・ハミルトニアンからのすべての補正項を含む。 これにより、強磁場物理学においてこのアプローチを用いた最初のモデルであるコヒーレントスピン状態によるスピンの処理が可能になる。 我々は、最もエネルギー的に再散布された波束が巨大な運動量移動を行い、相対論的速度に短期間到達し、相対論的運動エネルギー補正を保証していることを示すことができる。 我々はこれらの効果を探索し、動力学および光電子スペクトル上の1600ドルの波長レーザー場に対して顕著な差が生じることを示した。 さらに、運動エネルギーに対する相対論的補正が考慮されない場合、動的スピン軌道結合は強く過大評価される。 最後に、相対論的効果が期待よりも桁違いに低い強度の順序で役割を担い始めることを示す新しい条件を導出する。 この発見は、高エネルギー光電子再構成を含むレーザー誘起電子回折などのイメージングプロセスに重要な影響を及ぼす可能性がある。

Spin-orbit dynamics and relativistic corrections to the kinetic energy in strong-field dynamics, have long been ignored for near- and mid-IR fields with intensities $10^{13}$--$10^{14}$ W/cm$^2$, as the final photoelectron energies are considered too low for these effects to play a role. However, using a precise and flexible path-integral formalism, we include all correction terms from the fine-structure, Breit-Pauli Hamiltonian. This enables a treatment of spin, through coherent spin-states, which is the first model to use this approach in strong-field physics. We are able to show that the most energetically rescattered wavepackets, undergo huge momentum transfer and briefly reach relativistic velocities, which warrants relativistic kinetic energy corrections. We probe these effects and show that they yield notable differences for a $1600$ nm wavelength laser field on the dynamics and the photoelectron spectra. Furthermore, we find that the dynamical spin-orbit coupling is strongly overestimated if relativistic corrections to kinetic energy are not considered. Finally, we derive a new condition that demonstrates that relativistic effects begin to play a role at intensities orders of magnitude lower than expected. Our findings may have important implication for imaging processes such as laser-induced electron diffraction, which includes high-energy photoelectron recollisions.
翻訳日:2023-08-30 13:37:30 公開日:2023-08-29
# 多応答ヘテロセダスティックガウス過程モデルとその推論

Multi-Response Heteroscedastic Gaussian Process Models and Their Inference ( http://arxiv.org/abs/2308.15370v1 )

ライセンス: Link先を確認
Taehee Lee and Jun S. Liu(参考訳) ガウス過程モデルを多元的非パラメトリックモデリングに広く利用しているにもかかわらず、関数のスムーズさの急激な変化を効果的に捉え、ヘテロスセダスティックなエラーとの関係を調節する限界を示す。 これらの欠点に対処するため、ヘテロセダスティックガウス過程(HeGP)回帰は、回帰モデルにおいて共変量間の残差のばらつきを認め、柔軟性を導入しようとする。 本研究では,HeGPの概念を拡張し,回帰タスクを超えて,分類と状態空間モデルの範囲を広げる。 そこで本研究では, ガウス過程と共変量誘起精度行列プロセスが結合し, 混合定式化を施した新しい枠組みを提案する。 このアプローチは共変量間のヘテロスセダティック共分散関数のモデリングを可能にする。 サンプリングによって引き起こされる計算課題を軽減するため,後部を近似し,後部予測モデルを容易にするために変分推論を用いる。 さらに, クローズドフォームのMステップ更新を特徴とするEMアルゴリズムを利用して, ヘテロ代用共分散関数を効率的に評価する。 我々のモデルの特筆すべき特徴は、多変量応答における一貫したパフォーマンスであり、様々なタイプ(連続的または分類的)をシームレスに調節する。 気候学におけるシミュレーションと実世界の応用を組み合わせることで,モデルの長所と長所を説明する。 従来のガウス的プロセスモデルの限界を克服することで、提案するフレームワークは幅広いアプリケーションに対して堅牢で汎用性の高いツールを提供する。

Despite the widespread utilization of Gaussian process models for versatile nonparametric modeling, they exhibit limitations in effectively capturing abrupt changes in function smoothness and accommodating relationships with heteroscedastic errors. Addressing these shortcomings, the heteroscedastic Gaussian process (HeGP) regression seeks to introduce flexibility by acknowledging the variability of residual variances across covariates in the regression model. In this work, we extend the HeGP concept, expanding its scope beyond regression tasks to encompass classification and state-space models. To achieve this, we propose a novel framework where the Gaussian process is coupled with a covariate-induced precision matrix process, adopting a mixture formulation. This approach enables the modeling of heteroscedastic covariance functions across covariates. To mitigate the computational challenges posed by sampling, we employ variational inference to approximate the posterior and facilitate posterior predictive modeling. Additionally, our training process leverages an EM algorithm featuring closed-form M-step updates to efficiently evaluate the heteroscedastic covariance function. A notable feature of our model is its consistent performance on multivariate responses, accommodating various types (continuous or categorical) seamlessly. Through a combination of simulations and real-world applications in climatology, we illustrate the model's prowess and advantages. By overcoming the limitations of traditional Gaussian process models, our proposed framework offers a robust and versatile tool for a wide array of applications.
翻訳日:2023-08-30 13:37:06 公開日:2023-08-29
# RED:ロボット環境ダイナミクスのためのシステム的リアルタイムスケジューリング手法

RED: A Systematic Real-Time Scheduling Approach for Robotic Environmental Dynamics ( http://arxiv.org/abs/2308.15368v1 )

ライセンス: Link先を確認
Zexin Li, Tao Ren, Xiaoxi He and Cong Liu(参考訳) インテリジェントロボットは、動的で予測不能な環境を効果的にナビゲートするように設計されている。 移動障害を含む環境誘起力学は、実行中の計算要求(例えば、新しいタスクの作成)とワークロードの構造(例えば、タスク間の制約)を簡単に変更することができ、システム全体の性能に悪影響を及ぼす。 この課題は、厳密なリソースとリアルタイム制約の下で動作しているロボットにマルチタスク推論が期待される場合に増幅される。 このような課題に対処するために、リソース限定ロボットシステムにおけるマルチタスクディープニューラルネットワークワークロードをサポートするように設計された、体系的なリアルタイムスケジューリングアプローチであるREDを導入する。 ロボット環境ダイナミクス(RED)をリアルタイムな制約に従って適応的に管理するように設計されている。 redのコアには、中間のdeadline assignmentポリシーを採用し、ワークロードの変更を効果的に管理し、複雑な予測不能な環境によって引き起こされる非同期推論を行う、deadlineベースのスケジューラがある。 このスケジューリングフレームワークはまた、メモリボトルネックを回避するためにマルチタスクロボットシステムで一般的に使用されるMIMONet(multi-input multi-output neural network)の柔軟な展開を容易にする。 このスケジューリングフレームワーク上に構築されたREDは、MIMONetのユニークな特徴である重み付けアーキテクチャを認識し、活用する。 この機能をさらに活用し活用するために、redは新規で効果的なワークロードのリファインメントとリコンストラクションプロセスを考案する。 このプロセスは、スケジューリングフレームワークのMIMONetとの互換性を確保し、効率を最大化する。

Intelligent robots are designed to effectively navigate dynamic and unpredictable environments laden with moving mechanical elements and objects. Such environment-induced dynamics, including moving obstacles, can readily alter the computational demand (e.g., the creation of new tasks) and the structure of workloads (e.g., precedence constraints among tasks) during runtime, thereby adversely affecting overall system performance. This challenge is amplified when multi-task inference is expected on robots operating under stringent resource and real-time constraints. To address such a challenge, we introduce RED, a systematic real-time scheduling approach designed to support multi-task deep neural network workloads in resource-limited robotic systems. It is designed to adaptively manage the Robotic Environmental Dynamics (RED) while adhering to real-time constraints. At the core of RED lies a deadline-based scheduler that employs an intermediate deadline assignment policy, effectively managing to change workloads and asynchronous inference prompted by complex, unpredictable environments. This scheduling framework also facilitates the flexible deployment of MIMONet (multi-input multi-output neural networks), which are commonly utilized in multi-tasking robotic systems to circumvent memory bottlenecks. Building on this scheduling framework, RED recognizes and leverages a unique characteristic of MIMONet: its weight-shared architecture. To further accommodate and exploit this feature, RED devises a novel and effective workload refinement and reconstruction process. This process ensures the scheduling framework's compatibility with MIMONet and maximizes efficiency.
翻訳日:2023-08-30 13:36:39 公開日:2023-08-29
# クライアント特化プロンプト生成によるフェデレーション学習における効率的なモデルパーソナライゼーション

Efficient Model Personalization in Federated Learning via Client-Specific Prompt Generation ( http://arxiv.org/abs/2308.15367v1 )

ライセンス: Link先を確認
Fu-En Yang, Chien-Yi Wang, Yu-Chiang Frank Wang(参考訳) フェデレーション学習(FL)は、データを共有せずに複数の分散クライアントからモデルをトレーニングし、プライバシを保存する分散学習フレームワークとして登場した。 近年、大規模な事前学習モデル(ビジョントランスフォーマーなど)は、堅牢な表現を導出する強力な能力を示している。 しかし、クライアント間のデータ不均一性、限られた計算資源、通信帯域幅は、FLフレームワークにおける大規模モデルの展開を制限する。 大規模モデルからのロバストな表現を活用しながら、異種クライアントの効率的なモデルパーソナライズを実現するために、サーバにパーソナライズされたプロンプトジェネレータを配置し、凍結したバックボーンをローカルデータ分布に効率よく適応させる、新しいパーソナライズされたクライアント固有プロンプトジェネレータ(pFedPG)を提案する。 提案フレームワークは,グローバルなパーソナライズされたプロンプト適応とパーソナライズされたプロンプト生成の段階を共同で最適化する。 前者は、各クライアントに基礎モデルを適用する視覚的プロンプトをトレーニングすることを目的としており、後者は、各クライアントに対してパーソナライズされたプロンプトを生成するために、局所最適化方向を観察する。 ベンチマークデータセットの広範な実験を通して、我々のpFedPGは、様々な種類のデータの不均一性の下で、最先端のパーソナライズされたFL手法に対して好適であり、計算と通信の効率の良いモデルパーソナライゼーションを可能にすることを示す。

Federated learning (FL) emerges as a decentralized learning framework which trains models from multiple distributed clients without sharing their data to preserve privacy. Recently, large-scale pre-trained models (e.g., Vision Transformer) have shown a strong capability of deriving robust representations. However, the data heterogeneity among clients, the limited computation resources, and the communication bandwidth restrict the deployment of large-scale models in FL frameworks. To leverage robust representations from large-scale models while enabling efficient model personalization for heterogeneous clients, we propose a novel personalized FL framework of client-specific Prompt Generation (pFedPG), which learns to deploy a personalized prompt generator at the server for producing client-specific visual prompts that efficiently adapts frozen backbones to local data distributions. Our proposed framework jointly optimizes the stages of personalized prompt adaptation locally and personalized prompt generation globally. The former aims to train visual prompts that adapt foundation models to each client, while the latter observes local optimization directions to generate personalized prompts for all clients. Through extensive experiments on benchmark datasets, we show that our pFedPG is favorable against state-of-the-art personalized FL methods under various types of data heterogeneity, allowing computation and communication efficient model personalization.
翻訳日:2023-08-30 13:36:12 公開日:2023-08-29
# 異常GPT:大規模視線モデルを用いた産業異常の検出

AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models ( http://arxiv.org/abs/2308.15366v1 )

ライセンス: Link先を確認
Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Ming Tang, Jinqiao Wang(参考訳) MiniGPT-4やLLaVAのようなLVLM(Large Vision-Language Model)は、画像の理解能力を示し、様々な視覚タスクにおいて優れたパフォーマンスを実現している。 広範なトレーニングデータセットによる共通オブジェクトの認識能力は高いが、特定のドメイン知識が欠如しており、オブジェクト内のローカライズされた詳細の理解が弱く、産業的異常検出(iad)タスクの有効性を阻害している。 一方,既存のIAD法では,通常の検体と異常検体を区別するために,異常スコアのみを提供し,しきい値のマニュアル設定が必要である。 本稿では,iad問題に対するlvlmの活用について検討し,lvlmに基づく新しいiadアプローチであるanomalygptを提案する。 異常画像をシミュレートし、画像毎に対応するテキスト記述を生成してトレーニングデータを生成する。 また,画像デコーダを用いて微細なセマンティクスを提供し,迅速な埋め込みによるLVLMの微調整を行う。 我々のAnomalyGPTは手動しきい値調整の必要性を排除し、異常の有無を直接評価する。 さらに、AnomalyGPTはマルチターンダイアログをサポートし、印象的なインコンテキスト学習機能を提供する。 通常のショットは1枚のみで、AnomalyGPTは86.1%の精度、画像レベルのAUC94.1%、ピクセルレベルのAUC95.3%の精度で最先端のパフォーマンスを達成した。 コードはhttps://github.com/CASIA-IVA-Lab/AnomalyGPTで入手できる。

Large Vision-Language Models (LVLMs) such as MiniGPT-4 and LLaVA have demonstrated the capability of understanding images and achieved remarkable performance in various visual tasks. Despite their strong abilities in recognizing common objects due to extensive training datasets, they lack specific domain knowledge and have a weaker understanding of localized details within objects, which hinders their effectiveness in the Industrial Anomaly Detection (IAD) task. On the other hand, most existing IAD methods only provide anomaly scores and necessitate the manual setting of thresholds to distinguish between normal and abnormal samples, which restricts their practical implementation. In this paper, we explore the utilization of LVLM to address the IAD problem and propose AnomalyGPT, a novel IAD approach based on LVLM. We generate training data by simulating anomalous images and producing corresponding textual descriptions for each image. We also employ an image decoder to provide fine-grained semantic and design a prompt learner to fine-tune the LVLM using prompt embeddings. Our AnomalyGPT eliminates the need for manual threshold adjustments, thus directly assesses the presence and locations of anomalies. Additionally, AnomalyGPT supports multi-turn dialogues and exhibits impressive few-shot in-context learning capabilities. With only one normal shot, AnomalyGPT achieves the state-of-the-art performance with an accuracy of 86.1%, an image-level AUC of 94.1%, and a pixel-level AUC of 95.3% on the MVTec-AD dataset. Code is available at https://github.com/CASIA-IVA-Lab/AnomalyGPT.
翻訳日:2023-08-30 13:35:31 公開日:2023-08-29
# 不均一多タスクガウスコックスプロセス

Heterogeneous Multi-Task Gaussian Cox Processes ( http://arxiv.org/abs/2308.15364v1 )

ライセンス: Link先を確認
Feng Zhou, Quyu Kong, Zhijie Deng, Fengxiang He, Peng Cui, Jun Zhu(参考訳) 本稿では,多出力ガウス過程(MOGP)を介し,複数の異種相関タスク,例えば分類と回帰を共同でモデル化するマルチタスクガウスコックスプロセスの新たな拡張を提案する。 分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行するMOGPは、非パラメトリックパラメータ推定を可能にしながら、異種タスク間の情報の共有を容易にする。 mogp変調型マルチタスクフレームワークにおける非共役ベイズ推論を回避するために,データ拡張手法を用いて平均場近似を導出し,モデルパラメータ推定のための閉形式反復更新を実現する。 本稿では,バンクーバーの1次元合成データと2次元都市データの性能と推定について述べる。

This paper presents a novel extension of multi-task Gaussian Cox processes for modeling multiple heterogeneous correlated tasks jointly, e.g., classification and regression, via multi-output Gaussian processes (MOGP). A MOGP prior over the parameters of the dedicated likelihoods for classification, regression and point process tasks can facilitate sharing of information between heterogeneous tasks, while allowing for nonparametric parameter estimation. To circumvent the non-conjugate Bayesian inference in the MOGP modulated heterogeneous multi-task framework, we employ the data augmentation technique and derive a mean-field approximation to realize closed-form iterative updates for estimating model parameters. We demonstrate the performance and inference on both 1D synthetic data as well as 2D urban data of Vancouver.
翻訳日:2023-08-30 13:34:45 公開日:2023-08-29
# 大規模言語モデルを活用したテキスト間SQL:ベンチマーク評価

Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation ( http://arxiv.org/abs/2308.15363v1 )

ライセンス: Link先を確認
Dawei Gao, Haibin Wang, Yaliang Li, Xiuyu Sun, Yichen Qian, Bolin Ding, Jingren Zhou(参考訳) 大規模言語モデル(LLM)は、テキストからSQLタスクの新しいパラダイムとして登場した。 しかし、体系的なベンチマークがないため、効率的なLLMベースのテキスト・トゥ・SQLソリューションの設計が阻害される。 この課題に対処するため,本稿では,質問表現,サンプル選択,サンプル組織など既存のプロンプトエンジニアリング手法を体系的かつ広範囲に比較し,これらの実験結果をもとに,その長所と短所を詳述する。 これらの結果に基づき,新たな統合ソリューションであるdail-sqlを提案し,86.6%の実行精度でスパイダーリーダボードをリフレッシュし,新たなバーを設定する。 効率的かつ経済的なllmベースのテキストからsqlへのソリューションに向けて,我々は,迅速なエンジニアリングにおけるトークン効率を強調し,この指標の下での先行研究を比較する。 さらに,テキスト内学習におけるオープンソースのLLMについて検討し,タスク固有の微調整による性能向上を図る。 我々の調査では、Text-to-SQLにおけるオープンソースのLLMの可能性と、タスク固有の教師付き微調整の利点とデメリットを強調しています。 LLMによるText-to-SQLのより深い理解を提供し、さらなる調査や広範な応用を促すことを願っています。

Large language models (LLMs) have emerged as a new paradigm for Text-to-SQL task. However, the absence of a systematical benchmark inhibits the development of designing effective, efficient and economic LLM-based Text-to-SQL solutions. To address this challenge, in this paper, we first conduct a systematical and extensive comparison over existing prompt engineering methods, including question representation, example selection and example organization, and with these experimental results, we elaborates their pros and cons. Based on these findings, we propose a new integrated solution, named DAIL-SQL, which refreshes the Spider leaderboard with 86.6% execution accuracy and sets a new bar. Towards an efficient and economic LLM-based Text-to-SQL solution, we emphasize the token efficiency in prompt engineering and compare the prior studies under this metric. Additionally, we investigate open-source LLMs in in-context learning, and further enhance their performance with task-specific supervised fine-tuning. Our explorations highlight open-source LLMs' potential in Text-to-SQL, as well as the advantages and disadvantages of the task-specific supervised fine-tuning. We hope that our work provides a deeper understanding of Text-to-SQL with LLMs, and inspire further investigations and broad applications.
翻訳日:2023-08-30 13:33:59 公開日:2023-08-29
# データ蓄積と3次元物体検出の改善を目的とした3次元点雲からの自我運動推定と動的運動分離

Ego-Motion Estimation and Dynamic Motion Separation from 3D Point Clouds for Accumulating Data and Improving 3D Object Detection ( http://arxiv.org/abs/2308.15357v1 )

ライセンス: Link先を確認
Patrick Palmer, Martin Krueger, Richard Altendorfer, Torsten Bertram(参考訳) 新しい3+1D高分解能レーダセンサは、自動車領域における3次元物体検出の相対的な可利用性や、従来の低分解能レーダセンサと比較して検出性の向上により重要になっている。 高分解能レーダーセンサーの1つの制限は、ライダーセンサーと比較して、生成された点雲の空間性である。 この空間性は、後続の時間ステップのレーダーポイント雲を蓄積することで部分的に克服できる。 このコントリビューションは、View-of-Delftデータセット上のレーダーポイント雲の蓄積制限を分析する。 異なるエゴモーション推定アプローチを用いることで、データセット固有の制約と可能なソリューションを分析する。 さらに,オブジェクト検出のための累積点雲に対する動的動きの影響を調べるために,学習に基づくインスタンス動作推定手法を展開する。 エゴモーション推定と動的動き補正を応用して物体検出性能を向上させる実験を行った。

New 3+1D high-resolution radar sensors are gaining importance for 3D object detection in the automotive domain due to their relative affordability and improved detection compared to classic low-resolution radar sensors. One limitation of high-resolution radar sensors, compared to lidar sensors, is the sparsity of the generated point cloud. This sparsity could be partially overcome by accumulating radar point clouds of subsequent time steps. This contribution analyzes limitations of accumulating radar point clouds on the View-of-Delft dataset. By employing different ego-motion estimation approaches, the dataset's inherent constraints, and possible solutions are analyzed. Additionally, a learning-based instance motion estimation approach is deployed to investigate the influence of dynamic motion on the accumulated point cloud for object detection. Experiments document an improved object detection performance by applying an ego-motion estimation and dynamic motion correction approach.
翻訳日:2023-08-30 13:33:26 公開日:2023-08-29
# 不正確な測定による量子ステアリング

Quantum steering with imprecise measurements ( http://arxiv.org/abs/2308.15356v1 )

ライセンス: Link先を確認
Armin Tavakoli(参考訳) 我々は、信頼できる当事者が測定装置を完全に制御できると仮定することなく、量子ステアリング実験を研究する。 代わりに、これらの測定を小さな精度で行うシナリオを紹介します。 これらの結果から, 測定精度の低下は, 操舵の不等式に対する偽陽性の点で大きな影響を示し, この効果は高次元システムにさらに関係があることが示唆された。 次に,二部体操舵不等式試験における一般的な測定精度を考慮に入れた手法を提案する。 この方法で返される修正されたステアリング境界は解析的であり、容易に計算可能であり、任意の次元ステアリングテストの既知のファミリーにさえ最適である。 さらに、共有量子状態が分離可能である必要はなく、代わりに他の絡み合い特性によって制限される一般化量子ステアリングシナリオにも同じように適用できる。

We study quantum steering experiments without assuming that the trusted party can perfectly control their measurement device. Instead, we introduce a scenario in which these measurements are subject to small imprecision. We show that small measurement imprecision can have a large detrimental influence in terms of false positives for steering inequalities, and that this effect can become even more relevant for high-dimensional systems. We then introduce a method for taking generic measurement imprecision into account in tests of bipartite steering inequalities. The revised steering bounds returned by this method are analytical, easily computable, and are even optimal for well-known families of arbitrary-dimensional steering tests. Furthermore, it applies equally well to generalised quantum steering scenarios, where the shared quantum state does not need to be separable, but is instead limited by some other entanglement property.
翻訳日:2023-08-30 13:33:10 公開日:2023-08-29
# 電子光学フォトニック集積回路の基本電荷ノイズ

Fundamental charge noise in electro-optic photonic integrated circuits ( http://arxiv.org/abs/2308.15404v1 )

ライセンス: Link先を確認
Junyin Zhang, Zihan Li, Johann Riemensberger, Grigory Lihachev, Guanhao Huang, Tobias J. Kippenberg(参考訳) 熱力学的測定ノイズを理解することは、電荷キャリアのブラウン運動が限界を呈するマスファブリケート半導体センサからの熱的および光学的精度測定において重要なものであり、屈折率と長さ変動への温度変動の伝達による熱屈折性および熱弾性ノイズによって制限される原子時計の光学的基準空洞や重力波検出までである。 本研究では,最近出現した電気光学フォトニック集積回路において,不意に帯電したキャリア密度のゆらぎが新たなノイズ過程を引き起こすことを見出した。 ニオブ酸リチウムとタンタル酸リチウムのマイクロ共振体は、そのノイズ特性に予期せぬスケール(すなわち1/f^{1.2}$)を示し、定評ある熱屈折率ノイズ理論とは大きく異なる。 このノイズは熱力学的電荷ノイズと整合しており、電気光学材料の強いポッケルス効果によって伝達される電場ゆらぎをもたらす。 この結果から,ポッケルス集積フォトニクスの基本的限界として,超高速波長可変・低雑音レーザー,ポッケルスソリトンマイクロコム,量子トランスダクション,シャープ光,エンタングル光対生成など,古典的・量子的デバイスの性能限界を決定する上で重要な電気的ジョンソン・ニキストノイズが得られた。 同様に、この観測は、異常な精度でメソスコピック電荷変動を探査する光学的方法を提供する。

Understanding thermodynamical measurement noise is of central importance for electrical and optical precision measurements from mass-fabricated semiconductor sensors, where the Brownian motion of charge carriers poses limits, to optical reference cavities for atomic clocks or gravitational wave detection, which are limited by thermorefractive and thermoelastic noise due to the transduction of temperature fluctuations to the refractive index and length fluctuations. Here, we discover that unexpectedly charge carrier density fluctuations give rise to a novel noise process in recently emerged electro-optic photonic integrated circuits. We show that Lithium Niobate and Lithium Tantalate photonic integrated microresonators exhibit an unexpected Flicker type (i.e. $1/f^{1.2}$) scaling in their noise properties, significantly deviating from the well-established thermorefractive noise theory. We show that this noise is consistent with thermodynamical charge noise, which leads to electrical field fluctuations that are transduced via the strong Pockels effects of electro-optic materials. Our results establish electrical Johnson-Nyquist noise as the fundamental limitation for Pockels integrated photonics, crucial for determining performance limits for both classical and quantum devices, ranging from ultra-fast tunable and low-noise lasers, Pockels soliton microcombs, to quantum transduction, squeezed light or entangled photon-pair generation. Equally, this observation offers optical methods to probe mesoscopic charge fluctuations with exceptional precision.
翻訳日:2023-08-30 13:23:30 公開日:2023-08-29
# 機械倫理の再考 - LLMは道徳理論のレンズを通して道徳的推論を実行できるか?

Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? ( http://arxiv.org/abs/2308.15399v1 )

ライセンス: Link先を確認
Jingyan Zhou, Minda Hu, Junan Li, Xiaoying Zhang, Xixin Wu, Irwin King, Helen Meng(参考訳) 倫理的AIシステムの開発には倫理的判断が不可欠である。 一般的なアプローチは主にボトムアップ方式で実装されており、大量の注釈付きデータを使用して、モラルに関するクラウドソースの意見に基づいてモデルをトレーニングする。 これらのアプローチは、限られたアノテーターの道徳的姿勢を過度に一般化し、説明責任を欠いているとして批判されている。 対照的に、トップダウンのアプローチは、一連の原則に基づいて道徳的な判断を下す。 しかし、以前の言語モデルが不可能であり、道徳的原理の未解決の議論のため、概念的のままである。 本研究では,学際研究から確立された道徳理論を用いて,大規模言語モデル(llm)を操り,道徳的推論を行うための柔軟な枠組みを提案する。 理論誘導のトップダウンフレームワークは、様々な道徳理論を組み込むことができる。 本実験は,道徳理論に基づくデータセットに対する提案手法の有効性を示す。 さらに、異なる道徳理論と既存の道徳データセットの整合性を示す。 本分析は,説明可能なモラル判断システムを開発する際の既存資源(モデルとデータセット)の可能性と欠点を示す。

Making moral judgments is an essential step toward developing ethical AI systems. Prevalent approaches are mostly implemented in a bottom-up manner, which uses a large set of annotated data to train models based on crowd-sourced opinions about morality. These approaches have been criticized for potentially overgeneralizing a limited group of annotators' moral stances and lacking explainability. In contrast, top-down approaches make moral judgments grounded in a set of principles. However, it remains conceptual due to the incapability of previous language models and the unsolved debate among moral principles. In this study, we propose a flexible framework to steer Large Language Models (LLMs) to perform moral reasoning with well-established moral theories from interdisciplinary research. The theory-guided top-down framework can incorporate various moral theories. Our experiments demonstrate the effectiveness of the proposed framework on datasets derived from moral theories. Furthermore, we show the alignment between different moral theories and existing morality datasets. Our analysis exhibits the potentials and flaws in existing resources (models and datasets) in developing explainable moral judgment-making systems.
翻訳日:2023-08-30 13:22:57 公開日:2023-08-29
# 色彩美学:調和と選好予測のためのファジィベースユーザ駆動手法

Color Aesthetics: Fuzzy based User-driven Method for Harmony and Preference Prediction ( http://arxiv.org/abs/2308.15397v1 )

ライセンス: Link先を確認
Pakizar Shamoi, Atsushi Inoue, Hiroharu Kawanaka(参考訳) 色は、製品販売に強力な影響を与える最も重要な内在感覚機能である。 色は私たちの脳の美意識を高める責任です。 個々人の違いは色彩美学において不可欠である。 さまざまなeコマースアプリケーションに対してユーザ駆動のメカニズムが必要です。 色に対する知覚応答を定量的に評価する手法を提案し,色嗜好,色調和,色の組み合わせ選好について検討した。 色体系の選好は、基本色と色調和のレーティングの選好を組み合わせることで予測できる。 ファジィ類似性とグループ化に基づく比較アルゴリズムを用いて, ビッグデータから調和パレットを抽出する。 提案モデルは,多色画像の調和と選好の予測に有用である。 例えば、アパレルコーディネーションの文脈では、衣服の色に基づいて見た目の好みを予測することができる。 我々のアプローチは、個人のバリエーションを考慮するため、標準的な美的モデルとは異なる。 さらに、低次の色対だけでなく、いくつかの色の群も処理できる。

Color is the most important intrinsic sensory feature that has a powerful impact on product sales. Color is even responsible for raising the aesthetic senses in our brains. Account for individual differences is crucial in color aesthetics. It requires user-driven mechanisms for various e-commerce applications. We propose a method for quantitative evaluation of all types of perceptual responses to color(s): distinct color preference, color harmony, and color combination preference. Preference for color schemes can be predicted by combining preferences for the basic colors and ratings of color harmony. Harmonious pallets are extracted from big data set using comparison algorithms based on fuzzy similarity and grouping. The proposed model results in useful predictions of harmony and preference of multicolored images. For example, in the context of apparel coordination, it allows predicting a preference for a look based on clothing colors. Our approach differs from standard aesthetic models, since in accounts for a personal variation. In addition, it can process not only lower-order color pairs, but also groups of several colors.
翻訳日:2023-08-30 13:22:41 公開日:2023-08-29
# CausalBench Challenge: 単細胞摂動データを用いた遺伝子ネットワーク推論のための機械学習コンテスト

The CausalBench challenge: A machine learning contest for gene network inference from single-cell perturbation data ( http://arxiv.org/abs/2308.15395v1 )

ライセンス: Link先を確認
Mathieu Chevalley, Jacob Sackett-Sanders, Yusuf Roohani, Pascal Notin, Artemy Bakulin, Dariusz Brzezinski, Kaiwen Deng, Yuanfang Guan, Justin Hong, Michael Ibrahim, Wojciech Kotlowski, Marcin Kowiel, Panagiotis Misiakos, Achille Nazaret, Markus P\"uschel, Chris Wendler, Arash Mehrjou, Patrick Schwab(参考訳) 薬物発見において、細胞系内の遺伝子間の相互作用のマッピングは重要な初期段階である。 これは将来の医学によって標的にされる可能性がある分子機構に関する仮説を定式化するのに役立つ。 causalbench challengeは、遺伝子-遺伝子間インタラクションネットワークの構築において、機械学習コミュニティを最先端の技術に誘うためのイニシアチブである。 これらのネットワークは、様々な摂動下での単一細胞の大規模な実世界のデータセットから派生しており、疾患生物学の根底にある原因メカニズムを理解するのに不可欠である。 causorbenchベンチマークによって提供されるフレームワークを使用して、参加者は大規模な遺伝的摂動データを活用するために、artメソッドの状態の能力を高めることを任務とした。 本報告は,課題期間中に提出された手法の分析と要約を行い,課題発生時の技術状態の部分的なイメージを与える。 勝利したソリューションは、以前のベースラインと比較してパフォーマンスを著しく向上させ、生物学と医学におけるこの重要なタスクのための新しい最先端技術を確立した。

In drug discovery, mapping interactions between genes within cellular systems is a crucial early step. This helps formulate hypotheses regarding molecular mechanisms that could potentially be targeted by future medicines. The CausalBench Challenge was an initiative to invite the machine learning community to advance the state of the art in constructing gene-gene interaction networks. These networks, derived from large-scale, real-world datasets of single cells under various perturbations, are crucial for understanding the causal mechanisms underlying disease biology. Using the framework provided by the CausalBench benchmark, participants were tasked with enhancing the capacity of the state of the art methods to leverage large-scale genetic perturbation data. This report provides an analysis and summary of the methods submitted during the challenge to give a partial image of the state of the art at the time of the challenge. The winning solutions significantly improved performance compared to previous baselines, establishing a new state of the art for this critical task in biology and medicine.
翻訳日:2023-08-30 13:22:28 公開日:2023-08-29
# 分散エネルギー貯蔵システムのための分散マルチエージェント強化学習に基づく状態バランス戦略

Decentralized Multi-agent Reinforcement Learning based State-of-Charge Balancing Strategy for Distributed Energy Storage System ( http://arxiv.org/abs/2308.15394v1 )

ライセンス: Link先を確認
Zheng Xiong, Biao Luo, Bing-Chuan Wang, Xiaodong Xu, Xiaodong Liu, and Tingwen Huang(参考訳) 本稿では分散エネルギー貯蔵システム(DESS)におけるSoCバランス問題を解決するために分散マルチエージェント強化学習法(Dec-MARL)を提案する。 第一に、SoCバランス問題は需要バランスから導かれる行動制約を持つ有限マルコフ決定プロセスに定式化され、Dec-MARLにより解ける。 具体的には、第1次平均コンセンサスアルゴリズムを用いてdess状態の観測を完全分散的に拡張し、これらの観測に基づいてエージェント(すなわちエネルギー貯蔵ユニット)によって初期動作(すなわち出力電力)を決定する。 許容範囲における最終動作を得るために, 総需要と初期動作のバランスをとるために, 逆要求バランスアルゴリズムが提案されている。 次に、エージェントは最終的なアクションを実行し、環境からローカルな報酬を受け取り、DESSは次の状態に進む。 最後に、一階平均コンセンサスアルゴリズムを通じて、エージェントは、後続のトレーニングのために、平均報酬と次の状態の経過観察を受ける。 上記の手順により、Dec-MARLは専門家の経験や複雑なモデルの構築なしに、完全に分散化されたシステムにおいて優れた性能を示す。 さらに、柔軟性があり、他の分散マルチエージェントシステムに簡単に拡張できる。 広範囲なシミュレーションによりdec-marlの有効性と効率が検証された。

This paper develops a Decentralized Multi-Agent Reinforcement Learning (Dec-MARL) method to solve the SoC balancing problem in the distributed energy storage system (DESS). First, the SoC balancing problem is formulated into a finite Markov decision process with action constraints derived from demand balance, which can be solved by Dec-MARL. Specifically, the first-order average consensus algorithm is utilized to expand the observations of the DESS state in a fully-decentralized way, and the initial actions (i.e., output power) are decided by the agents (i.e., energy storage units) according to these observations. In order to get the final actions in the allowable range, a counterfactual demand balance algorithm is proposed to balance the total demand and the initial actions. Next, the agents execute the final actions and get local rewards from the environment, and the DESS steps into the next state. Finally, through the first-order average consensus algorithm, the agents get the average reward and the expended observation of the next state for later training. By the above procedure, Dec-MARL reveals outstanding performance in a fully-decentralized system without any expert experience or constructing any complicated model. Besides, it is flexible and can be extended to other decentralized multi-agent systems straightforwardly. Extensive simulations have validated the effectiveness and efficiency of Dec-MARL.
翻訳日:2023-08-30 13:22:10 公開日:2023-08-29
# 深層半教師あり機械学習による絡み合い検証

Entanglement Verification with Deep Semi-supervised Machine Learning ( http://arxiv.org/abs/2308.15391v1 )

ライセンス: Link先を確認
Lifeng Zhang, Zhihua Chen and Shao-Ming Fei(参考訳) 量子エンタングルメントは、量子情報処理タスクの中心にある。 多くの基準が提案されているが、一般に与えられた量子状態の絡み合いを検出する効率的でスケーラブルな方法は、特に高次元および多部量子系では、まだ利用できない。 FixMatch と Pseudo-Label の手法を用いて,ラベル付きデータのごく一部とラベルなしデータの大部分を持つ深層半教師付き学習モデルを提案する。 このモデルでは、分離可能な状態の凸性を利用し、訓練データ上で局所ユニタリ操作を行うことで、データ拡張戦略を適用する。 我々は,従来の教師付き学習モデルと比較して,モデルが優れた一般化能力を持ち,精度が向上することを確認した。

Quantum entanglement lies at the heart in quantum information processing tasks. Although many criteria have been proposed, efficient and scalable methods to detect the entanglement of generally given quantum states are still not available yet, particularly for high-dimensional and multipartite quantum systems. Based on FixMatch and Pseudo-Label method, we propose a deep semi-supervised learning model with a small portion of labeled data and a large portion of unlabeled data. The data augmentation strategies are applied in this model by using the convexity of separable states and performing local unitary operations on the training data. We verify that our model has good generalization ability and gives rise to better accuracies compared to traditional supervised learning models by detailed examples.
翻訳日:2023-08-30 13:21:49 公開日:2023-08-29
# トップダウン変調WTAネットワークを用いたベイズ情報の統合

Bayesian Integration of Information Using Top-Down Modulated WTA Networks ( http://arxiv.org/abs/2308.15390v1 )

ライセンス: Link先を確認
Otto van der Himst, Leila Bagheriye, and Johan Kwisthout(参考訳) Winner Take All(WTA)回路は、スパイキングニューラルネットワーク(SNN)の一種であり、ベイズ的な方法で情報を処理する脳の能力を促進することが提案されている。 WTA回路は期待最大化(EM)により階層ベイズモデルを近似できることを示した。 これまでのところ、この方向の研究はボトムアッププロセスに焦点を当てている。 これは、ボトムアッププロセス以外に、トップダウンプロセスも人間の脳の情報処理において重要な役割を果たすことを示す神経科学的証拠とは対照的である。 トップダウンプロセスに記述されている機能には、注意方向、期待の調整、学習した情報のエンコーディングとリコールの促進、イメージなどがある。 本稿では、WTA 回路が、WTA ネットワークで表現される情報をさらに統合するのに適しているかを考察する。 さらに、トップダウンプロセスが推論や学習に関してWTAネットワークの性能を向上させることができるかどうかについても検討する。 その結果、WTA回路は、他のWTAネットワークで表される確率情報を統合でき、トップダウン処理により、WTAネットワークの推論および学習性能が向上することを示した。 特に、これは重要なニューロモルフィックの原理に従って行うことができ、ニューロモルフィックのハードウェアに対する低レイテンシでエネルギー効率のよい実装に最適である。

Winner Take All (WTA) circuits a type of Spiking Neural Networks (SNN) have been suggested as facilitating the brain's ability to process information in a Bayesian manner. Research has shown that WTA circuits are capable of approximating hierarchical Bayesian models via Expectation Maximization (EM). So far, research in this direction has focused on bottom up processes. This is contrary to neuroscientific evidence that shows that, besides bottom up processes, top down processes too play a key role in information processing by the human brain. Several functions ascribed to top down processes include direction of attention, adjusting for expectations, facilitation of encoding and recall of learned information, and imagery. This paper explores whether WTA circuits are suitable for further integrating information represented in separate WTA networks. Furthermore, it explores whether, and under what circumstances, top down processes can improve WTA network performance with respect to inference and learning. The results show that WTA circuits are capable of integrating the probabilistic information represented by other WTA networks, and that top down processes can improve a WTA network's inference and learning performance. Notably, it is able to do this according to key neuromorphic principles, making it ideal for low-latency and energy efficient implementation on neuromorphic hardware.
翻訳日:2023-08-30 13:21:37 公開日:2023-08-29
# Kretschmann-Schlingemann-Werner Conjectureの進展

Progress on the Kretschmann-Schlingemann-Werner Conjecture ( http://arxiv.org/abs/2308.15389v1 )

ライセンス: Link先を確認
Frederik vom Ende(参考訳) 完全正のトレース保存写像 $\phi_1,\phi_2$ が与えられたとき、それらのうちの少なくとも一方がクラスランク 1 を持ち、また各々のスティンスプリング等長写像 $v_1,v_2$ が与えられたとき、その環境上に $\|v_1-({\bf1}\otimes u)v_2\|_\infty\leq\sqrt{2\|\phi_1-\phi_2\|_\diamond} が存在することが証明される。 さらに、右辺の係数 $\sqrt2$ が最適であることを示す単純な例を示し、この不等式が全てのチャネルに対して成り立つことを予想する。

Given any pair of completely positive, trace-preserving maps $\Phi_1,\Phi_2$ such that at least one of them has Kraus rank one, as well as any respective Stinespring isometries $V_1,V_2$, we prove that there exists a unitary $U$ on the environment such that $\|V_1-({\bf1}\otimes U)V_2\|_\infty\leq\sqrt{2\|\Phi_1-\Phi_2\|_\diamond}$. Moreover, we provide a simple example which shows that the factor $\sqrt2$ on the right-hand side is optimal, and we conjecture that this inequality holds for every pair of channels.
翻訳日:2023-08-30 13:21:13 公開日:2023-08-29
# 甲状腺結節分節・診断のための形状マージン知識拡張ネットワーク

Shape-Margin Knowledge Augmented Network for Thyroid Nodule Segmentation and Diagnosis ( http://arxiv.org/abs/2308.15386v1 )

ライセンス: Link先を確認
Weihua Liu, Chaochao Lin(参考訳) 甲状腺結節分節は、医師やコンピュータ支援診断システムの診断における重要なステップである。 主に、これらのタスク間の相関を考慮せずに、独立したタスクとしてセグメンテーションと診断を扱う。 コンピュータ支援診断システムにおけるこれらの独立したタスクのシーケンスステップは、エラーの蓄積につながる可能性がある。 そのため甲状腺結節分画と診断との関係を探究して総合的に組み合わせる価値がある。 甲状腺画像診断・データシステム(TI-RADS)によると, 良性および悪性甲状腺結節の鑑別には, 形状とマージン特性の評価が必須である。 これらの特徴は甲状腺結節セグメンテーションマスクで観察できる。 TI-RADSの診断に触発されて,甲状腺結節の分節と診断を同時に行う形状の知識拡張ネットワーク(SkaNet)を提案する。 セグメンテーションと診断の視覚的特徴の類似性により、skanetは特徴抽出段階における視覚的特徴を共有し、デュアルブランチアーキテクチャを使用して甲状腺結節と診断を同時に行う。 効率的な識別的特徴を高めるため,指数重み付けによる畳み込み特徴写像と自己注意写像を組み込んだ指数混合モジュールが考案された。 そして、制約ペナルティ項を有する知識強化マルチタスク損失関数により、skanetを共同で最適化する。 形状とマージン特性を数値計算により埋め込み,甲状腺結節診断結果とセグメンテーションマスクとの関係をモデル化する。

Thyroid nodule segmentation is a crucial step in the diagnostic procedure of physicians and computer-aided diagnosis systems. Mostly, current studies treat segmentation and diagnosis as independent tasks without considering the correlation between these tasks. The sequence steps of these independent tasks in computer-aided diagnosis systems may lead to the accumulation of errors. Therefore, it is worth combining them as a whole through exploring the relationship between thyroid nodule segmentation and diagnosis. According to the thyroid imaging reporting and data system (TI-RADS), the assessment of shape and margin characteristics is the prerequisite for the discrimination of benign and malignant thyroid nodules. These characteristics can be observed in the thyroid nodule segmentation masks. Inspired by the diagnostic procedure of TI-RADS, this paper proposes a shape-margin knowledge augmented network (SkaNet) for simultaneously thyroid nodule segmentation and diagnosis. Due to the similarity in visual features between segmentation and diagnosis, SkaNet shares visual features in the feature extraction stage and then utilizes a dual-branch architecture to perform thyroid nodule segmentation and diagnosis tasks simultaneously. To enhance effective discriminative features, an exponential mixture module is devised, which incorporates convolutional feature maps and self-attention maps by exponential weighting. Then, SkaNet is jointly optimized by a knowledge augmented multi-task loss function with a constraint penalty term. It embeds shape and margin characteristics through numerical computation and models the relationship between the thyroid nodule diagnosis results and segmentation masks.
翻訳日:2023-08-30 13:20:43 公開日:2023-08-29
# 人工磁力によるオプトメカニカル・プラケットの多端子非相互ルーティング

Multi-terminal nonreciprocal routing in an optomechanical plaquette via synthetic magnetism ( http://arxiv.org/abs/2308.15379v1 )

ライセンス: Link先を確認
Zhi-Xiang Tang and Xun-Wei Xu(参考訳) 光(光子)モードとメカニカル(フォノン)モードのパラメトリック結合を持つ光学系は、アイソレータ、サーキュレータ、指向性増幅器などの様々な磁気フリー非相互デバイスを実現するための有用なプラットフォームを提供する。 しかし、マルチアクセスチャネルを持つ非相互ルータはまだ広く研究されていない。 本稿では,2つの光モードと2つのメカニカルモードから構成されるオプティメカル・プラケットに基づく,1つの送信機と1つの受信機と2つの出力端子を備えた非相互ルータを提案する。 系の時間反転対称性は、2つの光学モードを位相相関レーザー場で駆動することによって引き起こされる合成磁性によって破壊される。 非交互経路の前提条件を解析的および数値的に求め、非交互性のロバスト性を数値的に示す。 オプティメカル・プラケットにおけるマルチ端末非相互ルータは、量子ネットワーク情報セキュリティの開発と量子セキュア通信の実現に有用な量子ノードを提供する。

Optomechanical systems with parametric coupling between optical (photon) and mechanical (phonon) modes provide a useful platform to realize various magnetic-free nonreciprocal devices, such as isolators, circulators, and directional amplifiers. However, nonreciprocal router with multiaccess channels has not been extensively studied yet. Here, we propose a nonreciprocal router with one transmitter, one receiver, and two output terminals, based on an optomechanical plaquette composing of two optical modes and two mechanical modes. The time-reversal symmetry of the system is broken via synthetic magnetism induced by driving the two optical modes with phase-correlated laser fields. The prerequisites for nonreciprocal routing are obtained both analytically and numerically, and the robustness of the nonreciprocity is demonstrated numerically. Multi-terminal nonreciprocal router in optomechanical plaquette provides a useful quantum node for development of quantum network information security and realization of quantum secure communication.
翻訳日:2023-08-30 13:20:18 公開日:2023-08-29
# 量子誤り訂正符号に対するパウリ様安定化器の存在

Existence of Pauli-like stabilizers for every quantum error-correcting code ( http://arxiv.org/abs/2308.15437v1 )

ライセンス: Link先を確認
Jhih-Yuan Kao and Hsi-Sheng Goan(参考訳) パウリ安定化形式はおそらく最も徹底的に研究されている量子誤り訂正符号の方法であり、可換パウリ作用素と'安定化'によってコードが得られる。 本研究では、ポーリ安定化符号やサブシステム符号を含む全ての量子誤り訂正符号が、ポーリ演算子と多くの特徴を共有して \textbf{paulian stabilizer group} を形成する可換 ``paulian'' 演算子によって安定化できるという構造を持つことを示す。 制御ゲートを容易にすることで、これらのパウロ作用素を計測してエラーシンドロームを取得することができる。 コードワード安定化符号とボソニック符号に関する例を示す。具体的には、その例の1つが実験的に実証され、エラーを検出する観測可能なものはパウリアンであることが判明し、このアプローチの潜在的有用性を示す。 この作業は、エラー訂正コードを実装し、新しいコードを見つけるための可能なアプローチを提供する。

The Pauli stabilizer formalism is perhaps the most thoroughly studied means of procuring quantum error-correcting codes, whereby the code is obtained through commutative Pauli operators and ``stabilized'' by them. In this work we will show that every quantum error-correcting code, including Pauli stabilizer codes and subsystem codes, has a similar structure, in that the code can be stabilized by commutative ``Paulian'' operators which share many features with Pauli operators and which form a \textbf{Paulian stabilizer group}. By facilitating a controlled gate we can measure these Paulian operators to acquire the error syndrome. Examples concerning codeword stabilized codes and bosonic codes will be presented; specifically, one of the examples has been demonstrated experimentally and the observable for detecting the error turns out to be Paulian, thereby showing the potential utility of this approach. This work provides a possible approach to implement error-correcting codes and to find new codes.
翻訳日:2023-08-30 13:13:30 公開日:2023-08-29
# 一般スペクトル法によるランダム特徴近似

Random feature approximation for general spectral methods ( http://arxiv.org/abs/2308.15434v1 )

ライセンス: Link先を確認
Mike Nguyen and Nicole M\"ucke(参考訳) ランダム特徴近似は、大規模アルゴリズムのカーネルメソッドを高速化する最も一般的な手法の1つであり、ディープニューラルネットワークの解析に理論的アプローチを提供する。 勾配降下などの暗黙的正則化やチホノフ正則化のような明示的手法を含む、ランダム特徴と組み合わされた多数のスペクトル正則化法の一般化特性を解析した。 我々の推定器は、適切なソース条件によって定義される正則性クラス(再生カーネルヒルベルト空間に含まれないクラスに対しても)よりも最適な学習率を得る。 これにより、特定のカーネルアルゴリズムに関連する設定で得られた前の結果を改善または完成する。

Random feature approximation is arguably one of the most popular techniques to speed up kernel methods in large scale algorithms and provides a theoretical approach to the analysis of deep neural networks. We analyze generalization properties for a large class of spectral regularization methods combined with random features, containing kernel methods with implicit regularization such as gradient descent or explicit methods like Tikhonov regularization. For our estimators we obtain optimal learning rates over regularity classes (even for classes that are not included in the reproducing kernel Hilbert space), which are defined through appropriate source conditions. This improves or completes previous results obtained in related settings for specific kernel algorithms.
翻訳日:2023-08-30 13:13:10 公開日:2023-08-29
# 部分空間間の距離を計算する量子アルゴリズム

Quantum Algorithm for Computing Distances Between Subspaces ( http://arxiv.org/abs/2308.15432v1 )

ライセンス: Link先を確認
Nhat A. Nghiem(参考訳) 幾何学とトポロジーは、純粋な数学的原始よりもはるかに大きな影響を生み出しており、多くの応用ツールの基盤となっている。 通常、実世界のデータはベクトルとして表現され、与えられたデータ収集のための線形部分空間を形成する。 異なる部分空間間の計算距離は一般に、理論的および適用可能な結果の両方において計算的に難しい問題である。 量子アルゴリズムの急速な発展により、量子文脈におけるそのような問題を考察し、グラスマン距離と楕円距離の2種類の距離を推定する量子アルゴリズムを提供する。 適切な仮定と条件の下では、量子アルゴリズムの高速化は、与えられたデータの次元とデータポイントの数の両方に関して指数関数的である。 異なる種類の距離を推定するいくつかの拡張は、我々の主量子アルゴリズム法の系として議論される。

Geometry and topology have generated impacts far beyond their pure mathematical primitive, providing a solid foundation for many applicable tools. Typically, real-world data are represented as vectors, forming a linear subspace for a given data collection. Computing distances between different subspaces is generally a computationally challenging problem with both theoretical and applicable consequences, as, for example, the results can be used to classify data from different categories. Fueled by the fast-growing development of quantum algorithms, we consider such problems in the quantum context and provide a quantum algorithm for estimating two kinds of distance: Grassmann distance and ellipsoid distance. Under appropriate assumptions and conditions, the speedup of our quantum algorithm is exponential with respect to both the dimension of the given data and the number of data points. Some extensions regarding estimating different kinds of distance are then discussed as a corollary of our main quantum algorithmic method.
翻訳日:2023-08-30 13:12:59 公開日:2023-08-29
# 衛星マップによる搭載センサの補完:hdマップ構築のための新しい展望

Complementing Onboard Sensors with Satellite Map: A New Perspective for HD Map Construction ( http://arxiv.org/abs/2308.15427v1 )

ライセンス: Link先を確認
Wenjie Gao, Jiawei Fu, Haodong Jing, and Nanning Zheng(参考訳) 高精細(HD)マップは自動運転システムにおいて重要な役割を果たす。 近年,車載センサから得られる情報をもとに,HDマップをリアルタイムに構築する手法が提案されている。 しかし、長距離検出の能力が弱いなど、車載センサに固有の制限があるため、これらの手法の性能は車両周辺の環境に著しく影響を受けやすい。 本研究では,衛星地図を用いた搭載センサの補足により,衛星地図の広範な網羅性を活用して,HDマップ構築手法の性能を向上させることを実証する。 さらなる研究のために、我々はnuScenesデータセットの補完データセットとして衛星地図タイルをリリースする。 一方,衛星地図情報と既存手法との融合性を向上させる階層型融合モジュールを提案する。 具体的には,Bird's Eye View (BEV) 機能と衛星機能を機能レベル融合で融合させるために,セグメンテーションと距離に基づくアテンションマスクを設計し,クロスアテンション機構を適用した。 BEVレベルの融合で結合する前にアライメントモジュールを導入し、2つの特徴間のミスアライメントの影響を軽減する。 拡張nuScenesデータセットの実験結果は、既存の3つのHDマップ構築方法へのモジュールのシームレスな統合を示している。 これはHDマップセマンティックセグメンテーションとインスタンス検出タスクの両方のパフォーマンスを著しく向上させる。

High-Definition (HD) maps play a crucial role in autonomous driving systems. Recent methods have attempted to construct HD maps in real-time based on information obtained from vehicle onboard sensors. However, the performance of these methods is significantly susceptible to the environment surrounding the vehicle due to the inherent limitation of onboard sensors, such as weak capacity for long-range detection. In this study, we demonstrate that supplementing onboard sensors with satellite maps can enhance the performance of HD map construction methods, leveraging the broad coverage capability of satellite maps. For the purpose of further research, we release the satellite map tiles as a complementary dataset of nuScenes dataset. Meanwhile, we propose a hierarchical fusion module that enables better fusion of satellite maps information with existing methods. Specifically, we design an attention mask based on segmentation and distance, applying the cross-attention mechanism to fuse onboard Bird's Eye View (BEV) features and satellite features in feature-level fusion. An alignment module is introduced before concatenation in BEV-level fusion to mitigate the impact of misalignment between the two features. The experimental results on the augmented nuScenes dataset showcase the seamless integration of our module into three existing HD map construction methods. It notably enhances their performance in both HD map semantic segmentation and instance detection tasks.
翻訳日:2023-08-30 13:12:44 公開日:2023-08-29
# 量子コンピュータ上で格子ゲージ理論をシミュレートする方法の研究

Investigating how to simulate lattice gauge theories on a quantum computer ( http://arxiv.org/abs/2308.15421v1 )

ライセンス: Link先を確認
Emanuele Mendicelli(参考訳) 量子コンピュータは、符号問題のために標準モンテカルロ法でアクセスできない非摂動粒子物理学現象を調べるために格子ゲージ理論の有用性を拡張する可能性を秘めている。 量子コンピュータは量子ビットのおかげで、ヒルベルト空間を古典的コンピュータよりも効率的に保存することができる。 これにより、ハミルトニアンのアプローチは計算可能となり、符号確率から絶対自由となる。 しかし、現在のノイズの多い中間スケール量子ハードウェアが達成できることは調査中であり、我々はD-Wave量子アニールとIBMゲートベースの量子ハードウェアという2種類の量子ハードウェアを用いて、SU(2)理論のエネルギースペクトルと時間進化を研究することを選んだ。

Quantum computers have the potential to expand the utility of lattice gauge theory to investigate non-perturbative particle physics phenomena that cannot be accessed using a standard Monte Carlo method due to the sign problem. Thanks to the qubit, quantum computers can store Hilbert space in a more efficient way compared to classical computers. This allows the Hamiltonian approach to be computationally feasible, leading to absolute freedom from the sign-problem. But what the current noisy intermediate scale quantum hardware can achieve is under investigation, and therefore we chose to study the energy spectrum and the time evolution of an SU(2) theory using two kinds of quantum hardware: the D-Wave quantum annealer and the IBM gate-based quantum hardware.
翻訳日:2023-08-30 13:12:22 公開日:2023-08-29
# 言語モデル事前学習中の学習曲線の特徴付け:学習、忘れ、安定性

Characterizing Learning Curves During Language Model Pre-Training: Learning, Forgetting, and Stability ( http://arxiv.org/abs/2308.15419v1 )

ライセンス: Link先を確認
Tyler A. Chang, Zhuowen Tu, Benjamin K. Bergen(参考訳) 事前学習中に言語モデルはどのように予測をするか? 本研究では,5つの自己回帰型英語モデルから学習曲線を抽出し,文脈における1Mトークンについて検討する。 より長く一貫性のあるテキストを生成するために学習する前に,言語モデルが短い反復句を生成するのを観察する。 コンテキスト内の個々のトークンに対する学習曲線の最終的な超越性、内部変動性、獲得年齢、忘れやすさ、クロスラン変動性を定量化する。 より頻繁なトークンは最終段階の低い値に到達し、事前トレーニング実行中の変動が少なく、早期に学習され、事前トレーニング中に「忘れられる」可能性が低い。 高いn-gram確率はこれらの効果をさらに強調する。 ターゲットトークンとは独立して、より短く頻繁なコンテキストは、より安定で素早く取得された予測と相関する。 部分音声の効果も小さいが、名詞は動詞、副詞、形容詞よりも遅く、安定しない傾向にある。 我々の研究は、言語モデルの事前学習のダイナミクスをより深く理解し、安定な言語モデルの実践的な展開を知らせます。

How do language models learn to make predictions during pre-training? To study this question, we extract learning curves from five autoregressive English language model pre-training runs, for 1M tokens in context. We observe that the language models generate short repetitive phrases before learning to generate longer and more coherent text. We quantify the final surprisal, within-run variability, age of acquisition, forgettability, and cross-run variability of learning curves for individual tokens in context. More frequent tokens reach lower final surprisals, exhibit less variability within and across pre-training runs, are learned earlier, and are less likely to be "forgotten" during pre-training. Higher n-gram probabilities further accentuate these effects. Independent of the target token, shorter and more frequent contexts correlate with marginally more stable and quickly acquired predictions. Effects of part-of-speech are also small, although nouns tend to be acquired later and less stably than verbs, adverbs, and adjectives. Our work contributes to a better understanding of language model pre-training dynamics and informs the deployment of stable language models in practice.
翻訳日:2023-08-30 13:12:10 公開日:2023-08-29
# WrappingNet:深部球変形によるメッシュオートエンコーダ

WrappingNet: Mesh Autoencoder via Deep Sphere Deformation ( http://arxiv.org/abs/2308.15413v1 )

ライセンス: Link先を確認
Eric Lei, Muhammad Asad Lodhi, Jiahao Pang, Junghyun Ahn, Dong Tian(参考訳) メッシュは、ポイントクラウドと比較して基盤となる3d形状の完全なモデルとして機能するため、メッシュデータから固定長のコードワードを介して意味のある表現を学ぶ最近の取り組みがある。 しかし、メッシュ接続は、メッシュのためのディープラーニングパイプラインを構築する際に、新たな困難をもたらす。 従来のメッシュ非教師付き学習アプローチは、一般的に、例えば人間の顔/体テンプレートのようなカテゴリ固有のテンプレートを仮定する。 学習された潜時符号は特定のカテゴリのオブジェクトに対してのみ意味を持つように制限されるため、学習された潜時空間は異なる種類のオブジェクトにまたがって使用することはできない。 本稿では、異種オブジェクト上の一般メッシュ教師なし学習を可能にする最初のメッシュオートエンコーダであるWrappingNetを紹介する。 メッシュ接続を表現するためのボトルネックに新たなベースグラフを導入することで、オブジェクト形状を表す共有潜在空間の学習が容易になる。 ラッピングネットメッシュ学習の優位性は、ポイントクラウド学習と比較し、再構成品質と競合分類の改善と、異なるカテゴリのメッシュ間の潜在補間によってさらに実証される。

There have been recent efforts to learn more meaningful representations via fixed length codewords from mesh data, since a mesh serves as a complete model of underlying 3D shape compared to a point cloud. However, the mesh connectivity presents new difficulties when constructing a deep learning pipeline for meshes. Previous mesh unsupervised learning approaches typically assume category-specific templates, e.g., human face/body templates. It restricts the learned latent codes to only be meaningful for objects in a specific category, so the learned latent spaces are unable to be used across different types of objects. In this work, we present WrappingNet, the first mesh autoencoder enabling general mesh unsupervised learning over heterogeneous objects. It introduces a novel base graph in the bottleneck dedicated to representing mesh connectivity, which is shown to facilitate learning a shared latent space representing object shape. The superiority of WrappingNet mesh learning is further demonstrated via improved reconstruction quality and competitive classification compared to point cloud learning, as well as latent interpolation between meshes of different categories.
翻訳日:2023-08-30 13:11:50 公開日:2023-08-29
# フォン・ノイマン測定スキームをエミュレートする非エルミートハミルトニアンの埋め込み

Embedding of a non-Hermitian Hamiltonian to emulate the von Neumann measurement scheme ( http://arxiv.org/abs/2308.15411v1 )

ライセンス: Link先を確認
Gurpahul Singh, Ritesh K. Singh and Soumitro Banerjee(参考訳) 量子力学における測定方法の問題は、その定式化以来存在している。 フォン・ノイマン(Von Neumann)は、測定をフルシステム・アンシラ空間におけるユニタリな進化と、アシラのポインター状態の1つへの投射(波動関数の「崩壊」を表す)という2段階の過程として扱う計画を提案した。 環境の存在下で散逸量子現象を説明するために広く用いられてきたリンドブラッドマスター方程式は、マスター方程式におけるジャンプ作用素がエルミートであるとき、フォン・ノイマン測定スキームの最初の部分を効果的に記述することができる。 我々はフォン・ノイマン測度スキームの最初の部分をエミュレートする非エルミート的ハミルトン形式を提案した。 我々は、埋め込みプロトコルを用いて、システム部分空間のダイナミクスを支配する非エルミートハミルトニアンを、全空間を一元的に発展させる高次元エルミートハミルトニアンに拡張した。 我々は、必要な埋め込みを達成するために、アンシラヒルベルト空間の様々な制約と必要次元を得た。 この特別な埋め込みと特定の射影作用素を用いて、リンドブラッドマスター方程式に密接に従うシステム部分空間内の非エルミート力学を得る。 この研究は、非エルミート的ハミルトニアンを用いて測定問題に新たな視点を与える。

The problem of how measurement in quantum mechanics takes place has existed since its formulation. Von Neumann proposed a scheme where he treated measurement as a two-part process -- a unitary evolution in the full system-ancilla space and then a projection onto one of the pointer states of the ancilla (representing the "collapse" of the wavefunction). The Lindblad master equation, which has been extensively used to explain dissipative quantum phenomena in the presence of an environment, can effectively describe the first part of the von Neumann measurement scheme when the jump operators in the master equation are Hermitian. We have proposed a non-Hermitian Hamiltonian formalism to emulate the first part of the von Neumann measurement scheme. We have used the embedding protocol to dilate a non-Hermitian Hamiltonian that governs the dynamics in the system subspace into a higher-dimensional Hermitian Hamiltonian that evolves the full space unitarily. We have obtained the various constraints and the required dimensionality of the ancilla Hilbert space in order to achieve the required embedding. Using this particular embedding and a specific projection operator, one obtains non-Hermitian dynamics in the system subspace that closely follow the Lindblad master equation. This work lends a new perspective to the measurement problem by employing non-Hermitian Hamiltonians.
翻訳日:2023-08-30 13:11:32 公開日:2023-08-29
# 歴史的磁図データを用いた確率的太陽フレア予測

Probabilistic solar flare forecasting using historical magnetogram data ( http://arxiv.org/abs/2308.15410v1 )

ライセンス: Link先を確認
Kiera van der Sande, Andr\'es Mu\~noz-Jaramillo, Subhamoy Chatterjee(参考訳) 機械学習(ml)を用いた太陽フレア予測研究は、太陽周期24と太陽周期25の開始をカバーするsdo/hmi時代の高解像度磁図データに焦点を当てており、soho/mdiによる太陽周期23のデータを振り返っている。 本稿では,複数の機器から毎日の歴史的マグネトグラムデータの太陽周期を4回以上検討する。 これは、mlベースのフレア予測にこの履歴データを利用する最初の試みである。 畳み込みニューラルネットワーク(convolutional neural network, cnn)を用いて,フルディスク磁図の特徴抽出とロジスティック回帰モデルを用いて,磁図とフレアリング履歴に基づくスカラー特徴を取り入れる。 我々は,24時間以内にmクラス以上のフレアの校正確率予測を行うためにアンサンブル手法を用いる。 全体として、過去のデータを含むと予測能力や信頼性が向上する。 単一フレーム磁図は,少数のスカラー特徴で要約できるほど重要な情報を含まないこと,フレーミング履歴がcnnに抽出された特徴よりも高い予測力を持つことを示す。 これはフレア予測モデルに時間情報を含むことの重要性を示している。

Solar flare forecasting research using machine learning (ML) has focused on high resolution magnetogram data from the SDO/HMI era covering Solar Cycle 24 and the start of Solar Cycle 25, with some efforts looking back to SOHO/MDI for data from Solar Cycle 23. In this paper, we consider over 4 solar cycles of daily historical magnetogram data from multiple instruments. This is the first attempt to take advantage of this historical data for ML-based flare forecasting. We apply a convolutional neural network (CNN) to extract features from full-disk magnetograms together with a logistic regression model to incorporate scalar features based on magnetograms and flaring history. We use an ensemble approach to generate calibrated probabilistic forecasts of M-class or larger flares in the next 24 hours. Overall, we find that including historical data improves forecasting skill and reliability. We show that single frame magnetograms do not contain significantly more relevant information than can be summarized in a small number of scalar features, and that flaring history has greater predictive power than our CNN-extracted features. This indicates the importance of including temporal information in flare forecasting models.
翻訳日:2023-08-30 13:11:08 公開日:2023-08-29
# ラベル認識境界CVaRによるロバスト長期学習

Robust Long-Tailed Learning via Label-Aware Bounded CVaR ( http://arxiv.org/abs/2308.15405v1 )

ライセンス: Link先を確認
Hong Zhu, Runpeng Yu, Xing Tang, Yifei Wang, Yuan Fang, Yisen Wang(参考訳) 実世界の分類問題におけるデータは、常に不均衡または長い尾を持つため、大多数のクラスは、モデルトレーニングを支配するほとんどのサンプルを持っている。 このような環境では、単純モデルは少数派での性能が劣る傾向にある。 これまで、長い尾の傾きの問題に対処するために、様々な損失修正が提案されてきたが、これらの方法は同一クラスのサンプルを無差別に扱うか、理論的な保証を欠いている。 本稿では,CVaR(Conditional Value at Risk)に基づく2つの新しい手法を提案する。 具体的には,まず,従来のCVaRの悲観的な結果を克服するために,LAB-CVaR(Label-Aware bounded CVaR)の損失を導入する。 また,LAB-CVaRに基づいて最適化プロセスの安定化を図るため,ロジット調整(LAB-CVaR-logit)を施したLAB-CVaRを提案する。 長期ラベル分布を持つ実世界のデータセットに対する大規模な実験により,提案手法の優位性を検証した。

Data in the real-world classification problems are always imbalanced or long-tailed, wherein the majority classes have the most of the samples that dominate the model training. In such setting, the naive model tends to have poor performance on the minority classes. Previously, a variety of loss modifications have been proposed to address the long-tailed leaning problem, while these methods either treat the samples in the same class indiscriminatingly or lack a theoretical guarantee. In this paper, we propose two novel approaches based on CVaR (Conditional Value at Risk) to improve the performance of long-tailed learning with a solid theoretical ground. Specifically, we firstly introduce a Label-Aware Bounded CVaR (LAB-CVaR) loss to overcome the pessimistic result of the original CVaR, and further design the optimal weight bounds for LAB-CVaR theoretically. Based on LAB-CVaR, we additionally propose a LAB-CVaR with logit adjustment (LAB-CVaR-logit) loss to stabilize the optimization process, where we also offer the theoretical support. Extensive experiments on real-world datasets with long-tailed label distributions verify the superiority of our proposed methods.
翻訳日:2023-08-30 13:10:46 公開日:2023-08-29
# 適応参照フレーム選択によるオンライン過剰露光画像の幻覚

Online Overexposed Pixels Hallucination in Videos with Adaptive Reference Frame Selection ( http://arxiv.org/abs/2308.15462v1 )

ライセンス: Link先を確認
Yazhou Xing, Amrita Mazumdar, Anjul Patney, Chao Liu, Hongxu Yin, Qifeng Chen, Jan Kautz, Iuri Frosio(参考訳) 低ダイナミックレンジ(LDR)カメラは広いダイナミックレンジ入力に対応できず、しばしば局所的な露出問題を引き起こす。 本研究では,高ダイナミックレンジ(HDR)イメージングの典型である露出の交互化やコスト処理といった複雑な取得機構に頼ることなく,これらのアーティファクトを削減する学習ベースシステムを提案する。 HDRの詳細を推測するために,トランスフォーマーに基づくディープニューラルネットワーク(DNN)を提案する。 アブレーション研究において,マルチスケールdnnを用いて適切なコスト関数で訓練し,最先端品質を達成することの重要性を示した。 過剰に露出した領域の再構築を支援するため、我々のDNNは過去の参照フレームを付加入力として取り込む。 これは、一般的に発生する時間的自己暴露の不安定さを、我々の利点に生かしている: 現在のフレームの頻出した詳細は、将来過剰に露呈する可能性があるので、我々は、現在のフレームを将来の参照として採用するかを決定するための参照フレーム選択DNNをトレーニングするために強化学習を使用する。 そこで我々は,同時露光に頼らずに,一般的なビデオ取得設定に適用可能な因果的HDR幻覚アルゴリズムを得る。 デモビデオはhttps://drive.google.com/file/d/1-r12bkimloycluopzdebnmynj4rk360/viewで閲覧できます。

Low dynamic range (LDR) cameras cannot deal with wide dynamic range inputs, frequently leading to local overexposure issues. We present a learning-based system to reduce these artifacts without resorting to complex acquisition mechanisms like alternating exposures or costly processing that are typical of high dynamic range (HDR) imaging. We propose a transformer-based deep neural network (DNN) to infer the missing HDR details. In an ablation study, we show the importance of using a multiscale DNN and train it with the proper cost function to achieve state-of-the-art quality. To aid the reconstruction of the overexposed areas, our DNN takes a reference frame from the past as an additional input. This leverages the commonly occurring temporal instabilities of autoexposure to our advantage: since well-exposed details in the current frame may be overexposed in the future, we use reinforcement learning to train a reference frame selection DNN that decides whether to adopt the current frame as a future reference. Without resorting to alternating exposures, we obtain therefore a causal, HDR hallucination algorithm with potential application in common video acquisition settings. Our demo video can be found at https://drive.google.com/file/d/1-r12BKImLOYCLUoPzdebnMyNjJ4Rk360/view
翻訳日:2023-08-30 13:02:31 公開日:2023-08-29
# ハイブリッドニューラルフィールドの標準因子

Canonical Factors for Hybrid Neural Fields ( http://arxiv.org/abs/2308.15461v1 )

ライセンス: Link先を確認
Brent Yi, Weijia Zeng, Sam Buchanan, and Yi Ma(参考訳) factored feature volumeは、よりコンパクトで効率的で、予測不能なニューラルフィールドを構築するためのシンプルな方法を提供するが、現実世界のデータに必ずしも有益ではないバイアスも導入する。 本研究では,(1)これらのアーキテクチャが軸方向の信号に対して持つ望ましくないバイアスを特徴付け,(2)2つのPSNRの放射場再構成の違いを生じさせ,(2)正規化変換の集合を学習することで,これらのバイアスを除去することで表現を改善する方法について検討する。 本研究では、これらの変換とシーンの外観を同時に学習し、効率を大幅に向上する2次元モデル問題を示す。 我々は、画像、署名された距離、および放射場再構成タスクを使用して、TILTEDと呼ぶアーキテクチャを検証し、品質、堅牢性、コンパクト性、実行時の改善を観察する。 結果は、TILTEDがニューラルネットワーク評価手順の弱点を強調しながら、2倍のベースラインに匹敵する能力を実現できることを示した。

Factored feature volumes offer a simple way to build more compact, efficient, and intepretable neural fields, but also introduce biases that are not necessarily beneficial for real-world data. In this work, we (1) characterize the undesirable biases that these architectures have for axis-aligned signals -- they can lead to radiance field reconstruction differences of as high as 2 PSNR -- and (2) explore how learning a set of canonicalizing transformations can improve representations by removing these biases. We prove in a two-dimensional model problem that simultaneously learning these transformations together with scene appearance succeeds with drastically improved efficiency. We validate the resulting architectures, which we call TILTED, using image, signed distance, and radiance field reconstruction tasks, where we observe improvements across quality, robustness, compactness, and runtime. Results demonstrate that TILTED can enable capabilities comparable to baselines that are 2x larger, while highlighting weaknesses of neural field evaluation procedures.
翻訳日:2023-08-30 13:02:06 公開日:2023-08-29
# ParaGuide: プラグアンドプレイテキストスタイル転送のためのガイド付き拡散パラフレーズ

ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style Transfer ( http://arxiv.org/abs/2308.15459v1 )

ライセンス: Link先を確認
Zachary Horvitz, Ajay Patel, Chris Callison-Burch, Zhou Yu, Kathleen McKeown(参考訳) テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。 ターゲットの「スタイル」は、単一の属性(形式性など)から著者シップ(シェイクスピアなど)まで、様々な方法で定義することができる。 従来の教師なしスタイル転送のアプローチは、固定されたスタイルのみに対して大量のラベル付きデータに依存するか、大きな言語モデルを必要とする。 これとは対照的に,任意のスタイルに柔軟に適用可能な汎用型転送のための新しい拡散型フレームワークを提案する。 パラメータ効率のよいアプローチであるParaGuideは、パラフレーズ条件付き拡散モデルと、オフザシェルフ分類器と強力なスタイル埋め込み器の両方からの勾配に基づくガイダンスを利用して、意味情報を保持しながらテキストのスタイルを変換する。 本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。

Textual style transfer is the task of transforming stylistic properties of text while preserving meaning. Target "styles" can be defined in numerous ways, ranging from single attributes (e.g, formality) to authorship (e.g, Shakespeare). Previous unsupervised style-transfer approaches generally rely on significant amounts of labeled data for only a fixed set of styles or require large language models. In contrast, we introduce a novel diffusion-based framework for general-purpose style transfer that can be flexibly adapted to arbitrary target styles at inference time. Our parameter-efficient approach, ParaGuide, leverages paraphrase-conditioned diffusion models alongside gradient-based guidance from both off-the-shelf classifiers and strong existing style embedders to transform the style of text while preserving semantic information. We validate the method on the Enron Email Corpus, with both human and automatic evaluations, and find that it outperforms strong baselines on formality, sentiment, and even authorship style transfer.
翻訳日:2023-08-30 13:01:46 公開日:2023-08-29
# 深部不均衡分類のためのSMOTEからMixupへ

From SMOTE to Mixup for Deep Imbalanced Classification ( http://arxiv.org/abs/2308.15457v1 )

ライセンス: Link先を確認
Wei-Chao Cheng, Tan-Ha Mai, Hsuan-Tien Lin(参考訳) 不均衡なデータを考えると、マイノリティクラスの一般化が不十分なため、ディープラーニングを用いた優れた分類器のトレーニングは困難である。 伝統的に、不均衡学習のためのデータマイニングアプローチであるデータ拡張のためのよく知られた合成マイノリティオーバーサンプリング技術(smote)が、この一般化を改善するために使われてきた。 しかし、SMOTEがディープラーニングにも役立つかどうかは不明である。 本研究では,従来のSMOTEが深層学習に不十分な理由を考察し,ソフトラベルを用いてSMOTEを強化する。 結果として生じるソフトなSMOTEと、現代的なデータ拡張テクニックであるMixupを結びつけることで、従来型と現代的なデータ拡張テクニックを同じ傘の下に配置する統合フレームワークが実現される。 この枠組みの注意深い研究は、Mixupが多数派と少数派の間の不均一なマージンを暗黙的に達成することによって、一般化を改善することを示している。 次に、不均一なマージンをより明確に達成する新しいマージン対応ミックスアップ手法を提案する。 実験結果から,本手法は極めて不均衡なデータに対して高い性能を保ちながら,深い不均衡な分類において最先端の性能が得られることを示した。 このコードは、我々の開発パッケージ https://github.com/ntucllab/imbalanced-DL でオープンソース化され、この方向の将来の研究を促進する。

Given imbalanced data, it is hard to train a good classifier using deep learning because of the poor generalization of minority classes. Traditionally, the well-known synthetic minority oversampling technique (SMOTE) for data augmentation, a data mining approach for imbalanced learning, has been used to improve this generalization. However, it is unclear whether SMOTE also benefits deep learning. In this work, we study why the original SMOTE is insufficient for deep learning, and enhance SMOTE using soft labels. Connecting the resulting soft SMOTE with Mixup, a modern data augmentation technique, leads to a unified framework that puts traditional and modern data augmentation techniques under the same umbrella. A careful study within this framework shows that Mixup improves generalization by implicitly achieving uneven margins between majority and minority classes. We then propose a novel margin-aware Mixup technique that more explicitly achieves uneven margins. Extensive experimental results demonstrate that our proposed technique yields state-of-the-art performance on deep imbalanced classification while achieving superior performance on extremely imbalanced data. The code is open-sourced in our developed package https://github.com/ntucllab/imbalanced-DL to foster future research in this direction.
翻訳日:2023-08-30 13:01:28 公開日:2023-08-29
# pseudo-boolean polynomials によるエッジ検出と画像分割

Pseudo-Boolean Polynomials Approach To Edge Detection And Image Segmentation ( http://arxiv.org/abs/2308.15453v1 )

ライセンス: Link先を確認
Tendai Mapungwana Chikake, Boris Goldengorin and Alexey Samosyuk(参考訳) 画像パッチ上で擬似ブーリアン多項式を定式化し,エッジ検出と画像分割に対する決定論的アプローチを提案する。 提案手法は,画像から抽出したパッチに基づいて計算された擬ブール多項式の次数に基づいて,画像中のブロブ領域とエッジ領域のバイナリ分類を適用する。 本手法は,静止色とコントラスト色の原始形状を含む簡易画像を用いて検証し,その実現可能性を確立した上で,景観画像などの複雑な事例に適用する。 提案手法は,ペナルティに基づく擬似ブーリアン多項式の還元,多項式次数,同値性を利用したものである。

We introduce a deterministic approach to edge detection and image segmentation by formulating pseudo-Boolean polynomials on image patches. The approach works by applying a binary classification of blob and edge regions in an image based on the degrees of pseudo-Boolean polynomials calculated on patches extracted from the provided image. We test our method on simple images containing primitive shapes of constant and contrasting colour and establish the feasibility before applying it to complex instances like aerial landscape images. The proposed method is based on the exploitation of the reduction, polynomial degree, and equivalence properties of penalty-based pseudo-Boolean polynomials.
翻訳日:2023-08-30 13:01:04 公開日:2023-08-29
# プログラム・オブ・思考は推論のためにいつ働くのか?

When Do Program-of-Thoughts Work for Reasoning? ( http://arxiv.org/abs/2308.15452v1 )

ライセンス: Link先を確認
Zhen Bi, Ningyu Zhang, Yinuo Jiang, Shumin Deng, Guozhou Zheng, Huajun Chen(参考訳) 大規模言語モデル(LLM)の推論能力は、組み込み人工知能の領域において重要な役割を果たす。 複雑な推論タスクに対処するためにプログラミング言語を使用するLLMのプログラム・オブ・シンクレット・プロンプトのような効果的な方法があるが、コードデータの推論能力改善に対する影響は未定のままである。 このギャップに対処するために、構造的属性と論理的属性を組み合わせた複雑性影響推論スコア(CIRS)を提案し、コードと推論能力の相関を測定する。 具体的には、抽象構文木を用いて構造情報をエンコードし、難易度と循環的複雑度を考慮して論理複雑性を計算する。 経験的分析により、複雑さのコードデータがLLMによって学習または理解されるわけではないことがわかった。 プログラム支援プロンプトによる推論能力の向上には最適な複雑性レベルが不可欠である。 次に,自動合成・階層化アルゴリズムを設計し,数学的推論のための命令生成とコード生成タスクのためのコードデータフィルタリングに適用する。 その結果,提案手法の有効性が示された。 コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。

The reasoning capabilities of Large Language Models (LLMs) play a pivotal role in the realm of embodied artificial intelligence. Although there are effective methods like program-of-thought prompting for LLMs which uses programming language to tackle complex reasoning tasks, the specific impact of code data on the improvement of reasoning capabilities remains under-explored. To address this gap, we propose complexity-impacted reasoning score (CIRS), which combines structural and logical attributes, to measure the correlation between code and reasoning abilities. Specifically, we use the abstract syntax tree to encode the structural information and calculate logical complexity by considering the difficulty and the cyclomatic complexity. Through an empirical analysis, we find not all code data of complexity can be learned or understood by LLMs. Optimal level of complexity is critical to the improvement of reasoning abilities by program-aided prompting. Then we design an auto-synthesizing and stratifying algorithm, and apply it to instruction generation for mathematical reasoning and code data filtering for code generation tasks. Extensive results demonstrates the effectiveness of our proposed approach. Code will be integrated into the EasyInstruct framework at https://github.com/zjunlp/EasyInstruct.
翻訳日:2023-08-30 13:00:53 公開日:2023-08-29
# バングラのチタゴニア方言におけるVulgar Remarks Detection

Vulgar Remarks Detection in Chittagonian Dialect of Bangla ( http://arxiv.org/abs/2308.15448v1 )

ライセンス: Link先を確認
Tanjim Mahmud, Michal Ptaszynski, Fumito Masui(参考訳) ネットいじめやハラスメントの悪影響は、特にソーシャルメディアでインターネットの人気が高まりつつある。 One solution is using natural language processing (NLP) and machine learning (ML) methods for the automatic detection of harmful remarks, but these methods are limited in low-resource languages like the Chittagonian dialect of Bangla.This study focuses on detecting vulgar remarks in social media using supervised ML and deep learning algorithms.Logistic Regression achieved promising accuracy (0.91) while simple RNN with Word2vec and fastTex had lower accuracy (0.84-0.90), highlighting the issue that NN algorithms require more data.

The negative effects of online bullying and harassment are increasing with Internet popularity, especially in social media. One solution is using natural language processing (NLP) and machine learning (ML) methods for the automatic detection of harmful remarks, but these methods are limited in low-resource languages like the Chittagonian dialect of Bangla.This study focuses on detecting vulgar remarks in social media using supervised ML and deep learning algorithms.Logistic Regression achieved promising accuracy (0.91) while simple RNN with Word2vec and fastTex had lower accuracy (0.84-0.90), highlighting the issue that NN algorithms require more data.
翻訳日:2023-08-30 13:00:33 公開日:2023-08-29
# 電力価格の予測分布の組み合わせ:CRPSの最小化は日頭入札における最適決定につながるか?

Combining predictive distributions of electricity prices: Does minimizing the CRPS lead to optimal decisions in day-ahead bidding? ( http://arxiv.org/abs/2308.15443v1 )

ライセンス: Link先を確認
Weronika Nitka and Rafa{\l} Weron(参考訳) このような予測に基づく決定は、ポイント予測だけで行うものよりも著しく高い利益をもたらす可能性があるため、近年、電力取引において確率的価格予測が注目されている。 モデルが完璧ではなく,平均化によって予測性能が向上するため,予測分布を組み合わせる手法が開発されている。 本稿では,CRPS(Continuous Rank probability score, CRPS)を最小化する新しい重み付け手法であるCRPS学習を用いることで,日頭入札における最適決定が導かれるかという課題に対処する。 この目的のために、ドイツepex市場から1時間当たりの電力価格を用いて実証研究を行う。 アンサンブルの多様性の増大は精度に肯定的な影響を与える可能性がある。 同時に、分布の等重集約と比較してCRPS学習を使用する場合の計算コストは、より正確な予測にもかかわらず、より高い利益によって相殺されない。

Probabilistic price forecasting has recently gained attention in power trading because decisions based on such predictions can yield significantly higher profits than those made with point forecasts alone. At the same time, methods are being developed to combine predictive distributions, since no model is perfect and averaging generally improves forecasting performance. In this article we address the question of whether using CRPS learning, a novel weighting technique minimizing the continuous ranked probability score (CRPS), leads to optimal decisions in day-ahead bidding. To this end, we conduct an empirical study using hourly day-ahead electricity prices from the German EPEX market. We find that increasing the diversity of an ensemble can have a positive impact on accuracy. At the same time, the higher computational cost of using CRPS learning compared to an equal-weighted aggregation of distributions is not offset by higher profits, despite significantly more accurate predictions.
翻訳日:2023-08-30 13:00:25 公開日:2023-08-29
# 近似比保証に必要なQAOAラウンド数に関する下限

Lower Bounds on Number of QAOA Rounds Required for Guaranteed Approximation Ratios ( http://arxiv.org/abs/2308.15442v1 )

ライセンス: Link先を確認
Naphan Benchasattabuse, Andreas B\"artschi, Luis Pedro Garc\'ia-Pintos, John Golden, Nathan Lemons and Stephan Eidenbenz(参考訳) 量子交互作用素 ansatz (qaoa) は、最大充足可能性のような組合せ最適化問題に対する高品質な近似解を見つけるためのヒューリスティックなハイブリッド量子古典アルゴリズムである。 QAOAはよく研究されているが、実行時や近似比の保証に関する理論的結果はまだ比較的少ない。 我々はQAOAに必要なラウンド数(QAOAランタイムの主要なコンポーネント)について、最初の下位境界をいくつか提示する。 私たちの主な成果は (i) 量子アニーリング時間とqaoaの角度との関係を利用して、保証された近似比に対してqaoaのラウンド数に対する下界を導出する。 我々は、Groverスタイルの混合ユニタリでこれを適用し、計算する。 (ii) このタイプのQAOAは、ほとんどの問題に対して定数近似比を保証するために少なくとも1つの多項式数を必要とすることを示す。 私たちも (iii) 有界関数は対象関数の統計値にのみ依存し、問題が$k$局所ハミルトニアンとしてモデル化できる場合、ハミルトニアンの係数から容易に推定できることを示す。 従来の横フィールドミキサーについて (iv)本フレームワークは,局所的な局所的コスト問題と厳密な$k$-ローカルなコストハミルトニアンは,これらのクラスからのいくつかの最適化問題に対して,定数近似比が一定のラウンドQAOAで得られることを既知の結果と一致する。 新たな証明フレームワークを使って (v)非構造化探索のためのGroverの下限を復元し、小さな修正を加えて、混合ユニタリの基底状態から始まるQAOAスタイルのサーチプロトコルに我々のバウンドが適用されることを示す。

The quantum alternating operator ansatz (QAOA) is a heuristic hybrid quantum-classical algorithm for finding high-quality approximate solutions to combinatorial optimization problems, such as Maximum Satisfiability. While QAOA is well-studied, theoretical results as to its runtime or approximation ratio guarantees are still relatively sparse. We provide some of the first lower bounds for the number of rounds (the dominant component of QAOA runtimes) required for QAOA. For our main result, (i) we leverage a connection between quantum annealing times and the angles of QAOA to derive a lower bound on the number of rounds of QAOA with respect to the guaranteed approximation ratio. We apply and calculate this bound with Grover-style mixing unitaries and (ii) show that this type of QAOA requires at least a polynomial number of rounds to guarantee any constant approximation ratios for most problems. We also (iii) show that the bound depends only on the statistical values of the objective functions, and when the problem can be modeled as a $k$-local Hamiltonian, can be easily estimated from the coefficients of the Hamiltonians. For the conventional transverse field mixer, (iv) our framework gives a trivial lower bound to all bounded occurrence local cost problems and all strictly $k$-local cost Hamiltonians matching known results that constant approximation ratio is obtainable with constant round QAOA for a few optimization problems from these classes. Using our novel proof framework, (v) we recover the Grover lower bound for unstructured search and -- with small modification -- show that our bound applies to any QAOA-style search protocol that starts in the ground state of the mixing unitaries.
翻訳日:2023-08-30 13:00:07 公開日:2023-08-29
# 量子センシングによる単一重力子検出

Detecting single gravitons with quantum sensing ( http://arxiv.org/abs/2308.15440v1 )

ライセンス: Link先を確認
Germain Tobar, Sreenath K. Manikandan, Thomas Beitel, Igor Pikovski(参考訳) 重力の量子化は重力波を形成する離散エネルギーの粒子である重力子をもたらすと広く信じられている。 しかし、これまでは検出は不可能と考えられてきた。 ここでは,単一重力子のシグネチャが実験室実験で観察できることを示す。 また, 量子ジャンプの連続センシングにより, 励起および自発的な単重力過程が大規模量子音響共振器に関連し, 励起吸収を解消できることを示した。 物質と重力波の間の単一エネルギー量子の交換を観測できる可能性を分析する。 以上の結果から,単一重力子シグネチャは実験の範囲内にあることが示唆された。 光子に対する光電効果の発見と同様に、このような署名は重力の量子化の最初の実験的証拠となる。

The quantization of gravity is widely believed to result in gravitons -- particles of discrete energy that form gravitational waves. But their detection has so far been considered impossible. Here we show that signatures of single gravitons can be observed in laboratory experiments. We show that stimulated and spontaneous single-graviton processes can become relevant for massive quantum acoustic resonators and that stimulated absorption can be resolved through continuous sensing of quantum jumps. We analyze the feasibility of observing the exchange of single energy quanta between matter and gravitational waves. Our results show that single graviton signatures are within reach of experiments. In analogy to the discovery of the photo-electric effect for photons, such signatures can provide the first experimental evidence of the quantization of gravity.
翻訳日:2023-08-30 12:59:34 公開日:2023-08-29
# 頑健な領域外予測のための3次元逆拡張法

3D Adversarial Augmentations for Robust Out-of-Domain Predictions ( http://arxiv.org/abs/2308.15479v1 )

ライセンス: Link先を確認
Alexander Lehner, Stefano Gasperini, Alvaro Marcos-Ramiro, Michael Schmidt, Nassir Navab, Benjamin Busam, Federico Tombari(参考訳) 実世界のトレーニングデータセットは、基礎となるデータ分布の長い尾を適切にサンプリングできないため、コーナーケースと稀なドメイン外のサンプルは、最先端のモデルの性能を著しく損なう可能性がある。 この問題は、3Dセマンティックセグメンテーションのような高密度なタスクではさらに深刻になり、非標準オブジェクトの点が間違ったクラスに確実に関連付けられる。 本研究では、ドメイン外データへの一般化の改善に焦点を当てる。 逆の例でトレーニングセットを拡張することで、これを実現する。 まず、対象を逆向きに変形させるベクトルの集合を学習する。 既存のデータ分布から遠すぎる敵の例を避けるため、一連の制約によってそれらの妥当性を保ち、センサの認識と形状の滑らかさを確保する。 次に,学習したサンプル独立ベクターをモデル学習時に利用可能なオブジェクトに適用することにより,敵対的拡張を行う。 我々は,3次元オブジェクト検出のためのKITTI,Waymo,CrashDのデータと,セマンティックKITTI,Waymo,nuScenesのセマンティックセマンティックセマンティックセマンティックスセグメンテーションのためのデータについて,さまざまなシナリオにわたる広範な実験を行った。 標準的な単一データセットのトレーニングにもかかわらず,本手法はドメイン外データに対する3次元オブジェクト検出と3次元セマンティックセグメンテーションの堅牢性と一般化を大幅に改善する。

Since real-world training datasets cannot properly sample the long tail of the underlying data distribution, corner cases and rare out-of-domain samples can severely hinder the performance of state-of-the-art models. This problem becomes even more severe for dense tasks, such as 3D semantic segmentation, where points of non-standard objects can be confidently associated to the wrong class. In this work, we focus on improving the generalization to out-of-domain data. We achieve this by augmenting the training set with adversarial examples. First, we learn a set of vectors that deform the objects in an adversarial fashion. To prevent the adversarial examples from being too far from the existing data distribution, we preserve their plausibility through a series of constraints, ensuring sensor-awareness and shapes smoothness. Then, we perform adversarial augmentation by applying the learned sample-independent vectors to the available objects when training a model. We conduct extensive experiments across a variety of scenarios on data from KITTI, Waymo, and CrashD for 3D object detection, and on data from SemanticKITTI, Waymo, and nuScenes for 3D semantic segmentation. Despite training on a standard single dataset, our approach substantially improves the robustness and generalization of both 3D object detection and 3D semantic segmentation methods to out-of-domain data.
翻訳日:2023-08-30 12:53:50 公開日:2023-08-29
# ニューラルネットワークの適応的タンジェント特徴視点

An Adaptive Tangent Feature Perspective of Neural Networks ( http://arxiv.org/abs/2308.15478v1 )

ライセンス: Link先を確認
Daniel LeJeune, Sina Alemohammad(参考訳) ニューラルネットワークにおける特徴学習をよりよく理解するために、訓練中に特徴を変換できる接する特徴空間における線形モデルを理解するためのフレームワークを提案する。 特徴量の線形変換を考慮し、双線型補間制約によるパラメータと変換を共同で最適化する。 この最適化問題は, ほぼ低ランク解を奨励する構造的正則化と等価な線形制約付き最適化を持つことを示す。 ニューラルネットワーク構造に特化して,特徴がどのようにカーネル関数が変化するかの洞察を得るとともに,ターゲット関数がタンジェント特徴を用いて表現されにくい場合に,カーネルアライメント現象に付加的なニュアンスを与える。 単純な回帰問題による実ニューラルネットワークにおける理論的観察の検証に加えて,接点分類の適応的特徴実装は,mnistやcifar-10の固定接点特徴モデルよりも1桁低いサンプル複雑性を持つことを示す。

In order to better understand feature learning in neural networks, we propose a framework for understanding linear models in tangent feature space where the features are allowed to be transformed during training. We consider linear transformations of features, resulting in a joint optimization over parameters and transformations with a bilinear interpolation constraint. We show that this optimization problem has an equivalent linearly constrained optimization with structured regularization that encourages approximately low rank solutions. Specializing to neural network structure, we gain insights into how the features and thus the kernel function change, providing additional nuance to the phenomenon of kernel alignment when the target function is poorly represented using tangent features. In addition to verifying our theoretical observations in real neural networks on a simple regression problem, we empirically show that an adaptive feature implementation of tangent feature classification has an order of magnitude lower sample complexity than the fixed tangent feature model on MNIST and CIFAR-10.
翻訳日:2023-08-30 12:53:25 公開日:2023-08-29
# ポートフォリオ最適化のためのインパルスレジーム内効率的なdcqoアルゴリズム

Efficient DCQO Algorithm within the Impulse Regime for Portfolio Optimization ( http://arxiv.org/abs/2308.15475v1 )

ライセンス: Link先を確認
Alejandro Gomez Cadavid, Iraitz Montalban, Archismita Dalal, Enrique Solano, Narendra N. Hegade(参考訳) 本研究では,デジタル化カウンタダイアバティック量子最適化(dcqo)パラダイムを用いたポートフォリオ最適化のための高速なディジタル量子アルゴリズムを提案する。 提案手法は,アルゴリズムの回路深度要件を特に低減し,解の精度を向上し,現在の量子プロセッサに適している。 このプロトコルを、純粋に量子的およびハイブリッドな古典量子パラダイムを用いて、20の資産を持つポートフォリオ最適化の実例に適用する。 我々は、ionqトラップイオン量子コンピュータ上で最大20量子ビットのプロトコルの利点を実験的に実証する。 本手法を標準量子近似最適化アルゴリズムと有限時間デジタル化断熱アルゴリズムに対してベンチマークすることにより,回路の深さを2.5~40倍に低減し,古典的最適化サブルーチンへの依存性を最小化した。 ポートフォリオ最適化の他に,提案手法は大規模な組合せ最適化問題に適用可能である。

We propose a faster digital quantum algorithm for portfolio optimization using the digitized-counterdiabatic quantum optimization (DCQO) paradigm in the impulse regime, that is, where the counterdiabatic terms are dominant. Our approach notably reduces the circuit depth requirement of the algorithm and enhances the solution accuracy, making it suitable for current quantum processors. We apply this protocol to a real-case scenario of portfolio optimization with 20 assets, using purely quantum and hybrid classical-quantum paradigms. We experimentally demonstrate the advantages of our protocol using up to 20 qubits on an IonQ trapped-ion quantum computer. By benchmarking our method against the standard quantum approximate optimization algorithm and finite-time digitized-adiabatic algorithms, we obtain a significant reduction in the circuit depth by factors of 2.5 to 40, while minimizing the dependence on the classical optimization subroutine. Besides portfolio optimization, the proposed method is applicable to a large class of combinatorial optimization problems.
翻訳日:2023-08-30 12:53:07 公開日:2023-08-29
# 計算病理の汎用自己監督モデル

A General-Purpose Self-Supervised Model for Computational Pathology ( http://arxiv.org/abs/2308.15474v1 )

ライセンス: Link先を確認
Richard J. Chen, Tong Ding, Ming Y. Lu, Drew F. K. Williamson, Guillaume Jaume, Bowen Chen, Andrew Zhang, Daniel Shao, Andrew H. Song, Muhammad Shaban, Mane Williams, Anurag Vaidya, Sharifa Sahai, Lukas Oldenburg, Luca L. Weishaupt, Judy J. Wang, Walt Williams, Long Phi Le, Georg Gerber, Faisal Mahmood(参考訳) 組織表現型ピングは、解剖学的病理学における病理組織学的バイオマーカーの客観的特徴の学習における基礎的計算病理学(CPath)課題である。 しかし、全体スライダーイメージング(wsi)は、wsisの大規模画像解像度と形態的表現型の膨大な多様性が大規模データアノテーションを妨げる複雑なコンピュータビジョン問題を引き起こす。 現在の研究は、自然画像データセットからの転写学習や、公的に利用可能な病理組織データセットによる自己教師付き事前トレーニングを併用した事前訓練画像エンコーダの使用を提案しているが、大規模に多様な組織タイプで広く開発され評価されていない。 UNIは,20種類の組織から10万以上の診断ヘマトキシリンおよびエオシン含有WSIから1億以上の組織パッチを事前訓練し,CPathにおける33の代表的なCPath臨床課題について検討した。 従来の最先端モデルに勝るものの他に,OncoTreeコード分類システムでは,分解能非依存組織分類,少数ショットクラスプロトタイプを用いたスライド分類,最大108種類のがん分類における疾患サブタイプ一般化など,CPathの新たなモデリング機能を示す。 UNIは、事前トレーニングデータと下流評価の両方の観点から、CPathの大規模で教師なしの表現学習を推進し、解剖学的病理学における診断に混ざったタスクや臨床ワークフローを一般化し、転送できるデータ効率のよいAIモデルを実現する。

Tissue phenotyping is a fundamental computational pathology (CPath) task in learning objective characterizations of histopathologic biomarkers in anatomic pathology. However, whole-slide imaging (WSI) poses a complex computer vision problem in which the large-scale image resolutions of WSIs and the enormous diversity of morphological phenotypes preclude large-scale data annotation. Current efforts have proposed using pretrained image encoders with either transfer learning from natural image datasets or self-supervised pretraining on publicly-available histopathology datasets, but have not been extensively developed and evaluated across diverse tissue types at scale. We introduce UNI, a general-purpose self-supervised model for pathology, pretrained using over 100 million tissue patches from over 100,000 diagnostic haematoxylin and eosin-stained WSIs across 20 major tissue types, and evaluated on 33 representative CPath clinical tasks in CPath of varying diagnostic difficulties. In addition to outperforming previous state-of-the-art models, we demonstrate new modeling capabilities in CPath such as resolution-agnostic tissue classification, slide classification using few-shot class prototypes, and disease subtyping generalization in classifying up to 108 cancer types in the OncoTree code classification system. UNI advances unsupervised representation learning at scale in CPath in terms of both pretraining data and downstream evaluation, enabling data-efficient AI models that can generalize and transfer to a gamut of diagnostically-challenging tasks and clinical workflows in anatomic pathology.
翻訳日:2023-08-30 12:52:50 公開日:2023-08-29
# GANにおける学習変調変換

Learning Modulated Transformation in GANs ( http://arxiv.org/abs/2308.15472v1 )

ライセンス: Link先を確認
Ceyuan Yang, Qihang Zhang, Yinghao Xu, Jiapeng Zhu, Yujun Shen, Bo Dai(参考訳) スタイルベースのジェネレータの成功は大半がスタイル変調の恩恵を受けている。 しかし、インスタンスワイズ確率性は典型的には通常の畳み込みによって導入され、カーネルは一定の位置にある特徴と相互作用し、幾何学的変動をモデル化する能力を制限する。 この問題を軽減するため、生成逆数ネットワーク(GAN)のジェネレータに、変調変換モジュール(MTM)と呼ばれるプラグアンドプレイモジュールを装備する。 このモジュールは遅延符号の制御の下で空間オフセットを予測し、異なるインスタンスの可変位置で畳み込み演算を適用できるため、幾何学的変形を扱うための追加の自由度がモデルに与えられる。 広範な実験により,提案手法は画像生成,3d認識画像合成,ビデオ生成など様々な生成タスクに忠実に一般化でき,ハイパーパラメータチューニングを伴わない最先端のフレームワークと互換性があることが示唆された。 挑戦的な太一データセット上での人間生成に向けて,スタイルガン3のfidを21.36から13.60に改善し,変調幾何変換学習の有効性を実証した。

The success of style-based generators largely benefits from style modulation, which helps take care of the cross-instance variation within data. However, the instance-wise stochasticity is typically introduced via regular convolution, where kernels interact with features at some fixed locations, limiting its capacity for modeling geometric variation. To alleviate this problem, we equip the generator in generative adversarial networks (GANs) with a plug-and-play module, termed as modulated transformation module (MTM). This module predicts spatial offsets under the control of latent codes, based on which the convolution operation can be applied at variable locations for different instances, and hence offers the model an additional degree of freedom to handle geometry deformation. Extensive experiments suggest that our approach can be faithfully generalized to various generative tasks, including image generation, 3D-aware image synthesis, and video generation, and get compatible with state-of-the-art frameworks without any hyper-parameter tuning. It is noteworthy that, towards human generation on the challenging TaiChi dataset, we improve the FID of StyleGAN3 from 21.36 to 13.60, demonstrating the efficacy of learning modulated geometry transformation.
翻訳日:2023-08-30 12:52:22 公開日:2023-08-29
# 多目的政策最適化による強化学習における政策構成

Policy composition in reinforcement learning via multi-objective policy optimization ( http://arxiv.org/abs/2308.15470v1 )

ライセンス: Link先を確認
Shruti Mishra, Ankit Anand, Jordan Hoffmann, Nicolas Heess, Martin Riedmiller, Abbas Abdolmaleki, Doina Precup(参考訳) 強化学習エージェントは,既存の教員政策を活用し,行動方針を身につけることができる。 教師ポリシーは、タスク目的に加えて、多目的ポリシー最適化設定で目的として導入される。 本稿では,多目的最大後進政策最適化アルゴリズム \citep{abdolmaleki2020distributional} を用いて,教師の政策が学習のスピードアップに寄与することを示す。 連続的な観察と行動空間を持つ2つの領域において,我々のエージェントは,教師の方針を逐次かつ並列に構成し,その課題を解決するために教師の方針をさらに拡張することができる。 タスクと教師の組み合わせによっては、教師はエージェントの最終的なパフォーマンスを制限するために自然に行動することができる。 エージェントが教師の方針に従わなければならない程度はハイパーパラメーターによって決定され、教師の学習速度とエージェントの最終的なパフォーマンスがタスクに与える影響を判定する。 {\tt humanoid} domain \citep{deepmindcontrolsuite2018} では、エージェントに教師の選択を制御する能力も備えている。 この能力により、エージェントは教師の方針から有意義に構成することができ、教師の方針にアクセスできない場合よりも優れたタスク報酬を達成することができる。 構成した課題政策と対応する教員政策の類似性をビデオで示す。

We enable reinforcement learning agents to learn successful behavior policies by utilizing relevant pre-existing teacher policies. The teacher policies are introduced as objectives, in addition to the task objective, in a multi-objective policy optimization setting. Using the Multi-Objective Maximum a Posteriori Policy Optimization algorithm \citep{abdolmaleki2020distributional}, we show that teacher policies can help speed up learning, particularly in the absence of shaping rewards. In two domains with continuous observation and action spaces, our agents successfully compose teacher policies in sequence and in parallel, and are also able to further extend the policies of the teachers in order to solve the task. Depending on the specified combination of task and teacher(s), teacher(s) may naturally act to limit the final performance of an agent. The extent to which agents are required to adhere to teacher policies are determined by hyperparameters which determine both the effect of teachers on learning speed and the eventual performance of the agent on the task. In the {\tt humanoid} domain \citep{deepmindcontrolsuite2018}, we also equip agents with the ability to control the selection of teachers. With this ability, agents are able to meaningfully compose from the teacher policies to achieve a superior task reward on the {\tt walk} task than in cases without access to the teacher policies. We show the resemblance of composed task policies with the corresponding teacher policies through videos.
翻訳日:2023-08-30 12:52:01 公開日:2023-08-29
# アルツハイマー病自動予測のためのマルチモーダルコントラスト学習と表的注意

Multimodal Contrastive Learning and Tabular Attention for Automated Alzheimer's Disease Prediction ( http://arxiv.org/abs/2308.15469v1 )

ライセンス: Link先を確認
Weichen Huang(参考訳) MRIスキャンやPETなどの神経イメージングに加えて、アルツハイマー病(AD)データセットには、ADバイオマーカーや臨床評価を含む貴重な表層データが含まれている。 既存のコンピュータビジョンアプローチはこの追加情報を利用するのに苦労する。 これらのニーズに対応するために,画像データと表データとのマルチモーダルコントラスト学習のための汎用フレームワーク,テーブルの高度特徴の増幅とランク付けのための新しい表的注意モジュール,アルツハイマー病予測へのこれらの手法の適用を提案する。 ADNIデータベースから882個のMR画像スライスからアルツハイマー病(AD)を検出することで,我々の枠組みの強さを実証した。 表データの高い解釈可能性と,新しい表的注意アプローチを活用し,表の各行に対する注意スコアの帰属を通じて,最も重要な特徴を注記し,ランク付けする。 結果は、このモデルは83.8%以上精度があり、以前の技術から10%程度の精度で向上していることを示している。

Alongside neuroimaging such as MRI scans and PET, Alzheimer's disease (AD) datasets contain valuable tabular data including AD biomarkers and clinical assessments. Existing computer vision approaches struggle to utilize this additional information. To address these needs, we propose a generalizable framework for multimodal contrastive learning of image data and tabular data, a novel tabular attention module for amplifying and ranking salient features in tables, and the application of these techniques onto Alzheimer's disease prediction. Experimental evaulations demonstrate the strength of our framework by detecting Alzheimer's disease (AD) from over 882 MR image slices from the ADNI database. We take advantage of the high interpretability of tabular data and our novel tabular attention approach and through attribution of the attention scores for each row of the table, we note and rank the most predominant features. Results show that the model is capable of an accuracy of over 83.8%, almost a 10% increase from previous state of the art.
翻訳日:2023-08-30 12:51:38 公開日:2023-08-29
# 入力マージンは一般化も予測できる

Input margins can predict generalization too ( http://arxiv.org/abs/2308.15466v1 )

ライセンス: Link先を確認
Coenraad Mouton, Marthinus W. Theunissen, Marelie H. Davel(参考訳) ディープニューラルネットワークの一般化を理解することは、研究の活発な領域である。 有望な探索の道はマージンの測定である: 与えられたサンプルに対する決定境界への最短距離、またはネットワークの内部におけるその表現である。 マージンは、隠れた表現(隠れたマージン)で測定された場合のモデルの一般化能力と相関することが示されているが、入力マージンに対して大きなマージンと一般化の関係は確立されていない。 入力マージンは一般に一般化を予測できないが、探索空間が適切に制約されている場合である。 このような指標を入力マージンに基づいて開発し,これを「制約マージン」と呼ぶ。 この新たな指標の予測力は、"PGDL(Predicting Generalization in Deep Learning)データセット上で示され、隠れ表現マージンと対比される。 制約されたマージンは競争力が高く、他のマージン測定よりも優れています。 このことは、一般化と分類マージンの関係に関する新しい洞察を与え、DNNにおける一般化の研究のためにデータ多様体を考えることの重要性を強調している。

Understanding generalization in deep neural networks is an active area of research. A promising avenue of exploration has been that of margin measurements: the shortest distance to the decision boundary for a given sample or its representation internal to the network. While margins have been shown to be correlated with the generalization ability of a model when measured at its hidden representations (hidden margins), no such link between large margins and generalization has been established for input margins. We show that while input margins are not generally predictive of generalization, they can be if the search space is appropriately constrained. We develop such a measure based on input margins, which we refer to as `constrained margins'. The predictive power of this new measure is demonstrated on the 'Predicting Generalization in Deep Learning' (PGDL) dataset and contrasted with hidden representation margins. We find that constrained margins achieve highly competitive scores and outperform other margin measurements in general. This provides a novel insight on the relationship between generalization and classification margins, and highlights the importance of considering the data manifold for investigations of generalization in DNNs.
翻訳日:2023-08-30 12:51:21 公開日:2023-08-29
# 損失関数の比較研究:定期および混雑シナリオにおける交通予測

A Comparative Study of Loss Functions: Traffic Predictions in Regular and Congestion Scenarios ( http://arxiv.org/abs/2308.15464v1 )

ライセンス: Link先を確認
Yangxinyu Xie, Tanwi Mallick(参考訳) 時空間グラフニューラルネットワークは交通予測において最先端の性能を達成した。 しかし、従来の損失関数の限界のため、混雑を正確に予測するのに苦労することが多い。 定期的な交通状況の正確な予測は重要であるが、信頼できるaiシステムは安全かつ効率的な輸送を維持するために、渋滞シナリオを正確に予測する必要がある。 本稿では,重み解析と不均衡な分類問題から着想を得た種々の損失関数を探索し,この問題に対処する。 交通速度予測における損失関数の有効性を,渋滞シナリオに着目して評価する。 実世界の交通データセットに関する広範な実験により、平均絶対誤差(MAE)を最適化する場合、MAE-Focal Loss関数が最も有効であることが判明した。 Mean Squared Error (MSE) を最適化する場合、Gumbel Loss は優れた選択である。 これらの選択は、通常の交通速度予測の精度を損なうことなく、交通渋滞を効果的に予測する。 本研究は,混雑による急激な速度変化を予測する深層学習モデルの能力を高め,この方向におけるさらなる研究の必要性を裏付けるものである。 渋滞予測の精度を高めることで,現実的な交通管理シナリオにおいて信頼性,安全性,レジリエンスを備えたAIシステムを提案する。

Spatiotemporal graph neural networks have achieved state-of-the-art performance in traffic forecasting. However, they often struggle to forecast congestion accurately due to the limitations of traditional loss functions. While accurate forecasting of regular traffic conditions is crucial, a reliable AI system must also accurately forecast congestion scenarios to maintain safe and efficient transportation. In this paper, we explore various loss functions inspired by heavy tail analysis and imbalanced classification problems to address this issue. We evaluate the efficacy of these loss functions in forecasting traffic speed, with an emphasis on congestion scenarios. Through extensive experiments on real-world traffic datasets, we discovered that when optimizing for Mean Absolute Error (MAE), the MAE-Focal Loss function stands out as the most effective. When optimizing Mean Squared Error (MSE), Gumbel Loss proves to be the superior choice. These choices effectively forecast traffic congestion events without compromising the accuracy of regular traffic speed forecasts. This research enhances deep learning models' capabilities in forecasting sudden speed changes due to congestion and underscores the need for more research in this direction. By elevating the accuracy of congestion forecasting, we advocate for AI systems that are reliable, secure, and resilient in practical traffic management scenarios.
翻訳日:2023-08-30 12:51:02 公開日:2023-08-29
# ランダム量子散乱の典型性に関する一考察

A note on typicality in random quantum scattering ( http://arxiv.org/abs/2308.15463v1 )

ライセンス: Link先を確認
Michele Avalle and Alessio Serafini(参考訳) 我々は、量子系が内部のサブシステムと境界からなる散乱過程を考察し、境界環境ヒルベルト空間にのみ作用する平均的なランダムなユニタリを持つ。 初期状態にかかわらず、単一散乱事象が非条件状態(すなわち、適用されたユニタリに関する情報が得られない場合の散乱状態)を内部サブシステム境界分割に分散させることを示す。 また、無条件状態の周りのトレースノルム変動を制約するためにレヴィの補題を適用する。 最後に, 初期大域的純状態の平均散乱純度の解析式を導出し, 環境次元の増大とともに, それらの平均値周りのゆらぎが減少することを示す数値的証拠を与える。

We consider scattering processes where a quantum system is comprised of an inner subsystem and of a boundary, and is subject to Haar-averaged random unitaries acting on the boundary-environment Hilbert space only. We show that, regardless of the initial state, a single scattering event will disentangle the unconditional state (i.e., the scattered state when no information about the applied unitary is available) across the inner subsystem-boundary partition. Also, we apply Levy's lemma to constrain the trace norm fluctuations around the unconditional state. Finally, we derive analytical formulae for the mean scattered purity for initial globally pure states, and provide one with numerical evidence of the reduction of fluctuations around such mean values with increasing environmental dimension.
翻訳日:2023-08-30 12:50:41 公開日:2023-08-29
# Open Gaze:Deep Learningを使ったスマートフォンデバイス用のオープンソースのアイトラッカー

Open Gaze: Open Source eye tracker for smartphone devices using Deep Learning ( http://arxiv.org/abs/2308.13495v2 )

ライセンス: Link先を確認
Sushmanth reddy, Jyothi Swaroop Reddy(参考訳) 視線追跡は視覚研究、言語分析、ユーザビリティ評価など様々な分野において重要なツールである。 しかし、以前の調査の大半は、拡張性に欠ける専用でコストのかかる視線追跡ハードウェアを使った、拡張性のあるデスクトップディスプレイに集中している。 スマートフォン上での眼球運動のパターンは、広く採用されているにもかかわらず、ほとんど見当たらない。 そこで本研究では,googlepaperが提案する手法を模倣したスマートフォン用視線追跡装置のオープンソース実装(ソースコードは引き続きプロプライエタリである)を提案する。 私たちの焦点は、補充ハードウェアを必要とせずに、GooglePaperの方法論によって達成された精度に匹敵する精度を達成することです。 機械学習技術の統合により,スマートフォンに固有な正確な視線追跡ソリューションを提示する。 提案手法は,2桁以上のコストを特徴とする,最先端の移動眼球追跡装置に類似した精度を実証する。 データセットのwebサイトに登録することで得られる膨大なmit gazecaptureデータセットを活用し,眼球運動行動および自然画像観察時の塩分分析に関するこれまでの研究から得られた重要な知見を再現することに成功した。 さらに,読解課題の認識におけるスマートフォンによる視線追跡の適用性を強調した。 本研究は, 眼球運動研究を顕著な割合で増幅し, 明示的な同意を得た数千人の被験者の参加を継続する本態性を示した。 このスケーラビリティはビジョン研究の進歩を促進するだけでなく、アクセシビリティ向上やヘルスケアアプリケーションといった領域にもそのメリットを広げます。

Eye tracking has been a pivotal tool in diverse fields such as vision research, language analysis, and usability assessment. The majority of prior investigations, however, have concentrated on expansive desktop displays employing specialized, costly eye tracking hardware that lacks scalability. Remarkably little insight exists into ocular movement patterns on smartphones, despite their widespread adoption and significant usage. In this manuscript, we present an open-source implementation of a smartphone-based gaze tracker that emulates the methodology proposed by a GooglePaper (whose source code remains proprietary). Our focus is on attaining accuracy comparable to that attained through the GooglePaper's methodology, without the necessity for supplementary hardware. Through the integration of machine learning techniques, we unveil an accurate eye tracking solution that is native to smartphones. Our approach demonstrates precision akin to the state-of-the-art mobile eye trackers, which are characterized by a cost that is two orders of magnitude higher. Leveraging the vast MIT GazeCapture dataset, which is available through registration on the dataset's website, we successfully replicate crucial findings from previous studies concerning ocular motion behavior in oculomotor tasks and saliency analyses during natural image observation. Furthermore, we emphasize the applicability of smartphone-based gaze tracking in discerning reading comprehension challenges. Our findings exhibit the inherent potential to amplify eye movement research by significant proportions, accommodating participation from thousands of subjects with explicit consent. This scalability not only fosters advancements in vision research, but also extends its benefits to domains such as accessibility enhancement and healthcare applications.
翻訳日:2023-08-30 11:00:44 公開日:2023-08-29
# 数発$\mathbf{1/a}$ anomaliesフィードバック : damage vision mining opportunityとembedd feature unbalance

Few-shot $\mathbf{1/a}$ Anomalies Feedback : Damage Vision Mining Opportunity and Embedding Feature Imbalance ( http://arxiv.org/abs/2307.12676v5 )

ライセンス: Link先を確認
Takato Yasuno(参考訳) 過去10年間、従来のバランスの取れたデータセットは、産業アプリケーションのためのディープラーニングアルゴリズムの進歩に使われてきた。 都会のインフラや生活環境では、珍しい出来事や改善作業の質の高さから、被害データマイニングは不均衡なデータ問題を避けることはできない。 視覚検査では, コンクリートおよび鋼材の表面から得られた劣化クラスは, 時々不均衡となる。 関連する多くの調査から、不均衡なデータ問題は4つのタイプに分類できると結論づけた。 1)対象物及びラベル有価物の範囲の欠如 2)マイノリティ階級の不均衡 3【空間的不均衡の背景】 4) 画素単位の不均衡の長尾クラス。 2015年以降、回帰、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、多くの不均衡な研究がディープラーニングアプローチを用いて行われている。 しかし、不均衡なデータの異常検出は知られていない。 本研究では,異常クラスの有無に関わらず,一級異常検出アプリケーションに注目し,医療疾患,危険行動,材料劣化,植物病,河川汚泥,災害被害など,不均衡な視覚データセットの明確な例を示す。 本研究では,損傷画像マイニングの利点を活かし,正の比率の範囲がより効果的であれば,異常フィードバックの精度向上が高まると仮定した。 不均衡な研究では、正の比が1/1$の平衡の場合と比較して、常に高い正の比が1/a$であることがわかった。 しかし、非常に不均衡な範囲は1ショットから1/2a$までであり、その精度は適用比よりも劣る。 対照的に、正比が2/aドルを超えると、有効精度が向上することなく、オーバーマイニングフェーズにシフトする。

Over the past decade, previous balanced datasets have been used to advance deep learning algorithms for industrial applications. In urban infrastructures and living environments, damage data mining cannot avoid imbalanced data issues because of rare unseen events and the high-quality status of improved operations. For visual inspection, the deteriorated class acquired from the surface of concrete and steel components are occasionally imbalanced. From numerous related surveys, we conclude that imbalanced data problems can be categorised into four types: 1) missing range of target and label valuables, 2) majority-minority class imbalance, 3) foreground background of spatial imbalance, and 4) long-tailed class of pixel-wise imbalance. Since 2015, many imbalanced studies have been conducted using deep-learning approaches, including regression, image classification, object detection, and semantic segmentation. However, anomaly detection for imbalanced data is not well known. In this study, we highlight a one-class anomaly detection application, whether anomalous class or not, and demonstrate clear examples of imbalanced vision datasets: medical disease, hazardous behaviour, material deterioration, plant disease, river sludge, and disaster damage. We provide key results on the advantage of damage-vision mining, hypothesising that the more effective the range of the positive ratio, the higher the accuracy gain of the anomalies feedback. In our imbalanced studies, compared with the balanced case with a positive ratio of $1/1$, we find that there is an applicable positive ratio $1/a$ where the accuracy is consistently high. However, the extremely imbalanced range is from one shot to $1/2a$, the accuracy of which is inferior to that of the applicable ratio. In contrast, with a positive ratio ranging over $2/a$, it shifts in the over-mining phase without an effective gain in accuracy.
翻訳日:2023-08-30 11:00:14 公開日:2023-08-29
# 説明可能なモデルが意味するもの: Scoping Review

What's meant by explainable model: A Scoping Review ( http://arxiv.org/abs/2307.09673v3 )

ライセンス: Link先を確認
Mallika Mainali, Rosina O Weber(参考訳) 人工知能(AI)に基づく応用を記述した論文のタイトルで説明可能な用語としてよく見られる。 しかしながら、説明可能な人工知能(XAI)の文献では、XAIにおける説明はアプリケーション固有のものであり、特定のアプリケーション問題に対する決定を行うモデルを説明するために使用されるたびに評価が必要であることが示されている。 さらに、ポストホック法、特に特徴属性法のパフォーマンスは、AI説明可能性のソリューションを表現していないことを著しく示唆している。 したがって、XAI手法を使用する場合、その情報出力の品質と適合性を、特定のアプリケーション内で評価する必要がある。 これらの理由から,aiモデルを適用した論文を調査し,そのモデルを参照しながらポストホックな説明を生成する手法を適用した。 本稿では,ポストホックxai法を取り入れて説明可能なモデルを特徴付けることを前提として,説明可能なモデルが著者によって採用されているかどうかについて検討する。 この問題を調べるために,本論文が評価を行ったかどうかについて検討した。 説明可能なモデルとしてアプローチを引用するアプリケーション論文の81%は、使用したXAI手法についていかなる評価も行っていないことがわかった。

We often see the term explainable in the titles of papers that describe applications based on artificial intelligence (AI). However, the literature in explainable artificial intelligence (XAI) indicates that explanations in XAI are application- and domain-specific, hence requiring evaluation whenever they are employed to explain a model that makes decisions for a specific application problem. Additionally, the literature reveals that the performance of post-hoc methods, particularly feature attribution methods, varies substantially hinting that they do not represent a solution to AI explainability. Therefore, when using XAI methods, the quality and suitability of their information outputs should be evaluated within the specific application. For these reasons, we used a scoping review methodology to investigate papers that apply AI models and adopt methods to generate post-hoc explanations while referring to said models as explainable. This paper investigates whether the term explainable model is adopted by authors under the assumption that incorporating a post-hoc XAI method suffices to characterize a model as explainable. To inspect this problem, our review analyzes whether these papers conducted evaluations. We found that 81% of the application papers that refer to their approaches as an explainable model do not conduct any form of evaluation on the XAI method they used.
翻訳日:2023-08-30 10:59:40 公開日:2023-08-29
# 大規模言語モデルはred herringsによって固定される: 唯一のconnect wallデータセットを用いた創造的問題解決とeinstellung効果の探求

Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving and Einstellung Effect using the Only Connect Wall Dataset ( http://arxiv.org/abs/2306.11167v3 )

ライセンス: Link先を確認
Saeid Naeini, Raeid Saqur, Mozhgan Saeidi, John Giorgi and Babak Taati(参考訳) 人間の模倣AIの探求は、その誕生以来、AI研究において永続的な話題となっている。 大規模言語モデル(llm)の最新コホートの技術的進化と新しい能力は、学界を超えて文化的な風刺家へと主題を復活させた。 最近のnlp評価ベンチマークタスクは、人間の模倣行動のいくつかの側面(例えば、big-benchの"human-like behavior"タスク)をテストするが、創造的な問題解決能力を調べることは少ない。 人間の創造的問題解決は認知神経科学においてよく研究されているトピックであり、主に創造性の指標として手がかり語間の(ヘテロジェンスな)接続を関連付ける能力を使用する標準化されたテストがある。 誤解を招く刺激(レッド・ハーリングと呼ばれる邪魔者)への露出は、固定効果やアインシュタインパラダイムを通じて人間のパフォーマンスを阻害する。 認知神経科学研究において、そのような固定は実験参加者によって実験的に誘導される。 イギリスの人気クイズ番組「Not only Connect's Connecting Wall segment」は、基本的にはメドニックのリモートアソシエイツテスト(RAT)の定式化を、組み込みの故意のレッドハーリングで模倣している。 本稿では,未学習言語モデルとLLMの評価から,未知の単語をヘテロジニアスな接続でグループ化し,各グループにおける正しいオープンな知識領域接続を同定するといった,創造的な問題解決課題について,その成果を報告する。 ocw-randomized, ocw-wordnetという2つのデータセットを合成して生成し、言語モデルにおけるred-herrings仮説をさらに分析しました。 データセットのコードとリンクはhttps://github.com/TaatiTeam/OCW.comで公開されている。

The quest for human imitative AI has been an enduring topic in AI research since its inception. The technical evolution and emerging capabilities of the latest cohort of large language models (LLMs) have reinvigorated the subject beyond academia to the cultural zeitgeist. While recent NLP evaluation benchmark tasks test some aspects of human-imitative behaviour (e.g., BIG-bench's 'human-like behavior' tasks), few, if not none, examine creative problem solving abilities. Creative problem solving in humans is a well-studied topic in cognitive neuroscience with standardized tests that predominantly use the ability to associate (heterogeneous) connections among clue words as a metric for creativity. Exposure to misleading stimuli - distractors dubbed red herrings - impede human performance in such tasks via the fixation effect and Einstellung paradigm. In cognitive neuroscience studies, such fixations are experimentally induced by pre-exposing participants to orthographically similar incorrect words to subsequent word-fragments or clues. The popular British quiz show Only Connect's Connecting Wall segment essentially mimics Mednick's Remote Associates Test (RAT) formulation with built-in, deliberate red herrings, which makes it an ideal proxy dataset to explore and study fixation effect and Einstellung paradigm from cognitive neuroscience in LLMs. In this paper we present the novel Only Connect Wall (OCW) dataset and report results from our evaluation of selected pre-trained language models and LLMs on creative problem solving tasks like grouping clue words by heterogeneous connections, and identifying correct open knowledge domain connections in respective groups. We synthetically generate two additional datasets: OCW-Randomized, OCW-WordNet to further analyze our red-herrings hypothesis in language models. The code and link to the dataset are available at https://github.com/TaatiTeam/OCW.
翻訳日:2023-08-30 10:59:21 公開日:2023-08-29
# EvoX: スケーラブル進化計算のための分散GPUアクセラレーションフレームワーク

EvoX: A Distributed GPU-accelerated Framework for Scalable Evolutionary Computation ( http://arxiv.org/abs/2301.12457v7 )

ライセンス: Link先を確認
Beichen Huang, Ran Cheng, Zhuozhao Li, Yaochu Jin, Kay Chen Tan(参考訳) 進化計算(Evolutionary Computation、EC)は、自然進化のプロセスからインスピレーションを得て、人工知能の不可欠な側面としての地位を確立した。 適応性や広大な問題空間をナビゲートする能力など、そのユニークな特性は、特にエンジニアリング設計のような最適化を必要とする領域において、不可欠である。 今日のデータ駆動の状況では、ECにおけるスケーラビリティの必要性は、特に複雑なシステムや大規模データの増加により、これまで以上に顕著になっている。 しかし、多くの既存のECライブラリは質素なスケールで設計されており、現代の問題に対する要求が高まっているため不足している。 先駆的なGPU加速ECライブラリの出現は一歩前進するが、柔軟性、計算効率、アーキテクチャの堅牢性といった制限に悩まされている。 これらの課題に対処するため,本稿では,ECアルゴリズムの自動化,分散,異種実行に適した,包括的かつスケーラブルなフレームワークであるEvoXを紹介する。 Central to EvoXは、効率的な分散実行のための階層的な状態管理戦略によって強化されたECアルゴリズム開発プロセスを合理化する関数型プログラミングモデルである。 これに加えて、EvoXの機能を活用することで、さまざまな問題解決シナリオを扱うように設計されたECアルゴリズムの豊富なライブラリを提供する。 実験の結果,evoxのシステム性能とモデル性能が両立した。 EvoXのコードはhttps://github.com/EMI-Group/EvoXで公開されている。

Evolutionary Computation (EC), drawing inspiration from natural evolutionary processes, has solidified its place as an integral facet of Artificial Intelligence. Its unique attributes, such as adaptability and the capability to navigate vast problem spaces, have rendered it indispensable, especially in domains demanding optimization like engineering design. In today's data-driven landscape, the need for scalability in EC is more pronounced than ever, especially with the rise in complex systems and large-scale data. However, many existing EC libraries, designed for modest scales, fall short in catering to the heightened demands of modern problems. The advent of some pioneering GPU-accelerated EC libraries is a step forward, but they too grapple with limitations, particularly in terms of flexibility, computational efficiency, and architectural robustness. To address these challenges, this paper introduces EvoX: a comprehensive, scalable framework tailored for the automated, distributed, and heterogeneous execution of EC algorithms. Central to EvoX is a functional programming model that streamlines the EC algorithm development process, bolstered by a hierarchical state management strategy for efficient distributed execution. Alongside this, leveraging the capabilities of EvoX, we present a rich library of EC algorithms designed to handle a spectrum of problem-solving scenarios. Experimental results demonstrate both the superior system performance and model performance of EvoX. The code of EvoX is available at https://github.com/EMI-Group/EvoX.
翻訳日:2023-08-30 10:58:44 公開日:2023-08-29
# GPT-3を用いた医療用会話エージェントの課題

Challenges of GPT-3-based Conversational Agents for Healthcare ( http://arxiv.org/abs/2308.14641v2 )

ライセンス: Link先を確認
Fabian Lechner and Allison Lahnala and Charles Welch and Lucie Flek(参考訳) 医療専門家が重要なタスクに集中できる一方で、より高速な情報アクセスを提供する可能性は、医療ドメインのダイアログエージェントを魅力的にする。 しかし、これらのエージェントへの大規模言語モデル(LLM)の統合は、深刻な結果をもたらす可能性のあるある種の制限を示す。 本稿では,GPT-3に基づく医療質問応答モデル(MedQA)の課題とリスクについて検討する。 標準医療原則の観点からコンテキスト化されたいくつかの評価を行う。 MedQA システムにおける LLM の高リスク制約をストレステストするために,患者クエリを手動で設計する手法を提案する。 分析の結果、LSMはこれらのクエリに適切に対応できず、誤った医療情報、安全でないレコメンデーション、攻撃的と考えられるコンテンツを生成することがわかった。

The potential to provide patients with faster information access while allowing medical specialists to concentrate on critical tasks makes medical domain dialog agents appealing. However, the integration of large-language models (LLMs) into these agents presents certain limitations that may result in serious consequences. This paper investigates the challenges and risks of using GPT-3-based models for medical question-answering (MedQA). We perform several evaluations contextualized in terms of standard medical principles. We provide a procedure for manually designing patient queries to stress-test high-risk limitations of LLMs in MedQA systems. Our analysis reveals that LLMs fail to respond adequately to these queries, generating erroneous medical information, unsafe recommendations, and content that may be considered offensive.
翻訳日:2023-08-30 10:55:47 公開日:2023-08-29
# 点雲セグメンテーションにおける領域適応のための構成意味混合

Compositional Semantic Mix for Domain Adaptation in Point Cloud Segmentation ( http://arxiv.org/abs/2308.14619v2 )

ライセンス: Link先を確認
Cristiano Saltori and Fabio Galasso and Giuseppe Fiameni and Nicu Sebe and Fabio Poiesi and Elisa Ricci(参考訳) 3Dポイントクラウドセマンティックセグメンテーションのためのディープラーニングモデルは、異なるセンサーでキャプチャされたデータやドメインシフトによるさまざまな環境でのトレーニングとテストにおいて、限定的な一般化能力を示す。 ドメイン適応手法は、例えば、センサノイズのシミュレーション、ドメインに依存しないジェネレータの開発、あるいはトレーニングポイントクラウド補完ネットワークによって、このドメインシフトを軽減するために使用できる。 これらの手法は、レンジビューマップやマルチモーダル入力を必要とする場合が多い。 対照的に、画像領域におけるドメイン適応は、異なる適応モジュールを使用するのではなく、入力データ操作を強調するサンプルミキシングによって実行される。 本研究では,ポイントクラウド領域適応のための合成的意味的混合を導入し,意味的および幾何学的サンプル混合に基づくポイントクラウドセグメンテーションのための最初の教師なし領域適応手法を示す。 本稿では,ソースドメイン(例えば合成)からポイントクラウドを同時処理し,ターゲットドメイン(例えば実世界)からポイントクラウドを同時処理可能な双方向対称ネットワークアーキテクチャを提案する。 各ブランチは、他のドメインから選択されたデータフラグメントを統合し、ソースラベルとターゲット(擬似)ラベルから派生したセマンティック情報を利用する。 さらに、この手法は限られた数の人間用ポイントレベルアノテーション(semi-supervised)を活用でき、さらなる性能向上が図れる。 我々は、LiDARデータセットを用いて、合成と実の両方のシナリオにおけるアプローチを評価し、教師なしと半教師なしの両方で最先端の手法を著しく上回ることを示す。

Deep-learning models for 3D point cloud semantic segmentation exhibit limited generalization capabilities when trained and tested on data captured with different sensors or in varying environments due to domain shift. Domain adaptation methods can be employed to mitigate this domain shift, for instance, by simulating sensor noise, developing domain-agnostic generators, or training point cloud completion networks. Often, these methods are tailored for range view maps or necessitate multi-modal input. In contrast, domain adaptation in the image domain can be executed through sample mixing, which emphasizes input data manipulation rather than employing distinct adaptation modules. In this study, we introduce compositional semantic mixing for point cloud domain adaptation, representing the first unsupervised domain adaptation technique for point cloud segmentation based on semantic and geometric sample mixing. We present a two-branch symmetric network architecture capable of concurrently processing point clouds from a source domain (e.g. synthetic) and point clouds from a target domain (e.g. real-world). Each branch operates within one domain by integrating selected data fragments from the other domain and utilizing semantic information derived from source labels and target (pseudo) labels. Additionally, our method can leverage a limited number of human point-level annotations (semi-supervised) to further enhance performance. We assess our approach in both synthetic-to-real and real-to-real scenarios using LiDAR datasets and demonstrate that it significantly outperforms state-of-the-art methods in both unsupervised and semi-supervised settings.
翻訳日:2023-08-30 10:55:35 公開日:2023-08-29
# 有効非線形エレンフェストハイブリッド量子古典力学

Effective nonlinear Ehrenfest hybrid quantum-classical dynamics ( http://arxiv.org/abs/2308.14440v2 )

ライセンス: Link先を確認
J. L. Alonso, C. Bouthelier-Madre, J. Clemente-Gallardo, D. Mart\'inez-Crespo and J. Pomar(参考訳) 統計ハイブリッド量子古典系に対する一貫した進化方程式の定義は、まだ未解決の問題である。 本稿では,確率密度によって定義される系におけるehrenfest dynamicsの事例を分析し,分布の最初の量子モーメントに対する一貫したダイナミクスを定義するための障害とダイナミクスの非線形性の関係を同定する。 この最初の量子モーメントは、古典的パラメータ化された密度行列 $\hat \rho(\xi)$, for $\xi$ a classical point の族として物理状態を表し、文学におけるハイブリッドシステムの最も一般的な表現である。 この障害のため、高次量子モーメントを考え、それらの有限個の数だけが物理的に測定可能であると主張する。 そこで我々は,これらのモーメントによる分布の近似とそれらによる状態の表現に基づくハイブリッド力学問題に対する効果的な解を提案する。

The definition of a consistent evolution equation for statistical hybrid quantum-classical systems is still an open problem. In this paper we analyze the case of Ehrenfest dynamics on systems defined by a probability density and identify the relations of the non-linearity of the dynamics with the obstructions to define a consistent dynamics for the first quantum moment of the distribution. This first quantum moment represents the physical states as a family of classically-parametrized density matrices $\hat \rho(\xi)$, for $\xi$ a classical point; and it is the most common representation of hybrid systems in the literature. Due to this obstruction, we consider higher order quantum moments, and argue that only a finite number of them are physically measurable. Because of this, we propose an effective solution for the hybrid dynamics problem based on approximating the distribution by those moments and representing the states by them.
翻訳日:2023-08-30 10:55:08 公開日:2023-08-29
# ロバストバングラ文書レイアウト分割のためのアンカーフリーモデルの組合わせ

Ensemble of Anchor-Free Models for Robust Bangla Document Layout Segmentation ( http://arxiv.org/abs/2308.14397v2 )

ライセンス: Link先を確認
U Mong Sain Chak, Md. Asib Rahman(参考訳) 本稿では,Bangla文書のレイアウト分割を目的とした新しい手法を提案する。 提案手法は, DL Sprint 2.0 - BUET CSE Fest 2023 コンペティションにおいて, Bangla 文書レイアウトセグメンテーションに着目した YOLOv8 モデルの洗練されたアンサンブルを利用する。 私たちの重点は、画像拡張、モデルアーキテクチャ、モデルアンサンブルの組み込みなど、タスクのさまざまな側面を強化することです。 文書画像のサブセットの品質を意図的に低下させ,モデルトレーニングのレジリエンスを高めることにより,クロスバリデーションスコアが向上した。 ベイズ最適化を用いることで、モデルアンサンブルにおける結合(iou)しきい値の最適信頼度と交叉度を決定する。 本手法により,バングラ文書におけるロバストレイアウトセグメンテーションの実現におけるアンカーフリーモデルの有効性を実証した。

In this research paper, we introduce a novel approach designed for the purpose of segmenting the layout of Bangla documents. Our methodology involves the utilization of a sophisticated ensemble of YOLOv8 models, which were trained for the DL Sprint 2.0 - BUET CSE Fest 2023 Competition focused on Bangla document layout segmentation. Our primary emphasis lies in enhancing various aspects of the task, including techniques such as image augmentation, model architecture, and the incorporation of model ensembles. We deliberately reduce the quality of a subset of document images to enhance the resilience of model training, thereby resulting in an improvement in our cross-validation score. By employing Bayesian optimization, we determine the optimal confidence and Intersection over Union (IoU) thresholds for our model ensemble. Through our approach, we successfully demonstrate the effectiveness of anchor-free models in achieving robust layout segmentation in Bangla documents.
翻訳日:2023-08-30 10:54:39 公開日:2023-08-29
# 生成型aiのための強化学習:調査

Reinforcement Learning for Generative AI: A Survey ( http://arxiv.org/abs/2308.14328v2 )

ライセンス: Link先を確認
Yuanjiang Cao and Quan Z. Sheng and Julian McAuley and Lina Yao(参考訳) Deep Generative AIは、テキスト生成やコンピュータビジョンなど、多くのアプリケーション領域に影響を与える可能性がある、機械学習コミュニティにおいて、長年にわたって重要なトピックだった。 生成モデルを学ぶための主要なパラダイムは、モデル分布とターゲット分布との分岐を減少させることで、学習者が目標データ分布をキャプチャし、近似するように促す最大確率推定である。 この定式化は、ユーザが生成モデルから期待する全ての要件を満たすことができないにもかかわらず、生成タスクの目的をうまく確立する。 強化学習は、新しい信号を利用する新しい目標を作成することで、新しい訓練信号を注入する競争的選択肢として機能し、敵対的学習、手作りルール、学習報酬モデルなど、複数の角度から人間の帰納バイアスを組み込む能力と柔軟性を実証した。 これにより、強化学習はトレンド研究分野となり、モデル設計と応用の両方における生成AIの限界を拡大した。 近年の進歩を包括的レビューで要約し、結論付けるのが妥当である。 最近、さまざまなアプリケーション領域で調査が行われていますが、この調査は、さまざまなアプリケーション領域にまたがるハイレベルなレビューに光を当てることを目的としています。 この領域では厳密な分類法を提供し、様々なモデルや応用について十分なカバレッジを提供している。 特に,開発速度の速い大規模言語モデル領域についても調査した。 この調査は、現在のモデルの限界に対処し、生成AIのフロンティアを拡大する可能性のある潜在的方向を示すことで締めくくられる。

Deep Generative AI has been a long-standing essential topic in the machine learning community, which can impact a number of application areas like text generation and computer vision. The major paradigm to train a generative model is maximum likelihood estimation, which pushes the learner to capture and approximate the target data distribution by decreasing the divergence between the model distribution and the target distribution. This formulation successfully establishes the objective of generative tasks, while it is incapable of satisfying all the requirements that a user might expect from a generative model. Reinforcement learning, serving as a competitive option to inject new training signals by creating new objectives that exploit novel signals, has demonstrated its power and flexibility to incorporate human inductive bias from multiple angles, such as adversarial learning, hand-designed rules and learned reward model to build a performant model. Thereby, reinforcement learning has become a trending research field and has stretched the limits of generative AI in both model design and application. It is reasonable to summarize and conclude advances in recent years with a comprehensive review. Although there are surveys in different application areas recently, this survey aims to shed light on a high-level review that spans a range of application areas. We provide a rigorous taxonomy in this area and make sufficient coverage on various models and applications. Notably, we also surveyed the fast-developing large language model area. We conclude this survey by showing the potential directions that might tackle the limit of current models and expand the frontiers for generative AI.
翻訳日:2023-08-30 10:54:24 公開日:2023-08-29
# 大規模実世界データセットと周波数対応シャドウ消去ネットによる高分解能文書シャドウ除去

High-Resolution Document Shadow Removal via A Large-Scale Real-World Dataset and A Frequency-Aware Shadow Erasing Net ( http://arxiv.org/abs/2308.14221v2 )

ライセンス: Link先を確認
Zinuo Li, Xuhang Chen, Chi-Man Pun, Xiaodong Cun(参考訳) デジタルコピーの視覚的品質と可読性に影響を与えるカジュアルな機器で文書をキャプチャしたとき、しばしば影が発生する。 自然なシャドウ除去のアルゴリズムとは異なり、文書シャドウ除去のアルゴリズムはフォントや数字の詳細を高精細な入力で保存する必要がある。 これまでの作業はこの問題を無視し、実際の状況ではうまくいかないような、近似的な注意と小さなデータセットによって影を取り除く。 我々は,大規模実世界データセットと念入りに設計された周波数対応ネットワークを用いて,高解像度文書シャドー除去を直接処理する。 データセットについては、実世界の文書ペアの7k以上の高解像度画像(2462 x 3699)を異なる照明条件下で取得し、既存のデータセットの10倍の大きさである。 ネットワークの設計では、低周波の詳細と高周波境界を注意深く設計されたネットワーク構造を通して効果的に学習できる周波数領域の高解像度画像を分離する。 提案手法は,ネットワークとデータセットを駆使して,視覚品質と数値結果の面で,従来の手法よりも優れた性能を示す。 コード、モデル、データセットは、https://github.com/CXH-Research/DocShadow-SD7Kで入手できる。

Shadows often occur when we capture the documents with casual equipment, which influences the visual quality and readability of the digital copies. Different from the algorithms for natural shadow removal, the algorithms in document shadow removal need to preserve the details of fonts and figures in high-resolution input. Previous works ignore this problem and remove the shadows via approximate attention and small datasets, which might not work in real-world situations. We handle high-resolution document shadow removal directly via a larger-scale real-world dataset and a carefully designed frequency-aware network. As for the dataset, we acquire over 7k couples of high-resolution (2462 x 3699) images of real-world document pairs with various samples under different lighting circumstances, which is 10 times larger than existing datasets. As for the design of the network, we decouple the high-resolution images in the frequency domain, where the low-frequency details and high-frequency boundaries can be effectively learned via the carefully designed network structure. Powered by our network and dataset, the proposed method clearly shows a better performance than previous methods in terms of visual quality and numerical results. The code, models, and dataset are available at: https://github.com/CXH-Research/DocShadow-SD7K
翻訳日:2023-08-30 10:53:57 公開日:2023-08-29
# 臨床医の力を借りてデータサイエンスを民主化する:大規模言語モデルと臨床研究のための自動機械学習

Empowering Clinicians and Democratizing Data Science: Large Language Models Automate Machine Learning for Clinical Studies ( http://arxiv.org/abs/2308.14120v2 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Tianyu Han, Mahshad Lotfinia, Christiane Kuhl, Jakob Nikolas Kather, Daniel Truhn, Sven Nebelung(参考訳) 機械学習(ML)開発者(データサイエンティストなど)と実践者(臨床医など)の間には知識ギャップが持続し、臨床データ分析におけるMLのフル活用を妨げる。 GPT-4の拡張であるchatGPT Advanced Data Analysis (ADA) の可能性を検討した。 様々な医療専門分野にわたる大規模な臨床試験から得られた実世界の臨床データセットと研究の詳細を,特異的ガイダンスなしでchatGPT ADAに提示した。 ChatGPT ADAは、がんの発生、がんの進行、合併症、病原性遺伝子配列などのバイオマーカーなどの臨床結果を予測するために、オリジナルの研究のトレーニングデータに基づく最先端MLモデルを自律的に開発した。 興味深いことに、これらのMLモデルは、発行したモデルにマッチするか、より優れていた。 我々は、チャットGPT ADAは、医学におけるMLの民主化、高度な分析を非MLの専門家に公開し、医学研究や実践における幅広い応用を促進する、有望な道を提供すると結論付けた。

A knowledge gap persists between Machine Learning (ML) developers (e.g., data scientists) and practitioners (e.g., clinicians), hampering the full utilization of ML for clinical data analysis. We investigated the potential of the chatGPT Advanced Data Analysis (ADA), an extension of GPT-4, to bridge this gap and perform ML analyses efficiently. Real-world clinical datasets and study details from large trials across various medical specialties were presented to chatGPT ADA without specific guidance. ChatGPT ADA autonomously developed state-of-the-art ML models based on the original study's training data to predict clinical outcomes such as cancer development, cancer progression, disease complications, or biomarkers such as pathogenic gene sequences. Strikingly, these ML models matched or outperformed their published counterparts. We conclude that chatGPT ADA offers a promising avenue to democratize ML in medicine, making advanced analytics accessible to non-ML experts and promoting broader applications in medical research and practice.
翻訳日:2023-08-30 10:53:33 公開日:2023-08-29
# ロングビデオにおける時間的文字グループ化のための統一および動的グラフ

Unified and Dynamic Graph for Temporal Character Grouping in Long Videos ( http://arxiv.org/abs/2308.14105v2 )

ライセンス: Link先を確認
Xiujun Shu, Wei Wen, Liangsheng Xu, Mingbao Lin, Ruizhi Qiao, Taian Guo, Hanjun Li, Bei Gan, Xiao Wang, Xing Sun(参考訳) ビデオテンポラリキャラクタグルーピングは、ビデオ内の主要キャラクタの出現モーメントを、そのアイデンティティに応じて特定する。 この目的のために、最近の研究は教師なしクラスタリングからグラフベースのクラスタリングへと進化してきた。 しかし、グラフメソッドは固定アフィニティグラフの前提の上に構築され、多くの不正確な接続をもたらす。 さらに、デプロイに不都合な、モデルの種類によるマルチモーダルな機能を抽出する。 本稿では,時間的文字グループ化のための統一動的グラフ(UniDG)フレームワークを提案する。 これはまず、同一空間内の複数のモダリティの表現を学習し、同時にモダリティの一意性を保持する統一表現ネットワークによって達成される。 第2に,各ノードごとに異なる量の近傍を循環マッチング戦略により動的に構築し,より信頼性の高い親和性グラフを生成する動的グラフクラスタリングを提案する。 第3に、異なるモダリティ間の空間的・時間的文脈を活用するためのプログレッシブアソシエーション手法を導入し、マルチモーダルクラスタリング結果をうまく融合させる。 現在のデータセットは事前抽出された特徴しか提供しないため、各文字の顔と体と発声音声トラックの出現クリップを含むMTCGと呼ばれる収集データセット上で、UniDG法の評価を行う。 また,既存のクラスタリングおよび検索データセットの重要なコンポーネントを評価し,一般化能力を検証する。 実験の結果,本手法は有望な結果が得られ,最先端のアプローチに勝ることが判明した。

Video temporal character grouping locates appearing moments of major characters within a video according to their identities. To this end, recent works have evolved from unsupervised clustering to graph-based supervised clustering. However, graph methods are built upon the premise of fixed affinity graphs, bringing many inexact connections. Besides, they extract multi-modal features with kinds of models, which are unfriendly to deployment. In this paper, we present a unified and dynamic graph (UniDG) framework for temporal character grouping. This is accomplished firstly by a unified representation network that learns representations of multiple modalities within the same space and still preserves the modality's uniqueness simultaneously. Secondly, we present a dynamic graph clustering where the neighbors of different quantities are dynamically constructed for each node via a cyclic matching strategy, leading to a more reliable affinity graph. Thirdly, a progressive association method is introduced to exploit spatial and temporal contexts among different modalities, allowing multi-modal clustering results to be well fused. As current datasets only provide pre-extracted features, we evaluate our UniDG method on a collected dataset named MTCG, which contains each character's appearing clips of face and body and speaking voice tracks. We also evaluate our key components on existing clustering and retrieval datasets to verify the generalization ability. Experimental results manifest that our method can achieve promising results and outperform several state-of-the-art approaches.
翻訳日:2023-08-30 10:53:14 公開日:2023-08-29
# 半教師付き系列生成逆数ネットワークを用いたバイモーダル医用画像合成

Bi-Modality Medical Image Synthesis Using Semi-Supervised Sequential Generative Adversarial Networks ( http://arxiv.org/abs/2308.14066v2 )

ライセンス: Link先を確認
Xin Yang, Yi Lin, Zhiwei Wang, Xin Li, Kwang-Ting Cheng(参考訳) 本稿では,逐次生成型adversarial network (gan) と半教師付き学習に基づく双方向医用画像合成手法を提案する。 提案手法は2つの生成モジュールから成り,2つのモダリティの画像を逐次的に合成する。 逐次ganの合成順序を自動的に決定するために, 合成複雑性を測定する手法を提案する。 より低複雑性のモダリティの画像が最初に合成され、高複雑性のモダリティ画像が後に生成される。 シーケンシャルなGANは、半教師付きでエンドツーエンドに訓練されています。 教師付きトレーニングでは、実画像と合成画像の再構成損失を明示的に最小化することにより、2つのモダリティの実際の対画像から両モダリティ画像の関節分布を学習する。 制限された訓練画像の過剰化を避けるため、教師なし訓練では、実画像と偽画像の分布間のワッサースタイン距離を最小化し、非ペア画像に基づいて各モダリティの限界分布を学習する。 提案手法は,3種類の評価指標とユーザ調査に基づいて,2つの合成タスクを用いて総合的に評価する。 視覚的および定量的な結果から,本手法が最先端の手法よりも優れていること,合理的な視覚的品質と臨床的意義が示された。 コードはhttps://github.com/hustlinyi/Multimodal-Medical-Image-Synthesisで公開されている。

In this paper, we propose a bi-modality medical image synthesis approach based on sequential generative adversarial network (GAN) and semi-supervised learning. Our approach consists of two generative modules that synthesize images of the two modalities in a sequential order. A method for measuring the synthesis complexity is proposed to automatically determine the synthesis order in our sequential GAN. Images of the modality with a lower complexity are synthesized first, and the counterparts with a higher complexity are generated later. Our sequential GAN is trained end-to-end in a semi-supervised manner. In supervised training, the joint distribution of bi-modality images are learned from real paired images of the two modalities by explicitly minimizing the reconstruction losses between the real and synthetic images. To avoid overfitting limited training images, in unsupervised training, the marginal distribution of each modality is learned based on unpaired images by minimizing the Wasserstein distance between the distributions of real and fake images. We comprehensively evaluate the proposed model using two synthesis tasks based on three types of evaluate metrics and user studies. Visual and quantitative results demonstrate the superiority of our method to the state-of-the-art methods, and reasonable visual quality and clinical significance. Code is made publicly available at https://github.com/hustlinyi/Multimodal-Medical-Image-Synthesis.
翻訳日:2023-08-30 10:52:49 公開日:2023-08-29
# グラフ上の不均衡学習に関する調査--問題,技術,今後の方向性

A Survey of Imbalanced Learning on Graphs: Problems, Techniques, and Future Directions ( http://arxiv.org/abs/2308.13821v2 )

ライセンス: Link先を確認
Zemin Liu, Yuan Li, Nan Chen, Qian Wang, Bryan Hooi, Bingsheng He(参考訳) グラフは、現実世界の無数に存在する相互接続構造を表す。 グラフ学習法のような効果的なグラフ解析により、ユーザはグラフデータから深い洞察を得られるようになり、ノード分類やリンク予測といった様々なタスクの基盤となる。 しかし、これらの手法はデータ不均衡に悩まされることが多く、あるセグメントが豊富なデータを持ち、他のセグメントが不足しているグラフデータに共通する問題である。 これはグラフ上の不均衡学習の新興分野を必要とし、より正確で典型的な学習結果のためにこれらのデータ分布の歪を補正することを目的としている。 本調査では,グラフ上の不均衡学習に関する文献を包括的にレビューする。 まず、概念と関連する用語の明確な理解を提供することから始め、読者に強い基礎的理解を確立する。 次に,(1)不均衡の形式を記述する問題分類法,(2)これらの不均衡に対処するための重要な戦略を詳述する手法分類法,およびその方法選択過程において読者を支援する問題分類法,という2つの包括的な分類法を提案する。 最後に、グラフ上の不均衡学習の領域における問題と技術の両方の今後の方向性を提案し、この重要な領域におけるさらなるイノベーションを育む。

Graphs represent interconnected structures prevalent in a myriad of real-world scenarios. Effective graph analytics, such as graph learning methods, enables users to gain profound insights from graph data, underpinning various tasks including node classification and link prediction. However, these methods often suffer from data imbalance, a common issue in graph data where certain segments possess abundant data while others are scarce, thereby leading to biased learning outcomes. This necessitates the emerging field of imbalanced learning on graphs, which aims to correct these data distribution skews for more accurate and representative learning outcomes. In this survey, we embark on a comprehensive review of the literature on imbalanced learning on graphs. We begin by providing a definitive understanding of the concept and related terminologies, establishing a strong foundational understanding for readers. Following this, we propose two comprehensive taxonomies: (1) the problem taxonomy, which describes the forms of imbalance we consider, the associated tasks, and potential solutions; (2) the technique taxonomy, which details key strategies for addressing these imbalances, and aids readers in their method selection process. Finally, we suggest prospective future directions for both problems and techniques within the sphere of imbalanced learning on graphs, fostering further innovation in this critical area.
翻訳日:2023-08-30 10:52:24 公開日:2023-08-29