このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230929となっている論文です。

PDF登録状況(公開日: 20230929)

TitleAuthorsAbstract論文公表日・翻訳日
# VMG-KLJNセキュアキー交換器に対する過渡攻撃

Transient Attacks against the VMG-KLJN Secure Key Exchanger ( http://arxiv.org/abs/2309.04899v2 )

ライセンス: Link先を確認
Shahriar Ferdous, Laszlo B. Kish, (参考訳) Vadai, Mingesz, and Gingl (VMG) Kirchhoff-Law-Johnson-Noise (KLJN)キー交換器のセキュリティ上の脆弱性は、"Nature, Science Report 5 (2015) 13653" で発表された。 近年,効果的な防御プロトコルが導入された(Appl)。 Phys 忘れるな。 122 (2023) 143503) 理想KLJNフレームワークをターゲットにした平均二乗電圧ベース(または平均二乗電流ベース)過渡攻撃に対抗する。 本研究では,VMG-KLJNキー交換器のセキュリティ強化のために,同様の緩和手法を用いている。 なお、HLシナリオとLHシナリオでは、保護措置を別々に実施する必要がある。 この概念的枠組みはコンピュータシミュレーションによって裏付けられ、この防御技術の適用により情報漏洩が重要でない点に著しく軽減されることを示した。

The security vulnerability of the Vadai, Mingesz, and Gingl (VMG) Kirchhoff-Law-Johnson-Noise (KLJN) key exchanger, as presented in the publication "Nature, Science Report 5 (2015) 13653," has been exposed to transient attacks. Recently an effective defense protocol was introduced (Appl. Phys. Lett. 122 (2023) 143503) to counteract mean-square voltage-based (or mean-square current-based) transient attacks targeted at the ideal KLJN framework. In the present study, this same mitigation methodology has been employed to fortify the security of the VMG-KLJN key exchanger. It is worth noting that the protective measures need to be separately implemented for the HL and LH scenarios. This conceptual framework is corroborated through computer simulations, demonstrating that the application of this defensive technique substantially mitigates information leakage to a point of insignificance.
翻訳日:2024-03-25 14:25:04 公開日:2023-09-29
# Mostree : 準線形通信による安全性の高い個人決定木の評価

Mostree : Malicious Secure Private Decision Tree Evaluation with Sublinear Communication ( http://arxiv.org/abs/2309.17124v1 )

ライセンス: Link先を確認
Jianli Bai, Xiangfu Song, Xiaowu Zhang, Qifan Wang, Shujie Cui, Ee-Chien Chang, Giovanni Russello, (参考訳) プライベート決定ツリー評価(PDTE)プロトコルにより、機能ベクトルオーナ(FO)は、モデルオーナ(MO)からツリーモデルを使用してデータを分類し、FOに推論結果のみを公開する。 本稿では,サブリニア通信を伴う悪意ある当事者の存在下でのPDTEプロトコルであるMostreeを提案する。 我々はMostreeを、(信頼できない)コンピューティングパーティ(CP)がFOとMOをセキュアな計算で支援する3つのパーティの誠実なマジョリティ設定で設計する。 本稿では,3次元複製秘密共有(RSS)と分散点関数の優れた特性を活かして,2つの低コミュニケーション・オブリベージ・セレクション(OS)プロトコルを提案する。 MostreeはOSプロトコルとツリーエンコーディングとサードパーティのセキュアな計算を組み合わせることで、サブ線形通信を実現する。 悪意のある相手の存在下でも,プロトコルコンポーネントのほとんどがすでにプライバシを維持しており,その正しさを達成しなければならない。 正確性を確保するために、軽量な一貫性チェックセットを提案し、それらをMostreeにシームレスに統合する。 その結果、Mostreeはサブリニア通信と悪意のあるセキュリティを同時に達成した。 私たちはMostreeを実装し、最先端技術と比較します。 実験により,Mostreeは効率が高く,準線形通信を伴う半正直なPDTEスキームに匹敵することを示した。 例えば、LAN設定でMNISTデータセットで評価すると、Mostreeは約768ms、通信量は約168KBである。

A private decision tree evaluation (PDTE) protocol allows a feature vector owner (FO) to classify its data using a tree model from a model owner (MO) and only reveals an inference result to the FO. This paper proposes Mostree, a PDTE protocol secure in the presence of malicious parties with sublinear communication. We design Mostree in the three-party honest-majority setting, where an (untrusted) computing party (CP) assists the FO and MO in the secure computation. We propose two low-communication oblivious selection (OS) protocols by exploiting nice properties of three-party replicated secret sharing (RSS) and distributed point function. Mostree combines OS protocols with a tree encoding method and three-party secure computation to achieve sublinear communication. We observe that most of the protocol components already maintain privacy even in the presence of a malicious adversary, and what remains to achieve is correctness. To ensure correctness, we propose a set of lightweight consistency checks and seamlessly integrate them into Mostree. As a result, Mostree achieves sublinear communication and malicious security simultaneously. We implement Mostree and compare it with the state-of-the-art. Experimental results demonstrate that Mostree is efficient and comparable to semi-honest PDTE schemes with sublinear communication. For instance, when evaluated on the MNIST dataset in a LAN setting, Mostree achieves an evaluation using approximately 768 ms with communication of around 168 KB.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-29
# ウナウェア、アンファンド、アン教育:SMEサイバーセキュリティのシステムレビュー

Unaware, Unfunded and Uneducated: A Systematic Review of SME Cybersecurity ( http://arxiv.org/abs/2309.17186v1 )

ライセンス: Link先を確認
Carlos Rombaldo Junior, Ingolf Becker, Shane Johnson, (参考訳) 中小企業(中小企業)は世界経済において中心的な役割を担っており、事業の90%以上、雇用の60%を占めている。 その重要性にもかかわらず、中小企業はサイバーセキュリティイニシアチブを無視しており、サイバー攻撃の頻度、高度化、破壊性に対処するには不適格である。 我々は2017年から2023年にかけて発行された中小企業のサイバーセキュリティに関する文献を体系的にレビューした。 我々は、サイバーセキュリティのレジリエンスの追求において中小企業が直面するサイバー脅威、採用制御、課題、および制約について論じる研究に焦点を当てる。 調査の結果、77の関連論文に絞り込んだ916の研究結果が得られた。 44のテーマを同定し,新たな発見あるいは確立された知識として分類した。 この区別により、中小企業の研究は浅く、中小企業の役割、脅威、ニーズの理解にはほとんど進歩していないことが明らかとなった。 研究はしばしば、新しい洞察を複製したり提供したりせずに、初期の発見を繰り返した。 これまでの研究では、中小企業のサイバーセキュリティのレジリエンスを達成する上での大きな課題は、サイバーセキュリティのリスク、限られたサイバーセキュリティリテラシー、制約された金融資源に対する認識の欠如であることを示している。 しかし、開発途上国と開発途上国の資源利用状況は異なっていた。 分析の結果,リテラシーの限界が認知と資源制約の根本原因であることが示唆された。

Small and Medium Enterprises (SMEs) are pivotal in the global economy, accounting for over 90% of businesses and 60% of employment worldwide. Despite their significance, SMEs have been disregarded from cybersecurity initiatives, rendering them ill-equipped to deal with the growing frequency, sophistication, and destructiveness of cyber-attacks. We systematically reviewed the cybersecurity literature on SMEs published between 2017 and 2023. We focus on research discussing cyber threats, adopted controls, challenges, and constraints SMEs face in pursuing cybersecurity resilience. Our search yielded 916 studies that we narrowed to 77 relevant papers. We identified 44 unique themes and categorised them as novel findings or established knowledge. This distinction revealed that research on SMEs is shallow and has made little progress in understanding SMEs' roles, threats, and needs. Studies often repeated early discoveries without replicating or offering new insights. The existing research indicates that the main challenges to attaining cybersecurity resilience of SMEs are a lack of awareness of the cybersecurity risks, limited cybersecurity literacy and constrained financial resources. However, resource availability varied between developed and developing countries. Our analysis indicated a relationship among these themes, suggesting that limited literacy is the root cause of awareness and resource constraint issues.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-29
# ネットワーク型エピデミックモデルにおける基本再生数の微分プライベート計算

Differentially Private Computation of Basic Reproduction Numbers in Networked Epidemic Models ( http://arxiv.org/abs/2309.17284v1 )

ライセンス: Link先を確認
Bo Chen, Baike She, Calvin Hawkins, Alex Benvenuti, Brandon Fallin, Philip E. Paré, Matthew Hale, (参考訳) ネットワーク流行モデルの基本再生数である$R_0$は、ネットワークのトポロジーから計算し、流行拡散を定量化することができる。 しかし、R_0$のリスクの開示は、ソーシャルネットワーク内の個人の関係など、基盤となるネットワークに関する機密情報を明らかにする。 そこで我々は差分的にプライベートな方法で$R_0$を計算・リリースするフレームワークを提案する。 まず、プライバシの必要性のモチベーションとして、1つのコミュニティ内での流行のレベルを、R_0$で制限できることを示す。 次に、R_0$の計算において、基盤ネットワークのエッジウェイトを正式に保護するためのプライバシメカニズムを開発する。 次に、プライバシのレベルと、民営化された$R_0$の値の精度の間のトレードオフを形式化する。 プライベートな$R_0$の実用性を示すために、私たちはこのレベルの浸透をプライバシに拘束するためにそれを使用します。 我々は、新型コロナウイルスの感染拡大時に収集された実際の旅行データに適用し、実世界の状況下では、平均して7.6\%の誤差を発生させながら、差分的にプライベートな方法でR_0$を計算することができることを示した。

The basic reproduction number of a networked epidemic model, denoted $R_0$, can be computed from a network's topology to quantify epidemic spread. However, disclosure of $R_0$ risks revealing sensitive information about the underlying network, such as an individual's relationships within a social network. Therefore, we propose a framework to compute and release $R_0$ in a differentially private way. First, we provide a new result that shows how $R_0$ can be used to bound the level of penetration of an epidemic within a single community as a motivation for the need of privacy, which may also be of independent interest. We next develop a privacy mechanism to formally safeguard the edge weights in the underlying network when computing $R_0$. Then we formalize tradeoffs between the level of privacy and the accuracy of values of the privatized $R_0$. To show the utility of the private $R_0$ in practice, we use it to bound this level of penetration under privacy, and concentration bounds on these analyses show they remain accurate with privacy implemented. We apply our results to real travel data gathered during the spread of COVID-19, and we show that, under real-world conditions, we can compute $R_0$ in a differentially private way while incurring errors as low as $7.6\%$ on average.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-29
# プログラマブル低消費電力デバイスにおけるQR TPM

QR TPM in Programmable Low-Power Devices ( http://arxiv.org/abs/2309.17414v1 )

ライセンス: Link先を確認
Luís Fiolhais, Leonel Sousa, (参考訳) Trusted Platform Modules (TPM) は、暗号化プリミティブを実行するセキュアな暗号プロセッサである。 大規模量子コンピューティングが現実になれば、TPM 2.0標準で採用されている暗号プリミティブはもはや安全ではない。 したがって、QR(Quantum Resistant)プリミティブを提供するTPMの設計は、特に組み込みシステムによって課される制約において、非常に重要である。 本稿では,QRプリミティブとプロトコルの標準TPM 2.0への展開について検討する。 NIST QR暗号標準化プロセスにすでに存在する暗号アルゴリズムと、基本的な暗号プリミティブであるOblivious Transfer (OT)は、TPM 2.0を拡張するために選択されたQR暗号スキームである。 特にキーカプセル化のためのKyberアルゴリズム、デジタル署名のためのDilithiumアルゴリズム、マルチパーティ計算やプライベート・セット・インターセクション(PSI)などのプロトコルをサポートする3ラウンドのRandom Oblivious Transfer (ROT)プロトコルがある。 QR拡張TPM 2.0はARMおよびRISC-V組み込みプロセッサで実装され、その計算要求は標準TPMと比較して分析され実験的に評価される。 Kyber と Dilithium は、鍵サイズと RSA に必要なランダムサンプリングの確保のため、RSA よりも鍵を作成するのが速いが、ECC と同じ性能レベルである。 デジタル署名では、署名の作成と検証の両方において、DilithiumはRSAやECCと同等である。 ROTプロトコルは十分な性能を示し、そのサポートにはTPMへの小さな変更が必要だった。 本稿は、既存のTPMに対して必要となるコードをバックポートして、現在のTPMが量子敵に対して安全であることを保証することも示している。

Trusted Platform Modules (TPMs), which serve as the root of trust in secure systems, are secure crypto-processors that carry out cryptographic primitives. Should large-scale quantum computing become a reality, the cryptographic primitives adopted in the TPM 2.0 standard will no longer be secure. Thus, the design of TPMs that provide Quantum Resistant (QR) primitives is of utmost importance, in particular with the restrictions imposed by embedded systems. In this paper, we investigate the deployment of QR primitives and protocols in the standard TPM 2.0. Cryptographic algorithms that are already in the NIST QR cryptography standardization process, as well as an Oblivious Transfer (OT), a fundamental cryptographic primitive, are the QR cryptographic schemes selected to extend TPM 2.0. In particular, the Kyber algorithm for key encapsulation, the Dilithium algorithm for digital signature, and a 3-round Random Oblivious Transfer (ROT) protocol, supporting protocols such as Multi-Party Computation and Private Set Intersection (PSI). The QR extended TPM 2.0 is implemented in ARM and RISC-V embedded processors, its computational requirements are analysed and experimentally evaluated in comparison to the standard TPM. It is shown that Kyber and Dilithium are faster at creating keys than RSA, due to the key size and secure random sampling required in RSA, while they meet the same performance level as ECC. For digital signatures, both in signature creation and verification, Dilithium is on par with RSA and ECC. The ROT protocol shows decent performance and its support required small modifications to the TPM. This paper also shows that it would be possible to backport the required code to already available TPMs to ensure that current TPMs remain secure against quantum adversaries.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-29
# 敵対的説明可能性:IoTボットネット検出システムのバイパスにおける説明可能な機械学習の利用

Adversarial Explainability: Utilizing Explainable Machine Learning in Bypassing IoT Botnet Detection Systems ( http://arxiv.org/abs/2310.00070v1 )

ライセンス: Link先を確認
Mohammed M. Alani, Atefeh Mashatan, Ali Miri, (参考訳) 機械学習に基づくボットネット検出は、現実のシナリオから抽出された大規模で信頼性の高いデータセットが利用できるなど、近年大きな飛躍を遂げている。 その結果、機械学習ベースのサイバーセキュリティシステムに対する敵対的な攻撃は、これらのソリューションの実用性に重大な脅威をもたらしている。 本稿では,ボットネット検出システムによる検出の回避において,機械学習モデルの説明可能性を利用した新たな攻撃手法を提案する。 提案攻撃では,モデルの説明可能性から得られた情報を用いて,ブラックボックス設定で検出を回避できる敵サンプルを構築する。 提案した攻撃は、トレーニング済みのIoTボットネット検出システムでテストされ、一方の機能を変更して敵のサンプルを生成することで、ボットネット検出を0%で回避することができた。

Botnet detection based on machine learning have witnessed significant leaps in recent years, with the availability of large and reliable datasets that are extracted from real-life scenarios. Consequently, adversarial attacks on machine learning-based cybersecurity systems are posing a significant threat to the practicality of these solutions. In this paper, we introduce a novel attack that utilizes machine learning model's explainability in evading detection by botnet detection systems. The proposed attack utilizes information obtained from model's explainability to build adversarial samples that can evade detection in a blackbox setting. The proposed attack was tested on a trained IoT botnet detection systems and was capable of bypassing the botnet detection with 0% detection by altering one feature only to generate the adversarial samples.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-29
# インボリュートリーMDS行列の計数について

On the Counting of Involutory MDS Matrices ( http://arxiv.org/abs/2310.00090v1 )

ライセンス: Link先を確認
Susanta Samanta, (参考訳) MDS行列の最適分岐数は、様々なブロック暗号とハッシュ関数の拡散層の設計においてその優位性を確立している。 その結果、アダマールや循環行列を含むMDS行列の設計にいくつかの行列構造が提案されている。 本稿では、まず、場 $\mathbb{F}_{2^r}$ 上でアダマール MDS の次数 4$ の行列を数える。 その後、次数 2$ MDS 行列を列挙し、体 $\mathbb{F}_{2^r}$ 上の不揮発性 MDS 行列を列挙する。 最後に、これらの次数 2$ の行列を利用すると、次数 4$ over $\mathbb{F}_{2^r}$ のすべての不揮発性 MDS 行列の上限を導出する。

The optimal branch number of MDS matrices has established their prominence in the design of diffusion layers for various block ciphers and hash functions. Consequently, several matrix structures have been proposed for designing MDS matrices, including Hadamard and circulant matrices. In this paper, we first provide the count of Hadamard MDS matrices of order $4$ over the field $\mathbb{F}_{2^r}$. Subsequently, we present the counts of order $2$ MDS matrices and order $2$ involutory MDS matrices over the field $\mathbb{F}_{2^r}$. Finally, leveraging these counts of order $2$ matrices, we derive an upper bound for the number of all involutory MDS matrices of order $4$ over $\mathbb{F}_{2^r}$.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-29
# モジュール型および標準型デジタルヘルスエコシステムへの道

The Path to a Modular and Standards-based Digital Health Ecosystem ( http://arxiv.org/abs/2311.03363v1 )

ライセンス: Link先を確認
Paul Schmiedmayer, Vishnu Ravi, Oliver Aalami(参考訳) デジタルヘルスアプリケーションのソフトウェアエンジニアリングには、異種データ取得、データの標準化、ソフトウェアの再利用、セキュリティ、プライバシ考慮など、いくつかの課題がある。 これらの課題と、stanford speziエコシステムが、モジュラーで標準ベースのオープンソースデジタルヘルスエコシステムを提供することで、これらの課題にどのように対処するかを探求します。 speziは、開発者が必要に応じてモジュールを選択し、統合することを可能にし、デジタルヘルスイノベーション構築へのアクセスを民主化するオープンソースコミュニティを促進する。

Software engineering for digital health applications entails several challenges, including heterogeneous data acquisition, data standardization, software reuse, security, and privacy considerations. We explore these challenges and how our Stanford Spezi ecosystem addresses these challenges by providing a modular and standards-based open-source digital health ecosystem. Spezi enables developers to select and integrate modules according to their needs and facilitates an open-source community to democratize access to building digital health innovations.
翻訳日:2024-01-15 16:31:19 公開日:2023-09-29
# 部分的にインフォームドされた選挙 -- バックリン、クームズ、複数出馬、シュルツェに対する強制的な投票停止の影響を分析する

Partially Informed Elections -- Analyzing the Impact of Forced Ballot Truncation on Bucklin, Coombs, Plurality with Runoff, and Schulze ( http://arxiv.org/abs/2311.06265v1 )

ライセンス: Link先を確認
Jonah Stein(参考訳) 選挙は投票者の好みに基づいて勝者を決定するために様々な投票システムを採用している。 しかし、近年の選挙では、有権者は候補者のサブセットだけをランク付けすることで投票を減らさざるを得なくなった。 本研究は, 投票停止がバックリン, クーム, 複数決選投票システム, シュルツェ投票システムの真の当選セットの出力能力にどのように影響するかを分析した。 コンピュータシミュレーションにより、異なる候補数、有権者数、分散値を用いて、何千もの選好プロファイルがmallowsモデルで生成された。 完全選好を用いて各システムに対して真勝集合を判定し、同じ選好プロファイル内で繰り返し切り落とされた選好から得られる勝集合と比較した。 その結果, 脱落した複数個体は強制脱落に最も抵抗し, 続いてシュルツェ, バックリン, クームスが続いた。 さらに, 有権者数が少なく, 分散値が高い選挙は, 全システムにまたがる真の勝利セットを選択する確率を低下させることがわかった。 この調査結果は、強制的離脱が投票システムにどう影響するかについての洞察を与え、選挙設計者を支援する。

Elections employ various voting systems to determine winners based on voters' preferences. However, many recent ranked-choice elections have forced voters to truncate their ballots by only ranking a subset of the candidates. This study analyzes how forced ballot truncation affects the Bucklin, Coombs, plurality with runoff, and Schulze voting systems' abilities to output their true winning sets. Using computer simulations, thousands of preference profiles were generated with the Mallows model using different numbers of candidates, voters, and dispersion values. The true winning set was determined for each system using complete preferences, then compared to winning sets derived from repeatedly truncated preferences within the same preference profile. Results show that plurality with runoff was the most resistant to forced truncation, followed by Schulze, Bucklin, and Coombs. Additionally, elections with fewer voters and higher dispersion values were found to decrease the probability of selecting the true winning set across all systems. The findings provide insights into how forced truncation impacts voting systems, aiding election designers in their work.
翻訳日:2024-01-15 16:22:15 公開日:2023-09-29
# オープンSourcing Highly Capable Foundation Models:オープンソース目標を追求するためのリスク・メリット・代替手法の評価

Open-Sourcing Highly Capable Foundation Models: An evaluation of risks, benefits, and alternative methods for pursuing open-source objectives ( http://arxiv.org/abs/2311.09227v1 )

ライセンス: Link先を確認
Elizabeth Seger, Noemi Dreksler, Richard Moulange, Emily Dardaman, Jonas Schuett, K. Wei, Christoph Winter, Mackenzie Arnold, Se\'an \'O h\'Eigeartaigh, Anton Korinek, Markus Anderljung, Ben Bucknall, Alan Chan, Eoghan Stafford, Leonie Koessler, Aviv Ovadya, Ben Garfinkel, Emma Bluemke, Michael Aird, Patrick Levermore, Julian Hazell, Abhishek Gupta(参考訳) AIラボをオープンソースにするか、あるいはモデルへのアクセスを制限するという最近の決定は、ますます有能になるAIモデルをいかに共有すべきかという議論を引き起こしている。 AIのオープンソースは通常、モデルアーキテクチャとウェイトを自由に公開して誰でも変更、研究、構築、使用できるようにする。 これにより、外部監視の有効化、進捗の加速、AI開発と使用に対する制御の分散化といったメリットが提供される。 しかし、悪用や意図しない結果をもたらす可能性も高まっている。 本稿では,高能力基礎モデルのオープンソース化によるリスクとメリットについて考察する。 オープンソースは歴史的に、ほとんどのソフトウェアとAI開発プロセスに実質的な利益をもたらしてきたが、近い将来に開発されるであろう高度な基盤モデルでは、オープンソースは、その利点を上回る十分な極端なリスクをもたらす可能性がある、と私たちは主張する。 そのような場合、高機能な基盤モデルは、少なくとも最初はオープンソースにすべきではない。 オープンソースでないモデル共有オプションを含む代替戦略が検討されている。 この論文は、安全で責任のあるモデル共有プラクティスを確立し、安全なオープンソースの利益を維持するための開発者、標準化団体、政府への勧告で締めくくります。

Recent decisions by leading AI labs to either open-source their models or to restrict access to their models has sparked debate about whether, and how, increasingly capable AI models should be shared. Open-sourcing in AI typically refers to making model architecture and weights freely and publicly accessible for anyone to modify, study, build on, and use. This offers advantages such as enabling external oversight, accelerating progress, and decentralizing control over AI development and use. However, it also presents a growing potential for misuse and unintended consequences. This paper offers an examination of the risks and benefits of open-sourcing highly capable foundation models. While open-sourcing has historically provided substantial net benefits for most software and AI development processes, we argue that for some highly capable foundation models likely to be developed in the near future, open-sourcing may pose sufficiently extreme risks to outweigh the benefits. In such a case, highly capable foundation models should not be open-sourced, at least not initially. Alternative strategies, including non-open-source model sharing options, are explored. The paper concludes with recommendations for developers, standard-setting bodies, and governments for establishing safe and responsible model sharing practices and preserving open-source benefits where safe.
翻訳日:2024-01-15 16:09:16 公開日:2023-09-29
# デジタル人間の価値創造の可能性

The value creation potential of digital humans ( http://arxiv.org/abs/2311.09226v1 )

ライセンス: Link先を確認
Araz Zirar(参考訳) 「デジタル人間」は、人工知能(AI)を利用した人間のデジタル再生であり、感情結合を伝達し形成することができる。 デジタル人間の価値創造の可能性は、デジタル人間の技術の限界のために見過ごされている。 本稿では,デジタル人間の価値創造可能性と価値実現の限界について考察する。 この分析は、Web of Scienceデータベースから取得した62記事のレビューに基づいている。 この分析は、デジタル人間は労働力や技能不足を軽減し、リスクの高いタスクにおける自然人的要素を減らし、設計ミスを回避し、製品や職場の人間工学を改善し、ガイダンスや感情的な支援を提供する可能性を示唆している。 しかし、技術的限界、デジタル人間の進化的理解、デジタル人間の社会的意義と受容、倫理的考察、法的伝統の調整は価値の実現を制限している。 このレビューは、デジタル人間の有用性と開発容易性が、この技術を活用しようとする組織の意志を決定することを示唆している。 エンジニアリング上の課題と、その認識方法の変化を乗り越えることは、組織におけるデジタル人間の価値のポテンシャルの実現に肯定的な影響を与えます。

'Digital humans' are digital reproductions of humans powered by artificial intelligence (AI) and capable of communicating and forming emotional bonds. The value creation potential of digital humans is overlooked due to the limitations of digital human technologies. This article explores the value creation potential and the value realisation limitations of digital humans. The analysis is based on a review of 62 articles retrieved from the Web of Science database. The analysis suggests that digital humans have the potential to alleviate labour and skill shortages, reduce the natural human element in high-risk tasks, avoid design errors, improve the ergonomics of products and workplaces, and provide guidance and emotional support, all of which will benefit natural humans in the workplace. However, technical limits, evolving understanding of digital humans, the social significance and acceptance of digital humans, ethical considerations, and the adjustment of legal tradition limit the value realisation. This review suggests that digital humans' perceived usefulness and ease of development determine organisations' willingness to utilise this technology. Overcoming the limitations, which still involve engineering challenges and a change in how they are perceived, will positively affect realising the value potential of digital humans in organisations.
翻訳日:2024-01-15 16:08:28 公開日:2023-09-29
# 効果的な事前訓練と改善のための臨床テキスト重複の実践

Clinical Text Deduplication Practices for Efficient Pretraining and Improved Clinical Tasks ( http://arxiv.org/abs/2312.09469v1 )

ライセンス: Link先を確認
Isotta Landi, Eugenia Alleva, Alissa A. Valentine, Lauren A. Lepow, Alexander W. Charney(参考訳) 患者の地位や疾患の進行に関するユニークな情報源であるにもかかわらず、臨床ノートは高い重複度と情報冗長性によって特徴づけられる。 一般のドメインテキストでは、重複が言語モデル(LM)の事前訓練を損なわないことが示されており、トレーニングコストの削減に寄与している。 大きなlmmは医学的知識を学べることが証明されているが、下流の臨床タスクを改善するために特別なドメイン適応が必要である。 実世界の臨床コーパスを利用して, 一般的な筆記法と臨床関連性から生じる複製の微細な評価を行った。 第2に, 臨床テキストの重複化は, 少ない冗長情報をより効率的な方法で符号化し, 即時学習による分類作業に支障を来さないことを実証した。

Despite being a unique source of information on patients' status and disease progression, clinical notes are characterized by high levels of duplication and information redundancy. In general domain text, it has been shown that deduplication does not harm language model (LM) pretraining, thus helping reduce the training cost. Although large LMs have proven to learn medical knowledge, they still require specialized domain adaptation for improved downstream clinical tasks. By leveraging large real-world clinical corpora, we first provided a fine-grained characterization of duplicates stemming from common writing practices and clinical relevancy. Second, we demonstrated that deduplicating clinical text can help clinical LMs encode less redundant information in a more efficient manner and do not harm classification tasks via prompt-based learning.
翻訳日:2024-01-15 13:58:04 公開日:2023-09-29
# 非線型スピン密度汎関数理論に対する自己相互作用補正スキーム

Self-interaction correction schemes for non-collinear spin-density-functional theory ( http://arxiv.org/abs/2310.18321v1 )

ライセンス: Link先を確認
Nicolas Tancogne-Dejean, Martin L\"uders, Carsten A. Ullrich(参考訳) 我々は、密度汎関数理論の確立された自己相互作用補正(SIC)スキームを非線形磁気を持つ系に拡張する。 提案手法は, 広く用いられている局所スピン密度近似と組み合わせて, 分子と金属クラスターの集合上で試験される。 共線形sicでは,平均密度sicはイオン化エネルギーを向上させるのに有効であるが,極性分子の双極子モーメントのような微妙な量の改善には失敗した。 本研究では,perdew-zunger sicの拡張により生じる交換相関磁場について検討し,局所全磁化と一致していないことを示し,交換相関トルクを発生させる。

We extend some of the well established self-interaction correction (SIC) schemes of density-functional theory to the case of systems with noncollinear magnetism. Our proposed SIC schemes are tested on a set of molecules and metallic clusters in combination with the widely used local spin-density approximation. As expected from the collinear SIC, we show that the averaged-density SIC works well for improving ionization energies but fails to improve more subtle quantities like the dipole moments of polar molecules. We investigate the exchange-correlation magnetic field produced by our extension of the Perdew-Zunger SIC, showing that it is not aligned with the local total magnetization, thus producing an exchange-correlation torque.
翻訳日:2023-11-05 14:04:49 公開日:2023-09-29
# ガウス過程回帰を用いた能動的学習による視床無視の評価と治療

Assessment and treatment of visuospatial neglect using active learning with Gaussian processes regression ( http://arxiv.org/abs/2310.13701v1 )

ライセンス: Link先を確認
Ivan De Boi, Elissa Embrechts, Quirine Schatteman, Rudi Penne, Steven Truijen, Wim Saeys(参考訳) visuospatial neglectは、空間とフレームの領域に位置する視覚刺激に対する認識を損なうことで特徴づけられる障害である。 しばしば脳卒中と関係がある。 患者は日々の生活とコミュニティ参加のあらゆる側面に苦しむことができる。 評価方法は限定的で,主に紙上で実施され,日常生活の複雑さを実践していないため,いくつかの欠点がある。 同様に、治療オプションは乏しく、しばしば小さな改善しか示さない。 本稿では,患者の空間的無視を三次元的に正確に評価する人工知能ソリューションを提案する。 ガウス過程回帰に基づくアクティブラーニング手法を実装し,患者が評価を行うのに要する労力を削減する。 さらに, このモデルが患者指向治療にどのように活用され, どのようにしてゲーミフィケーション, 遠隔リハビリテーション, パーソナライズ医療への道を開くかを説明し, 患者のエンゲージメントとリハビリテーションの成果を改善するための有望な道筋を提供する。 評価モジュールを検証するため,実世界の患者を対象とした臨床試験を実施した。 本研究は,aiを用いた評価と,現在臨床で用いられている従来型視床無視検査との比較を行った。 検証プロセスはモデルの精度と信頼性の確立に役立ち、空間的無視を診断・監視するための貴重なツールとしての可能性を確認する。 私たちのVRアプリケーションは、より敏感であることが証明されています。

Visuospatial neglect is a disorder characterised by impaired awareness for visual stimuli located in regions of space and frames of reference. It is often associated with stroke. Patients can struggle with all aspects of daily living and community participation. Assessment methods are limited and show several shortcomings, considering they are mainly performed on paper and do not implement the complexity of daily life. Similarly, treatment options are sparse and often show only small improvements. We present an artificial intelligence solution designed to accurately assess a patient's visuospatial neglect in a three-dimensional setting. We implement an active learning method based on Gaussian process regression to reduce the effort it takes a patient to undergo an assessment. Furthermore, we describe how this model can be utilised in patient oriented treatment and how this opens the way to gamification, tele-rehabilitation and personalised healthcare, providing a promising avenue for improving patient engagement and rehabilitation outcomes. To validate our assessment module, we conducted clinical trials involving patients in a real-world setting. We compared the results obtained using our AI-based assessment with the widely used conventional visuospatial neglect tests currently employed in clinical practice. The validation process serves to establish the accuracy and reliability of our model, confirming its potential as a valuable tool for diagnosing and monitoring visuospatial neglect. Our VR application proves to be more sensitive, while intra-rater reliability remains high.
翻訳日:2023-10-29 16:14:18 公開日:2023-09-29
# CodeScore: コード実行の学習によるコード生成の評価

CodeScore: Evaluating Code Generation by Learning Code Execution ( http://arxiv.org/abs/2301.09043v2 )

ライセンス: Link先を確認
Yihong Dong, Jiazheng Ding, Xue Jiang, Ge Li, Zhuo Li, and Zhi Jin(参考訳) 適切なコード評価基準(CEM)は、NLPとソフトウェア工学において重要な研究分野であるコード生成の進化に大きな影響を与えます。 マッチベースのCEM(BLEU, Accuracy, CodeBLEU)は2つの重大な欠点を負う。 1. 機能的等価性を考慮せずに、主に符号間の表面的差異を測定する。 しかし、異なるコードが同一の操作を実行できるため、関数等価性はコード生成の有効性を評価する上で重要である。 2. 主にRefのみの入力フォーマット用に設計されている。 しかし、コード評価は入力フォーマットの汎用性を必要とする。 Ref-only以外にも、既存のマッチベースのCEMが効果的に対応できないNL-onlyとRef\&NLフォーマットがある。 本稿では,3つの入力型に対する生成コードの機能的正しさを推定する,大規模言語モデル(llm)ベースのcemであるcodescoreを提案する。 CodeScoreを取得するために,LLMがコード実行(PassRatioとExecutability of generated code)を統一的な入力で学習するための統一コード生成学習フレームワークUniCEを提案する。 複数のコード評価データセットの大規模な実験結果は、CodeScoreが他のCEMと比較して58.87%の相関性を向上し、最先端のパフォーマンスを達成し、3つの入力フォーマットを効果的に扱うことを示した。

A proper code evaluation metric (CEM) profoundly impacts the evolution of code generation, which is an important research field in NLP and software engineering. Prevailing match-based CEMs (e.g., BLEU, Accuracy, and CodeBLEU) suffer from two significant drawbacks. 1. They primarily measure the surface differences between codes without considering their functional equivalence. However, functional equivalence is pivotal in evaluating the effectiveness of code generation, as different codes can perform identical operations. 2. They are predominantly designed for the Ref-only input format. However, code evaluation necessitates versatility in input formats. Aside from Ref-only, there are NL-only and Ref\&NL formats, which existing match-based CEMs cannot effectively accommodate. In this paper, we propose CodeScore, a large language model (LLM)-based CEM, which estimates the functional correctness of generated code on three input types. To acquire CodeScore, we present UniCE, a unified code generation learning framework, for LLMs to learn code execution (i.e., learning PassRatio and Executability of generated code) with unified input. Extensive experimental results on multiple code evaluation datasets demonstrate that CodeScore absolutely improves up to 58.87% correlation with functional correctness compared to other CEMs, achieves state-of-the-art performance, and effectively handles three input formats.
翻訳日:2023-10-24 13:26:07 公開日:2023-09-29
# ソフトウェア専門家のメンタルヘルスのスナップショット

A Snapshot of the Mental Health of Software Professionals ( http://arxiv.org/abs/2309.17140v1 )

ライセンス: Link先を確認
Eduardo Santana de Almeida and Ingrid Oliveira de Nunes and Raphael Pereira de Oliveira and Michelle Larissa Luciano Carvalho and Andre Russowsky Brunoni and Shiyue Rong and Iftekhar Ahmed(参考訳) メンタルヘルス障害は多くの人に影響を与え、毎年多くの命が失われる。 これらの障害は、失業日数や従業員のパフォーマンス低下により生産性が低下する苦労した個人や企業に影響を与える。 最近の研究では、抑うつや不安、特にアカデミアのような状況で精神的な健康障害に苦しむ人の数を警告している。 ソフトウェア産業の文脈では、メンタルヘルス障害の存在と、ソフトウェア専門家のメンタルヘルスの悪化の引き金となるこの文脈における仕事の特徴を理解することを目的とした限られた研究がある。 本稿では,500名のソフトウェア専門家を対象とした調査の結果を紹介する。 本研究は,メンタルヘルスの諸側面と作業の特徴について検討し,メンタルヘルスの悪化の原因を明らかにする。 私たちの結果は、ソフトウェア産業においてメンタルヘルスが対処すべき重要な問題であることを示す最初の証拠を提供し、ソフトウェア専門家のメンタルヘルスを改善するためにこの文脈でできる変化の方向性を提起します。

Mental health disorders affect a large number of people, leading to many lives being lost every year. These disorders affect struggling individuals and businesses whose productivity decreases due to days of lost work or lower employee performance. Recent studies provide alarming numbers of individuals who suffer from mental health disorders, e.g., depression and anxiety, in particular contexts, such as academia. In the context of the software industry, there are limited studies that aim to understand the presence of mental health disorders and the characteristics of jobs in this context that can be triggers for the deterioration of the mental health of software professionals. In this paper, we present the results of a survey with 500 software professionals. We investigate different aspects of their mental health and the characteristics of their work to identify possible triggers of mental health deterioration. Our results provide the first evidence that mental health is a critical issue to be addressed in the software industry, as well as raise the direction of changes that can be done in this context to improve the mental health of software professionals.
翻訳日:2023-10-23 05:38:58 公開日:2023-09-29
# がん登録システムの進化テストにおけるコスト削減

Cost Reduction on Testing Evolving Cancer Registry System ( http://arxiv.org/abs/2309.17038v1 )

ライセンス: Link先を確認
Erblin Isaku, Hassan Sartaj, Christoph Laaber, Tao Yue, Shaukat Ali, Thomas Schwitalla, and Jan F. Nyg{\aa}rd(参考訳) がん登録支援システム (CaReSS, Cancer Registration Support System) は、ノルウェーのがん登録局 (CRN) が開発し、その実装において継続的な進化を遂げる複雑な社会技術ソフトウェアシステムである。 そのため、自動テストツールによるCaReSSの継続的テストが必要であり、その信頼性が常に保証される。 本稿では,CaReSSの重要なソフトウェアサブシステム,すなわちGURIの自動テストに向けて,進化アルゴリズムを用いたテストケースの自動生成を行うオープンソースのツールであるEvoMasterを拡張した実世界のアプリケーションを提案する。 evomasterを機械学習の分類器で拡張し、テスト全体のコストを削減する拡張 evoclass と名付けました。 EvoMasterでのテストでは、さまざまな環境にデプロイされたGURIに多くのリクエストを送信する必要があるため、本番環境ではパフォーマンスや機能が多くのリクエストに影響される可能性がある。 EvoClassの機械学習分類器は、EvoMasterが生成したリクエストが正常に実行されるかどうかを予測することができる。 開発、テスト、運用という3つの環境において、EvoClassを4年間にわたって10のGURIバージョンで評価しました。 その結果、EvoClassは、デフォルトのEvoMasterと比較して、3つの環境でのテスト効率(ルールカバレッジとして測定される)を低下させることなく、GURIを進化させるテストコストを大幅に削減できることがわかった。 全体では、evoclassは全体のコスト削減の約31%を達成した。 最後に、研究者や実践者にも同様に価値のある経験と教訓を報告します。

The Cancer Registration Support System (CaReSS), built by the Cancer Registry of Norway (CRN), is a complex real-world socio-technical software system that undergoes continuous evolution in its implementation. Consequently, continuous testing of CaReSS with automated testing tools is needed such that its dependability is always ensured. Towards automated testing of a key software subsystem of CaReSS, i.e., GURI, we present a real-world application of an extension to the open-source tool EvoMaster, which automatically generates test cases with evolutionary algorithms. We named the extension EvoClass, which enhances EvoMaster with a machine learning classifier to reduce the overall testing cost. This is imperative since testing with EvoMaster involves sending many requests to GURI deployed in different environments, including the production environment, whose performance and functionality could potentially be affected by many requests. The machine learning classifier of EvoClass can predict whether a request generated by EvoMaster will be executed successfully or not; if not, the classifier filters out such requests, consequently reducing the number of requests to be executed on GURI. We evaluated EvoClass on ten GURI versions over four years in three environments: development, testing, and production. Results showed that EvoClass can significantly reduce the testing cost of evolving GURI without reducing testing effectiveness (measured as rule coverage) across all three environments, as compared to the default EvoMaster. Overall, EvoClass achieved ~31% of overall cost reduction. Finally, we report our experiences and lessons learned that are equally valuable for researchers and practitioners.
翻訳日:2023-10-23 05:38:41 公開日:2023-09-29
# 要求源の同定とランク付けの一手法

A Method for Identification and Ranking of Requirements Sources ( http://arxiv.org/abs/2309.17034v1 )

ライセンス: Link先を確認
Eriks Klotins, Veselka Boeva, Krzysztof Wnuk, Michael Unterkalmsteiner, Tony Gorschek, Slinger Jansen(参考訳) 要求工学(RE)文献は、初期のステークホルダーの識別の重要性を認めている。 要件の源は多く、市場やビジネスが絶えず変化するにつれて、常に変化する。 市場におけるすべての利害関係者の特定と相談は非現実的であり、多くの企業は、文書や利害関係者の代表など間接的なデータソースを利用している。 しかし、企業はしばしば無関係なデータを収集したり、市場機会を逃がす可能性がある副最適情報ソースに基づいて製品を開発したりする。 本稿では,データソースの識別と選択のための協調手法を提案する。 この方法は4つのステップで構成され、組織内の異なる視点間のコンセンサスを構築することを目的としている。 本手法を3つの産業ケーススタディで実証する。 我々はMDREの利害関係者の優先順位付けを支援する手法を提示し、静的に検証した。 本手法は,(1)reのためのデータソースの識別と優先順位付けのための体系的なステップを提供すること,(2)組織内の異なる視点間の不一致を強調・解決すること,(3)特定のデータソースを使用する基礎的根拠を分析することによって,データソースの識別と選択を3つの方法で支援できることを示す。

Requirements engineering (RE) literature acknowledges the importance of early stakeholder identification. The sources of requirements are many and also constantly changing as the market and business constantly change. Identifying and consulting all stakeholders on the market is impractical; thus many companies utilize indirect data sources, e.g. documents and representatives of larger groups of stakeholders. However, companies often collect irrelevant data or develop their products based on the sub-optimal information sources that may lead to missing market opportunities. We propose a collaborative method for identification and selection of data sources. The method consists of four steps and aims to build consensus between different perspectives in an organization. We demonstrate the use of the method with three industrial case studies. We have presented and statically validated the method to support prioritization of stakeholders for MDRE. Our results show that the method can support the identification and selection of data sources in three ways: (1) by providing systematic steps to identify and prioritize data sources for RE, (2) by highlighting and resolving discrepancies between different perspectives in an organization, and (3) by analyzing the underlying rationale for using certain data sources.
翻訳日:2023-10-23 05:38:15 公開日:2023-09-29
# 1次元および2次元pt対称飽和非線形schr\"odinger方程式のディープラーニングソリトンダイナミクスと複素ポテンシャル認識

Deep learning soliton dynamics and complex potentials recognition for 1D and 2D PT-symmetric saturable nonlinear Schr\"odinger equations ( http://arxiv.org/abs/2310.02276v1 )

ライセンス: Link先を確認
Jin Song, Zhenya Yan(参考訳) 本稿ではまず,2つの基本PT対称Scarf-IIと周期ポテンシャルを持つ1次元および2次元飽和非線形Schr\"odinger equations (SNLSEs)のデータ駆動型定常ソリトンと非定常ソリトンを学習するために,物理インフォームニューラルネットワーク(PINN)を拡張した。 第2に、1Dおよび2D SNLSEのポテンシャルパラメータだけでなく、PT対称ポテンシャル関数探索のためのデータ駆動逆問題について検討する。 特に, 1d および 2d の snls の pt ポテンシャル関数を解法データで直接同定する修正 pinn (mpinns) スキームを提案する。 また, 伝搬距離zに依存する1次元および2次元PT対称ポテンシャルに関する逆問題についても, mPINNs法を用いて検討した。 また,SNLSEの定常方程式に適用したPINNによるポテンシャル関数の同定を行った。 さらに、2つのネットワーク構造を異なるパラメータ条件下で比較し、予測されたPT電位が同様の高精度を実現する。 これらの結果は、確立された深層ニューラルネットワークを高い精度で1次元および2次元のsnlsでうまく使用できることを示す。 さらに, ニューラルネットワークの性能に影響を与える要因として, 活性化関数, ネットワーク構造, トレーニングデータのサイズなど, 1dおよび2d pt-iiおよび周期電位について考察した。 特に、12の異なる非線形活性化関数は周期関数と非周期関数を含む詳細に解析され、解と方程式の形式に従って活性化関数を選択するとより良い効果が得られると結論づけられる。

In this paper, we firstly extend the physics-informed neural networks (PINNs) to learn data-driven stationary and non-stationary solitons of 1D and 2D saturable nonlinear Schr\"odinger equations (SNLSEs) with two fundamental PT-symmetric Scarf-II and periodic potentials in optical fibers. Secondly, the data-driven inverse problems are studied for PT-symmetric potential functions discovery rather than just potential parameters in the 1D and 2D SNLSEs. Particularly, we propose a modified PINNs (mPINNs) scheme to identify directly the PT potential functions of the 1D and 2D SNLSEs by the solution data. And the inverse problems about 1D and 2D PT -symmetric potentials depending on propagation distance z are also investigated using mPINNs method. We also identify the potential functions by the PINNs applied to the stationary equation of the SNLSE. Furthermore, two network structures are compared under different parameter conditions such that the predicted PT potentials can achieve the similar high accuracy. These results illustrate that the established deep neural networks can be successfully used in 1D and 2D SNLSEs with high accuracies. Moreover, some main factors affecting neural networks performance are discussed in 1D and 2D PT Scarf-II and periodic potentials, including activation functions, structures of the networks, and sizes of the training data. In particular, twelve different nonlinear activation functions are in detail analyzed containing the periodic and non-periodic functions such that it is concluded that selecting activation functions according to the form of solution and equation usually can achieve better effect.
翻訳日:2023-10-23 04:57:46 公開日:2023-09-29
# MuSe-GNN:マルチモーダル生物学的グラフデータから統一された遺伝子表現を学習する

MuSe-GNN: Learning Unified Gene Representation From Multimodal Biological Graph Data ( http://arxiv.org/abs/2310.02275v1 )

ライセンス: Link先を確認
Tianyu Liu, Yuge Wang, Rex Ying, Hongyu Zhao(参考訳) 多様な生物医学的文脈にまたがる類似機能を持つ遺伝子の発見は、データの多様性のために遺伝子表現学習において大きな課題となる。 本研究では,マルチモーダル機械学習とディープグラフニューラルネットワークを組み合わせた,マルチモーダル類似性学習グラフニューラルネットワーク(multimodal similarity learning graph neural network)と呼ばれる新しいモデルを導入することで,この問題を解決する。 10の組織から82のトレーニングデータセット、3つのシークエンシング技術、および3つの種を用いて、モデルトレーニングと遺伝子表現生成のための情報グラフ構造を作成し、重み付き類似性学習とコントラスト学習を併用し、クロスデータ遺伝子関係を学習する。 この斬新な設計は、共同空間における異なる文脈における機能的類似性を含む遺伝子表現を提供することを保証する。 包括的ベンチマーク分析は、遺伝子表現学習における最先端の手法を最大97.5%向上させ、複数のモードにわたる遺伝子機能の類似性を効果的に捉える能力を示している。 さらに,遺伝子表現と組んだバイオインフォマティクスツールを用いて,疾患関連遺伝子や薬物感受性遺伝子の経路の富化,制御因果ネットワーク,機能を明らかにする。 そこで本モデルは, 遺伝子機能, 組織機能, 疾患, 種進化を解析するための統合遺伝子発現を効率よく生成する。

Discovering genes with similar functions across diverse biomedical contexts poses a significant challenge in gene representation learning due to data heterogeneity. In this study, we resolve this problem by introducing a novel model called Multimodal Similarity Learning Graph Neural Network, which combines Multimodal Machine Learning and Deep Graph Neural Networks to learn gene representations from single-cell sequencing and spatial transcriptomic data. Leveraging 82 training datasets from 10 tissues, three sequencing techniques, and three species, we create informative graph structures for model training and gene representations generation, while incorporating regularization with weighted similarity learning and contrastive learning to learn cross-data gene-gene relationships. This novel design ensures that we can offer gene representations containing functional similarity across different contexts in a joint space. Comprehensive benchmarking analysis shows our model's capacity to effectively capture gene function similarity across multiple modalities, outperforming state-of-the-art methods in gene representation learning by up to 97.5%. Moreover, we employ bioinformatics tools in conjunction with gene representations to uncover pathway enrichment, regulation causal networks, and functions of disease-associated or dosage-sensitive genes. Therefore, our model efficiently produces unified gene representations for the analysis of gene functions, tissue functions, diseases, and species evolution.
翻訳日:2023-10-23 04:57:16 公開日:2023-09-29
# 極小可観測性の原理に基づく量子スカラー場理論

Quantum Scalar Field Theory Based On Principle of Least Observability ( http://arxiv.org/abs/2310.02274v1 )

ライセンス: Link先を確認
Jianhao M. Yang(参考訳) 近年、非相対論的量子定式化は最小可観測性(arXiv:2302.14619)の原理から導かれることが示されている。 本稿では,この原理を大規模スカラー場に適用し,スカラー場に対する波動汎関数のschr\"{o}dinger方程式を導出する。 この原理は、2つの仮定を分解することで古典場理論における最小作用原理の拡張と考えることができる。 まず、プランク定数は、観測可能となるためにフィールドが提示する必要がある最小のアクション量を定義する。 これにより古典場の力学から観測可能性の程度を計算することができる。 第2に、一定の確率場ゆらぎがある。 フィールド変動による観測可能性を高めるために,情報メトリクスを定義する新しい手法を提案する。 可観測性の全度を最小化するために変動原理を適用することにより、電場変動の遷移確率、不確実性関係、および波動関数のシュル・"{o}ディンガー方程式をエレガントに導出することができる。 さらに、相対エントロピーの一般定義を用いて場のゆらぎに関する情報メトリクスを定義することにより、相対エントロピーの順序に依存する波動汎関数の一般化されたschr\"{o}dinger方程式を得る。 この結果は,非相対論的量子力学と相対論的量子スカラー場理論の両方を導出するために最小可観測原理を適用することができることを示した。 非スカラー場に対する量子論を得るためにさらに利用できると期待している。

Recently it is shown that the non-relativistic quantum formulations can be derived from a principle of least observability(arXiv:2302.14619). In this paper, we apply the principle to massive scalar fields, and derive the Schr\"{o}dinger equation of the wave functional for the scalar fields. The principle can be considered as an extension of the least action principle in classical field theory by factoring in two assumptions. First, the Planck constant defines the minimal amount of action a field needs to exhibit in order to be observable. This enables us to calculate the degree of observability from the dynamics of a classical field. Second, there are constant random field fluctuations. A novel method is introduced to define the information metrics to measure additional observability due to the field fluctuations. Applying the variation principle to minimize the total degree of observability allows us to elegantly derive the transition probability of field fluctuations, the uncertainty relation, and the Schr\"{o}dinger equation of the wave functional. Furthermore, by defining the information metrics for field fluctuations using general definitions of relative entropy, we obtain a generalized Schr\"{o}dinger equation of the wave functional that depends on the order of relative entropy. Our results demonstrate that the least observability principle can be applied to derive both non-relativistic quantum mechanics and relativistic quantum scalar field theory. We expect it can be further used to obtain quantum theory for non-scalar fields.
翻訳日:2023-10-23 04:56:51 公開日:2023-09-29
# 高温媒質中の重中間子に及ぼすグローバルモノポールの影響

Impact of Global Monopoles on Heavy Mesons in a Hot-Dense Medium ( http://arxiv.org/abs/2310.04434v1 )

ライセンス: Link先を確認
M. Abu-Shady and Faizuddin Ahmed(参考訳) 本研究の目的は, 高温媒体の存在におけるトポロジカル効果の影響を探ることである。 これを実現するために、量子フラックス場とその相互作用ポテンシャルを考慮して非相対論的シュリンガー波方程式を解く。 これにより,nikiforov-uvarov法を用いてエネルギー固有値と対応する波動関数を得ることができる。 その結果, トポロジカル効果と磁束$\Phi$の両方を考慮すると, 高温密度媒質中での結合エネルギーは減少することがわかった。 さらに, $(t, u_b)$ 平面における結合エネルギーに対するバロンポテンシャルの役割について検討する。 また,バリオンポテンシャルの影響は,その値が小さい場合にはより顕著であることがわかった。

In this research study, the focus is on exploring the influence of topological effects in the presence of a hot-dense medium. To achieve this, we solve the non-relativistic Schr\"odinger wave equation while considering the quantum flux field and its interaction potential. By doing so, we are able to obtain the energy eigenvalues and corresponding wave functions by using the Nikiforov-Uvarov method. The findings reveal that when taking into account both topological effects and the magnetic flux $\Phi$, there is a reduction in the binding energy in the hot-dense medium. Furthermore, we examine the role of the baryonic potential on the binding energy in the $(T, u_b)$ plane. It is observed that the effect of the baryonic potential is more pronounced when its values are smaller.
翻訳日:2023-10-23 04:13:35 公開日:2023-09-29
# Grasshopper/Rhinoceros 7における3次元アクセシビリティランプ生成のためのAIアルゴリズム

AI Algorithm for the Generation of Three-Dimensional Accessibility Ramps in Grasshopper / Rhinoceros 7 ( http://arxiv.org/abs/2310.07728v1 )

ライセンス: Link先を確認
Antonio Li, Leila Yi, Brandon Yeo Pei Hui(参考訳) 都市開発の構成要素として見過ごされることが多いが、アクセシビリティ・インフラストラクチャーは日々の生活において極めて重要である。 アクセシビリティ・ランプはアクセシビリティ・インフラストラクチャーの最も一般的なタイプの1つであり、モバイル障害を持つ人だけでなく、有能な第三者にも利益をもたらす。 アクセシビリティ・ランプの必要性は認識されているが、実際の実装は設計段階に必要な人力の限界を考慮して失敗する。 そこで本研究では,関連する環境の3次元モデルに基づいて,実現可能なアクセシビリティランプの自動生成が可能なアルゴリズムを提案する。 3Dモデル内の初期点と終点を手動で指定することで、アルゴリズムはAI検索アルゴリズムを用いてこれらの点を接続する最適な経路を決定する。 車椅子に到達可能なランプを考案するために必要なコンポーネントは、標高差、空間制約、勾配仕様などを含むアルゴリズムによって評価されるように、プロセス内でエンコードされる。 そこからアルゴリズムは、ランプのフルスケールで使用可能なモデルに拡張される経路を生成し、簡単にエクスポートし、ソフトウェア間の交換を通じて変換することができる。 人的入力は、生成段階以降も必要であるが、人的資源の最小化は、設計プロセスにおける大幅な効率向上をもたらし、将来の都市デザインにおけるアクセシビリティ機能の導入のしきい値を低下させる。

Often overlooked as a component of urban development, accessibility infrastructure is undeniably crucial in daily life. Accessibility ramps are one of the most common types of accessibility infrastructure, and serve to benefit not only people with mobile impairments but also able-bodied third parties. While the necessity of accessibility ramps is acknowledged, actual implementation fails in light of the limits of manpower required for the design stage. In response, we present an algorithm capable of the automatic generation of a feasible accessibility ramp based on a 3D model of the relevant environment. Through the manual specification of initial and terminal points within a 3D model, the algorithm uses AI search algorithms to determine the optimal pathway connecting these points. Essential components in devising a wheelchair-accessible ramp are encoded within the process, as evaluated by the algorithm, including but not limited to elevation differentials, spatial constraints, and gradient specifications. From this, the algorithm then generates the pathway to be expanded into a full-scale, usable model of a ramp, which then can be easily exported and transformed through inter-software exchanges. Though some human input is still required following the generation stage, the minimising of human resources provides significant boosts of efficiency in the design process thus lowering the threshold for the incorporation of accessibility features in future urban design.
翻訳日:2023-10-23 03:24:29 公開日:2023-09-29
# 帰納的説明の公理的集約

Axiomatic Aggregations of Abductive Explanations ( http://arxiv.org/abs/2310.03131v1 )

ライセンス: Link先を確認
Gagan Biradar, Yacine Izza, Elita Lobo, Vignesh Viswanathan, Yair Zick(参考訳) ポストホックモデル近似法(LIMEやSHAPなど)のロバスト性に対する最近の批判は、モデル精度の導出的説明の台頭につながっている。 データポイントごとに、帰納的説明は結果を生成するのに十分な機能の最小限のサブセットを提供する。 理論上、健全で厳格な、誘惑的な説明は大きな問題に悩まされるが、同じデータポイントに対していくつかの有効な誘惑的な説明がある。 そのような場合、単一の帰納的説明を提供することは不十分であり、一方、有効な帰納的説明を提供することは、その大きさのため理解できない。 本研究では,この課題を,多量の帰納的説明を特徴量スコアに集約することで解決する。 本研究では,協調ゲーム理論のパワー指標に基づく2つの集計法と,既知の因果強度尺度に基づく3つの集計法を提案する。 これら3つの手法を公理的に特徴づけ、それぞれが一意に望ましい性質の集合を満たすことを示す。 また、複数のデータセット上で評価し、これらの説明がSHAPやLIMEを騙す攻撃に対して堅牢であることを示す。

The recent criticisms of the robustness of post hoc model approximation explanation methods (like LIME and SHAP) have led to the rise of model-precise abductive explanations. For each data point, abductive explanations provide a minimal subset of features that are sufficient to generate the outcome. While theoretically sound and rigorous, abductive explanations suffer from a major issue -- there can be several valid abductive explanations for the same data point. In such cases, providing a single abductive explanation can be insufficient; on the other hand, providing all valid abductive explanations can be incomprehensible due to their size. In this work, we solve this issue by aggregating the many possible abductive explanations into feature importance scores. We propose three aggregation methods: two based on power indices from cooperative game theory and a third based on a well-known measure of causal strength. We characterize these three methods axiomatically, showing that each of them uniquely satisfies a set of desirable properties. We also evaluate them on multiple datasets and show that these explanations are robust to the attacks that fool SHAP and LIME.
翻訳日:2023-10-08 11:00:27 公開日:2023-09-29
# ジャンクDNA仮説: 空間を通したLLM事前訓練重量のタスク中心角

Junk DNA Hypothesis: A Task-Centric Angle of LLM Pre-trained Weights through Sparsity ( http://arxiv.org/abs/2310.02277v1 )

ライセンス: Link先を確認
Lu Yin, Shiwei Liu, Ajay Jaiswal, Souvik Kundu, Zhangyang Wang(参考訳) ジャンクDNA」という伝統的な概念は、ヒトゲノム内の非コードセグメントと関連付けられており、その構成の約98%を構成している。 しかし、最近の研究では、機能しないように見えるDNA配列のいくつかが細胞プロセスで果たす重要な役割が明らかにされている。 興味深いことに、ディープニューラルネットワーク内の重みは人間の遺伝子に見られる冗長性と著しく類似している。 巨大なモデルの重量には過剰な冗長性が含まれており、性能を損なうことなく取り除くことができた。 本稿では, 説得力のある反論を提示することで, 従来の知見に挑戦する。 我々は、事前訓練された大言語モデル(LLM)において、低次重みのニュアンス重みを分離し、定量化するためのツールとして空間性を用いる。 本研究は,下流のタスク中心の角度から,これらの重さの大きさとカプセル化した知識との間に強い相関関係を示す。 我々は、我々の深い調査によって裏付けられた「ジャンクdna仮説」を提起する: 単純なタスクに「役に立たない」ように見えるが、より難しい下流タスクを解決するのに必要な重要な知識を実際にエンコードする。 これらの一見無意味な重みを取り除くことは、困難なタスクにおいて、忘れられない知識とパフォーマンスのダメージをもたらす。 これらの知見は、LLMがいかにしてタスクに敏感な方法で知識をエンコードするか、モデルプルーニングにおける将来の研究方向を舗装し、推論中のタスク認識条件計算のためのオープンな道を提供する。

The traditional notion of "Junk DNA" has long been linked to non-coding segments within the human genome, constituting roughly 98% of its composition. However, recent research has unveiled the critical roles some of these seemingly non-functional DNA sequences play in cellular processes. Intriguingly, the weights within deep neural networks exhibit a remarkable similarity to the redundancy observed in human genes. It was believed that weights in gigantic models contained excessive redundancy, and could be removed without compromising performance. This paper challenges this conventional wisdom by presenting a compelling counter-argument. We employ sparsity as a tool to isolate and quantify the nuanced significance of low-magnitude weights in pre-trained large language models (LLMs). Our study demonstrates a strong correlation between these weight magnitudes and the knowledge they encapsulate, from a downstream task-centric angle. we raise the "Junk DNA Hypothesis" backed by our in-depth investigation: while small-magnitude weights may appear "useless" for simple tasks and suitable for pruning, they actually encode crucial knowledge necessary for solving more difficult downstream tasks. Removing these seemingly insignificant weights can lead to irreversible knowledge forgetting and performance damage in difficult tasks. These findings offer fresh insights into how LLMs encode knowledge in a task-sensitive manner, pave future research direction in model pruning, and open avenues for task-aware conditional computation during inference.
翻訳日:2023-10-08 10:58:45 公開日:2023-09-29
# 過パラメータモデルにおける最小記述長複雑性の再検討

Revisiting minimum description length complexity in overparameterized models ( http://arxiv.org/abs/2006.10189v3 )

ライセンス: Link先を確認
Raaz Dwivedi, Chandan Singh, Bin Yu, Martin J. Wainwright(参考訳) 複雑性は、一般化性能の伝達を目的とした統計学習理論の基礎概念である。 パラメータカウントは低次元設定で成功したが、パラメータの数がトレーニングサンプルの数以上である場合、過度なパラメータ化設定には適していない。 我々は、リッサネンの最小記述長(MDL)の原理に基づく複雑性対策を再検討し、過パラメータ化モデルに有効な新しいMDLベースの複雑性(MDL-COMP)を定義する。 mdl-comp は good ridge estimator クラスによって引き起こされる符号化の最適性基準によって定義される。 線形モデルとカーネル法に対するmdl-compの広範な理論的特徴付けを行い,パラメータカウントの関数であるだけでなく,設計やカーネル行列の特異値や信号対雑音比の関数であることを示した。 n$ の観測値、$d$パラメータ、および i.i.d.ガウス予測値を持つ線形モデルの場合、mdl-comp は $d<n$ のとき$d$ で線形にスケールするが、スケーリングは指数関数的に小さく、$\log d$ は $d>n$ である。 カーネル法では,MDL-COMPがサンプル内誤差を最小化し,入力の次元が増加するにつれて減少することを示す。 また,MDL-COMP上界が平均二乗誤差(MSE)であることを示す。 データ駆動型Prac-MDL-COMPは、シミュレーションと実データ実験により、制限されたデータ設定でのリッジ回帰によるテストMSEの最適化、時にはクロスバリデーションや(常に)計算コストの削減のために、ハイパーパラメータチューニングを通知する。 最後に, 過パラメータモデルにおける最近観測された2重のまともな現象は, 非理想的推定者の選択の結果である可能性が示唆された。

Complexity is a fundamental concept underlying statistical learning theory that aims to inform generalization performance. Parameter count, while successful in low-dimensional settings, is not well-justified for overparameterized settings when the number of parameters is more than the number of training samples. We revisit complexity measures based on Rissanen's principle of minimum description length (MDL) and define a novel MDL-based complexity (MDL-COMP) that remains valid for overparameterized models. MDL-COMP is defined via an optimality criterion over the encodings induced by a good Ridge estimator class. We provide an extensive theoretical characterization of MDL-COMP for linear models and kernel methods and show that it is not just a function of parameter count, but rather a function of the singular values of the design or the kernel matrix and the signal-to-noise ratio. For a linear model with $n$ observations, $d$ parameters, and i.i.d. Gaussian predictors, MDL-COMP scales linearly with $d$ when $d<n$, but the scaling is exponentially smaller -- $\log d$ for $d>n$. For kernel methods, we show that MDL-COMP informs minimax in-sample error, and can decrease as the dimensionality of the input increases. We also prove that MDL-COMP upper bounds the in-sample mean squared error (MSE). Via an array of simulations and real-data experiments, we show that a data-driven Prac-MDL-COMP informs hyper-parameter tuning for optimizing test MSE with ridge regression in limited data settings, sometimes improving upon cross-validation and (always) saving computational costs. Finally, our findings also suggest that the recently observed double decent phenomenons in overparameterized models might be a consequence of the choice of non-ideal estimators.
翻訳日:2023-10-05 11:31:37 公開日:2023-09-29
# ADE Coxeter要素の機械学習クリフォード不変量

Machine Learning Clifford invariants of ADE Coxeter elements ( http://arxiv.org/abs/2310.00041v1 )

ライセンス: Link先を確認
Siqi Chen, Pierre-Philippe Dechant, Yang-Hui He, Elli Heyes, Edward Hirst, Dmitrii Riabchenko(参考訳) 近年、線型変換の新しいクリフォード幾何学的不変量への関心が高まっている。 これは、ルート系、反射群、リー群およびリー代数の文脈における興味の幾何変換のある種のある種の幾何学的変換に対するそのような不変量の研究を動機付ける:コクセター変換。 A_8$,$D_8$,$E_8$のすべてのコクセター変換に対して,単純な根の基底の選択に対して全演算を行い,その不変量を高速計算を用いて計算する。 この計算代数学のパラダイムは、教師なし機械学習や教師なし機械学習のようなデータサイエンスのテクニックを使ってマイニングできるデータセットを生成する。 本稿ではニューラルネットワークの分類と主成分分析に焦点をあてる。 出力 -- 不変量 -- は単純根の選択とコクセター要素の対応する反射の置換順序によって完全に決定されるので、写像において大きな退化を期待する。 これは機械学習に最適なセットアップを提供しており、実際にデータセットを非常に高い精度で機械学習することができる。 本論文は、クリフォード代数を用いた実験数学におけるポンププライミング研究であり、これらのクリフォード代数データセットが機械学習に適応可能であることを示し、これらの新奇な幾何学的不変量と他のよく知られた幾何学的不変量との関係を明らかにした。

There has been recent interest in novel Clifford geometric invariants of linear transformations. This motivates the investigation of such invariants for a certain type of geometric transformation of interest in the context of root systems, reflection groups, Lie groups and Lie algebras: the Coxeter transformations. We perform exhaustive calculations of all Coxeter transformations for $A_8$, $D_8$ and $E_8$ for a choice of basis of simple roots and compute their invariants, using high-performance computing. This computational algebra paradigm generates a dataset that can then be mined using techniques from data science such as supervised and unsupervised machine learning. In this paper we focus on neural network classification and principal component analysis. Since the output -- the invariants -- is fully determined by the choice of simple roots and the permutation order of the corresponding reflections in the Coxeter element, we expect huge degeneracy in the mapping. This provides the perfect setup for machine learning, and indeed we see that the datasets can be machine learned to very high accuracy. This paper is a pump-priming study in experimental mathematics using Clifford algebras, showing that such Clifford algebraic datasets are amenable to machine learning, and shedding light on relationships between these novel and other well-known geometric invariants and also giving rise to analytic results.
翻訳日:2023-10-05 07:03:40 公開日:2023-09-29
# Cleanba: 再現可能で効率的な分散強化学習プラットフォーム

Cleanba: A Reproducible and Efficient Distributed Reinforcement Learning Platform ( http://arxiv.org/abs/2310.00036v1 )

ライセンス: Link先を確認
Shengyi Huang, Jiayi Weng, Rujikorn Charakorn, Min Lin, Zhongwen Xu, Santiago Onta\~n\'on(参考訳) 分散深層強化学習(DRL)は、より多くの計算資源を活用して、訓練時間の少ない自律エージェントを訓練することを目的としている。 近年の進歩にもかかわらず、再現性の問題はまだ十分に検討されていない。 本稿では,ハイパーパラメータが制御されている場合でも,アクタ・リアナーフレームワークの再現性に問題があることを示す。 次に、高度に再現可能なアーキテクチャを提案する分散DRLのための新しいオープンソースプラットフォームであるCleanbaを紹介します。 Cleanbaは高度に最適化された分散PPOとIMPALAを実装している。 Atari実験により,これらの変種はモオリブおよびトルチビーストの強いIMPALAベースラインとクリーンRLのPPOベースラインより同等あるいは高いスコアが得られることが示された。 しかし クリーンバの変種は 1)訓練期間の短縮 2) 異なるハードウェア設定での再現性が高い学習曲線。 cleanbaのソースコードは \url{https://github.com/vwxyzjn/cleanba} で入手できる。

Distributed Deep Reinforcement Learning (DRL) aims to leverage more computational resources to train autonomous agents with less training time. Despite recent progress in the field, reproducibility issues have not been sufficiently explored. This paper first shows that the typical actor-learner framework can have reproducibility issues even if hyperparameters are controlled. We then introduce Cleanba, a new open-source platform for distributed DRL that proposes a highly reproducible architecture. Cleanba implements highly optimized distributed variants of PPO and IMPALA. Our Atari experiments show that these variants can obtain equivalent or higher scores than strong IMPALA baselines in moolib and torchbeast and PPO baseline in CleanRL. However, Cleanba variants present 1) shorter training time and 2) more reproducible learning curves in different hardware settings. Cleanba's source code is available at \url{https://github.com/vwxyzjn/cleanba}
翻訳日:2023-10-05 07:03:16 公開日:2023-09-29
# 大規模言語モデルの微調整のためのLoRAアンサンブル

LoRA ensembles for large language model fine-tuning ( http://arxiv.org/abs/2310.00035v1 )

ライセンス: Link先を確認
Xi Wang, Laurence Aitchison, Maja Rudolph(参考訳) 微調整LDMは不確実な定量化が不十分で、自信過剰、校正不良、テストデータやアウト・オブ・ディストリビューションのサンプルに対する信頼性の低い予測結果を示すことが多い。 この問題を緩和するためにビジョンでよく使われるアプローチはディープアンサンブルであり、異なるランダム初期化を用いて同じモデルを複数回訓練することでアンサンブルを構築する。 しかし、LLMをアンサンブルするには大きな課題があり、最も効果的なLLMは非常に大きい。 例えば 5 個の LLM のアンサンブルをメモリに保持することは、多くの設定では不可能である。 これらの問題に対処するために,パラメータ効率の良い微調整手法であるLoRA(Lo-Rank Adapters)を用いたアンサンブル手法を提案する。 これらの低ランクアダプタは非常に少数のパラメータを表しており、基礎となる事前学習モデルよりも桁違いに少ない。 したがって、オリジナルのモデルとほぼ同じ計算オーバーヘッドで、LoRAアダプタの大規模なアンサンブルを構築することができる。 LoRAアンサンブルは,既存の正則化技術上にのみ適用され,予測精度と不確実性の定量化に一貫した改善をもたらすことがわかった。

Finetuned LLMs often exhibit poor uncertainty quantification, manifesting as overconfidence, poor calibration, and unreliable prediction results on test data or out-of-distribution samples. One approach commonly used in vision for alleviating this issue is a deep ensemble, which constructs an ensemble by training the same model multiple times using different random initializations. However, there is a huge challenge to ensembling LLMs: the most effective LLMs are very, very large. Keeping a single LLM in memory is already challenging enough: keeping an ensemble of e.g. 5 LLMs in memory is impossible in many settings. To address these issues, we propose an ensemble approach using Low-Rank Adapters (LoRA), a parameter-efficient fine-tuning technique. Critically, these low-rank adapters represent a very small number of parameters, orders of magnitude less than the underlying pre-trained model. Thus, it is possible to construct large ensembles of LoRA adapters with almost the same computational overhead as using the original model. We find that LoRA ensembles, applied on its own or on top of pre-existing regularization techniques, gives consistent improvements in predictive accuracy and uncertainty quantification.
翻訳日:2023-10-05 07:03:02 公開日:2023-09-29
# pb-llm: 部分バイナリ化された大規模言語モデル

PB-LLM: Partially Binarized Large Language Models ( http://arxiv.org/abs/2310.00034v1 )

ライセンス: Link先を確認
Yuzhang Shang, Zhihang Yuan, Qiang Wu, Zhen Dong(参考訳) 本稿では、量子化の急進的な形式であるネットワークバイナライゼーションについて検討し、特にLLM(Large Language Models)圧縮のためのモデル重みを1ビットに圧縮する。 そこで本研究では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partially-Binarized LLM)を提案する。 特に,本研究は,既存の2値化アルゴリズムの非効率性を明らかにし,低ビット量子化を達成する上での有意な重みの意義を強調した。 したがって、PB-LLMはバイナライゼーション中に少量のサリエント重みをフィルターし、高ビットストレージ、すなわち部分二値化に割り当てる。 PB-LLMは、後トレーニング量子化(PTQ)と量子化対応トレーニング(QAT)の観点から分析することにより、量子化LMMの容量を回復するために拡張される。 PTQの下では、GPTQの概念を組み合わせることで、ヘッセン行列によって導かれる二項化重み行列を再構築し、低ビットでのPB-LLMの推論能力の回復に成功した。 qatでは,トレーニング中に塩分重みを凍結し,量子化誤差の最小化に必須な最適スケーリング因子の導出を探索し,残留二元化重みに対するこの派生スケーリング戦略に基づくスケーリング機構を提案する。 これらの探索と開発手法は,低ビット量子化LDMの性能回復に大きく貢献し,LLMのネットワークバイナライゼーション分野における大幅な進歩をもたらし,そのコードはhttps://github.com/hahnyuan/BinaryLLMで公開されている。

This paper explores network binarization, a radical form of quantization, compressing model weights to a single bit, specifically for Large Language Models (LLMs) compression. Due to previous binarization methods collapsing LLMs, we propose a novel approach, Partially-Binarized LLM (PB-LLM), which can achieve extreme low-bit quantization while maintaining the linguistic reasoning capacity of quantized LLMs. Specifically, our exploration first uncovers the ineffectiveness of naive applications of existing binarization algorithms and highlights the imperative role of salient weights in achieving low-bit quantization. Thus, PB-LLM filters a small ratio of salient weights during binarization, allocating them to higher-bit storage, i.e., partially-binarization. PB-LLM is extended to recover the capacities of quantized LMMs, by analyzing from the perspective of post-training quantization (PTQ) and quantization-aware training (QAT). Under PTQ, combining the concepts from GPTQ, we reconstruct the binarized weight matrix guided by the Hessian matrix and successfully recover the reasoning capacity of PB-LLM in low-bit. Under QAT, we freeze the salient weights during training, explore the derivation of optimal scaling factors crucial for minimizing the quantization error, and propose a scaling mechanism based on this derived scaling strategy for residual binarized weights. Those explorations and the developed methodologies significantly contribute to rejuvenating the performance of low-bit quantized LLMs and present substantial advancements in the field of network binarization for LLMs.The code is available at https://github.com/hahnyuan/BinaryLLM.
翻訳日:2023-10-05 07:02:40 公開日:2023-09-29
# 拡散に基づく知覚のためのテキスト画像アライメント

Text-image Alignment for Diffusion-based Perception ( http://arxiv.org/abs/2310.00031v1 )

ライセンス: Link先を確認
Neehar Kondapaneni, Markus Marks, Manuel Knott, Rog\'erio Guimar\~aes, Pietro Perona(参考訳) 拡散モデルは、印象的なテキストから画像への合成能力を持つ生成モデルであり、古典的な機械学習タスクのための新しい創造的手法の波を促した。 しかし、これらの生成モデルの知覚的知識を視覚タスクに活用する最善の方法は、まだ未解決の問題である。 具体的には、視覚タスクに拡散バックボーンを適用する場合のプロンプトインターフェースの使い方は明らかでない。 自動生成されたキャプションはテキスト画像のアライメントを改善し、モデルのクロスアテンションマップを大幅に向上させることで、知覚性能が向上することがわかった。 ADE20Kの拡散に基づくセマンティックセグメンテーションにおける現在のSOTAとNYUv2の深さ推定における現在のSOTAを改善する。 さらに、モデルパーソナライズとキャプション修正を用いて、モデルを対象領域に整列させ、不整合ベースラインよりも改善を見出す。 我々の物体検出モデルはPascal VOCで訓練され、Watercolor2K上でSOTA結果が得られる。 都市景観を訓練したセグメンテーション手法は,暗いチューリッヒバルと夜間運転でsota結果を得る。

Diffusion models are generative models with impressive text-to-image synthesis capabilities and have spurred a new wave of creative methods for classical machine learning tasks. However, the best way to harness the perceptual knowledge of these generative models for visual tasks is still an open question. Specifically, it is unclear how to use the prompting interface when applying diffusion backbones to vision tasks. We find that automatically generated captions can improve text-image alignment and significantly enhance a model's cross-attention maps, leading to better perceptual performance. Our approach improves upon the current SOTA in diffusion-based semantic segmentation on ADE20K and the current overall SOTA in depth estimation on NYUv2. Furthermore, our method generalizes to the cross-domain setting; we use model personalization and caption modifications to align our model to the target domain and find improvements over unaligned baselines. Our object detection model, trained on Pascal VOC, achieves SOTA results on Watercolor2K. Our segmentation method, trained on Cityscapes, achieves SOTA results on Dark Zurich-val and Nighttime Driving.
翻訳日:2023-10-05 07:02:07 公開日:2023-09-29
# 自律走行車評価のための人間のリスク認知を組み込んだ対人運転行動生成

Adversarial Driving Behavior Generation Incorporating Human Risk Cognition for Autonomous Vehicle Evaluation ( http://arxiv.org/abs/2310.00029v1 )

ライセンス: Link先を確認
Zhen Liu, Hang Gao, Hao Ma, Shuo Cai, Yunfeng Hu, Ting Qu, Hong Chen, Xun Gong(参考訳) 自律走行車(AV)の評価は近年,産業とアカデミックの両方において関心が高まっている。 本稿では,AVに対して干渉する背景車両の対向運転行動を生成し,効果的かつ合理的な危険事象を明らかにする新しい枠組みの開発に焦点をあてる。 具体的には、人間のリスク認知の表現を可能にする累積予測理論(CPT)を組み込んだ強化学習(RL)アプローチによって、敵対行動が学習される。 次に, CPT アクション値関数の活用によるトレーニング安定性を確保しつつ, 対角政策の訓練にDDPG(Deep Deterministic Policy gradient)法の拡張版を提案する。 高忠実度ハードウェア・イン・ザ・ループ(hil)プラットフォーム上で,カットインシナリオに関する比較ケーススタディを行い,テストavの弱さを推定する逆効果を示す。

Autonomous vehicle (AV) evaluation has been the subject of increased interest in recent years both in industry and in academia. This paper focuses on the development of a novel framework for generating adversarial driving behavior of background vehicle interfering against the AV to expose effective and rational risky events. Specifically, the adversarial behavior is learned by a reinforcement learning (RL) approach incorporated with the cumulative prospect theory (CPT) which allows representation of human risk cognition. Then, the extended version of deep deterministic policy gradient (DDPG) technique is proposed for training the adversarial policy while ensuring training stability as the CPT action-value function is leveraged. A comparative case study regarding the cut-in scenario is conducted on a high fidelity Hardware-in-the-Loop (HiL) platform and the results demonstrate the adversarial effectiveness to infer the weakness of the tested AV.
翻訳日:2023-10-05 07:01:47 公開日:2023-09-29
# ラベルなしのドメイン外データによる一般化改善

Unlabeled Out-Of-Domain Data Improves Generalization ( http://arxiv.org/abs/2310.00027v1 )

ライセンス: Link先を確認
Amir Hossein Saberi, Amir Najafi, Alireza Heidari, Mohammad Hosein Movasaghinia, Abolfazl Motahari, Babak H. Khalaj(参考訳) 我々は,ラベルなしデータを半教師付き分類問題に組み込むための新しい枠組みを提案する。 一 反対に頑丈であること、又は 二 非ロバスト損失関数が検討されていること。 特筆すべきは、ラベルのないサンプルがドメイン内分布からわずかに(完全な変動意味で)外れることである。 私たちのフレームワークの中核となる考え方は、分散ロバスト最適化(DRO)と自己教師型トレーニングを組み合わせることです。 また,学習段階における効率的な多項式時間アルゴリズムも活用する。 理論的な観点からは、2つのガウスの混合である$\mathbb{r}^d$ の分類問題に適用し、真の分布からの$m$独立かつラベル付きサンプルに加えて、ドメイン外から$n$(通常$n\gg m$)のセットとラベル付きサンプルもgievnである。 ラベル付きデータのみを用いることで、一般化誤差は$\propto\left(d/m\right)^{1/2}$で境界付けられることが知られている。 しかし, 等方性および非等方性ガウス混合モデルを用いて, 解析的に明示的かつ非漸近的境界の集合を導出し, ermと比較して一般化誤差を大幅に改善できることを示した。 私たちの結果は2つの重要な洞察を裏付けています。 1) 真のデータ分布が"クラスタ仮定"の形式に準拠している場合,ラベルなしであっても,領域外サンプルは一般化ギャップを狭めるために利用することができる。 2) 半教師付き学習パラダイムは, 分散シフトがない場合に, フレームワークの特別なケースとみなすことができる。 我々は,様々な合成データと実世界のデータセットで実施した実験を通じて,クレームを検証する。

We propose a novel framework for incorporating unlabeled data into semi-supervised classification problems, where scenarios involving the minimization of either i) adversarially robust or ii) non-robust loss functions have been considered. Notably, we allow the unlabeled samples to deviate slightly (in total variation sense) from the in-domain distribution. The core idea behind our framework is to combine Distributionally Robust Optimization (DRO) with self-supervised training. As a result, we also leverage efficient polynomial-time algorithms for the training stage. From a theoretical standpoint, we apply our framework on the classification problem of a mixture of two Gaussians in $\mathbb{R}^d$, where in addition to the $m$ independent and labeled samples from the true distribution, a set of $n$ (usually with $n\gg m$) out of domain and unlabeled samples are gievn as well. Using only the labeled data, it is known that the generalization error can be bounded by $\propto\left(d/m\right)^{1/2}$. However, using our method on both isotropic and non-isotropic Gaussian mixture models, one can derive a new set of analytically explicit and non-asymptotic bounds which show substantial improvement on the generalization error compared ERM. Our results underscore two significant insights: 1) out-of-domain samples, even when unlabeled, can be harnessed to narrow the generalization gap, provided that the true data distribution adheres to a form of the "cluster assumption", and 2) the semi-supervised learning paradigm can be regarded as a special case of our framework when there are no distributional shifts. We validate our claims through experiments conducted on a variety of synthetic and real-world datasets.
翻訳日:2023-10-05 07:01:31 公開日:2023-09-29
# voice2action: バーチャルリアリティにおける効率的なリアルタイムインタラクションのエージェントとしての言語モデル

Voice2Action: Language Models as Agent for Efficient Real-Time Interaction in Virtual Reality ( http://arxiv.org/abs/2310.00092v1 )

ライセンス: Link先を確認
Yang Su(参考訳) 大規模言語モデル(LLM)は、少数の例で自然言語命令に従うように訓練され整列され、さまざまな実行環境のソースに適応するためにタスク駆動の自律エージェントとして促される。 しかし、オンラインインタラクションにおける効率の欠如と3D環境における複雑な操作カテゴリのため、エージェントLLMを仮想現実(VR)にデプロイすることは困難である。 本研究では,音声信号とテキストコマンドをアクションやエンティティ抽出を通じて階層的に分析し,環境フィードバックからのエラー防止とともに,実行タスクを標準対話サブセットに分割するフレームワークであるVoice2Actionを提案する。 実験の結果、合成命令データを持つ都市工学vr環境において、voice2actionは最適化なしでのアプローチよりも効率的かつ正確に動作できることが示されている。

Large Language Models (LLMs) are trained and aligned to follow natural language instructions with only a handful of examples, and they are prompted as task-driven autonomous agents to adapt to various sources of execution environments. However, deploying agent LLMs in virtual reality (VR) has been challenging due to the lack of efficiency in online interactions and the complex manipulation categories in 3D environments. In this work, we propose Voice2Action, a framework that hierarchically analyzes customized voice signals and textual commands through action and entity extraction and divides the execution tasks into canonical interaction subsets in real-time with error prevention from environment feedback. Experiment results in an urban engineering VR environment with synthetic instruction data show that Voice2Action can perform more efficiently and accurately than approaches without optimizations.
翻訳日:2023-10-05 06:55:26 公開日:2023-09-29
# fpgaによるオープンソースソフトウェアパッケージpyrplを用いた量子光学実験のフィードバック制御

FPGA-based feedback control of quantum optics experiments with the open source software package PyRPL ( http://arxiv.org/abs/2310.00086v1 )

ライセンス: Link先を確認
Leonhard Neuhaus, Micha\"el Croquette, R\'emi Metzdorff, Sheon Chua, Pierre-Edouard Jacquet, Alexandre Journeaux, Antoine Heidmann, Tristan Briant, Thibaut Jacqmin, Pierre-Fran\c{c}ois Cohadon, Samuel Del\'eglise(参考訳) PyRPLは,市販の安価なFPGA基板上で,量子光学実験のための自動デジタルフィードバックコントローラの実装を可能にする,オープンソースのソフトウェアパッケージである。 本ソフトウェアは,共振器探索,ロック取得シーケンス,ループ内ゲイン最適化など,複数のアナログ出力信号に対する高複雑性ループフィルタの適用によるアナログ入力からリアルタイムゲイン調整に至るまで,様々な種類のエラー信号のディジタル生成を実装している。 さらに,オシロスコープ,ネットワークアナライザ,スペクトルアナライザなどの診断機器をソフトウェアに統合した。 高速でスケーラブルな自動フィードバックコントローラを提供する以外に、PyRPLを圧電トランスデューサやノイズアンプなどの不完全な機器で使用することで実現できるロック性能は、実装可能なフィルタの複雑さとFPGAにおける非線形操作の可能性のため、標準的なアナログコントローラで実現できるものよりも優れている。 これにより、実験に追加のフィードバックループを導入する際の複雑さの増加のコストが劇的に削減される。 オープンソースのキャラクタはpyrplと商用ソリューションを区別する。pyrplベースのフィードバックコントローラから既存のセットアップへの簡単な統合からfpga機能の修正まで、さまざまなレベルで機能をカスタマイズできる。 開発者のコミュニティは、ソフトウェア修正の迅速かつ効率的な実装とテストを提供します。

We present PyRPL, an open source software package that allows the implementation of automatic digital feedback controllers for quantum optics experiments on commercially available, affordable FPGA boards. Our software implements the digital generation of various types of error signals, from an analog input through the application of loop filters of high complexity and real-time gain adjustment for multiple analog output signals, including different algorithms for resonance search, lock acquisition sequences and in-loop gain optimization. Furthermore, all necessary diagnostic instruments such as an oscilloscope, a network analyzer and a spectrum analyzer are integrated into our software. Apart from providing a quickly scalable, automatic feedback controller, the lock performance that can be achieved by using PyRPL with imperfect equipment such as piezoelectric transducers and noisy amplifiers is better than the one achievable with standard analog controllers due to the higher complexity of implementable filters and possibilities of nonlinear operations in the FPGA. This drastically reduces the cost of added complexity when introducing additional feedback loops to an experiment. The open-source character also distinguishes PyRPL from commercial solutions, as it allows users to customize functionalities at various levels, ranging from the easy integration of PyRPL-based feedback controllers into existing setups to the modification of the FPGA functionality. A community of developers provides fast and efficient implementation and testing of software modifications.
翻訳日:2023-10-05 06:55:10 公開日:2023-09-29
# BBOBとOpenAIを用いた低予算ブラックボックス最適化アルゴリズム

Low-budget Black-box Optimization Algorithms Evaluated on BBOB and OpenAI Gym ( http://arxiv.org/abs/2310.00077v1 )

ライセンス: Link先を確認
Elena Raponi, Nathanael Rakotonirina Carraz, J\'er\'emy Rapin, Carola Doerr, Olivier Teytaud(参考訳) 機械学習(ML)の普及により、ブラックボックス最適化(BBO)など、コンピュータ科学の様々な分野に参入するようになった。 近年の研究は特にベイズ最適化(BO)に関係している。 BOベースのアルゴリズムは、ハイパーパラメータ最適化やより一般的にアルゴリズム構成に使用されるため、MLコミュニティで人気がある。 しかし,問題の次元性や評価予算が増加するにつれて,効率は低下する。 一方、デリバティブフリー最適化手法は、最適化コミュニティにおいて独立して進化してきた。 そこで我々は,ML と BBO の2つのコミュニティ間の交配可能かどうか,すなわちML で多用されているアルゴリズムが BBO でも有効か,その逆かを理解することを望む。 比較実験は、しばしば比較的小さなベンチマークを伴い、ベースラインの初期化の低さ、問題固有のハイパーパラメータの設定による過度な適合、統計的重要性の低さなど、実験的な設定において目に見える問題を示す。 本稿では,2013年にhutterらによって発表された比較研究の更新と拡張を行う。 まず、coco環境から有名なbbobベンチマークスイート、次に強化学習ベンチマークであるopenai gymの直接ポリシー検索について、bbo tools for mlとより古典的なヒューリスティックスを比較した。 提案手法は,予算が限られている場合と,計算コストが高い場合と,評価予算が大きくなる場合と,他の家庭のアルゴリズムに比較して,両ベンチマークで良好に動作することが確認された。 また、BBOコミュニティのアルゴリズムがMLタスクで驚くほどうまく機能していることも示している。

The growing ubiquity of machine learning (ML) has led it to enter various areas of computer science, including black-box optimization (BBO). Recent research is particularly concerned with Bayesian optimization (BO). BO-based algorithms are popular in the ML community, as they are used for hyperparameter optimization and more generally for algorithm configuration. However, their efficiency decreases as the dimensionality of the problem and the budget of evaluations increase. Meanwhile, derivative-free optimization methods have evolved independently in the optimization community. Therefore, we urge to understand whether cross-fertilization is possible between the two communities, ML and BBO, i.e., whether algorithms that are heavily used in ML also work well in BBO and vice versa. Comparative experiments often involve rather small benchmarks and show visible problems in the experimental setup, such as poor initialization of baselines, overfitting due to problem-specific setting of hyperparameters, and low statistical significance. With this paper, we update and extend a comparative study presented by Hutter et al. in 2013. We compare BBO tools for ML with more classical heuristics, first on the well-known BBOB benchmark suite from the COCO environment and then on Direct Policy Search for OpenAI Gym, a reinforcement learning benchmark. Our results confirm that BO-based optimizers perform well on both benchmarks when budgets are limited, albeit with a higher computational cost, while they are often outperformed by algorithms from other families when the evaluation budget becomes larger. We also show that some algorithms from the BBO community perform surprisingly well on ML tasks.
翻訳日:2023-10-05 06:54:46 公開日:2023-09-29
# AI画像検出器のロバスト性:基本限界と実用的攻撃

Robustness of AI-Image Detectors: Fundamental Limits and Practical Attacks ( http://arxiv.org/abs/2310.00076v1 )

ライセンス: Link先を確認
Mehrdad Saberi, Vinu Sankar Sadasivan, Keivan Rezaei, Aounon Kumar, Atoosa Chegini, Wenxiao Wang, Soheil Feizi(参考訳) 生成型AIモデルの最近の進歩を踏まえると、偽物の悪用を防ぐために、真偽のコンテンツをAI生成したものと区別することが不可欠になっている。 AI生成画像の識別には様々な技術が導入されており、透かしは有望なアプローチとして現れている。 本稿では,透かしや分類器を用いたディープフェイク検出器を含むAI画像検出器の堅牢性について解析する。 微妙な画像摂動を導入する透かし法(低摂動予算法)では、拡散浄化攻撃の適用により、回避誤差率(非透かし画像として検出される透かし画像の割合)と偽造誤差率(非透かし画像として検出される非透かし画像の割合)の基本的なトレードオフを明らかにする。 また,拡散浄化は画像の変化を最小限に抑えた透かしを効果的に除去することを示した。 画像に顕著な変化が適用される高摂動透かし法では、拡散浄化攻撃は効果がない。 本稿では,透かしの除去に成功したモデル置換逆行攻撃を開発する。 また,ウォーターマーキング手法は,攻撃者が実際の画像(潜在的に強迫観念)を透かし、開発者の評判を損なうような攻撃に対して脆弱であることを示す。 特に、ブラックボックスでウォーターマーキング方法にアクセスするだけで、実際の画像に追加可能なウォーターマーキングノイズ画像を生成して、誤ってウォーターマーキング画像としてフラグを付けることができることを示す。 最後に,分類器に基づくディープフェイク検出器のロバスト性と信頼性との根本的なトレードオフを特徴付けるために理論を拡張し,実験により実証する。

In light of recent advancements in generative AI models, it has become essential to distinguish genuine content from AI-generated one to prevent the malicious usage of fake materials as authentic ones and vice versa. Various techniques have been introduced for identifying AI-generated images, with watermarking emerging as a promising approach. In this paper, we analyze the robustness of various AI-image detectors including watermarking and classifier-based deepfake detectors. For watermarking methods that introduce subtle image perturbations (i.e., low perturbation budget methods), we reveal a fundamental trade-off between the evasion error rate (i.e., the fraction of watermarked images detected as non-watermarked ones) and the spoofing error rate (i.e., the fraction of non-watermarked images detected as watermarked ones) upon an application of a diffusion purification attack. In this regime, we also empirically show that diffusion purification effectively removes watermarks with minimal changes to images. For high perturbation watermarking methods where notable changes are applied to images, the diffusion purification attack is not effective. In this case, we develop a model substitution adversarial attack that can successfully remove watermarks. Moreover, we show that watermarking methods are vulnerable to spoofing attacks where the attacker aims to have real images (potentially obscene) identified as watermarked ones, damaging the reputation of the developers. In particular, by just having black-box access to the watermarking method, we show that one can generate a watermarked noise image which can be added to the real images to have them falsely flagged as watermarked ones. Finally, we extend our theory to characterize a fundamental trade-off between the robustness and reliability of classifier-based deep fake detectors and demonstrate it through experiments.
翻訳日:2023-10-05 06:54:17 公開日:2023-09-29
# SocREval: 参照レス推論評価のためのソクラティック手法による大規模言語モデル

SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation ( http://arxiv.org/abs/2310.00074v1 )

ライセンス: Link先を確認
Hangfeng He, Hongming Zhang, Dan Roth(参考訳) 複雑な推論のための現在のモデルのキャパシティを包括的に評価するには,そのステップバイステップ推論をスケーラブルに評価することが重要である。 確立された参照ベースの評価指標は、モデルから派生した連鎖を評価するために人間の注釈付き推論チェーンに依存する。 しかし、そのような「ゴールドスタンダード」の人間による推論連鎖はユニークではなく、その買収はしばしば労働集約的である。 既存の参照フリー推論メトリクスは、人造推論チェーンを参照として必要としないが、通常、人間由来の推論チェーンを持つデータセットを微調整する必要がある。 これらの課題に対処するため,我々はGPT-4を用いて推論の連鎖品質を自動評価し,人為的参照の必要性を回避した。 ソクラテス法を利用して,ソクラテス法(ソクラテス法,ソクラテス法,ソクラテス法,ソクラテス法,ソクラテス法,ソクラシー法)と呼ばれる,参照のない推論評価を強化するためのプロンプトを考案した。 4つのアノテートデータセットによる実験結果から、SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っていることが明らかになった。 提案するフレームワークである, socratic 法を用いた大規模言語モデル (llms) は, 提案手法の有効性に加えて, コスト効率が向上し, 文章作成とサンプル選択が容易であることが証明された。

To comprehensively assess the capacity of current models for complex reasoning, it is crucial to assess their step-by-step reasoning in a scalable manner. Established reference-based evaluation metrics rely on human-annotated reasoning chains to assess the model-derived chains. However, such ``gold-standard'' human-written reasoning chains may not be unique and their acquisition is often labor-intensive. Existing reference-free reasoning metrics eliminate the need for human-crafted reasoning chains as references, but they typically require fine-tuning on datasets with human-derived reasoning chains, which complicates the process and raises concerns regarding generalizability across diverse datasets. To address these challenges, we harness GPT-4 to automatically evaluate reasoning chain quality, obviating the need for human-crafted references. Leveraging the Socratic method, we devise tailored prompts to enhance reference-free reasoning evaluation, which we term SocREval (Socratic method for Reasoning Evaluation). Empirical results from four human annotated datasets reveal that SocREval significantly improves GPT-4's performance, surpassing existing reference-free and reference-based reasoning evaluation metrics. Beyond its demonstrated efficacy, our proposed framework, large language models (LLMs) with the Socratic method, proves to be both cost-efficient and robust to prompt writing and example selection, as substantiated by our in-depth analysis.
翻訳日:2023-10-05 06:53:40 公開日:2023-09-29
# 会話におけるリアルリスナー動作シミュレーション

Emotional Listener Portrait: Realistic Listener Motion Simulation in Conversation ( http://arxiv.org/abs/2310.00068v1 )

ライセンス: Link先を確認
Luchuan Song, Guojun Yin, Zhenchao Jin, Xiaoyi Dong, Chenliang Xu(参考訳) リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動(例えば笑顔)を生成することに集中する。 このような反応を生成する際の大きな課題は、会話中の細かい表情の非決定論的性質であり、話者と聞き手の感情や態度によって異なる。 この問題に対処するために,各微粒な顔の動きを複数の離散的な動きコーデワードの合成として扱い,会話中の異なる感情下での動作の確率分布を明示的にモデル化する感情リスナーポートレート(ELP)を提案する。 ELPモデルは, 学習分布からのサンプリングにより, 与えられた話者に対する自然な, 多様な応答を自動的に生成するだけでなく, 所定の姿勢で制御可能な応答を生成することができる。 いくつかの定量的指標では,これまでの方法と比較して,elpは大幅に改善されている。

Listener head generation centers on generating non-verbal behaviors (e.g., smile) of a listener in reference to the information delivered by a speaker. A significant challenge when generating such responses is the non-deterministic nature of fine-grained facial expressions during a conversation, which varies depending on the emotions and attitudes of both the speaker and the listener. To tackle this problem, we propose the Emotional Listener Portrait (ELP), which treats each fine-grained facial motion as a composition of several discrete motion-codewords and explicitly models the probability distribution of the motions under different emotion in conversation. Benefiting from the ``explicit'' and ``discrete'' design, our ELP model can not only automatically generate natural and diverse responses toward a given speaker via sampling from the learned distribution but also generate controllable responses with a predetermined attitude. Under several quantitative metrics, our ELP exhibits significant improvements compared to previous methods.
翻訳日:2023-10-05 06:53:12 公開日:2023-09-29
# 相転移材料を用いたワンショット学習のための時間的クレジット割り当て

Temporal credit assignment for one-shot learning utilizing a phase transition material ( http://arxiv.org/abs/2310.00066v1 )

ライセンス: Link先を確認
Alessandro R. Galloni, Yifan Yuan, Minning Zhu, Haoming Yu, Ravindra S. Bisht, Chung-Tse Michael Wu, Christine Grienberger, Shriram Ramanathan and Aaron D. Milstein(参考訳) 神経計算と脳の可塑性の生物学的原理に基づくハードウェアの設計は、エネルギー効率とサンプル効率のよい人工知能と学習マシンを実現するための主要なアプローチである。 ハードウェアビルディングブロックの選択において重要な要素は、大きなダイナミックレンジと様々な時間スケールのニューロンシグナルをエミュレートするのに適する物理特性を持つ候補物質の同定である。 これまでの研究では、ニューロンのオール・オ・ノンスパイク挙動は、相転移を利用したしきい値スイッチによって模倣できることが示されている。 本稿では,原型金属-絶縁体-遷移物質である二酸化バナジウム(vo2)に基づくデバイスが,中間抵抗状態の連続体にアクセスするために動的に制御できることを実証する。 さらに、それらの内在緩和の時間スケールは、ミリ秒から秒までの生物学的に関連する時間スケールに適合するように構成することができる。 これらのデバイス特性を利用して、ニューロンのアナログ計算の3つの側面をエミュレートする: 高速(~1ms)、低速(〜100ms)、低速(〜100ms)の樹状体(樹状体)のスパイク、そして最近発見されたワンショット学習の生物学的メカニズムのための時間的クレジット割り当てに関与する超低(1s)生化学的シグナル。 シミュレーションにより、VO2デバイスの特性を用いて空間環境をナビゲートするエージェントを制御する人工ニューラルネットワークは、標準的な方法よりも最大4倍少ない試行で報酬への効率的な経路を学習できることが示されている。 本研究で記述した相緩和は, 様々な材料で構築され, 熱, 電気, 光刺激によって制御され, 生物学習をエミュレートするさらなる機会が示唆された。

Design of hardware based on biological principles of neuronal computation and plasticity in the brain is a leading approach to realizing energy- and sample-efficient artificial intelligence and learning machines. An important factor in selection of the hardware building blocks is the identification of candidate materials with physical properties suitable to emulate the large dynamic ranges and varied timescales of neuronal signaling. Previous work has shown that the all-or-none spiking behavior of neurons can be mimicked by threshold switches utilizing phase transitions. Here we demonstrate that devices based on a prototypical metal-insulator-transition material, vanadium dioxide (VO2), can be dynamically controlled to access a continuum of intermediate resistance states. Furthermore, the timescale of their intrinsic relaxation can be configured to match a range of biologically-relevant timescales from milliseconds to seconds. We exploit these device properties to emulate three aspects of neuronal analog computation: fast (~1 ms) spiking in a neuronal soma compartment, slow (~100 ms) spiking in a dendritic compartment, and ultraslow (~1 s) biochemical signaling involved in temporal credit assignment for a recently discovered biological mechanism of one-shot learning. Simulations show that an artificial neural network using properties of VO2 devices to control an agent navigating a spatial environment can learn an efficient path to a reward in up to 4 fold fewer trials than standard methods. The phase relaxations described in our study may be engineered in a variety of materials, and can be controlled by thermal, electrical, or optical stimuli, suggesting further opportunities to emulate biological learning.
翻訳日:2023-10-05 06:52:49 公開日:2023-09-29
# 準円、回転、不要な二元ブラックホール融合の高次重力波モードの信号検出のためのAIアンサンブル

AI ensemble for signal detection of higher order gravitational wave modes of quasi-circular, spinning, non-precessing binary black hole mergers ( http://arxiv.org/abs/2310.00052v1 )

ライセンス: Link先を確認
Minyang Tian, E. A. Huerta, Huihuo Zheng(参考訳) 本稿では,2つのligo検出器とadvanced virgo検出器からのデータを同時処理する時空間グラフモデルを提案する。 これらのai分類器を、準円周、スピン、非予備の2値ブラックホールの和を成分質量の$m_{\{1,2\}}\in[3m_\odot, 50m_\odot]$で記述する2.4m \texttt{imrphenomxphm}波形で訓練し、個々のスピンが$s^z_{\{1,2\}}\in[-0.9, 0.9]$; その中には$(\ell, |m|) = \{(2, 2), (2, 1), (3, 3), (3, 4)\} のモードと$\ell = 3, |m| = 2$ のモード混合効果が含まれている。 Summitスーパーコンピュータで96個のNVIDIA V100 GPUを分散トレーニングして、これらのAI分類器を22時間以内にトレーニングしました。 次に、トランスファーラーニングを使用して、アンサンブル内のすべてのAI分類器によって特定される潜在的な二元ブラックホールの総質量を推定するAI予測器を作成しました。 私たちはこのアンサンブル、3つのAI分類器と2つの予測器を使って、30万の信号を注入する1年間のテストセットを処理しました。 この1年にわたるテストセットは、Polarisスーパーコンピュータ(AI推論用)の1024 NVIDIA A100 GPUと、Argonne Leadership Supercomputing Facilityに格納されているThetaKNLスーパーコンピュータの128のCPUノードを使用して5.19分以内に処理された。 これらの研究は、我々のAIアンサンブルが最先端の信号検出精度を提供し、検索データの年間2つの誤分類を報告していることを示している。 これは、高次の重力波モード信号を探し、見つけるために設計された最初のAIアンサンブルである。

We introduce spatiotemporal-graph models that concurrently process data from the twin advanced LIGO detectors and the advanced Virgo detector. We trained these AI classifiers with 2.4 million \texttt{IMRPhenomXPHM} waveforms that describe quasi-circular, spinning, non-precessing binary black hole mergers with component masses $m_{\{1,2\}}\in[3M_\odot, 50 M_\odot]$, and individual spins $s^z_{\{1,2\}}\in[-0.9, 0.9]$; and which include the $(\ell, |m|) = \{(2, 2), (2, 1), (3, 3), (3, 2), (4, 4)\}$ modes, and mode mixing effects in the $\ell = 3, |m| = 2$ harmonics. We trained these AI classifiers within 22 hours using distributed training over 96 NVIDIA V100 GPUs in the Summit supercomputer. We then used transfer learning to create AI predictors that estimate the total mass of potential binary black holes identified by all AI classifiers in the ensemble. We used this ensemble, 3 AI classifiers and 2 predictors, to process a year-long test set in which we injected 300,000 signals. This year-long test set was processed within 5.19 minutes using 1024 NVIDIA A100 GPUs in the Polaris supercomputer (for AI inference) and 128 CPU nodes in the ThetaKNL supercomputer (for post-processing of noise triggers), housed at the Argonne Leadership Supercomputing Facility. These studies indicate that our AI ensemble provides state-of-the-art signal detection accuracy, and reports 2 misclassifications for every year of searched data. This is the first AI ensemble designed to search for and find higher order gravitational wave mode signals.
翻訳日:2023-10-05 06:52:15 公開日:2023-09-29
# フローマッチングと拡散を考慮したエピック高速粒子雲生成

EPiC-ly Fast Particle Cloud Generation with Flow-Matching and Diffusion ( http://arxiv.org/abs/2310.00049v1 )

ライセンス: Link先を確認
Erik Buhmann, Cedric Ewen, Darius A. Faroughy, Tobias Golling, Gregor Kasieczka, Matthew Leigh, Guillaume Qu\'etant, John Andrew Raine, Debajyoti Sengupta, David Shih(参考訳) LHCのジェットは、典型的には多数の高相関粒子から構成され、深層生成モデルのための魅力的な実験室である。 本稿では,LHCジェットを点雲として効率的に高精度に生成する2つの新しい手法を提案する。 本稿では,スコアマッチング拡散モデルと深層集合フレームワークに基づくEquivariant Point Cloud (EPiC) アーキテクチャを併用した 'epcjedi' を紹介する。 このモデルは、生成したジェットの品質を低下させることなく、従来のトランスフォーマーベースの拡散モデルよりもはるかに高速に代替する。 さらに,粒子雲生成のための最初の置換同変連続正規化流 (cnf) である \epcfm を導入する。 このモデルは、データ分布に先立ってガウスノイズを接続するベクトル場を直接回帰する最適輸送に基づいて、スケーラブルで訓練が容易な目標である {\it flow-matching} を用いて訓練される。 我々の実験は、高速な生成速度を維持しながら、トップクォークJetNetデータセット上で、 \epcjedi と \epcfm が最先端のパフォーマンスを達成することを示した。 最も顕著なことに、 \epcfm モデルはすべての計量で考慮された他の生成モデルよりも一貫して優れている。 最後に,2つの新しいパーティクルクラウド性能指標を紹介した。まず,特徴分布間のKulback-Leibler分散に基づいて,第2はマルチモデルParticleNet分類器の負のログポストである。

Jets at the LHC, typically consisting of a large number of highly correlated particles, are a fascinating laboratory for deep generative modeling. In this paper, we present two novel methods that generate LHC jets as point clouds efficiently and accurately. We introduce \epcjedi, which combines score-matching diffusion models with the Equivariant Point Cloud (EPiC) architecture based on the deep sets framework. This model offers a much faster alternative to previous transformer-based diffusion models without reducing the quality of the generated jets. In addition, we introduce \epcfm, the first permutation equivariant continuous normalizing flow (CNF) for particle cloud generation. This model is trained with {\it flow-matching}, a scalable and easy-to-train objective based on optimal transport that directly regresses the vector fields connecting the Gaussian noise prior to the data distribution. Our experiments demonstrate that \epcjedi and \epcfm both achieve state-of-the-art performance on the top-quark JetNet datasets whilst maintaining fast generation speed. Most notably, we find that the \epcfm model consistently outperforms all the other generative models considered here across every metric. Finally, we also introduce two new particle cloud performance metrics: the first based on the Kullback-Leibler divergence between feature distributions, the second is the negative log-posterior of a multi-model ParticleNet classifier.
翻訳日:2023-10-05 06:51:17 公開日:2023-09-29
# 散逸性ディック時間結晶-原子の観点から

Dissipative Dicke time crystals: an atoms' point of view ( http://arxiv.org/abs/2310.00046v1 )

ライセンス: Link先を確認
Simon B. J\"ager, Jan Mathis Giesen, Imke Schneider, and Sebastian Eggert(参考訳) 我々は、原子間の時間-周期結合と散逸キャビティモードを伴うディッケモデルの原子のみの記述を開発し、研究する。 キャビティモードは、効果的な原子-原子相互作用と散逸を引き起こす。 我々は、この効果的な説明を用いて、原子媒体と光場におけるマクロコヒーレンスを伴う動的超放射相への移行を行う原子のダイナミクスを分析する。 フロケ理論と原子のみの記述を組み合わせることで、相境界と原子の動的応答を正確に決定することができる。 このことから、駆動周波数に対する非調和応答を示す散逸時間結晶の存在を予測することができる。 原子のみの理論はそのような散逸時間結晶への緩和を記述することができ、ダンピング速度は冷却機構の観点から理解できることを示す。

We develop and study an atom-only description of the Dicke model with time-periodic couplings between atoms and a dissipative cavity mode. The cavity mode is eliminated giving rise to effective atom-atom interactions and dissipation. We use this effective description to analyze the dynamics of the atoms that undergo a transition to a dynamical superradiant phase with macroscopic coherences in the atomic medium and the light field. Using Floquet theory in combination with the atom-only description we provide a precise determination of the phase boundaries and of the dynamical response of the atoms. From this we can predict the existence of dissipative time crystals that show a subharmonic response with respect to the driving frequency. We show that the atom-only theory can describe the relaxation into such a dissipative time crystal and that the damping rate can be understood in terms of a cooling mechanism.
翻訳日:2023-10-05 06:50:55 公開日:2023-09-29
# fedaiot: 物の人工知能のための連合学習ベンチマーク

FedAIoT: A Federated Learning Benchmark for Artificial Intelligence of Things ( http://arxiv.org/abs/2310.00109v1 )

ライセンス: Link先を確認
Samiul Alam, Tuo Zhang, Tiantian Feng, Hui Shen, Zhichao Cao, Dong Zhao, JeongGil Ko, Kiran Somasundaram, Shrikanth S. Narayanan, Salman Avestimehr, Mi Zhang(参考訳) AIoT(Artificial Intelligence of Things)の世界には、連邦学習(FL)が大きな関連性を持っている。 しかしながら、既存のFL作業の多くは、IoTデータのユニークなモダリティと固有の課題をキャプチャする、真のIoTデバイスから収集されたデータセット上で実施されていない。 本稿では、この重要なギャップを埋めるために、AIoTのFLベンチマークであるFedAIoTを紹介します。 FedAIoTには、幅広いIoTデバイスから収集された8つのデータセットが含まれている。 これらのデータセットは、AIoTのユニークなIoTモダリティとターゲット代表アプリケーションをカバーする。 FedAIoTには、データセットのパフォーマンスのベンチマークを簡単にする、AIoT用の統合エンドツーエンドFLフレームワークも含まれている。 ベンチマークの結果は、FL for AIoTの機会と課題に光を当てています。 FL for AIoTの重要な分野の進歩を促進するために、FedAIoTが貴重なリソースになることを期待しています。 FedAIoTのリポジトリはhttps://github.com/AIoT-MLSys-Lab/FedAIoTで管理されている。

There is a significant relevance of federated learning (FL) in the realm of Artificial Intelligence of Things (AIoT). However, most existing FL works are not conducted on datasets collected from authentic IoT devices that capture unique modalities and inherent challenges of IoT data. In this work, we introduce FedAIoT, an FL benchmark for AIoT to fill this critical gap. FedAIoT includes eight datatsets collected from a wide range of IoT devices. These datasets cover unique IoT modalities and target representative applications of AIoT. FedAIoT also includes a unified end-to-end FL framework for AIoT that simplifies benchmarking the performance of the datasets. Our benchmark results shed light on the opportunities and challenges of FL for AIoT. We hope FedAIoT could serve as an invaluable resource to foster advancements in the important field of FL for AIoT. The repository of FedAIoT is maintained at https://github.com/AIoT-MLSys-Lab/FedAIoT.
翻訳日:2023-10-05 06:43:10 公開日:2023-09-29
# 大規模マルチモーダルモデルに対する実践的メンバーシップ推論攻撃:パイロット研究

Practical Membership Inference Attacks Against Large-Scale Multi-Modal Models: A Pilot Study ( http://arxiv.org/abs/2310.00108v1 )

ライセンス: Link先を確認
Myeongseob Ko, Ming Jin, Chenguang Wang, and Ruoxi Jia(参考訳) メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングにデータポイントを使用したかどうかを推測することを目的としている。 これらの攻撃は、潜在的なプライバシー上の脆弱性を特定し、個人データの不正使用を検出するために使用できる。 MIAは伝統的に単純な分類モデルとして研究されてきたが、CLIPのようなマルチモーダル事前訓練の進歩は、コンピュータビジョンタスクの範囲で顕著なゼロショット性能を示している。 しかし、データとモデルの膨大なスケールは、攻撃を行うための重要な計算上の課題を示している。 本稿では,大規模マルチモーダルモデルに対するMIAの実現に向けて第一歩を踏み出す。 目的点のテキストと画像の特徴のコサイン類似性をしきい値にすることで、簡単なベースライン戦略を導入し、目的点の変換間でコサイン類似性を集約することで、ベースラインをさらに強化することを提案する。 また, 対象モデルの公開日とオープンデータのタイムスタンプを用いて得られる, 基底的非メンバーを活用し, 攻撃をさらに強化する, 新たな弱い教師付き攻撃手法を提案する。 我々の評価では、クリップモデルは攻撃戦略に影響を受けやすく、我々の単純なベースラインはメンバーの識別精度を75〜%以上達成している。 さらに、強化された攻撃は、複数のモデルやデータセットでベースラインを上回り、教師の弱い攻撃は、平均的な17セント%のパフォーマンス改善を示し、低い偽陽性率で少なくとも7ドル以上有効であることを示す。 これらの知見は, 過度に適合しないためMIAの影響を受けにくいと考えられたマルチモーダル基礎モデルのプライバシ保護の重要性を強調した。 私たちのコードはhttps://github.com/ruoxi-jia-group/CLIP-MIAで公開されています。

Membership inference attacks (MIAs) aim to infer whether a data point has been used to train a machine learning model. These attacks can be employed to identify potential privacy vulnerabilities and detect unauthorized use of personal data. While MIAs have been traditionally studied for simple classification models, recent advancements in multi-modal pre-training, such as CLIP, have demonstrated remarkable zero-shot performance across a range of computer vision tasks. However, the sheer scale of data and models presents significant computational challenges for performing the attacks. This paper takes a first step towards developing practical MIAs against large-scale multi-modal models. We introduce a simple baseline strategy by thresholding the cosine similarity between text and image features of a target point and propose further enhancing the baseline by aggregating cosine similarity across transformations of the target. We also present a new weakly supervised attack method that leverages ground-truth non-members (e.g., obtained by using the publication date of a target model and the timestamps of the open data) to further enhance the attack. Our evaluation shows that CLIP models are susceptible to our attack strategies, with our simple baseline achieving over $75\%$ membership identification accuracy. Furthermore, our enhanced attacks outperform the baseline across multiple models and datasets, with the weakly supervised attack demonstrating an average-case performance improvement of $17\%$ and being at least $7$X more effective at low false-positive rates. These findings highlight the importance of protecting the privacy of multi-modal foundational models, which were previously assumed to be less susceptible to MIAs due to less overfitting. Our code is available at https://github.com/ruoxi-jia-group/CLIP-MIA.
翻訳日:2023-10-05 06:42:57 公開日:2023-09-29
# fashionflow: 静的画像からの動的ファッションビデオ合成に拡散モデルを活用する

FashionFlow: Leveraging Diffusion Models for Dynamic Fashion Video Synthesis from Static Imagery ( http://arxiv.org/abs/2310.00106v1 )

ライセンス: Link先を確認
Tasin Islam, Alina Miron, XiaoHui Liu, Yongmin Li(参考訳) 本研究は,fashionflowと呼ばれる新しい画像対ビデオ生成器を提案する。 拡散モデルを利用することで、静止画像から短いビデオを作成することができる。 当社のアプローチでは,関連するコンポーネントと拡散モデルの開発と接続が関係しています。 コンポーネントには、ビデオを効率的に生成するための擬似3D畳み込みレイヤーの使用が含まれる。 VAEとCLIPエンコーダは静止画像から重要な特徴を捉え、拡散モデルに影響を与える。 本研究は,様々な角度からモデルのポーズをとり,衣服のフィットと外観を示すファッションビデオの合成に成功したことを実証する。 本研究は,オンラインファッション産業におけるショッピングエクスペリエンスの向上と向上に大きな期待を寄せている。

Our study introduces a new image-to-video generator called FashionFlow. By utilising a diffusion model, we are able to create short videos from still images. Our approach involves developing and connecting relevant components with the diffusion model, which sets our work apart. The components include the use of pseudo-3D convolutional layers to generate videos efficiently. VAE and CLIP encoders capture vital characteristics from still images to influence the diffusion model. Our research demonstrates a successful synthesis of fashion videos featuring models posing from various angles, showcasing the fit and appearance of the garment. Our findings hold great promise for improving and enhancing the shopping experience for the online fashion industry.
翻訳日:2023-10-05 06:42:28 公開日:2023-09-29
# 潜時空間対称性の発見

Latent Space Symmetry Discovery ( http://arxiv.org/abs/2310.00105v1 )

ライセンス: Link先を確認
Jianke Yang, Nima Dehmamy, Robin Walters, Rose Yu(参考訳) 等変ニューラルネットワークは対称性群の明示的な知識を必要とする。 自動対称性発見法は、この制約を緩和し、データから不変性と等価性を学習することを目的としている。 しかし、既存の対称性発見法は探索空間における線形対称性に限られており、実世界の高次元データにおいて対称性の複雑さを扱うことはできない。 本研究では,データから非線形対称性を発見できる新しい生成モデルである潜在リーガン(laligan)を提案する。 データから潜在空間への写像を学習し、対称性が線形になり、同時に潜在空間の対称性も発見する。 理論的には、ある条件下では任意の非線形対称性を表現できることを示す。 実験では,高次元観測において固有対称性を捉えることで,他の下流課題に有用な構造的潜在空間を実現する。 各種力学系における方程式発見と長期予測の改善におけるLaLiGANの使用例を示す。

Equivariant neural networks require explicit knowledge of the symmetry group. Automatic symmetry discovery methods aim to relax this constraint and learn invariance and equivariance from data. However, existing symmetry discovery methods are limited to linear symmetries in their search space and cannot handle the complexity of symmetries in real-world, often high-dimensional data. We propose a novel generative model, Latent LieGAN (LaLiGAN), which can discover nonlinear symmetries from data. It learns a mapping from data to a latent space where the symmetries become linear and simultaneously discovers symmetries in the latent space. Theoretically, we show that our method can express any nonlinear symmetry under certain conditions. Experimentally, our method can capture the intrinsic symmetry in high-dimensional observations, which results in a well-structured latent space that is useful for other downstream tasks. We demonstrate the use cases for LaLiGAN in improving equation discovery and long-term forecasting for various dynamical systems.
翻訳日:2023-10-05 06:42:17 公開日:2023-09-29
# 放射線学レポートのための多言語自然言語処理モデル -要約は必要なすべてです!

Multilingual Natural Language ProcessingModel for Radiology Reports -- The Summary is all you need! ( http://arxiv.org/abs/2310.00100v1 )

ライセンス: Link先を確認
Mariana Lindo, Ana Sofia Santos, Andr\'e Ferreira, Jianning Li, Gijs Luijten, Gustavo Correia, Moon Kim, Jens Kleesiek, Jan Egger and Victor Alves(参考訳) 放射線医学レポートのインプレッションセクションは重要なx線学的所見を要約し、これらの発見を医師に伝える上で重要な役割を担っている。 しかし,これらのサマリーの調製には時間がかかり,放射線技師のミスが生じる。 近年,放射線学報告要約モデルが多数開発されている。 それでも、これらのレポートを複数の言語で要約できるモデルは存在しない。 このようなモデルは、異なる民族的背景を持つ患者のデータを含むディープラーニングモデルの開発と将来の研究を大幅に改善する可能性がある。 本研究では,英語,ポルトガル語,ドイツ語の放射線学レポートを要約した多言語テキスト・トゥ・テキスト・トランスフォーマーを用いて,様々な言語における放射線学印象の生成を微調整して自動化した。 ブラインドテストでは、2人のボード認定放射線科医が、システムで生成されたサマリーの少なくとも70%において、品質は対応するサマリーと一致または上回っており、実質的な臨床信頼性が示唆された。 さらに,多言語モデルでは1つの言語でのみ放射線報告書を要約する他のモデルや,chatgptのような放射線報告書を要約するために特別に設計されたモデルよりも優れていた。

The impression section of a radiology report summarizes important radiology findings and plays a critical role in communicating these findings to physicians. However, the preparation of these summaries is time-consuming and error-prone for radiologists. Recently, numerous models for radiology report summarization have been developed. Nevertheless, there is currently no model that can summarize these reports in multiple languages. Such a model could greatly improve future research and the development of Deep Learning models that incorporate data from patients with different ethnic backgrounds. In this study, the generation of radiology impressions in different languages was automated by fine-tuning a model, publicly available, based on a multilingual text-to-text Transformer to summarize findings available in English, Portuguese, and German radiology reports. In a blind test, two board-certified radiologists indicated that for at least 70% of the system-generated summaries, the quality matched or exceeded the corresponding human-written summaries, suggesting substantial clinical reliability. Furthermore, this study showed that the multilingual model outperformed other models that specialized in summarizing radiology reports in only one language, as well as models that were not specifically designed for summarizing radiology reports, such as ChatGPT.
翻訳日:2023-10-05 06:42:03 公開日:2023-09-29
# 半教師付きポーズ推定のための擬似ヒートマップの作成と選択

Denoising and Selecting Pseudo-Heatmaps for Semi-Supervised Human Pose Estimation ( http://arxiv.org/abs/2310.00099v1 )

ライセンス: Link先を確認
Zhuoran Yu, Manchen Wang, Yanbei Chen, Paolo Favaro, Davide Modolo(参考訳) そこで本研究では,人間のポーズ推定のための半教師付き学習設計を提案する。 まず,ラベルのないデータから学習するターゲットとして,信頼性の高い擬似熱マップを生成する。 これはマルチビュー拡張としきい値とリファインドプロシージャを使用して擬似熱マップのプールを生成する。 次に,学生間の不確実性の推定によって導かれる擬似熱マップから学習対象を選択する。 提案手法をCOCOベンチマーク上で複数の評価設定で評価する。 以上の結果から,本モデルは従来の半教師付きポーズ推定装置,特に極低データ方式よりも優れていた。 例えば、0.5Kのラベル付き画像しか持たず、我々の手法は7.22 mAP (+25%の絶対的な改善)で最高の競争相手を上回ることができる。 また,このモデルがラベルのないデータから効果的に学習し,その一般化と性能をさらに高めることを実証する。

We propose a new semi-supervised learning design for human pose estimation that revisits the popular dual-student framework and enhances it two ways. First, we introduce a denoising scheme to generate reliable pseudo-heatmaps as targets for learning from unlabeled data. This uses multi-view augmentations and a threshold-and-refine procedure to produce a pool of pseudo-heatmaps. Second, we select the learning targets from these pseudo-heatmaps guided by the estimated cross-student uncertainty. We evaluate our proposed method on multiple evaluation setups on the COCO benchmark. Our results show that our model outperforms previous state-of-the-art semi-supervised pose estimators, especially in extreme low-data regime. For example with only 0.5K labeled images our method is capable of surpassing the best competitor by 7.22 mAP (+25% absolute improvement). We also demonstrate that our model can learn effectively from unlabeled data in the wild to further boost its generalization and performance.
翻訳日:2023-10-05 06:41:42 公開日:2023-09-29
# エンドツーエンド音声認識のための微分プライバシーを用いたフェデレーション学習

Federated Learning with Differential Privacy for End-to-End Speech Recognition ( http://arxiv.org/abs/2310.00098v1 )

ライセンス: Link先を確認
Martin Pelikan, Sheikh Shams Azam, Vitaly Feldman, Jan "Honza" Silovsky, Kunal Talwar, Tatiana Likhomanenko(参考訳) 近年、機械学習モデルをトレーニングするための有望なアプローチとしてフェデレート・ラーニング(FL)が登場したが、これは自動音声認識(ASR)分野における予備的な探索に限られている。 さらに、FLは本質的にユーザーのプライバシーを保証せず、堅牢なプライバシー保証のために差分プライバシー(DP)を使用する必要がある。 しかし, ASR において DP を FL に適用する以前の作業は, 認識されていない。 本稿では,この研究のギャップを埋めるために,flのasrベンチマークをdpで定式化し,最初のベースラインを確立する。 まず,最近の$\textit{large end-to-end transformer models}$:アーキテクチャ設計,シードモデル,データ不均質性,ドメインシフト,コホートサイズの影響など,さまざまな側面を探求することで,asrのためのflに関する既存の研究を拡張します。 $\textit{practical}$ 中心アグリゲーションの数が$\textbf{FL model}$は異種データ、他のドメインからのシードモデル、事前訓練されたシードモデルであっても、 \textbf{nearly optimal} である。 第2に, dpノイズがモデルトレーニング, 特に大規模変圧器モデルに多大な影響を及ぼすため, 注意ブロックの勾配が高度に不均衡であるため, asrに対するdpの適用は非自明である。 我々は,dpノイズの悪影響を,各層クリッピングを復活させ,その効果が先行研究よりも我々の場合の方が顕著である理由を説明する。 注目すべきは、ユーザレベル(7.2$, 10^{-9}$)-$\textbf{DP}$ (resp)を達成することです。 4.5$, 10^{-9}$)-$\textbf{DP}$) で、1.3% (resp. 4.6%) の単語エラー率の絶対値が、ASR}$のDPで$\textbf{FLに対して高い (resp.low) 人口規模に低下する。

While federated learning (FL) has recently emerged as a promising approach to train machine learning models, it is limited to only preliminary explorations in the domain of automatic speech recognition (ASR). Moreover, FL does not inherently guarantee user privacy and requires the use of differential privacy (DP) for robust privacy guarantees. However, we are not aware of prior work on applying DP to FL for ASR. In this paper, we aim to bridge this research gap by formulating an ASR benchmark for FL with DP and establishing the first baselines. First, we extend the existing research on FL for ASR by exploring different aspects of recent $\textit{large end-to-end transformer models}$: architecture design, seed models, data heterogeneity, domain shift, and impact of cohort size. With a $\textit{practical}$ number of central aggregations we are able to train $\textbf{FL models}$ that are \textbf{nearly optimal} even with heterogeneous data, a seed model from another domain, or no pre-trained seed model. Second, we apply DP to FL for ASR, which is non-trivial since DP noise severely affects model training, especially for large transformer models, due to highly imbalanced gradients in the attention block. We counteract the adverse effect of DP noise by reviving per-layer clipping and explaining why its effect is more apparent in our case than in the prior work. Remarkably, we achieve user-level ($7.2$, $10^{-9}$)-$\textbf{DP}$ (resp. ($4.5$, $10^{-9}$)-$\textbf{DP}$) with a 1.3% (resp. 4.6%) absolute drop in the word error rate for extrapolation to high (resp. low) population scale for $\textbf{FL with DP in ASR}$.
翻訳日:2023-10-05 06:41:25 公開日:2023-09-29
# ブラウン運動前のスパース変分ガウス過程回帰のポイントワイズ不確実性定量化

Pointwise uncertainty quantification for sparse variational Gaussian process regression with a Brownian motion prior ( http://arxiv.org/abs/2310.00097v1 )

ライセンス: Link先を確認
Luke Travis, Kolyan Ray(参考訳) 固有ベクトル誘導変数を用いたスパース変分ガウス過程の点推定と不確実性定量化について検討した。 再スケールされたブラウン運動は、理論的な保証と、ポイントワイズ信頼集合の頻繁なサイズとカバレッジの限界を導出する。 十分多くの変数を誘導するために、我々は漸近的頻繁なカバレッジを正確に特徴付け、この変分法から信頼できる集合が保守的であるとき、そして過信/誤解しているときを推論する。 結果の適用性を数値的に説明し、他の一般的なガウス過程との関連性について議論する。

We study pointwise estimation and uncertainty quantification for a sparse variational Gaussian process method with eigenvector inducing variables. For a rescaled Brownian motion prior, we derive theoretical guarantees and limitations for the frequentist size and coverage of pointwise credible sets. For sufficiently many inducing variables, we precisely characterize the asymptotic frequentist coverage, deducing when credible sets from this variational method are conservative and when overconfident/misleading. We numerically illustrate the applicability of our results and discuss connections with other common Gaussian process priors.
翻訳日:2023-10-05 06:40:42 公開日:2023-09-29
# 能動自己ペースト知識蒸留と拡散に基づく画像生成によるマイノリティコールモデル盗み

Towards Few-Call Model Stealing via Active Self-Paced Knowledge Distillation and Diffusion-Based Image Generation ( http://arxiv.org/abs/2310.00096v1 )

ライセンス: Link先を確認
Vlad Hondru, Radu Tudor Ionescu(参考訳) 拡散モデルは画像合成において強力な能力を示し、多くのコンピュータビジョンタスクで大きな成功を収めた。 そこで本研究では,従来のトレーニングデータやアーキテクチャ,モデルの重みなどにアクセスすることなく,ブラックボックス分類モデルをコピーする,新たなユースケースを提案する。 より具体的には、モデルに入力として渡されるいくつかの画像サンプルの(ソフトまたはハードの)ラベルのみを観察できる。 さらに、モデル呼び出し数を制限する追加の制約も考慮し、主に、限定呼び出しモデル盗みの研究に焦点を当てた。 適用制約を考慮に入れたモデル抽出課題を解決するため,以下の枠組みを提案する。 トレーニングデータとして,拡散モデルを用いて現実的な多彩な画像を生成することで,合成データセット(プロキシデータセットと呼ばれる)を作成する。 許容されるAPI呼び出しの最大数が与えられた場合、各サンプル数をブラックボックスモデルに渡してラベルを収集する。 最後に,ブラックボックス教師(攻撃モデル)の知識を学生モデル(攻撃モデルのコピー)に蒸留し,拡散モデルによって生成されたラベル付きデータとラベルなしデータの両方を活用する。 蒸留時にプロキシデータを最大限に活用するために,新たなアクティブなセルフペース学習フレームワークを採用している。 2つのデータセットに対する実験結果から,マルチコールモデル抽出シナリオにおける2つの最先端手法に対するフレームワークの優位性が確認された。

Diffusion models showcased strong capabilities in image synthesis, being used in many computer vision tasks with great success. To this end, we propose to explore a new use case, namely to copy black-box classification models without having access to the original training data, the architecture, and the weights of the model, \ie~the model is only exposed through an inference API. More specifically, we can only observe the (soft or hard) labels for some image samples passed as input to the model. Furthermore, we consider an additional constraint limiting the number of model calls, mostly focusing our research on few-call model stealing. In order to solve the model extraction task given the applied restrictions, we propose the following framework. As training data, we create a synthetic data set (called proxy data set) by leveraging the ability of diffusion models to generate realistic and diverse images. Given a maximum number of allowed API calls, we pass the respective number of samples through the black-box model to collect labels. Finally, we distill the knowledge of the black-box teacher (attacked model) into a student model (copy of the attacked model), harnessing both labeled and unlabeled data generated by the diffusion model. We employ a novel active self-paced learning framework to make the most of the proxy data during distillation. Our empirical results on two data sets confirm the superiority of our framework over two state-of-the-art methods in the few-call model extraction scenario.
翻訳日:2023-10-05 06:40:33 公開日:2023-09-29
# DataDAM: 注意マッチングによる効率的なデータセット蒸留

DataDAM: Efficient Dataset Distillation with Attention Matching ( http://arxiv.org/abs/2310.00093v1 )

ライセンス: Link先を確認
Ahmad Sajedi, Samir Khaki, Ehsan Amjadian, Lucy Z. Liu, Yuri A. Lawryshyn, Konstantinos N. Plataniotis(参考訳) 研究者たちは、さまざまなデータセットにわたる強力な一般化を維持しながら、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。 データセット蒸留に関する新たな研究は、より大きな実データセットの情報を含む小さな合成集合を作成し、最終的にデータセット全体でトレーニングされたモデルに匹敵するテスト精度を達成することで、トレーニングコストを削減することを目的としている。 残念なことに、以前の方法によって生成された合成データは、元のトレーニングデータと同様に分散や判別が保証されておらず、かなりの計算コストがかかる。 有望な結果にもかかわらず、凝縮合成セットでトレーニングされたモデルとデータセット全体でトレーニングされたモデルの間には、依然として大きなパフォーマンスギャップがある。 本稿では,DataDAM(Dataset Distillation with Attention Matching)を用いて,トレーニングコストを削減しつつ,最先端のパフォーマンスを実現する。 具体的には、ランダムに初期化されたニューラルネットワーク群内の異なる層によって生成された実データと合成データの空間的注意マップをマッチングして合成画像を学ぶ。 CIFAR10/100, TinyImageNet, ImageNet-1K, ImageNet-1Kのサブセットなど,多くの設定において従来手法よりも優れており, CIFAR100とImageNet-1Kでは最大6.5%,4.1%の改善が達成されている。 また, 高品質蒸留画像は, 連続学習やニューラルネットワーク検索など, 下流のアプリケーションにも実用的な効果があることを示した。

Researchers have long tried to minimize training costs in deep learning while maintaining strong generalization across diverse datasets. Emerging research on dataset distillation aims to reduce training costs by creating a small synthetic set that contains the information of a larger real dataset and ultimately achieves test accuracy equivalent to a model trained on the whole dataset. Unfortunately, the synthetic data generated by previous methods are not guaranteed to distribute and discriminate as well as the original training data, and they incur significant computational costs. Despite promising results, there still exists a significant performance gap between models trained on condensed synthetic sets and those trained on the whole dataset. In this paper, we address these challenges using efficient Dataset Distillation with Attention Matching (DataDAM), achieving state-of-the-art performance while reducing training costs. Specifically, we learn synthetic images by matching the spatial attention maps of real and synthetic data generated by different layers within a family of randomly initialized neural networks. Our method outperforms the prior methods on several datasets, including CIFAR10/100, TinyImageNet, ImageNet-1K, and subsets of ImageNet-1K across most of the settings, and achieves improvements of up to 6.5% and 4.1% on CIFAR100 and ImageNet-1K, respectively. We also show that our high-quality distilled images have practical benefits for downstream applications, such as continual learning and neural architecture search.
翻訳日:2023-10-05 06:40:10 公開日:2023-09-29
# 遠隔超伝導ノード間の双方向多光子通信

Bidirectional multi-photon communication between remote superconducting nodes ( http://arxiv.org/abs/2310.00124v1 )

ライセンス: Link先を確認
Joel Grebel, Haoxiong Yan, Ming-Han Chou, Gustav Andersson, Christopher R. Conner, Yash J. Joshi, Jacob M. Miller, Rhys G. Povey, Hong Qiao, Xuntao Wu, Andrew N. Cleland(参考訳) 量子通信テストベッドは、様々な通信プロトコルを実験的に調査するための有用なリソースを提供する。 本稿では, 時間領域型波束を用いた双方向多光子状態伝達特性を持つ超伝導回路について述べる。 本システムでは,2m長の超伝導コプラナー導波路で接続された可変超伝導トランスモンキュービットと可変マイクロ波共振器の2つの遠隔ノードから構成される。 2つのリモートノード間で個別と重ね合わせのフォック状態の両方を転送し、さらに、この双方向状態の転送と2つのノードの要素の絡み合いを同時に行うことができることを示した。

Quantum communication testbeds provide a useful resource for experimentally investigating a variety of communication protocols. Here we demonstrate a superconducting circuit testbed with bidirectional multi-photon state transfer capability using time-domain shaped wavepackets. The system we use to achieve this comprises two remote nodes, each including a tunable superconducting transmon qubit and a tunable microwave-frequency resonator, linked by a 2 m-long superconducting coplanar waveguide, which serves as a transmission line. We transfer both individual and superposition Fock states between the two remote nodes, and additionally show that this bidirectional state transfer can be done simultaneously, as well as used to entangle elements in the two nodes.
翻訳日:2023-10-05 06:34:30 公開日:2023-09-29
# 三対角行列表現を持つハミルトニアンのシミュレーション回路の構築

Construction of a Circuit for the Simulation of a Hamiltonian with a Tridiagonal Matrix Representation ( http://arxiv.org/abs/2310.00121v1 )

ライセンス: Link先を確認
Boris Arseniev, Dmitry Guskov, Richik Sengupta, Jacob Biamonte and Igor Zacharov(参考訳) 量子システムのシミュレーションは、量子コンピュータが古典的シミュレーションよりも指数関数的なスピードアップを達成すると約束される領域である。 ハミルトンシミュレーションのための最先端の量子アルゴリズムは、oracleクエリの量を減らすことでこれを達成する。 残念ながら、これらの予測されたスピードアップは準最適オラクルの実装によって制限され、実用的なアプリケーションでの使用を制限する。 本稿では,三対角行列表現を持つハミルトニアンのシミュレーション回路の構成について述べる。 ゲートの複雑さを見積もることで効率を主張する。 これは任意の三角行列の分解に存在する全てのポーリ弦を決定し、それらを可換集合に分割することによって行われる。 これらの集合の和は、ポーリ弦全体の集合よりも指数関数的に小さい濃度を持つ。 さらに、可換集合の数は行列の大きさとともに対数的に増加する。 さらに,分解係数の計算には,直接手法に比べて指数関数的に少ない乗法が必要となる。 最後に、1次元波動方程式のハミルトニアンの場合の手法を例示し、量子ビット数に対するゲート数の依存性を数値的に示す。

The simulation of quantum systems is an area where quantum computers are promised to achieve an exponential speedup over classical simulations. State-of-the-art quantum algorithms for Hamiltonian simulation achieve this by reducing the amount of oracle queries. Unfortunately, these predicted speedups may be limited by a sub-optimal oracle implementation, thus limiting their use in practical applications. In this paper we present a construction of a circuit for simulation of Hamiltonians with a tridiagonal matrix representation. We claim efficiency by estimating the resulting gate complexity. This is done by determining all Pauli strings present in the decomposition of an arbitrary tridiagonal matrix and dividing them into commuting sets. The union of these sets has a cardinality exponentially smaller than that of the set of all Pauli strings. Furthermore, the number of commuting sets grows logarithmically with the size of the matrix. Additionally, our method for computing the decomposition coefficients requires exponentially fewer multiplications compared to the direct approach. Finally, we exemplify our method in the case of the Hamiltonian of the one-dimensional wave equation and numerically show the dependency of the number of gates on the number of qubits.
翻訳日:2023-10-05 06:34:17 公開日:2023-09-29
# 高分解能PDE用マルチグリッドテンソル化フーリエニューラル演算子

Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs ( http://arxiv.org/abs/2310.00120v1 )

ライセンス: Link先を確認
Jean Kossaifi, Nikola Kovachki, Kamyar Azizzadenesheli, Anima Anandkumar(参考訳) メモリの複雑さとデータ不足は、高分解能での偏微分方程式(PDE)の学習ソリューション演算子をこれまで禁止してきた。 メモリ要求を低減し、より一般化した多グリッドテンソル化ニューラル演算子(MG-TFNO)と呼ばれる新しいデータ効率が高く並列化可能な演算子学習手法を導入することで、これらの制限に対処する。 mg-tfnoは、入力領域と演算子のパラメータ空間の両方を分解することで、実世界現象の局所的および大域的な構造を活用することによって、大きな解像度にスケールする。 私たちの貢献は3倍です 一 新規なマルチグリッドドメイン分解による入力サンプルの並列化を可能にする。 二 フーリエ領域の高次潜在部分空間におけるモデルのパラメータを大域的テンソル因子分解により表現し、パラメータ数を極端に減少させ、一般化を改善した。 iii)backbone fnoのアーキテクチャ改善を提案する。 当社のアプローチは,オペレータの学習設定でも使用可能です。 乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。 テンソル化と領域分解を組み合わせると、パラメータ数を150倍以上削減し、精度を損なうことなくドメインサイズを7倍削減できる。

Memory complexity and data scarcity have so far prohibited learning solution operators of partial differential equations (PDEs) at high resolutions. We address these limitations by introducing a new data efficient and highly parallelizable operator learning approach with reduced memory requirement and better generalization, called multi-grid tensorized neural operator (MG-TFNO). MG-TFNO scales to large resolutions by leveraging local and global structures of full-scale, real-world phenomena, through a decomposition of both the input domain and the operator's parameter space. Our contributions are threefold: i) we enable parallelization over input samples with a novel multi-grid-based domain decomposition, ii) we represent the parameters of the model in a high-order latent subspace of the Fourier domain, through a global tensor factorization, resulting in an extreme reduction in the number of parameters and improved generalization, and iii) we propose architectural improvements to the backbone FNO. Our approach can be used in any operator learning setting. We demonstrate superior performance on the turbulent Navier-Stokes equations where we achieve less than half the error with over 150x compression. The tensorization combined with the domain decomposition, yields over 150x reduction in the number of parameters and 7x reduction in the domain size without losses in accuracy, while slightly enabling parallelism.
翻訳日:2023-10-05 06:34:01 公開日:2023-09-29
# 地球観測タスクのためのグローバルマルチモーダル埋め込みに関するFewshot Learning

Fewshot learning on global multimodal embeddings for earth observation tasks ( http://arxiv.org/abs/2310.00119v1 )

ライセンス: Link先を確認
Matt Allen, Francisco Dorr, Joseph A. Gallego-Mejia, Laura Mart\'inez-Ferrer, Anna Jungbluth, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an(参考訳) 本研究では,地球全地質量の約10 %以上を占める5つのAOIの衛星画像,すなわちSentinel 2 RGB光画像,Sentinel 1 SAR振幅,Sentinel 1 SAR干渉コヒーレンスを用いたCLIP/ViTモデルの構築を行った。 このモデルは$\sim 250$Mパラメータを使用する。 次に,モダリティ毎に生成された埋め込みを古典的機械学習手法で利用し,植生,表層,耕作地,常水などに関連する地層観測のための異なる下流タスクを試みる。 200-500のランダムに選択されたラベル付き例(約4K-10K km$^2$)では、すべてのモダリティ、AOI、下流タスクにおいて、完全なラベル付きデータセット(約150Kイメージチップまたは各AOIで3M km$^2$)と同等のパフォーマンスレベルに達する。 これにより、このモデルが様々なシナリオで有用な重要な地球の特徴を捉えたと考えることができる。 モデルのユーザビリティを実際に強化するために、そのアーキテクチャは、各モダリティ内のモダリティの欠如やチャネルの欠如を伴うコンテキストにおける推論を可能にします。 さらに,ラベルのない埋め込み空間は,私たちが選択したラベル付きデータセットで表される異なる地球の特徴に合理性があることを視覚的に示す。

In this work we pretrain a CLIP/ViT based model using three different modalities of satellite imagery across five AOIs covering over ~10\% of the earth total landmass, namely Sentinel 2 RGB optical imagery, Sentinel 1 SAR amplitude and Sentinel 1 SAR interferometric coherence. This model uses $\sim 250$ M parameters. Then, we use the embeddings produced for each modality with a classical machine learning method to attempt different downstream tasks for earth observation related to vegetation, built up surface, croplands and permanent water. We consistently show how we reduce the need for labeled data by 99\%, so that with ~200-500 randomly selected labeled examples (around 4K-10K km$^2$) we reach performance levels analogous to those achieved with the full labeled datasets (about 150K image chips or 3M km$^2$ in each AOI) on all modalities, AOIs and downstream tasks. This leads us to think that the model has captured significant earth features useful in a wide variety of scenarios. To enhance our model's usability in practice, its architecture allows inference in contexts with missing modalities and even missing channels within each modality. Additionally, we visually show that this embedding space, obtained with no labels, is sensible to the different earth features represented by the labelled datasets we selected.
翻訳日:2023-10-05 06:33:38 公開日:2023-09-29
# ABScribe:大規模言語モデルを用いた人間とAIの共筆作業における複数の記述変動の迅速探索

ABScribe: Rapid Exploration of Multiple Writing Variations in Human-AI Co-Writing Tasks using Large Language Models ( http://arxiv.org/abs/2310.00117v1 )

ライセンス: Link先を確認
Mohi Reza, Nathan Laundry, Ilya Musabirov, Peter Dushniku, Zhi Yuan "Michael" Yu, Kashish Mittal, Tovi Grossman, Michael Liut, Anastasia Kuzminykh, Joseph Jay Williams(参考訳) テキストの書き直しによる代替アイデアの探索は、記述プロセスに不可欠である。 State-of-the-art large language model (LLM) は、変動生成を単純化する。 テキストを上書きせずに新しいバージョンを作成することは困難であり、それらを逐次ペーストすることでドキュメントを乱し、作業負荷を増加させ、ライターのフローを乱す可能性がある。 ABScribeは高速かつ視覚的に構造化されたインタフェースで、人間とAIの共筆タスクにおける書込みのバリエーションを探索する。 ABScribeでは、再利用可能なボタンに自動変換されるLSMプロンプトを使用して、素早く複数のバリエーションを生成できる。 変化はテキストセグメント内に隣接して格納され、コンテキストツールバー上のマウスオーバーインタラクションを用いた高速なインプレース比較を行う。 12名のライターによるユーザスタディでは、ABScribeはタスクの作業負荷(d = 1.20, p < 0.001)を大幅に削減し、リビジョンプロセス(d = 2.41, p < 0.001)のユーザ認識を一般的なベースラインワークフローと比較して向上させ、LLMを用いたバリエーションの探索方法に関する洞察を提供する。

Exploring alternative ideas by rewriting text is integral to the writing process. State-of-the-art large language models (LLMs) can simplify writing variation generation. However, current interfaces pose challenges for simultaneous consideration of multiple variations: creating new versions without overwriting text can be difficult, and pasting them sequentially can clutter documents, increasing workload and disrupting writers' flow. To tackle this, we present ABScribe, an interface that supports rapid, yet visually structured, exploration of writing variations in human-AI co-writing tasks. With ABScribe, users can swiftly produce multiple variations using LLM prompts, which are auto-converted into reusable buttons. Variations are stored adjacently within text segments for rapid in-place comparisons using mouse-over interactions on a context toolbar. Our user study with 12 writers shows that ABScribe significantly reduces task workload (d = 1.20, p < 0.001), enhances user perceptions of the revision process (d = 2.41, p < 0.001) compared to a popular baseline workflow, and provides insights into how writers explore variations using LLMs.
翻訳日:2023-10-05 06:33:08 公開日:2023-09-29
# 動的マージン最大化とリプシッツ正規化の改善による認証ロバストネス

Certified Robustness via Dynamic Margin Maximization and Improved Lipschitz Regularization ( http://arxiv.org/abs/2310.00116v1 )

ライセンス: Link先を確認
Mahyar Fazlyab, Taha Entesari, Aniket Roy, Rama Chellappa(参考訳) 逆摂動に対する深い分類器のロバスト性を改善するために、よりロバストな特性を持つ新しいアーキテクチャ(例えば、リプシッツ型ネットワーク)の設計や、トレーニングプロセス自体の変更(例えば、min-max最適化、制約付き学習、正規化)など、多くのアプローチが提案されている。 しかし、これらのアプローチは入力(機能)スペースのマージンを増やすのに効果的ではないかもしれない。 その結果、入力空間における決定境界を直接操作できる訓練手順の開発への関心が高まっている。 本稿では,弱い方向に沿ってモデルのリプシッツ定数を正則化しながら,出力(ロジット)空間のマージンを増大させることを目的とする頑健な学習アルゴリズムを開発することにより,このカテゴリの最近の発展の上に構築する。 これらの2つの目的が入力空間におけるより大きなマージンを直接促進できることを示す。 そこで本研究では,ニューラルネットワークのリプシッツ定数の微分可能上限を高精度かつ効率的に計算するスケーラブルな手法を開発した。 境界の相対的精度は過剰な正規化を防ぎ、決定境界をより直接的に操作できる。 さらに、このリプシッツ境界アルゴリズムでは、活性化層の単調性とリプシッツ連続性を利用して、リプシッツ定数に制御可能な境界を持つ新しい層を設計することができる。 MNIST, CIFAR-10 および Tiny-ImageNet データセットを用いた実験により,提案アルゴリズムが最先端技術と比較して競争力に向上した結果が得られることを確認した。

To improve the robustness of deep classifiers against adversarial perturbations, many approaches have been proposed, such as designing new architectures with better robustness properties (e.g., Lipschitz-capped networks), or modifying the training process itself (e.g., min-max optimization, constrained learning, or regularization). These approaches, however, might not be effective at increasing the margin in the input (feature) space. As a result, there has been an increasing interest in developing training procedures that can directly manipulate the decision boundary in the input space. In this paper, we build upon recent developments in this category by developing a robust training algorithm whose objective is to increase the margin in the output (logit) space while regularizing the Lipschitz constant of the model along vulnerable directions. We show that these two objectives can directly promote larger margins in the input space. To this end, we develop a scalable method for calculating guaranteed differentiable upper bounds on the Lipschitz constant of neural networks accurately and efficiently. The relative accuracy of the bounds prevents excessive regularization and allows for more direct manipulation of the decision boundary. Furthermore, our Lipschitz bounding algorithm exploits the monotonicity and Lipschitz continuity of the activation layers, and the resulting bounds can be used to design new layers with controllable bounds on their Lipschitz constant. Experiments on the MNIST, CIFAR-10, and Tiny-ImageNet data sets verify that our proposed algorithm obtains competitively improved results compared to the state-of-the-art.
翻訳日:2023-10-05 06:32:44 公開日:2023-09-29
# 分子コンフォーマアンサンブルによる学習:データセットとベンチマーク

Learning Over Molecular Conformer Ensembles: Datasets and Benchmarks ( http://arxiv.org/abs/2310.00115v1 )

ライセンス: Link先を確認
Yanqiao Zhu, Jeehyun Hwang, Keir Adams, Zhen Liu, Bozhao Nan, Brock Stenfors, Yuanqi Du, Jatin Chauhan, Olaf Wiest, Olexandr Isayev, Connor W. Coley, Yizhou Sun, Wei Wang(参考訳) 分子表現学習(MRL)は、薬物発見や酵素設計などの多くの生化学的応用に影響を与えている。 グラフニューラルネットワーク(GNN)は、2次元の分子グラフや1つの3次元構造から分子表現を学ぶのに効果的であるが、既存の研究はしばしば分子の柔軟な性質を見落としている。 分子の柔軟性をよりよく考慮するため、最近の研究でmrlをアンサンブル学習問題として定式化し、コンフォーマー構造から明示的に学習することに焦点を当てている。 しかし、これらの研究のほとんどは限られたデータセット、タスク、モデルを持っている。 本研究では,コンフォーマー・アンサンブル・ラーニング(MARCEL)ベンチマークを初めて導入し,コンフォーマー・アンサンブルで学習する可能性を徹底的に評価し,有望な研究方向性を提案する。 マルセルは、有機触媒や遷移金属触媒を含む化学的に多様な分子の多様な分子および反応レベルの特性をカバーする4つのデータセットを含んでいる。 さらに,1次元,2次元,3次元の分子表現学習モデルをベンチマークし,コンフォーマアンサンブルを3次元MRLモデルに明示的に組み込む2つの戦略を総合的な実証研究として実施する。 その結果,コンバータ空間から直接学習することで,様々なタスクやモデルの性能向上が期待できることがわかった。

Molecular Representation Learning (MRL) has proven impactful in numerous biochemical applications such as drug discovery and enzyme design. While Graph Neural Networks (GNNs) are effective at learning molecular representations from a 2D molecular graph or a single 3D structure, existing works often overlook the flexible nature of molecules, which continuously interconvert across conformations via chemical bond rotations and minor vibrational perturbations. To better account for molecular flexibility, some recent works formulate MRL as an ensemble learning problem, focusing on explicitly learning from a set of conformer structures. However, most of these studies have limited datasets, tasks, and models. In this work, we introduce the first MoleculAR Conformer Ensemble Learning (MARCEL) benchmark to thoroughly evaluate the potential of learning on conformer ensembles and suggest promising research directions. MARCEL includes four datasets covering diverse molecule- and reaction-level properties of chemically diverse molecules including organocatalysts and transition-metal catalysts, extending beyond the scope of common GNN benchmarks that are confined to drug-like molecules. In addition, we conduct a comprehensive empirical study, which benchmarks representative 1D, 2D, and 3D molecular representation learning models, along with two strategies that explicitly incorporate conformer ensembles into 3D MRL models. Our findings reveal that direct learning from an accessible conformer space can improve performance on a variety of tasks and models.
翻訳日:2023-10-05 06:32:12 公開日:2023-09-29
# hypermask: 継続的学習のための適応型ハイパーネットワークベースのマスク

HyperMask: Adaptive Hypernetwork-based Masks for Continual Learning ( http://arxiv.org/abs/2310.00113v1 )

ライセンス: Link先を確認
Kamil Ksi\k{a}\.zek, Przemys{\l}aw Spurek(参考訳) ニューラルネットワークは、複数のタスクで順次トレーニングされたとき、壊滅的な忘れに苦しむ。 この問題を解決するために、継続的な学習戦略が数多く存在する。 最も効果的なのはハイパーネットワークベースのアプローチです。 ハイパーネットワークは、タスクのアイデンティティに基づいて、ターゲットモデルの重みを生成する。 モデルの主な制限は、ハイパーネットワークがタスク毎にまったく異なるネストを生成することができることである。 これにより、各タスクは別々に解決される。 このモデルは、以前のタスク専用のネットワークからの情報を使用しず、その後のタスクを学習すると、実質的に新しいアーキテクチャを生成する。 このような問題を解決するために,全ネットワークの性能を保ちながら,当選チケットと命名されたスパースサブネットワークの存在を仮定する宝くじの仮説を用いる。 本稿では,すべてのタスクに対して単一のネットワークを訓練するhypermaskという手法を提案する。 Hypernetworkは、新しいタスク専用のターゲットサブネットを得るために、半バイナリマスクを生成する。 このソリューションは、ほとんど忘れずに新しいタスクに適応できるハイパーネットワークの能力を継承する。 さらに、抽選券仮説により、各タスク専用の重み付きサブネットを持つ1つのネットワークを使用できる。

Artificial neural networks suffer from catastrophic forgetting when they are sequentially trained on multiple tasks. To overcome this problem, there exist many continual learning strategies. One of the most effective is the hypernetwork-based approach. The hypernetwork generates the weights of a target model based on the task's identity. The model's main limitation is that hypernetwork can produce completely different nests for each task. Consequently, each task is solved separately. The model does not use information from the network dedicated to previous tasks and practically produces new architectures when it learns the subsequent tasks. To solve such a problem, we use the lottery ticket hypothesis, which postulates the existence of sparse subnetworks, named winning tickets, that preserve the performance of a full network. In the paper, we propose a method called HyperMask, which trains a single network for all tasks. Hypernetwork produces semi-binary masks to obtain target subnetworks dedicated to new tasks. This solution inherits the ability of the hypernetwork to adapt to new tasks with minimal forgetting. Moreover, due to the lottery ticket hypothesis, we can use a single network with weighted subnets dedicated to each task.
翻訳日:2023-10-05 06:31:42 公開日:2023-09-29
# 分岐境界におけるノード選択のための強化学習

Reinforcement Learning for Node Selection in Branch-and-Bound ( http://arxiv.org/abs/2310.00112v1 )

ライセンス: Link先を確認
Alexander Mattick and Christopher Mutschler(参考訳) ブランチとバウンドにおける大きな課題は、検索ツリー内の最適なノードを特定することにある。 現在の最先端セレクタは手作りのアンサンブルを使用して、ナイーブなサブノードセレクタと、個々のノードデータに依存する学習ノードセレクタを自動的に切り替える。 本稿では,孤立ノードではなく,木の状態全体を考慮しながら強化学習(rl)を用いた新しい二重シミュレーション手法を提案する。 これを実現するために,モデルの根元から'to-be-selected'の葉への経路に基づいて確率分布を生成するグラフニューラルネットワークを訓練する。 ノード選択を確率分布としてモデル化することで、本質的なノード品質とノード評価コストの両方をキャプチャする最先端RL技術を用いてモデルを訓練することができる。 提案手法は,特殊設計の合成TSPインスタンスでのみ訓練されているにもかかわらず,多種多様な複雑な問題集合に対して高品質なノード選択ポリシーを誘導する。 いくつかのベンチマーク実験では、厳密な時間制約下での最適ギャップ低減とノード単位の効率が大幅に改善されている。

A big challenge in branch and bound lies in identifying the optimal node within the search tree from which to proceed. Current state-of-the-art selectors utilize either hand-crafted ensembles that automatically switch between naive sub-node selectors, or learned node selectors that rely on individual node data. We propose a novel bi-simulation technique that uses reinforcement learning (RL) while considering the entire tree state, rather than just isolated nodes. To achieve this, we train a graph neural network that produces a probability distribution based on the path from the model's root to its ``to-be-selected'' leaves. Modelling node-selection as a probability distribution allows us to train the model using state-of-the-art RL techniques that capture both intrinsic node-quality and node-evaluation costs. Our method induces a high quality node selection policy on a set of varied and complex problem sets, despite only being trained on specially designed, synthetic TSP instances. Experiments on several benchmarks show significant improvements in optimality gap reductions and per-node efficiency under strict time constraints.
翻訳日:2023-10-05 06:31:27 公開日:2023-09-29
# グローバルフィットのための勾配・不確実性強化シーケンシャルサンプリング

Gradient and Uncertainty Enhanced Sequential Sampling for Global Fit ( http://arxiv.org/abs/2310.00110v1 )

ライセンス: Link先を確認
Sven L\"ammle, Can Bogoclu, Kevin Cremanns, Dirk Roos(参考訳) 機械学習手法に基づくサロゲートモデルは、高価なコンピュータシミュレーションを置き換えるために現代工学の重要な部分となっている。 代理モデルを作成するために使用されるデータは、モデルの精度に不可欠であり、コストと時間の制約のためにしばしば制限される。 適応的なサンプリング戦略は、正確なモデルを作成するのに必要なサンプル数を減らすために示されてきた。 本稿では、GUESS(Gradient and Uncertainty Enhanced Sequential Sampling)と呼ばれる、グローバル適合のための新しいサンプリング戦略を提案する。 取得関数は2つの項を用いる: サーロゲートモデルの予測的後方不確かさ(英語版) 未発見領域の探索と、搾取のための2階および高階テイラー展開値の重み付き近似。 これまでに様々なサンプリング戦略が提案されているが、適切な方法の選択は自明ではない。 そこで,提案手法を,26の異なる1次元から8次元のベンチマーク関数に基づいて,グローバルサロゲートモデリングのための9つの適応サンプリング戦略と比較した。 その結果, GUESSは, 実験例における他のサロゲート戦略と比較して, 試料効率が高かった。 より高次元におけるGUESSの挙動と代理選択の重要性を考慮したアブレーション研究についても述べる。

Surrogate models based on machine learning methods have become an important part of modern engineering to replace costly computer simulations. The data used for creating a surrogate model are essential for the model accuracy and often restricted due to cost and time constraints. Adaptive sampling strategies have been shown to reduce the number of samples needed to create an accurate model. This paper proposes a new sampling strategy for global fit called Gradient and Uncertainty Enhanced Sequential Sampling (GUESS). The acquisition function uses two terms: the predictive posterior uncertainty of the surrogate model for exploration of unseen regions and a weighted approximation of the second and higher-order Taylor expansion values for exploitation. Although various sampling strategies have been proposed so far, the selection of a suitable method is not trivial. Therefore, we compared our proposed strategy to 9 adaptive sampling strategies for global surrogate modeling, based on 26 different 1 to 8-dimensional deterministic benchmarks functions. Results show that GUESS achieved on average the highest sample efficiency compared to other surrogate-based strategies on the tested examples. An ablation study considering the behavior of GUESS in higher dimensions and the importance of surrogate choice is also presented.
翻訳日:2023-10-05 06:31:07 公開日:2023-09-29
# パーソナライズされたテキスト生成のための自動プロンプト書き換え

Automatic Prompt Rewriting for Personalized Text Generation ( http://arxiv.org/abs/2310.00152v1 )

ライセンス: Link先を確認
Cheng Li, Mingyang Zhang, Qiaozhu Mei, Weize Kong, Michael Bendersky(参考訳) 大規模言語モデル (LLM) に特化され, 個人化されたテキスト生成が急速に研究の方向性を増している。 既存の研究の多くは、特定のドメインのための特別なモデルを設計することに焦点を当てている。 パーソナライズされた出力を生成する大規模言語モデルが凍結され,APIを通じてのみアクセス可能な,典型的なシナリオを考察する。 この制約の下では、通常手動で行う手順であるLSMに送られる入力テキスト(すなわちテキストプロンプト)を改善することができる。 本稿では,パーソナライズされたテキスト生成のためのプロンプトを自動修正する新しい手法を提案する。 提案手法は、パーソナライズされた生成のための最先端多段階フレームワークによって生成された初期プロンプトを取り込み、パーソナルコンテキストを要約して合成するいくつかの重要なコンポーネントを書き換える。 プロンプトリライタは、教師付き学習(SL)と強化学習(RL)を連携させる訓練パラダイムを採用しており、SLはRLとRLの検索スペースを削減し、リライタのエンドツーエンドトレーニングを促進する。 3つの代表的なドメインのデータセットを用いて、書き換えプロンプトが元のプロンプトと教師付き学習や強化学習のみで最適化されたプロンプトの両方より優れていることを示す。 書き直しプロンプトの詳細な分析は、人間の読みやすいだけでなく、プロンプトリライタのトレーニングに強化学習を利用するリソースが限られている場合や、推論のための自動プロンプトリライタのデプロイにコストがかかる場合のプロンプトの手作業による修正も可能であることを示している。

Facilitated by large language models (LLMs), personalized text generation has become a rapidly growing research direction. Most existing studies focus on designing specialized models for a particular domain, or they require fine-tuning the LLMs to generate personalized text. We consider a typical scenario in which the large language model, which generates personalized output, is frozen and can only be accessed through APIs. Under this constraint, all one can do is to improve the input text (i.e., text prompts) sent to the LLM, a procedure that is usually done manually. In this paper, we propose a novel method to automatically revise prompts for personalized text generation. The proposed method takes the initial prompts generated by a state-of-the-art, multistage framework for personalized generation and rewrites a few critical components that summarize and synthesize the personal context. The prompt rewriter employs a training paradigm that chains together supervised learning (SL) and reinforcement learning (RL), where SL reduces the search space of RL and RL facilitates end-to-end training of the rewriter. Using datasets from three representative domains, we demonstrate that the rewritten prompts outperform both the original prompts and the prompts optimized via supervised learning or reinforcement learning alone. In-depth analysis of the rewritten prompts shows that they are not only human readable, but also able to guide manual revision of prompts when there is limited resource to employ reinforcement learning to train the prompt rewriter, or when it is costly to deploy an automatic prompt rewriter for inference.
翻訳日:2023-10-05 06:24:54 公開日:2023-09-29
# ひとつは、すべての分類タスクのための1つのグラフモデルをトレーニングすること

One for All: Towards Training One Graph Model for All Classification Tasks ( http://arxiv.org/abs/2310.00149v1 )

ライセンス: Link先を確認
Hao Liu, Jiarui Feng, Lecheng Kong, Ningyue Liang, Dacheng Tao, Yixin Chen, Muhan Zhang(参考訳) 複数のタスクに対処する単一モデルの設計は、人工知能の長年の目標であった。 近年,大規模言語モデルは言語領域内でさまざまなタスクを統合し,解決する上で,極めて優れた能力を示している。 しかしながら、グラフ上のさまざまなタスクの統一モデルは、主にグラフ学習ドメイン特有の課題のために、未検討のままである。 まず、異なる領域のグラフデータは異なる属性を持ち、異なる分布に従う。 このような相違により、単一の表現空間におけるグラフの表現が困難になる。 第二に、グラフ上のタスクはノード、リンク、グラフタスクに多様化し、異なる埋め込み戦略を必要とする。 最後に、文脈内学習のための適切なグラフプロンプトパラダイムが不明確である。 上記のすべての課題に対処するために、我々は、上記の課題に対処するために単一のグラフモデルを使用する最初の一般的なフレームワークであるOne for All (OFA)を提案する。 具体的には、ノードとエッジを自然言語で記述することで、異なるグラフデータを統一するテキスト分散グラフを提案し、言語モデルを使用して、多様でおそらくクロスドメインなテキスト属性を符号化し、同じ埋め込み空間における特徴ベクトルを符号化する。 さらに、OFAは1つのタスク表現で異なるタスクを標準化するノードオブ関心の概念を導入している。 グラフ上のコンテキスト内学習のためにOFAは、入力グラフにサブストラクチャを付加する新しいグラフプロンプトパラダイムを導入し、微調整なしで様々なタスクに対処できるようにする。 複数のドメイン(引用ネットワーク、分子グラフ、知識グラフなど)のグラフデータを用いてOFAモデルを同時にトレーニングし、教師付き、少数ショット、ゼロショット学習シナリオにおけるその能力を評価する。 OFAは様々なタスクでうまく機能し、ドメイン間で初めての汎用グラフ分類モデルとなる。

Designing a single model that addresses multiple tasks has been a long-standing objective in artificial intelligence. Recently, large language models have demonstrated exceptional capability in integrating and solving different tasks within the language domain. However, a unified model for various tasks on graphs remains underexplored, primarily due to the challenges unique to the graph learning domain. First, graph data from different areas carry distinct attributes and follow different distributions. Such discrepancy makes it hard to represent graphs in a single representation space. Second, tasks on graphs diversify into node, link, and graph tasks, requiring distinct embedding strategies. Finally, an appropriate graph prompting paradigm for in-context learning is unclear. Striving to handle all the aforementioned challenges, we propose One for All (OFA), the first general framework that can use a single graph model to address the above challenges. Specifically, OFA proposes text-attributed graphs to unify different graph data by describing nodes and edges with natural language and uses language models to encode the diverse and possibly cross-domain text attributes to feature vectors in the same embedding space. Furthermore, OFA introduces the concept of nodes-of-interest to standardize different tasks with a single task representation. For in-context learning on graphs, OFA introduces a novel graph prompting paradigm that appends prompting substructures to the input graph, which enables it to address varied tasks without fine-tuning. We train the OFA model using graph data from multiple domains (including citation networks, molecular graphs, knowledge graphs, etc.) simultaneously and evaluate its ability in supervised, few-shot, and zero-shot learning scenarios. OFA performs well across different tasks, making it the first general-purpose graph classification model across domains.
翻訳日:2023-10-05 06:24:22 公開日:2023-09-29
# 騒音環境下における3次元復元:ビュープランニングのためのベイズ最適化視点

3D Reconstruction in Noisy Agricultural Environments: A Bayesian Optimization Perspective for View Planning ( http://arxiv.org/abs/2310.00145v1 )

ライセンス: Link先を確認
Athanasios Bacharis, Konstantinos D. Polyzos, Henry J. Nelson, Georgios B. Giannakis, Nikolaos Papanikolopoulos(参考訳) 3D再構築は、農業、水中、都市環境など、さまざまな実践的な環境において大きな影響を与えているロボット工学の基本的な課題である。 ビュープランニング(View Planning)として知られるこのタスクの重要なアプローチは、多数のカメラを視覚情報を最大化し、その結果の3D再構成を改善することである。 多数の任意画像の必要性を回避して、幾何的基準を適用してより少ないがより有意義な画像を選択し、3d再構成性能を著しく向上させることができる。 それにもかかわらず、様々な現実のシナリオに存在する環境のノイズをこれらの基準に組み込むことは、特にノイズに関する事前情報が提供されていない場合、困難である。 この目的のために、この研究は、閉形式表現を必要とせず、比較的少数の雑音実現にのみ依存する、既存の雑音を考慮に入れた新しい幾何学的関数を提唱する。 幾何関数の解析的な表現がなければ、ノイズの存在下で正確な3次元再構成のためのベイズ最適化アルゴリズムを考案する。 騒音の多い農業環境における数値実験は,少数のカメラを用いた3次元復元手法の印象的なメリットを示している。

3D reconstruction is a fundamental task in robotics that gained attention due to its major impact in a wide variety of practical settings, including agriculture, underwater, and urban environments. An important approach for this task, known as view planning, is to judiciously place a number of cameras in positions that maximize the visual information improving the resulting 3D reconstruction. Circumventing the need for a large number of arbitrary images, geometric criteria can be applied to select fewer yet more informative images to markedly improve the 3D reconstruction performance. Nonetheless, incorporating the noise of the environment that exists in various real-world scenarios into these criteria may be challenging, particularly when prior information about the noise is not provided. To that end, this work advocates a novel geometric function that accounts for the existing noise, relying solely on a relatively small number of noise realizations without requiring its closed-form expression. With no analytic expression of the geometric function, this work puts forth a Bayesian optimization algorithm for accurate 3D reconstruction in the presence of noise. Numerical tests on noisy agricultural environments showcase the impressive merits of the proposed approach for 3D reconstruction with even a small number of available cameras.
翻訳日:2023-10-05 06:23:51 公開日:2023-09-29
# Probabilistic Smpling-Enhanced Temporal-Spatial GCN:Ethereumネットワークにおけるトランザクション異常検出のためのスケーラブルなフレームワーク

Probabilistic Sampling-Enhanced Temporal-Spatial GCN: A Scalable Framework for Transaction Anomaly Detection in Ethereum Networks ( http://arxiv.org/abs/2310.00144v1 )

ライセンス: Link先を確認
Stefan Kambiz Behfar, Jon Crowcroft(参考訳) Ethereumネットワークの急速な進化は、潜在的な脅威に対する堅牢性を確保し、透明性を維持するために、高度な技術を必要とする。 グラフニューラルネットワーク(GNN)はそのようなプラットフォームにおける異常検出の先駆者であるが、空間的および時間的トランザクショナルパターンの複雑さを捉えることは依然として困難である。 本研究では、このギャップを埋めるために確率的サンプリングによって強化された時間ランダムウォーク(TRW)とGCN(Graph Convolutional Networks)の融合を提案する。 従来のGCNとは異なり、我々のアプローチはTRWの強みを利用してEthereumトランザクションの複雑な時間シーケンスを識別し、よりニュアンスなトランザクション異常検出機構を提供する。 TRW-GCNフレームワークは,異常やトランザクションバーストの検出において,従来のGCNよりも性能指標を大幅に向上することを示した。 この研究はEthereumトランザクショナルデータにおける時間的手がかりの可能性だけでなく、分散型プラットフォームのセキュリティと透明性を確保するためのスケーラブルで効果的な方法論も提供する。 空間的関係と時間的トランザクショナルシーケンスの両方をノードの特徴として利用することにより,本モデルではさらに粒度の層を導入し,検出過程をより堅牢にし,偽陽性を生じにくくする。 この研究は、ブロックチェーン技術の透明性を最適化し、強化することを目的とした将来の研究の基礎となり、分散プラットフォームにおける時間と空間の次元の両方を、進化し続ける風景の中で考慮することの重要性の証となる。

The rapid evolution of the Ethereum network necessitates sophisticated techniques to ensure its robustness against potential threats and to maintain transparency. While Graph Neural Networks (GNNs) have pioneered anomaly detection in such platforms, capturing the intricacies of both spatial and temporal transactional patterns has remained a challenge. This study presents a fusion of Graph Convolutional Networks (GCNs) with Temporal Random Walks (TRW) enhanced by probabilistic sampling to bridge this gap. Our approach, unlike traditional GCNs, leverages the strengths of TRW to discern complex temporal sequences in Ethereum transactions, thereby providing a more nuanced transaction anomaly detection mechanism. Preliminary evaluations demonstrate that our TRW-GCN framework substantially advances the performance metrics over conventional GCNs in detecting anomalies and transaction bursts. This research not only underscores the potential of temporal cues in Ethereum transactional data but also offers a scalable and effective methodology for ensuring the security and transparency of decentralized platforms. By harnessing both spatial relationships and time-based transactional sequences as node features, our model introduces an additional layer of granularity, making the detection process more robust and less prone to false positives. This work lays the foundation for future research aimed at optimizing and enhancing the transparency of blockchain technologies, and serves as a testament to the significance of considering both time and space dimensions in the ever-evolving landscape of the decentralized platforms.
翻訳日:2023-10-05 06:23:33 公開日:2023-09-29
# フィードバックの贈与:連合学習によるユーザ補正からの学習によるasrモデル品質の向上

The Gift of Feedback: Improving ASR Model Quality by Learning from User Corrections through Federated Learning ( http://arxiv.org/abs/2310.00141v1 )

ライセンス: Link先を確認
Lillian Zhou, Yuxin Ding, Mingqing Chen, Harry Zhang, Rohit Prabhavalkar, Dhruv Guliani, Giovanni Motta, Rajiv Mathews(参考訳) 自動音声認識(ASR)モデルは典型的には、転写された音声の大きなデータセットで訓練される。 言語が進化し、新しい用語が使われるようになると、これらのモデルは時代遅れになり、古くなります。 サーバ上でトレーニングされ、エッジデバイスにデプロイされるモデルのコンテキストでは、エラーは、サーバトレーニングデータと実際のオンデバイス使用とのミスマッチに起因する可能性がある。 本研究では,デバイス上でのユーザ修正からフェデレートラーニング(FL)を通じて継続的に学習し,この問題に対処する。 我々は、モデルがこれまで遭遇したことのない新しい用語をターゲットとした手法を検討し、長い単語を学習し、破滅的な忘れを緩和する。 実験により,提案手法は,言語分布全体の品質を保ちながら,新しい用語のモデル認識を改善することがわかった。

Automatic speech recognition (ASR) models are typically trained on large datasets of transcribed speech. As language evolves and new terms come into use, these models can become outdated and stale. In the context of models trained on the server but deployed on edge devices, errors may result from the mismatch between server training data and actual on-device usage. In this work, we seek to continually learn from on-device user corrections through Federated Learning (FL) to address this issue. We explore techniques to target fresh terms that the model has not previously encountered, learn long-tail words, and mitigate catastrophic forgetting. In experimental evaluations, we find that the proposed techniques improve model recognition of fresh terms, while preserving quality on the overall language distribution.
翻訳日:2023-10-05 06:23:06 公開日:2023-09-29
# GASS:大規模データによる音源分離の一般化

GASS: Generalizing Audio Source Separation with Large-scale Data ( http://arxiv.org/abs/2310.00140v1 )

ライセンス: Link先を確認
Jordi Pons, Xiaoyu Liu, Santiago Pascual, Joan Serr\`a(参考訳) ユニバーサルソース分離は、任意のミックスの音源を分離し、音声や音楽などの特定の領域で操作する制約を取り除くことを目的としている。 しかし、既存のほとんどの研究は、主に健全なイベントとの混合に焦点を当てており、小さなトレーニングデータセットも教師付き学習の可能性を制限するため、ユニバーサルソース分離の可能性は限られている。 そこで本研究では,大規模データセットを用いて音声,音楽,音声イベントを教師付き形式で分離するために訓練された1つのGASSモデルについて検討する。 GASSモデルを多様なタスクセットで評価する。 その結果, ガスモデルの実現可能性, 音響イベントと音声分離における競合的分散性能は, 一般化能力を示している。 しかし,GASSモデルでは,映像コンテンツと音楽コンテンツとの分離を一般化することは困難である。 また、各データセット上でGASSモデルを微調整し、事前トレーニングなしで継続的にパフォーマンスを向上します。 すべての微調整されたモデル(音楽分離を除く)は、それぞれのベンチマークで最先端の結果を得る。

Universal source separation targets at separating the audio sources of an arbitrary mix, removing the constraint to operate on a specific domain like speech or music. Yet, the potential of universal source separation is limited because most existing works focus on mixes with predominantly sound events, and small training datasets also limit its potential for supervised learning. Here, we study a single general audio source separation (GASS) model trained to separate speech, music, and sound events in a supervised fashion with a large-scale dataset. We assess GASS models on a diverse set of tasks. Our strong in-distribution results show the feasibility of GASS models, and the competitive out-of-distribution performance in sound event and speech separation shows its generalization abilities. Yet, it is challenging for GASS models to generalize for separating out-of-distribution cinematic and music content. We also fine-tune GASS models on each dataset and consistently outperform the ones without pre-training. All fine-tuned models (except the music separation one) obtain state-of-the-art results in their respective benchmarks.
翻訳日:2023-10-05 06:22:41 公開日:2023-09-29
# 過パラメータニューラルネットワークの理論と実践の切り離しについて

On the Disconnect Between Theory and Practice of Overparametrized Neural Networks ( http://arxiv.org/abs/2310.00137v1 )

ライセンス: Link先を確認
Jonathan Wenger and Felix Dangel and Agustinus Kristiadi(参考訳) ニューラルネットワークの無限幅限界(nns)は、大規模で過パラメータのネットワークの振る舞いを分析する理論的枠組みとして大きな注目を集めている。 無限幅に近づくことで、NNはニューラルネットワークカーネル(NTK)の特徴を持つ線形モデルに効果的に収束する。 これはNNとカーネルメソッドの接続を確立し、後者はよく理解されている。 このリンクに基づいて、理論上の利点とアルゴリズム的な改善が合成アーキテクチャで仮定され、実証的に実証されている。 これらの利点には、高速な最適化、信頼性のある不確実性定量化、継続的な学習の改善などがある。 しかしながら、現在のカーネル体制への収束率の定量化の結果は、これらの利点を活用するには、それらよりも桁違いに広いアーキテクチャが必要であることを示唆している。 この仮定は、NTKが予測した振る舞いを実際に関連するアーキテクチャが示さないという懸念を引き起こす。 本研究では,制約レジームが実際の大規模アーキテクチャの動作を記述しているか,あるいはアルゴリズムの改善に役立つのかを実証的に検討する。 我々の経験的結果は、最適化や不確実性定量化、継続学習ではそうではないことを示している。 この観測は、無限幅極限の実践的関連性に疑問を呈する理論と実践的呼び出しの切り離しを観測した。

The infinite-width limit of neural networks (NNs) has garnered significant attention as a theoretical framework for analyzing the behavior of large-scale, overparametrized networks. By approaching infinite width, NNs effectively converge to a linear model with features characterized by the neural tangent kernel (NTK). This establishes a connection between NNs and kernel methods, the latter of which are well understood. Based on this link, theoretical benefits and algorithmic improvements have been hypothesized and empirically demonstrated in synthetic architectures. These advantages include faster optimization, reliable uncertainty quantification and improved continual learning. However, current results quantifying the rate of convergence to the kernel regime suggest that exploiting these benefits requires architectures that are orders of magnitude wider than they are deep. This assumption raises concerns that practically relevant architectures do not exhibit behavior as predicted via the NTK. In this work, we empirically investigate whether the limiting regime either describes the behavior of large-width architectures used in practice or is informative for algorithmic improvements. Our empirical results demonstrate that this is not the case in optimization, uncertainty quantification or continual learning. This observed disconnect between theory and practice calls into question the practical relevance of the infinite-width limit.
翻訳日:2023-10-05 06:22:09 公開日:2023-09-29
# 非凸収束解析を用いたPnP-ADMMの事前ミスマッチと適応

Prior Mismatch and Adaptation in PnP-ADMM with a Nonconvex Convergence Analysis ( http://arxiv.org/abs/2310.00133v1 )

ライセンス: Link先を確認
Shirin Shoushtari, Jiaming Liu, Edward P. Chandler, M. Salman Asif, Ulugbek S. Kamilov(参考訳) プラグ・アンド・プレイ・プリアーズ(pnp priors)は、画像デノイザによって特定された画像プリアーと物理的計測モデルを統合することで、画像逆問題を解くために広く用いられている手法である。 PnP法は、前者が強力なDenoiserを用いて得られた場合、最先端の性能を達成することが示されている。 PnPに関する広範な研究にもかかわらず、トレーニングデータとテストデータの間の分布ミスマッチのトピックはしばしばPnPの文献で見過ごされてきた。 本稿では,PnP の乗算器 (ADMM) の交互方向法における事前分布ミスマッチと領域適応に関する新しい理論的および数値的な結果を提案する。 我々の理論的結果は、所望のデノイザと推論に用いるデノイザとのミスマッチのため、PnP-ADMMに対して明示的な誤差を与える。 本分析は,非凸データ忠実性項と拡張デノイザによるミスマッチを考慮し,この分野の研究に寄与する。 画像の超解像問題に対するpnp-admmの性能に対する事前分布ミスマッチの影響を,第1セットの数値計算により定量化する。 第2セットの数値結果は,ミスマッチド・デノイザの使用による性能ギャップを解消する,単純かつ効果的なドメイン適応戦略について考察する。 以上の結果から,PnP-ADMMの事前分布ミスマッチに対する相対ロバスト性を示唆するとともに,所望の分布からのトレーニングサンプルを少なくして,性能ギャップを著しく低減できることが示唆された。

Plug-and-Play (PnP) priors is a widely-used family of methods for solving imaging inverse problems by integrating physical measurement models with image priors specified using image denoisers. PnP methods have been shown to achieve state-of-the-art performance when the prior is obtained using powerful deep denoisers. Despite extensive work on PnP, the topic of distribution mismatch between the training and testing data has often been overlooked in the PnP literature. This paper presents a set of new theoretical and numerical results on the topic of prior distribution mismatch and domain adaptation for alternating direction method of multipliers (ADMM) variant of PnP. Our theoretical result provides an explicit error bound for PnP-ADMM due to the mismatch between the desired denoiser and the one used for inference. Our analysis contributes to the work in the area by considering the mismatch under nonconvex data-fidelity terms and expansive denoisers. Our first set of numerical results quantifies the impact of the prior distribution mismatch on the performance of PnP-ADMM on the problem of image super-resolution. Our second set of numerical results considers a simple and effective domain adaption strategy that closes the performance gap due to the use of mismatched denoisers. Our results suggest the relative robustness of PnP-ADMM to prior distribution mismatch, while also showing that the performance gap can be significantly reduced with few training samples from the desired distribution.
翻訳日:2023-10-05 06:21:22 公開日:2023-09-29
# セマンティック量子化と分解による視聴覚セグメンテーションの再考

Rethinking Audiovisual Segmentation with Semantic Quantization and Decomposition ( http://arxiv.org/abs/2310.00132v1 )

ライセンス: Link先を確認
Xiang Li, Jinglu Wang, Xiaohao Xu, Xiulian Peng, Rita Singh, Yan Lu, Bhiksha Raj(参考訳) 聴覚的セグメンテーション(AVS)は、視覚的オブジェクトを関連性のある音響的手がかりに基づいてビデオに分割することを目的とした課題である。 複数の音源が関与し、音声と視覚コンテンツ間の堅牢な対応を確立することは、(1)音源間の複雑な絡み合い、(2)音声イベント間の頻繁なシフトにより、ユニークな課題となる。 音事象が独立に起こると仮定すると、マルチソース意味空間(全ての可能な意味圏を含む)は、単一ソース部分空間のカルテシアン積とみなすことができる。 これにより、マルチソース音声セマンティクスを単一ソースセマンティクスに分解し、視覚コンテンツとのより効果的な相互作用を可能にする。 具体的には、製品量子化に基づく意味分解手法を提案し、複数の量化単一ソースセマンティクスによってマルチソースセマンティクスを分解し、表現することができる。 さらに,安定なグローバル(クリップレベル)機能からローカル(フレームレベル)機能への知識を抽出し,音声セマンティクスの定常的な変化を処理するグローバルからローカルへの量子化機構を導入する。 大規模な実験により、意味論的に定量化され分解されたオーディオ表現は、最も困難なAVS-Semanticベンチマークにおける+21.2% mIoUなどのAVSのパフォーマンスを大幅に改善することが示された。

Audiovisual segmentation (AVS) is a challenging task that aims to segment visual objects in videos based on their associated acoustic cues. With multiple sound sources involved, establishing robust correspondences between audio and visual contents poses unique challenges due to its (1) intricate entanglement across sound sources and (2) frequent shift among sound events. Assuming sound events occur independently, the multi-source semantic space (which encompasses all possible semantic categories) can be viewed as the Cartesian product of single-source sub-spaces. This motivates us to decompose the multi-source audio semantics into single-source semantics, allowing for more effective interaction with visual content. Specifically, we propose a semantic decomposition method based on product quantization, where the multi-source semantics can be decomposed and represented by several quantized single-source semantics. Furthermore, we introduce a global-to-local quantization mechanism that distills knowledge from stable global (clip-level) features into local (frame-level) ones to handle the constant shift of audio semantics. Extensive experiments demonstrate that semantically quantized and decomposed audio representation significantly improves AVS performance, e.g., +21.2% mIoU on the most challenging AVS-Semantic benchmark.
翻訳日:2023-10-05 06:20:36 公開日:2023-09-29
# ILB: 緊急時の電力需要対応プログラムを可能にするグラフニューラルネットワーク

ILB: Graph Neural Network Enabled Emergency Demand Response Program For Electricity ( http://arxiv.org/abs/2310.00129v1 )

ライセンス: Link先を確認
Sina Shaham, Bhaskar Krishnamachari, Matthew Kahn(参考訳) 需要応答(DR)プログラムは、電力需要の増加に応えて、電力消費の柔軟性を供給から需要へとシフトさせるため、スマート電力網の重要な構成要素となっている。 特に危機時には、予期せぬエネルギー需要の急増を管理する緊急のdrプログラムが求められる。 本稿では,危機時の需要と応答を効率的に管理するプログラム,Incentive-Driven Load Balancer (ILB)を提案する。 フレキシブルな家庭にインセンティブを提供することで、ilbは効果的な需要削減を促進し、予期しないイベントに備える。 ILBを実現するために,参加者選択のための2段階の機械学習ベースのフレームワークを導入する。 このフレームワークは2つのグラフニューラルネットワーク(GNN)を利用しており、1つはパターン認識用、もう1つは世帯選択用である。 カリフォルニア州,ミシガン州,テキサス州における家庭レベルの電力消費に関する広範囲な実験を通じて,緊急時のコミュニティ支援におけるilbプログラムの有意義な効果を実証した。

Demand Response (DR) programs have become a crucial component of smart electricity grids as they shift the flexibility of electricity consumption from supply to demand in response to the ever-growing demand for electricity. In particular, in times of crisis, an emergency DR program is required to manage unexpected spikes in energy demand. In this paper, we propose the Incentive-Driven Load Balancer (ILB), a program designed to efficiently manage demand and response during crisis situations. By offering incentives to flexible households likely to reduce demand, the ILB facilitates effective demand reduction and prepares them for unexpected events. To enable ILB, we introduce a two-step machine learning-based framework for participant selection, which employs a graph-based approach to identify households capable of easily adjusting their electricity consumption. This framework utilizes two Graph Neural Networks (GNNs): one for pattern recognition and another for household selection. Through extensive experiments on household-level electricity consumption in California, Michigan, and Texas, we demonstrate the ILB program's significant effectiveness in supporting communities during emergencies.
翻訳日:2023-10-05 06:20:09 公開日:2023-09-29
# ボリュームスパナ用タイトバウンドとその応用

Tight Bounds for Volumetric Spanners and Applications ( http://arxiv.org/abs/2310.00175v1 )

ライセンス: Link先を確認
Aditya Bhaskara, Sepideh Mahabadi and Ali Vakilian(参考訳) 興味のある点の集合が与えられたとき、体積スパンナー(英: volumetric spanner)は、すべての点を「小さい」係数(適切なノルムで測る)で表現できる点の部分集合である。 形式的には、ベクトルの集合 $X = \{v_1, v_2, \dots, v_n\}$ が与えられたとき、ゴールは、すべての$v \in X$ が $\sum_{i\in T} \alpha_i v_i$ として表現できるような$T \subseteq [n]$ を見つけることである。 この概念は良く条件付けされた基底としても言及されており、バンディット線形最適化、行列行列行列最大化、行列低階近似などいくつかの応用がある。 本稿では,すべての$\ell_p$ノルムに対して,体積スパンナーのサイズをほぼ最適に制限し,簡単な局所探索法を用いて構築可能であることを示す。 次に、この結果の他のタスクへの応用、特に最小体積閉楕円体問題(MVEE)のコアセットを見つける問題を示す。

Given a set of points of interest, a volumetric spanner is a subset of the points using which all the points can be expressed using "small" coefficients (measured in an appropriate norm). Formally, given a set of vectors $X = \{v_1, v_2, \dots, v_n\}$, the goal is to find $T \subseteq [n]$ such that every $v \in X$ can be expressed as $\sum_{i\in T} \alpha_i v_i$, with $\|\alpha\|$ being small. This notion, which has also been referred to as a well-conditioned basis, has found several applications, including bandit linear optimization, determinant maximization, and matrix low rank approximation. In this paper, we give almost optimal bounds on the size of volumetric spanners for all $\ell_p$ norms, and show that they can be constructed using a simple local search procedure. We then show the applications of our result to other tasks and in particular the problem of finding coresets for the Minimum Volume Enclosing Ellipsoid (MVEE) problem.
翻訳日:2023-10-05 06:14:31 公開日:2023-09-29
# 分子指紋の組み合わせによるADMET特性予測

ADMET property prediction through combinations of molecular fingerprints ( http://arxiv.org/abs/2310.00174v1 )

ライセンス: Link先を確認
James H. Notwell and Michael W. Wood(参考訳) 小型分子量予測手法を検討中,最近開発された手法を一貫して上回っている拡張結合性指紋(ecfp)と組み合わせたランダムフォレストやサポートベクターマシンを見出した。 回帰アルゴリズムと分子指紋の詳細な研究により、ECFP、Avalon、ErGの2つの指紋と組み合わせて、特にCatBoostの勾配式決定木と200の分子特性が最も効果的であることが判明した。 グラフニューラルネットワーク指紋の導入により、さらに性能が向上した。 22のTherapeutics Data Commons ADMETベンチマークでモデルを検証しました。 以上の結果から, よりリッチな分子表現による特性予測の重要性が示唆された。

While investigating methods to predict small molecule potencies, we found random forests or support vector machines paired with extended-connectivity fingerprints (ECFP) consistently outperformed recently developed methods. A detailed investigation into regression algorithms and molecular fingerprints revealed gradient-boosted decision trees, particularly CatBoost, in conjunction with a combination of ECFP, Avalon, and ErG fingerprints, as well as 200 molecular properties, to be most effective. Incorporating a graph neural network fingerprint further enhanced performance. We successfully validated our model across 22 Therapeutics Data Commons ADMET benchmarks. Our findings underscore the significance of richer molecular representations for accurate property prediction.
翻訳日:2023-10-05 06:14:04 公開日:2023-09-29
# Motif: 人工知能のフィードバックによる本質的な動機づけ

Motif: Intrinsic Motivation from Artificial Intelligence Feedback ( http://arxiv.org/abs/2310.00166v1 )

ライセンス: Link先を確認
Martin Klissarov, Pierluca D'Oro, Shagun Sodhani, Roberta Raileanu, Pierre-Luc Bacon, Pascal Vincent, Amy Zhang, Mikael Henaff(参考訳) 豊かな環境を探索し、事前知識なしで行動を評価することは、非常に難しい。 本稿では,Large Language Model (LLM) からの事前知識をエージェントと対話する汎用手法であるMotifを提案する。 モチーフは、環境との相互作用を必要とせずに意思決定のためにllmをグラウンド化するというアイデアに基づいている: 内在的な報酬を構築するために、一対のキャプションに対するllmからの選好を誘発し、強化学習を伴うエージェントのトレーニングに使用される。 そこで本研究では,nethackゲームにおけるモチーフのパフォーマンスと動作を評価する。 驚いたことに、本質的な報酬を最大化することだけを学ぶことで、Motifはスコアそのものを最大化するために直接訓練されたアルゴリズムよりも高いスコアを達成する。 提案手法は,モティフの本質的な報酬と環境報酬とを組み合わせることで,既存の手法を著しく上回り,実演なしで進歩が得られないタスクを進行させる。 最後に,モチーフは,プロンプトで与えられた情報量やllmサイズに合わせてスケーリングしながら,プロンプト修正によって容易に制御できる直感的な人間指向の動作を主に生成することを示す。

Exploring rich environments and evaluating one's actions without prior knowledge is immensely challenging. In this paper, we propose Motif, a general method to interface such prior knowledge from a Large Language Model (LLM) with an agent. Motif is based on the idea of grounding LLMs for decision-making without requiring them to interact with the environment: it elicits preferences from an LLM over pairs of captions to construct an intrinsic reward, which is then used to train agents with reinforcement learning. We evaluate Motif's performance and behavior on the challenging, open-ended and procedurally-generated NetHack game. Surprisingly, by only learning to maximize its intrinsic reward, Motif achieves a higher game score than an algorithm directly trained to maximize the score itself. When combining Motif's intrinsic reward with the environment reward, our method significantly outperforms existing approaches and makes progress on tasks where no advancements have ever been made without demonstrations. Finally, we show that Motif mostly generates intuitive human-aligned behaviors which can be steered easily through prompt modifications, while scaling well with the LLM size and the amount of information given in the prompt.
翻訳日:2023-10-05 06:13:53 公開日:2023-09-29
# スコア:実世界のクラス不均衡設定のためのサブモジュラー組合せ表現学習

SCoRe: Submodular Combinatorial Representation Learning for Real-World Class-Imbalanced Settings ( http://arxiv.org/abs/2310.00165v1 )

ライセンス: Link先を確認
Anay Majee and Suraj Kothawade and Krishnateja Killiamsetty and Rishabh Iyer(参考訳) 実世界のクラス不均衡設定における表現学習は、ディープラーニングの進化において難しい課題として現れてきた。 希少クラスの視覚的特徴と構造的特徴の多様性の欠如は、差別的特徴クラスタを学ぶために現代のニューラルネットワークを制限する。 これは、レアオブジェクトクラス間のクラス間の大きなバイアスと、データセット内の豊富なクラス間のクラス内分散の増加という形で現れます。 ディープメトリック学習のアプローチはこの領域で約束されているが、自律的なナビゲーションや医療診断といったミッションクリティカルなタスクのクラス不均衡に関連する課題を克服するために、大幅な改善が必要となる。 サブモジュール情報測度のようなセットベースの組合せ関数は、特徴クラスタ間の多様性と協調を同時にモデル化できる特性を示す。 本稿では,SCoRe(Submodular Combinatorial Representation Learning)フレームワークを導入し,これらの落とし穴を克服するサブモジュール型 Combinatorial Loss関数群を提案する。 また、既存のコントラスト学習アプローチは、サブモジュラーか、あるいはサブモジュラーに対応するために再形式化可能であることも示します。 CIFAR-10, MedMNIST のサブセット, 実世界の道路物体検出ベンチマーク - India Driving Dataset (IDD) の2つの画像分類ベンチマークにおいて, 新たに導入された組合せ目的のファミリーについて実験を行った。 実験の結果,施設配置,グラフキュート,ログ決定といった新たな目的が,非バランスな分類タスクでは最大7.6%,オブジェクト検出タスクでは最大19.4%,最先端のメトリクス学習者では最大7.6%向上したことが明らかとなった。

Representation Learning in real-world class-imbalanced settings has emerged as a challenging task in the evolution of deep learning. Lack of diversity in visual and structural features for rare classes restricts modern neural networks to learn discriminative feature clusters. This manifests in the form of large inter-class bias between rare object classes and elevated intra-class variance among abundant classes in the dataset. Although deep metric learning approaches have shown promise in this domain, significant improvements need to be made to overcome the challenges associated with class-imbalance in mission critical tasks like autonomous navigation and medical diagnostics. Set-based combinatorial functions like Submodular Information Measures exhibit properties that allow them to simultaneously model diversity and cooperation among feature clusters. In this paper, we introduce the SCoRe (Submodular Combinatorial Representation Learning) framework and propose a family of Submodular Combinatorial Loss functions to overcome these pitfalls in contrastive learning. We also show that existing contrastive learning approaches are either submodular or can be re-formulated to create their submodular counterparts. We conduct experiments on the newly introduced family of combinatorial objectives on two image classification benchmarks - pathologically imbalanced CIFAR-10, subsets of MedMNIST and a real-world road object detection benchmark - India Driving Dataset (IDD). Our experiments clearly show that the newly introduced objectives like Facility Location, Graph-Cut and Log Determinant outperform state-of-the-art metric learners by up to 7.6% for the imbalanced classification tasks and up to 19.4% for object detection tasks.
翻訳日:2023-10-05 06:13:33 公開日:2023-09-29
# PRIME:障害モード抽出における解釈可能性の優先順位付け

PRIME: Prioritizing Interpretability in Failure Mode Extraction ( http://arxiv.org/abs/2310.00164v1 )

ライセンス: Link先を確認
Keivan Rezaei, Mehrdad Saberi, Mazda Moayeri, Soheil Feizi(参考訳) 本研究では,訓練された画像分類モデルにおいて,故障モードに対する人間の理解可能な記述を提供することの課題について検討する。 既存の研究は、まず不正確な分類されたサンプルのクラスタ(または方向)を潜在空間で識別し、人間に理解可能なテキスト記述を提供することによってこの問題に対処する。 テキストの記述が特定された障害モードとうまく一致しないケースもあるが、これは部分的には、障害モードの共有解釈可能な属性が機能領域のクラスタリングを使って取得できないためである。 これらの欠点を改善するために、我々は、まずデータセット内の画像の人間の理解可能な概念(タグ)を取得し、これらのタグの組み合わせの有無に基づいてモデルの振る舞いを分析することから、この問題における解釈可能性の優先順位付けを行う新しいアプローチを提案する。 また,障害モードを記述するタグが最小限のセットとなることを保証し,冗長かつノイズの多い記述を避ける。 提案手法は,異なるデータセットに対するいくつかの実験を通じて,障害モードの同定に成功し,それに関連する高品質なテキスト記述を生成する。 これらの結果は、モデルの失敗を理解する上での解釈可能性の優先順位付けの重要性を強調している。

In this work, we study the challenge of providing human-understandable descriptions for failure modes in trained image classification models. Existing works address this problem by first identifying clusters (or directions) of incorrectly classified samples in a latent space and then aiming to provide human-understandable text descriptions for them. We observe that in some cases, describing text does not match well with identified failure modes, partially owing to the fact that shared interpretable attributes of failure modes may not be captured using clustering in the feature space. To improve on these shortcomings, we propose a novel approach that prioritizes interpretability in this problem: we start by obtaining human-understandable concepts (tags) of images in the dataset and then analyze the model's behavior based on the presence or absence of combinations of these tags. Our method also ensures that the tags describing a failure mode form a minimal set, avoiding redundant and noisy descriptions. Through several experiments on different datasets, we show that our method successfully identifies failure modes and generates high-quality text descriptions associated with them. These results highlight the importance of prioritizing interpretability in understanding model failures.
翻訳日:2023-10-05 06:13:03 公開日:2023-09-29
# オープンボキャブラリ検出のための画像テキスト事前学習

Detection-Oriented Image-Text Pretraining for Open-Vocabulary Detection ( http://arxiv.org/abs/2310.00161v1 )

ライセンス: Link先を確認
Dahun Kim, Anelia Angelova, Weicheng Kuo(参考訳) 本稿では,画像レベルのプリトレーニングとオープンボキャブラリオブジェクト検出のギャップを埋めるために,検出指向画像テキストプリトレーニングに基づく新しいオープンボキャブラリ検出手法を提案する。 事前学習の段階では,一般的な分類アーキテクチャを検出器アーキテクチャに置き換えることにより,検出ヘッドがノイズの多い画像テキストペアから学習することを可能にすることにより,検出領域レベルの認識ニーズを改善する。 標準のコントラスト損失と擬似ラベルを使わずに、このアプローチは、創発的なオブジェクト・セマンティクスの手がかりを学ぶためのコントラスト学習法の単純かつ効果的な拡張である。 さらに,ウィンドウに注意を向けたシフトウィンドウ学習アプローチを提案し,バックボーン表現をより堅牢で,翻訳不変で,ウィンドウパターンに偏りを少なくする。 一般的なLVISオープン語彙検出ベンチマークでは、一般的なViT-Lバックボーンを用いて40.4マスクAP$_r$の新たな状態を設定し、システムレベルでは+6.5マスクAP$_r$よりも優れた既存のアプローチを実現している。 COCOベンチマークでは、擬似ラベル付けや弱い監督なしに、非常に競争力のある40.8の新規APを達成する。 さらに,転送検出装置に対する我々のアプローチを評価し,ベースラインを著しく上回る結果を得た。 可視化は、ベースラインと比較して事前学習されたレシピから出現するオブジェクトの局所性を明らかにする。 コードとモデルは公開される予定だ。

We present a new open-vocabulary detection approach based on detection-oriented image-text pretraining to bridge the gap between image-level pretraining and open-vocabulary object detection. At the pretraining phase, we replace the commonly used classification architecture with the detector architecture, which better serves the region-level recognition needs of detection by enabling the detector heads to learn from noisy image-text pairs. Using only standard contrastive loss and no pseudo-labeling, our approach is a simple yet effective extension of the contrastive learning method to learn emergent object-semantic cues. In addition, we propose a shifted-window learning approach upon window attention to make the backbone representation more robust, translation-invariant, and less biased by the window pattern. On the popular LVIS open-vocabulary detection benchmark, our approach sets a new state of the art of 40.4 mask AP$_r$ using the common ViT-L backbone, significantly outperforming the best existing approach by +6.5 mask AP$_r$ at system level. On the COCO benchmark, we achieve very competitive 40.8 novel AP without pseudo labeling or weak supervision. In addition, we evaluate our approach on the transfer detection setup, where ours outperforms the baseline significantly. Visualization reveals emerging object locality from the pretraining recipes compared to the baseline. Code and models will be publicly released.
翻訳日:2023-10-05 06:12:42 公開日:2023-09-29
# 自己スペシャライゼーション - 大規模言語モデルにおける潜在専門家の発見

Self-Specialization: Uncovering Latent Expertise within Large Language Models ( http://arxiv.org/abs/2310.00160v1 )

ライセンス: Link先を確認
Junmo Kang, Hongyin Luo, Yada Zhu, James Glass, David Cox, Alan Ritter, Rogerio Feris, Leonid Karlinsky(参考訳) 近年の研究では、大規模な言語モデルが、一握りの人間書きの種を用いた指導データの自動生成を通じて、それ自体が一般的な指示に従うように整列された自己アライメントの有効性が実証されている。 本研究では,専門分野の専門化(バイオメディシンなど)のための自己調整に重点を置き,対象分野におけるゼロショットと少数ショットのパフォーマンス向上に極めて有効であることを発見した。 予備として,我々はまず,特定領域内の既存のアライメントモデルのベンチマーク結果を提示し,ダウンストリームの専門家ドメインのパフォーマンスに対する"ジェネリック"命令追従訓練の限界効果を明らかにする。 これを改善するために、ドメイン固有の未ラベルデータといくつかのラベル付き種子を利用した自己調整プロセスについて検討する。 幻覚を減少させ、アライメントの並行性を高めるために検索を追加すると、自己専門化は、専門知識の異なる領域が元々「重ね合わせ」の形で結合された、"ジェネラリスト"から専門家モデルを「彫り出す(carving out)」ための効果的な(かつ効率的な)方法を提供する。 生体医学領域における実験結果から,我々の自己特化モデル(30b)は,基礎モデルであるmpt-30bを大きなマージンで上回り,llama-65bに基づくより大きな人気モデルを上回ること,特にデータやパラメータの効率を考慮し,専門化の可能性と実用性を浮き彫りにした。

Recent works have demonstrated the effectiveness of self-alignment in which a large language model is, by itself, aligned to follow general instructions through the automatic generation of instructional data using a handful of human-written seeds. Instead of general alignment, in this work, we focus on self-alignment for expert domain specialization (e.g., biomedicine), discovering it to be very effective for improving zero-shot and few-shot performance in target domains of interest. As a preliminary, we first present the benchmark results of existing aligned models within a specialized domain, which reveals the marginal effect that "generic" instruction-following training has on downstream expert domains' performance. To remedy this, we explore self-specialization that leverages domain-specific unlabelled data and a few labeled seeds for the self-alignment process. When augmented with retrieval to reduce hallucination and enhance concurrency of the alignment, self-specialization offers an effective (and efficient) way of "carving out" an expert model out of a "generalist", pre-trained LLM where different domains of expertise are originally combined in a form of "superposition". Our experimental results on a biomedical domain show that our self-specialized model (30B) outperforms its base model, MPT-30B by a large margin and even surpasses larger popular models based on LLaMA-65B, highlighting its potential and practicality for specialization, especially considering its efficiency in terms of data and parameters.
翻訳日:2023-10-05 06:12:18 公開日:2023-09-29
# 不均衡分類のためのフィードバック誘導データ合成

Feedback-guided Data Synthesis for Imbalanced Classification ( http://arxiv.org/abs/2310.00158v1 )

ライセンス: Link先を確認
Reyhane Askari Hemmat, Mohammad Pezeshki, Florian Bordes, Michal Drozdzal, Adriana Romero-Soriano(参考訳) 機械学習の現在の状況は、トレーニングに実際のイメージの静的データセットを使用することである。 最近の生成モデルの進歩により、研究者はこれらの静的データセットを合成データで拡張し始め、分類タスクにおける適度なパフォーマンス改善を報告した。 これらの性能向上は、分類器から生成モデルへのフィードバックの欠如によって制限され、生成したサンプルが分類器の性能を改善するのに役立つと仮定した。 本研究では,分類器からのワンショットフィードバックを利用して生成モデルのサンプリングを行う,有用な合成サンプルを用いた静的データセットの拡張フレームワークを提案する。 フレームワークが効果的になるためには、サンプルは目の前のタスクの実際のデータのサポートに近いものでなければならず、十分な多様性がある必要があります。 ロングテールデータセット(imagenet-lt)とグループ不均衡データセット(nico++)の3つのフィードバック基準を検証する。 imagenet-ltでは,生成した合成サンプル数で2倍の効率で,低表示クラスでは4%以上改善した。 NICO++はまた、最悪のグループ精度で5%以上向上している。 これらの結果から,我々のフレームワークは,下流アプリケーションを改善するためにクエリ可能なデータソースとして,最先端のテキスト・画像モデルを有効に活用するための道筋をたどる。

Current status quo in machine learning is to use static datasets of real images for training, which often come from long-tailed distributions. With the recent advances in generative models, researchers have started augmenting these static datasets with synthetic data, reporting moderate performance improvements on classification tasks. We hypothesize that these performance gains are limited by the lack of feedback from the classifier to the generative model, which would promote the usefulness of the generated samples to improve the classifier's performance. In this work, we introduce a framework for augmenting static datasets with useful synthetic samples, which leverages one-shot feedback from the classifier to drive the sampling of the generative model. In order for the framework to be effective, we find that the samples must be close to the support of the real data of the task at hand, and be sufficiently diverse. We validate three feedback criteria on a long-tailed dataset (ImageNet-LT) as well as a group-imbalanced dataset (NICO++). On ImageNet-LT, we achieve state-of-the-art results, with over 4 percent improvement on underrepresented classes while being twice efficient in terms of the number of generated synthetic samples. NICO++ also enjoys marked boosts of over 5 percent in worst group accuracy. With these results, our framework paves the path towards effectively leveraging state-of-the-art text-to-image models as data sources that can be queried to improve downstream applications.
翻訳日:2023-10-05 06:11:47 公開日:2023-09-29
# 軌道生成による汎用ツールスキルの学習

Learning Generalizable Tool-use Skills through Trajectory Generation ( http://arxiv.org/abs/2310.00156v1 )

ライセンス: Link先を確認
Carl Qi, Sarthak Shetty, Xingyu Lin, David Held(参考訳) 効率的にツールを利用する自律システムは、調理や清掃などの多くの一般的なタスクを人間に完了させるのに役立つ。 しかし、現在のシステムは、新しいツールに適応するという意味では、人間のレベルの知性に合わない。 余裕に基づく先行研究は、しばしば環境について強い仮定をし、より複雑で接触に富んだタスクにスケールできない。 本研究では、この課題に取り組み、エージェントが未発見のツールを使って変形可能なオブジェクトを操作する方法を探求する。 本稿では,ツール利用軌跡の生成モデルを点雲列として学習し,ツール形状を一般化する手法を提案する。 新たなツールが与えられたら、まずツール使用の軌跡を生成し、生成した軌跡に合うようにツールポーズのシーケンスを最適化します。 4つの異なる難解な変形可能なオブジェクト操作タスクに対して、1つのモデルをトレーニングする。 本モデルでは,タスク毎に1つのツールから1つのデモデータをトレーニングし,様々な新しいツールに一般化し,ベースラインを大幅に上回っている。 追加資料はプロジェクトのWebサイト(https://sites.google.com/view/toolgen.com)で参照できます。

Autonomous systems that efficiently utilize tools can assist humans in completing many common tasks such as cooking and cleaning. However, current systems fall short of matching human-level of intelligence in terms of adapting to novel tools. Prior works based on affordance often make strong assumptions about the environments and cannot scale to more complex, contact-rich tasks. In this work, we tackle this challenge and explore how agents can learn to use previously unseen tools to manipulate deformable objects. We propose to learn a generative model of the tool-use trajectories as a sequence of point clouds, which generalizes to different tool shapes. Given any novel tool, we first generate a tool-use trajectory and then optimize the sequence of tool poses to align with the generated trajectory. We train a single model for four different challenging deformable object manipulation tasks. Our model is trained with demonstration data from just a single tool for each task and is able to generalize to various novel tools, significantly outperforming baselines. Additional materials can be found on our project website: https://sites.google.com/view/toolgen.
翻訳日:2023-10-05 06:11:27 公開日:2023-09-29
# 2次元連続学習:ラグランジュ乗算器による安定性と塑性

Primal-Dual Continual Learning: Stability and Plasticity through Lagrange Multipliers ( http://arxiv.org/abs/2310.00154v1 )

ライセンス: Link先を確認
Juan Elenter, Navid NaderiAlizadeh, Tara Javidi, Alejandro Ribeiro(参考訳) 連続学習は本質的に制約付き学習問題である。 目標は、emph{no-forgetting}要求の下で予測子を学ぶことだ。 いくつかの先行研究がこれを定式化しているが、制約された問題を明示的に解決していない。 本研究では,制約付き最適化問題を直接実施することは可能かつ有益であることを示す。 これを実現するために,ラグランジュ双対性による制約付き学習における最近の結果を活用する。 これまでのタスクのサンプルのごく一部をリプレイバッファに格納できるメモリベースのメソッドに注目した。 本研究では,連続学習問題の2つのバージョン,すなわちタスクレベルで制約のある粗いアプローチとサンプルレベルで制約のある微妙なアプローチを分析した。 双対変数は制約摂動に関して最適値の感度を示す。 次に、この結果を利用して、粗いアプローチでバッファを分割し、より多くのリソースをより難しいタスクに割り当て、影響のあるサンプルのみを含む詳細なアプローチでバッファをポップアップさせます。 我々は、サブ最適性境界を導出し、様々な連続学習ベンチマークで理論結果を実証的にコーポレートする。 また、利用可能なメモリ量や最適化問題に関わる制約の数に関して、これらの方法の制限についても論じる。

Continual learning is inherently a constrained learning problem. The goal is to learn a predictor under a \emph{no-forgetting} requirement. Although several prior studies formulate it as such, they do not solve the constrained problem explicitly. In this work, we show that it is both possible and beneficial to undertake the constrained optimization problem directly. To do this, we leverage recent results in constrained learning through Lagrangian duality. We focus on memory-based methods, where a small subset of samples from previous tasks can be stored in a replay buffer. In this setting, we analyze two versions of the continual learning problem: a coarse approach with constraints at the task level and a fine approach with constraints at the sample level. We show that dual variables indicate the sensitivity of the optimal value with respect to constraint perturbations. We then leverage this result to partition the buffer in the coarse approach, allocating more resources to harder tasks, and to populate the buffer in the fine approach, including only impactful samples. We derive sub-optimality bounds, and empirically corroborate our theoretical results in various continual learning benchmarks. We also discuss the limitations of these methods with respect to the amount of memory available and the number of constraints involved in the optimization problem.
翻訳日:2023-10-05 06:11:09 公開日:2023-09-29
# 超高速レーザーパルス中におけるh$_2$の単イオンおよび二重イオン化の電気核ダイナミクス

Electro-nuclear dynamics of single and double ionization of H$_2$ in ultrafast intense laser pulses ( http://arxiv.org/abs/2310.00189v1 )

ライセンス: Link先を確認
J.-N. Vigneau, T.-T. Nguyen-Dang and E. Charron(参考訳) 赤外線から紫外線まで波長の激しいレーザー場に露出する小さな分子は、プロトタイプとして過去数十年にわたって、磁場によって引き起こされる励起と断片化のメカニズムを解明し、より良い理解と最終的な制御を可能にしたため、魅力的な物体である。 プラズマ物理学におけるいくつかの応用は、2原子分子系、特にH$2$分子の単一イオン化確率と二重イオン化確率を、限られた計算時間で幅広い周波数とレーザー強度で予測し、放出された破片のエネルギーを現実的に推定できる計算符号を必要とする。 本稿では, イオン化処理に対する準解析的アプローチに基づいて, 核動力学処理に対する数値的アプローチを補完するモデルを提案する。

Small molecules exposed to intense laser fields with wavelengths ranging from infrared to ultraviolet are fascinating objects because, as prototypes, they have made it possible over the last few decades to unravel the excitation and fragmentation mechanisms induced by the field, allowing better understanding and ultimately better control. Certain applications in plasma physics require computational codes capable of predicting the single and double ionization probabilities of diatomic molecular systems, in particular the H$_2$ molecule, over a wide range of frequencies and laser intensities, with limited computational time, while providing a realistic estimate of the energy of the emitted fragments. Here we propose such a model, based on a quasi-analytical approach to the treatment of ionization, complemented by a numerical approach to the treatment of nuclear dynamics.
翻訳日:2023-10-05 06:01:20 公開日:2023-09-29
# グラフ畳み込みと混合の等価性について

On the Equivalence of Graph Convolution and Mixup ( http://arxiv.org/abs/2310.00183v1 )

ライセンス: Link先を確認
Xiaotian Han, Hanqing Zeng, Yu Chen, Shaoliang Nie, Jingzhou Liu, Kanika Narang, Zahra Shakeri, Karthik Abinav Sankararaman, Song Jiang, Madian Khabsa, Qifan Wang, Xia Hu(参考訳) 本稿では,グラフ畳み込みと混合手法の関係について検討する。 グラフニューラルネットワークのグラフ畳み込みは、隣接するサンプルからの特徴を集約して、特定のノードやサンプルの代表的特徴を学ぶ。 一方、mixupはデータ拡張技術であり、複数のサンプルから機能と1つのホットラベルを平均することで新しい例を生成する。 これらの手法の共通点の1つは、特徴表現を導出するための複数のサンプルからの情報の利用である。 本研究は, これら2つのアプローチの関連性を検討することを目的とする。 調査の結果,2つの温和な条件下では,グラフの畳み込みは,学習段階と試験段階の両方で適用可能な,Mixupの特殊な形態であることがわかった。 条件は以下の2つ。 1) \textit{homophily relabel} - 対象ノードのラベルをすべての隣接ノードに割り当てる。 2) \textit{Test-Time Mixup} - テスト時間中に機能をミックスする。 グラフ畳み込みネットワーク(GCN)と単純化グラフ畳み込み(SGC)をミックスアップの形で表現できることを証明し、数学的にこの等価性を確立する。 また, 2つの条件を用いてMPPを訓練し, 等価性を実証的に検証した。

This paper investigates the relationship between graph convolution and Mixup techniques. Graph convolution in a graph neural network involves aggregating features from neighboring samples to learn representative features for a specific node or sample. On the other hand, Mixup is a data augmentation technique that generates new examples by averaging features and one-hot labels from multiple samples. One commonality between these techniques is their utilization of information from multiple samples to derive feature representation. This study aims to explore whether a connection exists between these two approaches. Our investigation reveals that, under two mild conditions, graph convolution can be viewed as a specialized form of Mixup that is applied during both the training and testing phases. The two conditions are: 1) \textit{Homophily Relabel} - assigning the target node's label to all its neighbors, and 2) \textit{Test-Time Mixup} - Mixup the feature during the test time. We establish this equivalence mathematically by demonstrating that graph convolution networks (GCN) and simplified graph convolution (SGC) can be expressed as a form of Mixup. We also empirically verify the equivalence by training an MLP using the two conditions to achieve comparable performance.
翻訳日:2023-10-05 06:01:05 公開日:2023-09-29
# marl: 都市建築エネルギーモデリングのためのマルチスケールアーチ型表現学習

MARL: Multi-scale Archetype Representation Learning for Urban Building Energy Modeling ( http://arxiv.org/abs/2310.00180v1 )

ライセンス: Link先を確認
Xinwei Zhuang, Zixun Huang, Wentao Zeng, Luisa Caldas(参考訳) 都市建築エネルギーモデリングにおけるエネルギーシミュレーションの精度向上には, 建築原型, 建築資材の代表的なモデルが不可欠である。 現在広く採用されている建物のアーチタイプは全国規模で開発されており、地元の建物の幾何学的特異性の影響を無視する可能性がある。 本稿では,表現学習を用いて特定の建物から幾何学的特徴を抽出する手法であるmarl(multi-scale archetype representation learning)を提案する。 VQ-AEをベースとして構築されたMARLは、ビルディングフットプリントを符号化し、幾何情報を複数のアーキテクチャダウンストリームタスクによって制約された潜在ベクトルに精製する。 これらの調整された表現は、さらなるクラスタリングと構築エネルギーモデリングに有用であることが証明されている。 このアルゴリズムの利点は,建築物のフットプリントの異なるサイズに対する適応性,マルチスケール領域における自動生成機能,近隣地域や地域社会間の幾何学的特徴の保存などである。 本研究は, LA郡の5地域を対象に, MARLが従来型およびVQ-AE抽出アーチタイプを上回る性能を示した。 その結果, 幾何学的特徴埋め込みはエネルギー消費推定の精度と信頼性を著しく向上させることがわかった。 コード、データセット、トレーニングされたモデルが公開されている。 https://github.com/ZixunHuang1997/MARL-BuildingEnergyEstimation

Building archetypes, representative models of building stock, are crucial for precise energy simulations in Urban Building Energy Modeling. The current widely adopted building archetypes are developed on a nationwide scale, potentially neglecting the impact of local buildings' geometric specificities. We present Multi-scale Archetype Representation Learning (MARL), an approach that leverages representation learning to extract geometric features from a specific building stock. Built upon VQ-AE, MARL encodes building footprints and purifies geometric information into latent vectors constrained by multiple architectural downstream tasks. These tailored representations are proven valuable for further clustering and building energy modeling. The advantages of our algorithm are its adaptability with respect to the different building footprint sizes, the ability for automatic generation across multi-scale regions, and the preservation of geometric features across neighborhoods and local ecologies. In our study spanning five regions in LA County, we show MARL surpasses both conventional and VQ-AE extracted archetypes in performance. Results demonstrate that geometric feature embeddings significantly improve the accuracy and reliability of energy consumption estimates. Code, dataset and trained models are publicly available: https://github.com/ZixunHuang1997/MARL-BuildingEnergyEstimation
翻訳日:2023-10-05 06:00:44 公開日:2023-09-29
# Knuth-Morris-Prattマッチングアルゴリズムによるコンテキストバイアス

Contextual Biasing with the Knuth-Morris-Pratt Matching Algorithm ( http://arxiv.org/abs/2310.00178v1 )

ライセンス: Link先を確認
Weiran Wang, Zelin Wu, Diamantino Caseiro, Tsendsuren Munkhdalai, Khe Chai Sim, Pat Rondon, Golan Pundak, Gan Song, Rohit Prabhavalkar, Zhong Meng, Ding Zhao, Tara Sainath, Pedro Moreno Mengibar(参考訳) コンテキストバイアス(Contextual biasing)とは、音声認識システム(ASR)を特定のユーザやアプリケーションシナリオに関連する稀なエンティティにバイアスする問題を指す。 パターンマッチングのためのKnuth-Morris-Prattアルゴリズムに基づく文脈バイアスのアルゴリズムを提案する。 ビーム探索中、バイアスフレーズのセットにマッチングを拡張した場合、トークン拡張のスコアを増加させる。 本手法は、有限状態トランスデューサ(WFST)フレームワークでしばしば実装される古典的アプローチをシミュレートするが、メモリフットプリントとベクトル化によるテンソル処理ユニット(TPU)の効率を考慮し、FST言語を完全に回避する。 追加のモデルパラメータを導入することなく、バイアステストセットに対する単語誤り率(wer)の大幅な削減を実現し、モデルベースのバイアス手法と組み合わせることで、さらなるパフォーマンス向上を実現する。

Contextual biasing refers to the problem of biasing the automatic speech recognition (ASR) systems towards rare entities that are relevant to the specific user or application scenarios. We propose algorithms for contextual biasing based on the Knuth-Morris-Pratt algorithm for pattern matching. During beam search, we boost the score of a token extension if it extends matching into a set of biasing phrases. Our method simulates the classical approaches often implemented in the weighted finite state transducer (WFST) framework, but avoids the FST language altogether, with careful considerations on memory footprint and efficiency on tensor processing units (TPUs) by vectorization. Without introducing additional model parameters, our method achieves significant word error rate (WER) reductions on biasing test sets by itself, and yields further performance gain when combined with a model-based biasing method.
翻訳日:2023-10-05 06:00:24 公開日:2023-09-29
# ディリクレとノイマン境界条件を混合したニューラルプレコンディショルドポアソン解法

A Neural-preconditioned Poisson Solver for Mixed Dirichlet and Neumann Boundary Conditions ( http://arxiv.org/abs/2310.00177v1 )

ライセンス: Link先を確認
Weixian Lan, Elias Gueidon, Ayano Kaneda, Julian Panetta, Joseph Teran(参考訳) 混合境界条件を持つポアソン方程式に対するニューラルプレコンディション付き反復解法を提案する。 ポアソン方程式は科学計算においてユビキタスであり、様々な物理現象を制御し、多くの数値アルゴリズムにおいてサブプロブレムとして発生し、楕円型PDEのより広範なクラスのモデル問題として機能する。 最も人気のあるポアソン離散化は、大きなスパース線形系をもたらす。 高解像度、そしてパフォーマンスクリティカルなアプリケーションでは、反復解法はこれらに有利であるが、強力なプリコンディショナーとペアリングする場合に限られる。 我々のソルバのコアは、任意の形状の領域と混合境界条件に対する離散構造化グリッドラプラス作用素の逆を近似するように訓練されたニューラルネットワークである。 この問題の構造は、トレーニングセット外の境界条件においてもプリコンディショナーとして非常に効果的であることを示す新しいネットワークアーキテクチャを動機付けている。 本研究では, 圧縮性流体シミュレーションによる挑戦的なテストケースにおいて, 代数的マルチグリッドや最近のニューラルプレコンディショナーなど, 最先端の解法よりも優れていることを示す。

We introduce a neural-preconditioned iterative solver for Poisson equations with mixed boundary conditions. The Poisson equation is ubiquitous in scientific computing: it governs a wide array of physical phenomena, arises as a subproblem in many numerical algorithms, and serves as a model problem for the broader class of elliptic PDEs. The most popular Poisson discretizations yield large sparse linear systems. At high resolution, and for performance-critical applications, iterative solvers can be advantageous for these -- but only when paired with powerful preconditioners. The core of our solver is a neural network trained to approximate the inverse of a discrete structured-grid Laplace operator for a domain of arbitrary shape and with mixed boundary conditions. The structure of this problem motivates a novel network architecture that we demonstrate is highly effective as a preconditioner even for boundary conditions outside the training set. We show that on challenging test cases arising from an incompressible fluid simulation, our method outperforms state-of-the-art solvers like algebraic multigrid as well as some recent neural preconditioners.
翻訳日:2023-10-05 06:00:06 公開日:2023-09-29
# max-margin分類器の普遍性

Universality of max-margin classifiers ( http://arxiv.org/abs/2310.00176v1 )

ライセンス: Link先を確認
Andrea Montanari, Feng Ruan, Basil Saeed, Youngtak Sohn(参考訳) 最大辺二分法分類は機械学習における最も基本的なアルゴリズムの1つであるが、非ガウス的特徴に対する誤分類誤差の高次元漸近性はいまだに理解されていない。 我々は、二項ラベル $y_i$ および $d$-d covariates ${\boldsymbol z}_i$ を観測し、ランダム化されたフェアチュライゼーション写像 ${\boldsymbol \phi}:\mathbb{r}^d \to\mathbb{r}^p$ または非ガウジアン独立エントリの $p$-dimensional features of non-gausssian independent entry で$p$-dimension space にマッピングする設定を考える。 この文脈では、2つの基本的な質問について研究する。 (i)$ オーバーパラメトリゼーション比$p/n$ では、データは線形分離可能か? $ (ii)$max-margin分類器の一般化誤差は何か? 特徴量$p$, サンプル数$n$, 入力次元$d$(非線形大域化設定において)が分岐する高次元状態において、次数1の比で、漸近的挙動が期待される特徴ベクトルの共分散と特徴とラベルの共分散によって完全に決定されることを示す普遍性結果が証明される。 特に、超パラメータ閾値と一般化誤差はより単純なガウスモデル内で計算することができる。 主な技術的課題は、マックスマージンが経験平均の最大値(または最小値)ではなく、サンプルに対する最小値の最大値であるという事実にある。 我々は、分類器を平均オーバーサポートベクトルとして表現することでこの問題に対処する。 重要なことに、高次元では、支持ベクトル数はサンプルの数に比例し、最終的には普遍性が得られる。

Maximum margin binary classification is one of the most fundamental algorithms in machine learning, yet the role of featurization maps and the high-dimensional asymptotics of the misclassification error for non-Gaussian features are still poorly understood. We consider settings in which we observe binary labels $y_i$ and either $d$-dimensional covariates ${\boldsymbol z}_i$ that are mapped to a $p$-dimension space via a randomized featurization map ${\boldsymbol \phi}:\mathbb{R}^d \to\mathbb{R}^p$, or $p$-dimensional features of non-Gaussian independent entries. In this context, we study two fundamental questions: $(i)$ At what overparametrization ratio $p/n$ do the data become linearly separable? $(ii)$ What is the generalization error of the max-margin classifier? Working in the high-dimensional regime in which the number of features $p$, the number of samples $n$ and the input dimension $d$ (in the nonlinear featurization setting) diverge, with ratios of order one, we prove a universality result establishing that the asymptotic behavior is completely determined by the expected covariance of feature vectors and by the covariance between features and labels. In particular, the overparametrization threshold and generalization error can be computed within a simpler Gaussian model. The main technical challenge lies in the fact that max-margin is not the maximizer (or minimizer) of an empirical average, but the maximizer of a minimum over the samples. We address this by representing the classifier as an average over support vectors. Crucially, we find that in high dimensions, the support vector count is proportional to the number of samples, which ultimately yields universality.
翻訳日:2023-10-05 05:59:46 公開日:2023-09-29
# 分割とマージ: 大きな言語モデルに基づくエミュレータにおける位置バイアスの調整

Split and Merge: Aligning Position Biases in Large Language Model based Evaluators ( http://arxiv.org/abs/2310.01432v1 )

ライセンス: Link先を確認
Zongjie Li, Chaozheng Wang, Pingchuan Ma, Daoyuan Wu, Tianxiang Li, Shuai Wang, Cuiyun Gao, Yang Liu(参考訳) 大規模言語モデル(llm)は、aiシステムによって生成される答えの品質を評価する自動評価器として約束されている。 しかし、これらのllmベースの評価器は、対比較で候補の回答を評価する際に位置バイアスまたは不一致を示し、コンテンツに関係なく第1または第2の回答を好む。 この制限に対処するために,人間同士の比較戦略を模倣して位置バイアスを軽量かつ効果的な方法で校正するアライメントベースシステムportiaを提案する。 具体的には、Portiaは回答を複数のセグメントに分割し、類似したコンテンツを候補の回答に並べて、LSMによる評価のために単一のプロンプトにマージする。 11,520対の回答対を評価するために6種類のLSMを用いて広範囲に実験を行った。 その結果, Portia は全てのモデルと比較形態の整合性を著しく向上させ,47.46% の平均相対的改善を実現した。 注目すべきは、Portiaは、最先端のGPT-4モデルとの88%の合意を、わずか10%のコストで達成できるようにすることである。 さらに、gpt-4モデルにおける位置バイアスインスタンスの約80%を補正し、一貫性率を最大98%まで向上させる。 その後の人的評価は、Portia-enhanced GPT-3.5モデルが、人的評価器との整合性の観点から、スタンドアロンのGPT-4よりも優れていることを示している。 これらの知見は,Portiaが位置バイアスを補正し,LCMの整合性を改善し,コスト効率を維持しながら性能を向上させる能力を強調した。 これは、様々なアプリケーションにわたる自動評価のために、より信頼性が高くスケーラブルなLLMの使用に向けた貴重なステップである。

Large language models (LLMs) have shown promise as automated evaluators for assessing the quality of answers generated by AI systems. However, these LLM-based evaluators exhibit position bias, or inconsistency, when used to evaluate candidate answers in pairwise comparisons, favoring either the first or second answer regardless of content. To address this limitation, we propose PORTIA, an alignment-based system designed to mimic human comparison strategies to calibrate position bias in a lightweight yet effective manner. Specifically, PORTIA splits the answers into multiple segments, aligns similar content across candidate answers, and then merges them back into a single prompt for evaluation by LLMs. We conducted extensive experiments with six diverse LLMs to evaluate 11,520 answer pairs. Our results show that PORTIA markedly enhances the consistency rates for all the models and comparison forms tested, achieving an average relative improvement of 47.46%. Remarkably, PORTIA enables less advanced GPT models to achieve 88% agreement with the state-of-the-art GPT-4 model at just 10% of the cost. Furthermore, it rectifies around 80% of the position bias instances within the GPT-4 model, elevating its consistency rate up to 98%. Subsequent human evaluations indicate that the PORTIA-enhanced GPT-3.5 model can even surpass the standalone GPT-4 in terms of alignment with human evaluators. These findings highlight PORTIA's ability to correct position bias, improve LLM consistency, and boost performance while keeping cost-efficiency. This represents a valuable step toward a more reliable and scalable use of LLMs for automated evaluations across diverse applications.
翻訳日:2023-10-04 20:11:37 公開日:2023-09-29
# NISQコンピュータ:量子優位性への道

NISQ Computers: A Path to Quantum Supremacy ( http://arxiv.org/abs/2310.01431v1 )

ライセンス: Link先を確認
Muhammad AbuGhanem and Hichem Eleuch(参考訳) 量子コンピュータは、よく定義されたタスクで最先端のアルゴリズムを実行する古典的コンピュータの計算能力を超える量子アドバンテージの探求は、量子コンピューティングの領域における重要な競争を表している。 NISQ (Noisy Intermediate-Scale Quantum) 計算は、普遍的なフォールトトレラント量子コンピュータの実現に向けた重要なマイルストーンを達成している。 量子超越性(quantum supremacy)として知られるこの変転点は、一連のブレークスルーの中で達成され、量子時代の夜明けを意味している。 量子ハードウェアは、その初期段階とは対照的に、かなり統合とアーキテクチャの進化を遂げた。 本稿では、これまでの量子超越性実験を批判的に検証し、量子コンピューティングの進化する展望へのその影響と貢献について光を当てる。 さらに、応用量子コンピューティングの領域における最先端の実証・実証研究の範囲を照らし、応用量子研究の現在の状況とその様々な科学的、工業的、技術的フロンティアにおける将来的な影響を洞察的に概説する。

The quest for quantum advantage, wherein quantum computers surpass the computational capabilities of classical computers executing state-of-the-art algorithms on well-defined tasks, represents a pivotal race in the domain of quantum computing. NISQ (Noisy Intermediate-Scale Quantum) computing has witnessed remarkable advancements, culminating in significant milestones on the journey towards the realization of universal fault-tolerant quantum computers. This transformative turning point, known as quantum supremacy, has been achieved amid a series of breakthroughs, signifying the dawn of the quantum era. Quantum hardware has undergone substantial integration and architectural evolution, contrasting with its nascent stages. In this review, we critically examine the quantum supremacy experiments conducted thus far, shedding light on their implications and contributions to the evolving landscape of quantum computing. Additionally, we endeavor to illuminate a range of cutting-edge proof-of-principle investigations in the realm of applied quantum computing, providing an insightful overview of the current state of applied quantum research and its prospective influence across diverse scientific, industrial, and technological frontiers.
翻訳日:2023-10-04 20:11:08 公開日:2023-09-29
# 視覚と音におけるサーカズム:マルチモーダルサーカズム検出を改善するためのベンチマークと拡張

Sarcasm in Sight and Sound: Benchmarking and Expansion to Improve Multimodal Sarcasm Detection ( http://arxiv.org/abs/2310.01430v1 )

ライセンス: Link先を確認
Swapnil Bhosale, Abhra Chaudhuri, Alex Lee Robert Williams, Divyank Tiwari, Anjan Dutta, Xiatian Zhu, Pushpak Bhattacharyya, Diptesh Kanojia(参考訳) mustardデータセットとその感情認識拡張であるmustard++の導入により、サルカズムは自然言語テキストだけでなく、音声(調性やイントネーションなど)や視覚的な手がかり(顔の表情)を通じて表現されるマルチモーダル現象であると認識された。 本研究は,MUStARD++データセットの厳密なベンチマークを,最先端の言語,音声,ビジュアルエンコーダを考慮し,既存のベンチマークに対してマクロF1の2倍の改善を達成し,提供すべきマルチモーダルリッチの総量を完全に活用することを目的としている。 さらに、MUStARD++の 'sarcasm type' カテゴリのアンバランスを改善するために、我々は拡張を \emph{MUStARD++ Balanced} と呼び、列車とテストセットの両方にまたがる拡張からインスタンスをベンチマークし、さらに2.4\%のマクロF1ブースターを達成する。 新しいクリップは、テレビ番組『House MD』で、データセットの多様性を増し、コーエンの『カッパ』と『クリッペンドルフ』の『アルファ』の点から、アノテーター間の合意がかなりある複数のアノテーターによって手動で注釈付けされた。 私たちのコード、拡張データ、SOTAベンチマークモデルは公開されています。

The introduction of the MUStARD dataset, and its emotion recognition extension MUStARD++, have identified sarcasm to be a multi-modal phenomenon -- expressed not only in natural language text, but also through manners of speech (like tonality and intonation) and visual cues (facial expression). With this work, we aim to perform a rigorous benchmarking of the MUStARD++ dataset by considering state-of-the-art language, speech, and visual encoders, for fully utilizing the totality of the multi-modal richness that it has to offer, achieving a 2\% improvement in macro-F1 over the existing benchmark. Additionally, to cure the imbalance in the `sarcasm type' category in MUStARD++, we propose an extension, which we call \emph{MUStARD++ Balanced}, benchmarking the same with instances from the extension split across both train and test sets, achieving a further 2.4\% macro-F1 boost. The new clips were taken from a novel source -- the TV show, House MD, which adds to the diversity of the dataset, and were manually annotated by multiple annotators with substantial inter-annotator agreement in terms of Cohen's kappa and Krippendorf's alpha. Our code, extended data, and SOTA benchmark models are made public.
翻訳日:2023-10-04 20:10:48 公開日:2023-09-29
# モバイルインタラクションの革命:モバイル上で30億のパラメータGPT LLMを実現する

Revolutionizing Mobile Interaction: Enabling a 3 Billion Parameter GPT LLM on Mobile ( http://arxiv.org/abs/2310.01434v1 )

ライセンス: Link先を確認
Samuel Carreira, Tom\'as Marques, Jos\'e Ribeiro, Carlos Grilo(参考訳) 人工知能の分野は近年顕著な進歩を遂げており、特にトランスフォーマーアーキテクチャに基づく強力な大規模言語モデル(LLM)が出現している。 OpenAIのChatGPTのようなクラウドベースのLLMは、素晴らしい機能を提供するが、ネットワーク依存によるレイテンシとプライバシに関する懸念が伴う。 本稿では,数十億のパラメータを持つllmが,ネットワーク接続を伴わずにモバイルデバイス上で直接実行できる未来を想定した,llm推論に対する革新的なアプローチを提案する。 この記事は、30億のパラメータを持つ微調整のGPT LLMを紹介し、4GBのメモリを持つデバイス上でスムーズに動作可能である。 ネイティブコードとモデル量子化技術の統合により、アプリケーションは汎用アシスタントとして機能するだけでなく、テキスト対アクション機能とのシームレスなモバイルインタラクションを促進する。 この記事では、トレーニングパイプライン、実装の詳細、テスト結果、デバイス上のllm推論の今後の方向性に関する洞察を提供する。 この画期的な技術は、プライバシを守りながらレイテンシの心配をなくしながら、高度なai能力をユーザに提供する可能性を開く。

The field of Artificial Intelligence has witnessed remarkable progress in recent years, especially with the emergence of powerful large language models (LLMs) based on the transformer architecture. Cloud-based LLMs, such as OpenAI's ChatGPT, offer impressive capabilities but come with concerns regarding latency and privacy due to network dependencies. This article presents an innovative approach to LLM inference, envisioning a future where LLMs with billions of parameters can be executed directly on mobile devices without network connectivity. The article showcases a fine-tuned GPT LLM with 3 billion parameters that can operate smoothly on devices with as low as 4GB of memory. Through the integration of native code and model quantization techniques, the application not only serves as a general-purpose assistant but also facilitates seamless mobile interactions with text-to-actions features. The article provides insights into the training pipeline, implementation details, test results, and future directions of on-device LLM inference. This breakthrough technology opens up possibilities for empowering users with sophisticated AI capabilities while preserving their privacy and eliminating latency concerns.
翻訳日:2023-10-04 19:57:06 公開日:2023-09-29
# AI-Aristotle: システム生物学のグレーボックス識別のための物理インフォームドフレームワーク

AI-Aristotle: A Physics-Informed framework for Systems Biology Gray-Box Identification ( http://arxiv.org/abs/2310.01433v1 )

ライセンス: Link先を確認
Nazanin Ahmadi Daryakenari, Mario De Florio, Khemraj Shukla, George Em Karniadakis(参考訳) 観測データから物理系と生物系を管理する数学的方程式を発見することは、科学研究における根本的な課題である。 システム生物学の分野におけるパラメータ推定と物理識別の欠如(グレーボックス)のための新しい物理インフォームドフレームワークを提案する。 提案するフレームワーク - AI-Aristotle - は、EXtreme Theory of Functional Connections (X-TFC)ドメイン分割と、パラメータ発見とグレーボックス識別のためのシンボル回帰(SR)技術を組み合わせたものだ。 システム生物学における2つのベンチマーク問題である薬物吸収モデルとグルコース-インスリン相互作用のウルトラディアン内分泌モデルに基づいて,ai-アリストテレスの正確性,速度,柔軟性,ロバスト性をテストする。 我々は,2つの機械学習手法(X-TFCとPINN)を比較し,その結果を相互に検証するために2つの異なる記号回帰手法を用いる。 現在の研究は、合成データに基づくAI-Aristotleのパフォーマンスに焦点を当てているが、ノイズの多い実験データも同じように扱えるし、ラップトップ上でわずか数分でブラックボックスの識別に使える。 より広い範囲で、我々の研究はニューラルネットワークを象徴的な回帰器と統合することの正確さ、コスト、スケーラビリティ、堅牢性に関する洞察を提供し、バイオメディシンなどにおける複雑な力学系におけるグレーボックスの識別課題に取り組む研究者のための包括的なガイドを提供する。

Discovering mathematical equations that govern physical and biological systems from observed data is a fundamental challenge in scientific research. We present a new physics-informed framework for parameter estimation and missing physics identification (gray-box) in the field of Systems Biology. The proposed framework -- named AI-Aristotle -- combines eXtreme Theory of Functional Connections (X-TFC) domain-decomposition and Physics-Informed Neural Networks (PINNs) with symbolic regression (SR) techniques for parameter discovery and gray-box identification. We test the accuracy, speed, flexibility and robustness of AI-Aristotle based on two benchmark problems in Systems Biology: a pharmacokinetics drug absorption model, and an ultradian endocrine model for glucose-insulin interactions. We compare the two machine learning methods (X-TFC and PINNs), and moreover, we employ two different symbolic regression techniques to cross-verify our results. While the current work focuses on the performance of AI-Aristotle based on synthetic data, it can equally handle noisy experimental data and can even be used for black-box identification in just a few minutes on a laptop. More broadly, our work provides insights into the accuracy, cost, scalability, and robustness of integrating neural networks with symbolic regressors, offering a comprehensive guide for researchers tackling gray-box identification challenges in complex dynamical systems in biomedicine and beyond.
翻訳日:2023-10-04 19:56:46 公開日:2023-09-29
# 非線形パラメータ化適応制御と予測における帰納正規化とモーメントアルゴリズム

Implicit Regularization and Momentum Algorithms in Nonlinearly Parameterized Adaptive Control and Prediction ( http://arxiv.org/abs/1912.13154v7 )

ライセンス: Link先を確認
Nicholas M. Boffi, Jean-Jacques E. Slotine(参考訳) 動的システムの安定した同時学習と制御は適応制御の主題である。 多くの実用的応用と豊富な理論を持つ確立された分野であるにもかかわらず、非線形システムの適応制御の開発の多くは、いくつかの重要なアルゴリズムを中心に展開されている。 古典的適応非線形制御技術と最近の最適化と機械学習の進歩とを強く結び付けることで,適応非線形制御と適応動的予測の両面において,アルゴリズム開発に未発達の可能性が示された。 まず,自然勾配降下とミラー降下に触発された一階適応則を導入する。 データに一貫性のある複数のダイナミクスが存在する場合、これらの非ユークリッド適応法則は学習モデルを暗黙的に規則化する。 このように学習中に課される局所幾何は、スパーシティのような望ましい特性のために、完全な追跡や予測を達成する多くのパラメータベクトルを選択できる。 この結果を正規化ダイナミクス予測器とオブザーバ設計に適用し,具体的な例としてハミルトン系,ラグランジアン系,リカレントニューラルネットワークについて考察する。 その後、ブレグマン・ラグランジアンに基づく変分形式論を発展させる。 オイラーラグランジュ方程式は運動量を持つ自然勾配およびミラー降下様適応則を導くことを示し、その一階の類似物を無限摩擦極限で復元する。 理論的結果を示すシミュレーションを用いて分析を行った。

Stable concurrent learning and control of dynamical systems is the subject of adaptive control. Despite being an established field with many practical applications and a rich theory, much of the development in adaptive control for nonlinear systems revolves around a few key algorithms. By exploiting strong connections between classical adaptive nonlinear control techniques and recent progress in optimization and machine learning, we show that there exists considerable untapped potential in algorithm development for both adaptive nonlinear control and adaptive dynamics prediction. We begin by introducing first-order adaptation laws inspired by natural gradient descent and mirror descent. We prove that when there are multiple dynamics consistent with the data, these non-Euclidean adaptation laws implicitly regularize the learned model. Local geometry imposed during learning thus may be used to select parameter vectors -- out of the many that will achieve perfect tracking or prediction -- for desired properties such as sparsity. We apply this result to regularized dynamics predictor and observer design, and as concrete examples, we consider Hamiltonian systems, Lagrangian systems, and recurrent neural networks. We subsequently develop a variational formalism based on the Bregman Lagrangian. We show that its Euler Lagrange equations lead to natural gradient and mirror descent-like adaptation laws with momentum, and we recover their first-order analogues in the infinite friction limit. We illustrate our analyses with simulations demonstrating our theoretical results.
翻訳日:2023-10-03 21:48:24 公開日:2023-09-29
# CAFQA:変分量子アルゴリズムのための古典的なシミュレーションブートストラップ

CAFQA: A classical simulation bootstrap for variational quantum algorithms ( http://arxiv.org/abs/2202.12924v4 )

ライセンス: Link先を確認
Gokul Subramanian Ravi, Pranav Gokhale, Yi Ding, William M. Kirby, Kaitlin N. Smith, Jonathan M. Baker, Peter J. Love, Henry Hoffmann, Kenneth R. Brown and Frederic T. Chong(参考訳) この研究は、CAFQA(Clifford Ansatz For Quantum Accuracy)を提案することにより、変分量子アルゴリズム(VQA)の優れたアンザッツ初期化を求める問題に取り組む。 CAFQAアンサッツ(CAFQA ansatz)は、クリフォードゲートのみを備えたハードウェア効率の良い回路である。 このアンサッツにおいて、可変ゲートのパラメータは古典的シミュレーションによりクリフォードパラメータ空間を効率的に探索することによって選択される。 結果として得られる初期状態は常に伝統的な初期化(例えばhartree-fock)と等しくなり、高い精度のvqa推定を可能にする。 CAFQAは古典的な計算に適しています。 a)クリフォードのみの量子回路は、多項式時間で正確に古典的にシミュレートすることができ、 b)離散クリフォード空間はベイズ最適化によって効率的に探索される。 分子基底状態エネルギー推定(最大18キュービット)の変分量子固有ソルバ(vqe)タスクにおいて、cafqaのclifford ansatzは99%近くの平均精度を達成し、hartree-fock初期化で失われた分子相関エネルギーの99.99%を回復する。 CAFQAは6.4xと56.8xの平均精度の改善を、異なるメトリクスで達成している。 アプローチのスケーラビリティは、挑戦的なクロム二量体(Cr$_2$)分子の予備基底状態エネルギー推定を可能にする。 CAFQAの高精度初期化により、VQAの収束は小さな分子でも2.5倍加速することが示されている。 さらに、cafqaフレームワークで限られた数の非クリフォード(t)ゲートを許容する予備的な調査により、クリフォードのみのcafqa精度が比較的制限されたボンド長で相関エネルギーの99.9%を回収できることが示された。

This work tackles the problem of finding a good ansatz initialization for Variational Quantum Algorithms (VQAs), by proposing CAFQA, a Clifford Ansatz For Quantum Accuracy. The CAFQA ansatz is a hardware-efficient circuit built with only Clifford gates. In this ansatz, the parameters for the tunable gates are chosen by searching efficiently through the Clifford parameter space via classical simulation. The resulting initial states always equal or outperform traditional classical initialization (e.g., Hartree-Fock), and enable high-accuracy VQA estimations. CAFQA is well-suited to classical computation because: a) Clifford-only quantum circuits can be exactly simulated classically in polynomial time, and b) the discrete Clifford space is searched efficiently via Bayesian Optimization. For the Variational Quantum Eigensolver (VQE) task of molecular ground state energy estimation (up to 18 qubits), CAFQA's Clifford Ansatz achieves a mean accuracy of nearly 99% and recovers as much as 99.99% of the molecular correlation energy that is lost in Hartree-Fock initialization. CAFQA achieves mean accuracy improvements of 6.4x and 56.8x, over the state-of-the-art, on different metrics. The scalability of the approach allows for preliminary ground state energy estimation of the challenging chromium dimer (Cr$_2$) molecule. With CAFQA's high-accuracy initialization, the convergence of VQAs is shown to accelerate by 2.5x, even for small molecules. Furthermore, preliminary exploration of allowing a limited number of non-Clifford (T) gates in the CAFQA framework, shows that as much as 99.9% of the correlation energy can be recovered at bond lengths for which Clifford-only CAFQA accuracy is relatively limited, while remaining classically simulable.
翻訳日:2023-10-03 21:39:09 公開日:2023-09-29
# 大量医療記録におけるマルチレベル確率最適化

Multilevel Stochastic Optimization for Imputation in Massive Medical Data Records ( http://arxiv.org/abs/2110.09680v2 )

ライセンス: Link先を確認
Wenrui Li, Xiaoyu Wang, Yuetian Sun, Snezana Milanovic, Mark Kon, Julio Enrique Castrillon-Candas(参考訳) 大規模データセットの探索と分析は、最近研究と開発コミュニティへの関心が高まっている。 多くのデータセットが欠落した数値データを含むことは、長い間認識されてきた問題である。 Krigingの理論に基づく数学的に原理化された確率的最適化計算法を提案する。 これは、インプテーションの強力な方法であることが示されている。 しかし、その計算努力と潜在的な数値不安定性は、コストと信頼性の低い予測を生み出し、大規模なデータセットでの使用を制限する可能性がある。 本稿では,近年開発されたマルチレベル確率最適化手法を,大規模医療記録の計算問題に適用する。 このアプローチは計算応用数学技術に基づいており、非常に正確である。 特に、Best Linear Unbiased Predictor (BLUP) では、このマルチレベル定式化は正確であり、さらにはるかに高速でより数値的に安定である。 これにより、Kriging法を大規模データセットのデータ計算問題に適用することができる。 本手法は,NIS (National In patient Sample) データ記録, HCUP (Healthcare Cost and utilization Project), Agency for Healthcare Research and Qualityから得られたデータに基づいて検証する。 数値計算の結果, マルチレベル法は現在の手法よりも優れ, 数値的に堅牢であることがわかった。 特に、HCUPの最近のレポートで推奨されているデータ不足に関する重要な問題についての手法と比較して精度が優れており、これは準最適かつ低ベースな資金調達政策決定につながる可能性がある。 比較ベンチマークテストでは, 予測平均マッチング (PMM) や予測後分布 (PPD) など, 最大75%の誤差で, マルチレベル確率法が推奨手法よりもはるかに優れていることが示された。

Exploration and analysis of massive datasets has recently generated increasing interest in the research and development communities. It has long been a recognized problem that many datasets contain significant levels of missing numerical data. We introduce a mathematically principled stochastic optimization imputation method based on the theory of Kriging. This is shown to be a powerful method for imputation. However, its computational effort and potential numerical instabilities produce costly and/or unreliable predictions, potentially limiting its use on large scale datasets. In this paper, we apply a recently developed multi-level stochastic optimization approach to the problem of imputation in massive medical records. The approach is based on computational applied mathematics techniques and is highly accurate. In particular, for the Best Linear Unbiased Predictor (BLUP) this multi-level formulation is exact, and is also significantly faster and more numerically stable. This permits practical application of Kriging methods to data imputation problems for massive datasets. We test this approach on data from the National Inpatient Sample (NIS) data records, Healthcare Cost and Utilization Project (HCUP), Agency for Healthcare Research and Quality. Numerical results show the multi-level method significantly outperforms current approaches and is numerically robust. In particular, it has superior accuracy as compared with methods recommended in the recent report from HCUP on the important problem of missing data, which could lead to sub-optimal and poorly based funding policy decisions. In comparative benchmark tests it is shown that the multilevel stochastic method is significantly superior to recommended methods in the report, including Predictive Mean Matching (PMM) and Predicted Posterior Distribution (PPD), with up to 75% reductions in error.
翻訳日:2023-10-03 21:37:41 公開日:2023-09-29
# 関数推定のための最小エンタングルメントプロトコル

Minimum Entanglement Protocols for Function Estimation ( http://arxiv.org/abs/2110.07613v3 )

ライセンス: Link先を確認
Adam Ehrenberg, Jacob Bringewatt, Alexey V. Gorshkov(参考訳) 量子センサネットワークアプリケーションの主要なサブプロトコルである量子センサネットワークと$d$フィールド振幅の線形結合を測定するために、量子クレーブ(英語版) r-raoバウンドを飽和するという意味で、最適なプロトコルの族を導出する。 我々は、このファミリーから様々な制約の下で異なるプロトコルを選択する方法を示す。 主に絡み合いに基づく制約に着目し、多くのケースで高い絡み合い状態が最適性を達成するために必要ではないという驚くべき結果を示す。 具体的には、最大$k$-partite の絡み合いを使って最適なプロトコルが存在するための必要十分条件を証明します。 これらの条件を満たすプロトコルは、任意の制御やアンシラへのアクセスが与えられた場合でも、可能な限り最小の絡み合いを利用できることを示す。 我々のプロトコルは時間依存制御をある程度必要としており、関連する時間依存プロトコルのクラスは、ジェネリック関数の最適スケーリングを達成できないことを示す。

We derive a family of optimal protocols, in the sense of saturating the quantum Cram\'{e}r-Rao bound, for measuring a linear combination of $d$ field amplitudes with quantum sensor networks, a key subprotocol of general quantum sensor network applications. We demonstrate how to select different protocols from this family under various constraints. Focusing primarily on entanglement-based constraints, we prove the surprising result that highly entangled states are not necessary to achieve optimality in many cases. Specifically, we prove necessary and sufficient conditions for the existence of optimal protocols using at most $k$-partite entanglement. We prove that the protocols which satisfy these conditions use the minimum amount of entanglement possible, even when given access to arbitrary controls and ancilla. Our protocols require some amount of time-dependent control, and we show that a related class of time-independent protocols fail to achieve optimal scaling for generic functions.
翻訳日:2023-10-03 21:37:15 公開日:2023-09-29
# 蒸留決定木

Distillation Decision Tree ( http://arxiv.org/abs/2206.04661v2 )

ライセンス: Link先を確認
Xuetao Lu and J. Jack Lee(参考訳) 機械学習モデル、特にブラックボックスモデルは、その優れた予測能力で広く好まれている。 しかし、解釈可能性の欠如により、しばしば精査や批判に直面している。 パラドックス的に、その強い予測能力は基礎となるデータに対する深い理解を示唆し、解釈のかなりの可能性を示唆している。 知識蒸留の概念を取り入れた蒸留決定木(DDT)の導入を行った。 この方法は、ブラックボックスモデルから決定木へのデータに関する知識の蒸留を可能にし、ブラックボックスモデルの解釈を容易にする。 知識蒸留によって構築されたDDTの解釈可能性はその構造安定性に大きく依存する。 我々は,DDTの構造安定性の理論基盤を確立し,その構造が軽微な仮定の下で安定性を達成できることを実証した。 さらに,DDTを効率的に構築するためのアルゴリズムを開発した。 総合シミュレーション研究は、DDTが正確で信頼性の高い解釈を提供する能力を検証する。 さらに、潜在的なアプリケーションシナリオを検討し、実世界の問題に対してDDTをどのように適用できるかを説明するためのケーススタディを提供する。

Machine learning models, particularly the black-box models, are widely favored for their outstanding predictive capabilities. However, they often face scrutiny and criticism due to the lack of interpretability. Paradoxically, their strong predictive capabilities suggest a deep understanding about the underlying data, implying significant potential for interpretation. Leveraging the emerging concept of knowledge distillation, we introduced the method of distillation decision tree (DDT). This method enables the distillation of knowledge about the data from a black-box model into a decision tree, thereby facilitating the interpretation of the black-box model. Constructed through the knowledge distillation process, the interpretability of DDT relies significantly on the stability of its structure. We establish the theoretical foundations for the structural stability of DDT, demonstrating that its structure can achieve stability under mild assumptions. Furthermore, we develop algorithms for efficient construction of (hybrid) DDTs. A comprehensive simulation study validates DDT's ability to provide accurate and reliable interpretations. Additionally, we explore potential application scenarios and provide corresponding case studies to illustrate how DDT can be applied to real-world problems.
翻訳日:2023-10-03 21:30:40 公開日:2023-09-29
# 胸部x線深部学習基盤モデルにおけるバイアスのリスク

Risk of Bias in Chest Radiography Deep Learning Foundation Models ( http://arxiv.org/abs/2209.02965v3 )

ライセンス: Link先を確認
Ben Glocker, Charles Jones, Melanie Roschewitz, Stefan Winzeck(参考訳) 目的: 最近公表された胸部x線撮影基盤モデルを用いて, 生物性および人種間のサブグループパフォーマンス格差を生じさせるバイアスについて分析すること。 資料と方法:2002年10月から2017年7月までに収集されたchexpertデータセットから42,884人(平均年齢63歳、男性23,623人、女性19,261人)の胸部x線写真を用いた。 胸部X線撮影基礎モデルとベースライン深層学習モデルにより生じる特徴の偏りを判定するために,2サンプルのコルモゴロフ・スミルノフ試験と併用して,性別と人種間の分布変化を検出する。 総合的な疾患検出性能分析を行い,特徴のバイアスを患者サブグループ間での分類性能の差異に関連づけた。 結果: 生物学的性別と人種の対比較12件中10件は, 基礎モデルに有意な差が認められたが, 基礎モデルに有意な差が認められた。 男性と女性 (P < .001) とアジアと黒人の患者 (P < .001) の間に有意な差異が認められた。 全サブグループの平均モデル性能と比較すると、「発見なし」ラベルの分類性能は女性の6.8%から7.8%に低下し、「胸水」検出性能は黒人の10.7%から11.6%に低下した。 結論: 胸部X線撮影基礎モデルでは, 人種的, 性別的偏見が患者サブグループ間で異なっており, 臨床応用には不適当であった。

Purpose: To analyze a recently published chest radiography foundation model for the presence of biases that could lead to subgroup performance disparities across biological sex and race. Materials and Methods: This retrospective study used 127,118 chest radiographs from 42,884 patients (mean age, 63 [SD] 17 years; 23,623 male, 19,261 female) from the CheXpert dataset collected between October 2002 and July 2017. To determine the presence of bias in features generated by a chest radiography foundation model and baseline deep learning model, dimensionality reduction methods together with two-sample Kolmogorov-Smirnov tests were used to detect distribution shifts across sex and race. A comprehensive disease detection performance analysis was then performed to associate any biases in the features to specific disparities in classification performance across patient subgroups. Results: Ten out of twelve pairwise comparisons across biological sex and race showed statistically significant differences in the studied foundation model, compared with four significant tests in the baseline model. Significant differences were found between male and female (P < .001) and Asian and Black patients (P < .001) in the feature projections that primarily capture disease. Compared with average model performance across all subgroups, classification performance on the 'no finding' label dropped between 6.8% and 7.8% for female patients, and performance in detecting 'pleural effusion' dropped between 10.7% and 11.6% for Black patients. Conclusion: The studied chest radiography foundation model demonstrated racial and sex-related bias leading to disparate performance across patient subgroups and may be unsafe for clinical applications.
翻訳日:2023-10-03 21:21:06 公開日:2023-09-29
# 双曲多様体上のgplvmによる連続ドメインへのロボティクス分類の導入

Bringing robotics taxonomies to continuous domains via GPLVM on hyperbolic manifolds ( http://arxiv.org/abs/2210.01672v2 )

ライセンス: Link先を確認
No\'emie Jaquier, Leonel Rozo, Miguel Gonz\'alez-Duque, Viacheslav Borovitskiy, Tamim Asfour(参考訳) ロボット分類学(robotic taxonomis)は、人間の行動や環境との相互作用を分類するハイレベルな階層的抽象化として機能する。 これらは、把握、操作スキル、全身サポートポーズの分析に有用であることが証明されている。 階層構造や下位カテゴリの設計に多大な努力を払ったにもかかわらず、アプリケーション分野での使用は限られている。 これは分類学の離散的な階層構造と、そのカテゴリに関連する高次元の不均質なデータの間のギャップを埋める計算モデルがないことに起因しているかもしれない。 この問題を克服するために,双曲組込みによる分類データをモデル化し,関連する階層構造を捉えることを提案する。 我々は, 潜在空間上のグラフに基づく事前化と距離保存バック制約を通じて分類構造を組み込んだ新しいガウス過程双曲的潜在変数モデルを定式化した。 我々は,3つの異なる分類学のモデルを用いて,元のグラフ構造を忠実に保存する双曲埋め込みを学習する。 我々のモデルは既存の分類群や新しい分類群から見当たらないポーズを適切にエンコードし、埋め込み間の軌跡を生成するのに使用でき、ユークリッドのそれよりも優れています。

Robotic taxonomies serve as high-level hierarchical abstractions that classify how humans move and interact with their environment. They have proven useful to analyse grasps, manipulation skills, and whole-body support poses. Despite substantial efforts devoted to design their hierarchy and underlying categories, their use in application fields remains limited. This may be attributed to the lack of computational models that fill the gap between the discrete hierarchical structure of the taxonomy and the high-dimensional heterogeneous data associated to its categories. To overcome this problem, we propose to model taxonomy data via hyperbolic embeddings that capture the associated hierarchical structure. We achieve this by formulating a novel Gaussian process hyperbolic latent variable model that incorporates the taxonomy structure through graph-based priors on the latent space and distance-preserving back constraints. We validate our model on three different robotics taxonomies to learn hyperbolic embeddings that faithfully preserve the original graph structure. We show that our model properly encodes unseen poses from existing or new taxonomy categories, can be used to generate trajectories between the embeddings, and outperforms its Euclidean counterparts.
翻訳日:2023-10-03 21:11:43 公開日:2023-09-29
# WaterNeRF:水中シーンのための神経放射場

WaterNeRF: Neural Radiance Fields for Underwater Scenes ( http://arxiv.org/abs/2209.13091v2 )

ライセンス: Link先を確認
Advaith Venkatramanan Sethuraman, Manikandasriram Srinivasan Ramanagopal and Katherine A. Skinner(参考訳) 水中イメージングは、海洋ロボットが養殖、海洋インフラ検査、環境モニタリングなど幅広い応用のために行う重要なタスクである。 しかし、減衰や後方散乱などの水柱効果は、水中で撮影された画像の色と品質を大きく変えた。 様々な水環境とこれらの効果の範囲依存性のため、水中画像の復元は難しい課題である。 これは、深度推定や3次元再構成を含む下流の知覚課題に影響を及ぼす。 本稿では,ニューラルレイディアンス場(NeRF)の最先端技術を活用し,物理インフォームド深度推定と色補正を可能にする。 提案手法であるWaterNeRFは,水中画像形成のための物理モデルパラメータを推定し,ハイブリッドなデータ駆動・モデルベースソリューションを実現する。 シーン構造と放射界を決定した後、そのシーンの深度とともに、劣化と修正された水中画像の新たなビューを生成することができる。 提案手法を実際の水中データセット上で定性的かつ定量的に評価する。

Underwater imaging is a critical task performed by marine robots for a wide range of applications including aquaculture, marine infrastructure inspection, and environmental monitoring. However, water column effects, such as attenuation and backscattering, drastically change the color and quality of imagery captured underwater. Due to varying water conditions and range-dependency of these effects, restoring underwater imagery is a challenging problem. This impacts downstream perception tasks including depth estimation and 3D reconstruction. In this paper, we advance state-of-the-art in neural radiance fields (NeRFs) to enable physics-informed dense depth estimation and color correction. Our proposed method, WaterNeRF, estimates parameters of a physics-based model for underwater image formation, leading to a hybrid data-driven and model-based solution. After determining the scene structure and radiance field, we can produce novel views of degraded as well as corrected underwater images, along with dense depth of the scene. We evaluate the proposed method qualitatively and quantitatively on a real underwater dataset.
翻訳日:2023-10-03 21:09:52 公開日:2023-09-29
# QISMETを用いた変分量子アルゴリズムの動的ノイズランドスケープのナビゲーション

Navigating the dynamic noise landscape of variational quantum algorithms with QISMET ( http://arxiv.org/abs/2209.12280v2 )

ライセンス: Link先を確認
Gokul Subramanian Ravi, Kaitlin N. Smith, Jonathan M. Baker, Tejas Kannan, Nathan Earnest, Ali Javadi-Abhari, Henry Hoffmann and Frederic T. Chong(参考訳) 動的NISQノイズランドスケープからの過渡的エラーは理解が困難であり、特に反復的および/または長時間実行可能なアプリケーションのクラスに有害である。 反復型量子応用の最も一般的な例は変分量子アルゴリズム(vqas)である。 反復的に、vqaのクラシックオプティマイザは、目的関数の回路候補を評価し、アプリケーションの目標を達成するための最善の回路を選択する。 ノイズ変動は、VQAイテレーション/チューニング候補の客観的関数推定に大きな過渡的な影響を与える可能性がある。 これはVQAチューニングに大きく影響し、拡張によってその正確性と収束性に影響を与える。 本稿では,VQAの動的雑音環境をナビゲートするためのQISMETを提案する。 QISMETは、特定のVQAイテレーションに対する過渡的エラーの影響が大きいと予測される高変動雑音の事例を積極的に回避する。 これを実現するために、QISMETはVQAイテレーションの過渡誤差を推定し、VQAチューニングを過渡なシナリオに忠実に保つためにコントローラを設計する。 これにより、QISMETはVQAに対する過渡的ノイズの影響の大部分を効率よく軽減し、従来のVQAベースラインよりも1.3x-3xの忠実度を向上できる。 さらに、過渡現象の影響を丁寧に分析するために、本研究では、実機械過渡現象の観測からターゲットVQAアプリケーションのための過渡雑音モデルを構築する。 これらはqiskitシミュレータに統合される。

Transient errors from the dynamic NISQ noise landscape are challenging to comprehend and are especially detrimental to classes of applications that are iterative and/or long-running, and therefore their timely mitigation is important for quantum advantage in real-world applications. The most popular examples of iterative long-running quantum applications are variational quantum algorithms (VQAs). Iteratively, VQA's classical optimizer evaluates circuit candidates on an objective function and picks the best circuits towards achieving the application's target. Noise fluctuation can cause a significant transient impact on the objective function estimation of the VQA iterations / tuning candidates. This can severely affect VQA tuning and, by extension, its accuracy and convergence. This paper proposes QISMET: Quantum Iteration Skipping to Mitigate Error Transients, to navigate the dynamic noise landscape of VQAs. QISMET actively avoids instances of high fluctuating noise which are predicted to have a significant transient error impact on specific VQA iterations. To achieve this, QISMET estimates transient error in VQA iterations and designs a controller to keep the VQA tuning faithful to the transient-free scenario. By doing so, QISMET efficiently mitigates a large portion of the transient noise impact on VQAs and is able to improve the fidelity by 1.3x-3x over a traditional VQA baseline, with 1.6-2.4x improvement over alternative approaches, across different applications and machines. Further, to diligently analyze the effects of transients, this work also builds transient noise models for target VQA applications from observing real machine transients. These are then integrated with the Qiskit simulator.
翻訳日:2023-10-03 21:09:23 公開日:2023-09-29
# CorruptEncoder: コントラスト学習のためのデータポリシベースのバックドアアタック

CorruptEncoder: Data Poisoning based Backdoor Attacks to Contrastive Learning ( http://arxiv.org/abs/2211.08229v4 )

ライセンス: Link先を確認
Jinghuai Zhang and Hongbin Liu and Jinyuan Jia and Neil Zhenqiang Gong(参考訳) コントラスト学習(cl)は、画像または画像テキストペアからなるラベルなし事前学習データセットを使用して、汎用エンコーダを事前学習する。 clはデータ中毒ベースのバックドア攻撃(dpbas)に対して脆弱であり、攻撃者はプリトレーニングデータセットに毒入り入力を注入し、エンコーダはバックドアされる。 しかし,既存のDPBAは有効性に限界がある。 本研究では,既存の攻撃の限界を分析し,CorruptEncoderと呼ばれる新しいDPBAをCLに提案する。 CorruptEncoderは理論誘導方式を使用して、攻撃効果を最大化するために最適な毒物入力を生成する。 実験の結果,CorruptEncoderは既存のDPBAよりも大幅に優れていた。 特に、腐敗したエンコーダーは、90%以上の攻撃成功率を達成できた最初のdpbaであり、参照画像数(3)と少量の中毒率(0.5%)しかなかった。 さらに,dpbasに対する防御策として,局所クロッピング(localized cropping)を提案する。 我々の防衛はDPBAの有効性を低下させるが,エンコーダの実用性を犠牲にし,新たな防衛の必要性を浮き彫りにしている。

Contrastive learning (CL) pre-trains general-purpose encoders using an unlabeled pre-training dataset, which consists of images or image-text pairs. CL is vulnerable to data poisoning based backdoor attacks (DPBAs), in which an attacker injects poisoned inputs into the pre-training dataset so the encoder is backdoored. However, existing DPBAs achieve limited effectiveness. In this work, we take the first step to analyze the limitations of existing attacks and propose new DPBAs called CorruptEncoder to CL. CorruptEncoder uses a theory-guided method to create optimal poisoned inputs to maximize attack effectiveness. Our experiments show that CorruptEncoder substantially outperforms existing DPBAs. In particular, CorruptEncoder is the first DPBA that achieves more than 90% attack success rates with only a few (3) reference images and a small poisoning ratio (0.5%). Moreover, we also propose a defense, called localized cropping, to defend against DPBAs. Our results show that our defense can reduce the effectiveness of DPBAs, but it sacrifices the utility of the encoder, highlighting the need for new defenses.
翻訳日:2023-10-03 20:59:38 公開日:2023-09-29
# タスクベースフラット領域探索によるマルチタスク学習の改善

Improving Multi-task Learning via Seeking Task-based Flat Regions ( http://arxiv.org/abs/2211.13723v2 )

ライセンス: Link先を確認
Hoang Phan, Lam Tran, Ngoc N. Tran, Nhat Ho, Dinh Phung, Trung Le(参考訳) マルチタスク学習(multi-task learning, mtl)は、ディープニューラルネットワークをトレーニングするための、広く使用されている強力な学習パラダイムである。 トレーニングタスクを別々に比較すると、MTLは計算コストを大幅に削減し、データ効率を向上し、タスク間の知識を活用することでモデル性能を向上させる可能性がある。 そのため、コンピュータビジョンから自然言語処理、音声認識まで、様々な用途で採用されている。 その中には、タスク勾配を操作することに焦点を当て、すべてのタスクに利益をもたらす究極の勾配降下方向を導出する、mtlの新たな作業ラインがある。 多くのベンチマークで印象的な結果を得たにもかかわらず、適切な正規化手法を使わずにこれらのアプローチを直接適用すれば、現実世界の問題に対する準最適解が得られるかもしれない。 特に、トレーニングデータの経験的損失を最小限に抑える標準トレーニングは、低リソースタスクへの過度な適合や、ノイズの多いラベル付きタスクによって損なわれることが少なく、タスク間の負の転送と全体的なパフォーマンス低下を引き起こす可能性がある。 このような問題を緩和するために,シャープネス認識最小化(Sharpness-aware Minimization)という,単一タスク学習におけるモデル一般化能力を向上する手法を提案する。 そこで本研究では,すべてのタスクの一般化能力を向上させるためのタスクベースフラットミニマの探索をモデルに促す新しいmtlトレーニング手法を提案する。 最後に,既存の勾配に基づくmtl法に対する提案手法のメリットを実証するために,様々な応用に関する包括的な実験を行った。

Multi-Task Learning (MTL) is a widely-used and powerful learning paradigm for training deep neural networks that allows learning more than one objective by a single backbone. Compared to training tasks separately, MTL significantly reduces computational costs, improves data efficiency, and potentially enhances model performance by leveraging knowledge across tasks. Hence, it has been adopted in a variety of applications, ranging from computer vision to natural language processing and speech recognition. Among them, there is an emerging line of work in MTL that focuses on manipulating the task gradient to derive an ultimate gradient descent direction to benefit all tasks. Despite achieving impressive results on many benchmarks, directly applying these approaches without using appropriate regularization techniques might lead to suboptimal solutions on real-world problems. In particular, standard training that minimizes the empirical loss on the training data can easily suffer from overfitting to low-resource tasks or be spoiled by noisy-labeled ones, which can cause negative transfer between tasks and overall performance drop. To alleviate such problems, we propose to leverage a recently introduced training method, named Sharpness-aware Minimization, which can enhance model generalization ability on single-task learning. Accordingly, we present a novel MTL training methodology, encouraging the model to find task-based flat minima for coherently improving its generalization capability on all tasks. Finally, we conduct comprehensive experiments on a variety of applications to demonstrate the merit of our proposed approach to existing gradient-based MTL methods, as suggested by our developed theory.
翻訳日:2023-10-03 20:50:17 公開日:2023-09-29
# 長地平線温度スケーリング

Long Horizon Temperature Scaling ( http://arxiv.org/abs/2302.03686v2 )

ライセンス: Link先を確認
Andy Shih, Dorsa Sadigh, Stefano Ermon(参考訳) 温度スケーリングはモデル分布のシャープネスをチューニングするための一般的な手法である。 潜在的世代をサンプリングし、モデルの不確実性を校正するために広く使用され、デプロイ中の多くの大きな言語モデルに対する制御可能なパラメータとして機能する。 しかし、自己回帰モデルは次のトークンを鮮やかに最適化する心筋温度のスケーリングに依存している。 そこで本研究では, 温度スケールドジョイント分布からサンプリングする新しい手法であるlong horizon temperature scaling (lhts)を提案する。 LHTSは全ての可能性に基づくモデルと互換性があり、サンプルの長い地平線確率を最適化する。 温度依存性のLHTS目標を導出し, 温度範囲のモデルを微調整することで, 制御可能な長地平線温度パラメータで生成可能な単一モデルが得られることを示す。 画像拡散モデルとキャラクタ/言語自己回帰モデルについてLHTSを用いて実験を行い、ミオピック温度スケーリングの確率とサンプル品質に対する利点を示し、複数選択類似タスクにおける精度を10\%$で向上させた。

Temperature scaling is a popular technique for tuning the sharpness of a model distribution. It is used extensively for sampling likely generations and calibrating model uncertainty, and even features as a controllable parameter to many large language models in deployment. However, autoregressive models rely on myopic temperature scaling that greedily optimizes the next token. To address this, we propose Long Horizon Temperature Scaling (LHTS), a novel approach for sampling from temperature-scaled joint distributions. LHTS is compatible with all likelihood-based models, and optimizes for the long horizon likelihood of samples. We derive a temperature-dependent LHTS objective, and show that finetuning a model on a range of temperatures produces a single model capable of generation with a controllable long horizon temperature parameter. We experiment with LHTS on image diffusion models and character/language autoregressive models, demonstrating advantages over myopic temperature scaling in likelihood and sample quality, and showing improvements in accuracy on a multiple choice analogy task by $10\%$.
翻訳日:2023-10-03 20:28:59 公開日:2023-09-29
# Weisfeiler-Lehman距離:再解釈とGNNとのつながり

The Weisfeiler-Lehman Distance: Reinterpretation and Connection with GNNs ( http://arxiv.org/abs/2302.00713v3 )

ライセンス: Link先を確認
Samantha Chen, Sunhyuk Lim, Facundo M\'emoli, Zhengchao Wan, and Yusu Wang(参考訳) 本稿では,2022年にchenらによって導入されたweisfeiler-lehman (wl) 距離の新たな解釈について,確率過程の概念を用いて述べる。 WL距離はグラフとノードの特徴を比較することを目的としており、古典的なWeisfeiler-Lehmanグラフ同型テストと同じ識別力を持ち、グロモフ-ワッサーシュタイン距離と深い関係を持つ。 この新たな解釈は、WL距離と確率過程の距離に関する文献を結びつけ、距離の解釈をより分かりやすく直感的にする。 さらに、WL距離と特定のメッセージパッシングニューラルネットワークの接続について検討し、これらのネットワークのリプシッツ特性と普遍近似結果を理解するためのWL距離の影響について考察する。

In this paper, we present a novel interpretation of the so-called Weisfeiler-Lehman (WL) distance, introduced by Chen et al. (2022), using concepts from stochastic processes. The WL distance aims at comparing graphs with node features, has the same discriminative power as the classic Weisfeiler-Lehman graph isomorphism test and has deep connections to the Gromov-Wasserstein distance. This new interpretation connects the WL distance to the literature on distances for stochastic processes, which also makes the interpretation of the distance more accessible and intuitive. We further explore the connections between the WL distance and certain Message Passing Neural Networks, and discuss the implications of the WL distance for understanding the Lipschitz property and the universal approximation results for these networks.
翻訳日:2023-10-03 20:28:40 公開日:2023-09-29
# RICO: 室内のコンポジションレコンストラクションの非可観測化

RICO: Regularizing the Unobservable for Indoor Compositional Reconstruction ( http://arxiv.org/abs/2303.08605v2 )

ライセンス: Link先を確認
Zizhang Li, Xiaoyang Lyu, Yuanyuan Ding, Mengmeng Wang, Yiyi Liao, Yong Liu(参考訳) 近年,多視点再構成に神経暗示面が普及している。 シーン編集や操作などの実践的な応用を容易にするために、全体論的な視点ではなく、オブジェクト-構成的再構成のためのセマンティックマスクを入力してフレームワークを拡張した作品もある。 もっともらしい乱れを実現するが、通常は部分的に観察される屋内シーンの処理では性能が著しく低下する。 本稿では,室内構成再構成のための観測不能領域を定式化することにより,これに対処するためのricoを提案する。 我々のキーとなる考え方は、まず隠蔽された背景の滑らかさを規則化し、その後、対象と背景の関係に基づいて、観測不能領域における前景オブジェクトの再構築をガイドすることである。 特に,オクルードされた背景パッチの幾何学的滑らかさを定式化する。 背景面の改善により、符号付き距離関数とオブジェクトの逆レンダリング深度は、背景範囲内でそれらをバインドするように最適化できる。 大規模実験により,人工的および実世界の室内シーンにおける他の手法を上回り,提案手法の有効性を実証した。 コードはhttps://github.com/kyleleey/ricoで入手できる。

Recently, neural implicit surfaces have become popular for multi-view reconstruction. To facilitate practical applications like scene editing and manipulation, some works extend the framework with semantic masks input for the object-compositional reconstruction rather than the holistic perspective. Though achieving plausible disentanglement, the performance drops significantly when processing the indoor scenes where objects are usually partially observed. We propose RICO to address this by regularizing the unobservable regions for indoor compositional reconstruction. Our key idea is to first regularize the smoothness of the occluded background, which then in turn guides the foreground object reconstruction in unobservable regions based on the object-background relationship. Particularly, we regularize the geometry smoothness of occluded background patches. With the improved background surface, the signed distance function and the reversedly rendered depth of objects can be optimized to bound them within the background range. Extensive experiments show our method outperforms other methods on synthetic and real-world indoor scenes and prove the effectiveness of proposed regularizations. The code is available at https://github.com/kyleleey/RICO.
翻訳日:2023-10-03 20:09:30 公開日:2023-09-29
# 肺がん患者のCT検査における深部線状コックスモデルの適用

Penalized Deep Partially Linear Cox Models with Application to CT Scans of Lung Cancer Patients ( http://arxiv.org/abs/2303.05341v3 )

ライセンス: Link先を確認
Yuming Sun, Jian Kang, Chinmay Haridas, Nicholas R. Mayne, Alexandra L. Potter, Chi-Fu Jeffrey Yang, David C. Christiani, Yi Li(参考訳) 肺がんは世界中のがん死亡の原因であり、効果的な患者中心療法の設計における死亡リスクを理解することの重要性を強調している。 NLST(National Lung Screening Trial)ではCTスキャンのテクスチャパターンを客観的に測定し,肺がん患者の死亡リスクの定量化を目的として,CTテクスチャ解析を行った。 半線形coxモデルは、ハザード関数をパラメトリック成分と非パラメトリック成分に分解することで、生存分析に人気を博し、確立されたリスク因子(年齢や臨床変数など)と新たなリスク因子(画像の特徴など)を統一フレームワーク内で効果的に組み込むことができる。 しかし、パラメトリック成分の次元がサンプルサイズを超えると、非パラメトリックなモデリングが次元の呪いを伴うのに対して、モデルフィッティングのタスクは形成可能となる。 本稿では,SCADペナルティを組み込んで重要なテクスチャ特徴を抽出し,深層ニューラルネットワークを用いてモデルの非パラメトリック成分を推定する,Pentalized Deep partially Linear Cox Model (Penalized DPLC)を提案する。 我々は,推定器の収束性と漸近特性を証明し,リスク予測と特徴選択の性能評価を行い,他の手法と比較した。 本手法はNLST研究データセットに応用され,臨床および画像上の危険因子が患者の生存に及ぼす影響を明らかにする。 以上より,これらの因子と生存率との関係について考察した。

Lung cancer is a leading cause of cancer mortality globally, highlighting the importance of understanding its mortality risks to design effective patient-centered therapies. The National Lung Screening Trial (NLST) employed computed tomography texture analysis, which provides objective measurements of texture patterns on CT scans, to quantify the mortality risks of lung cancer patients. Partially linear Cox models have gained popularity for survival analysis by dissecting the hazard function into parametric and nonparametric components, allowing for the effective incorporation of both well-established risk factors (such as age and clinical variables) and emerging risk factors (e.g., image features) within a unified framework. However, when the dimension of parametric components exceeds the sample size, the task of model fitting becomes formidable, while nonparametric modeling grapples with the curse of dimensionality. We propose a novel Penalized Deep Partially Linear Cox Model (Penalized DPLC), which incorporates the SCAD penalty to select important texture features and employs a deep neural network to estimate the nonparametric component of the model. We prove the convergence and asymptotic properties of the estimator and compare it to other methods through extensive simulation studies, evaluating its performance in risk prediction and feature selection. The proposed method is applied to the NLST study dataset to uncover the effects of key clinical and imaging risk factors on patients' survival. Our findings provide valuable insights into the relationship between these factors and survival outcomes.
翻訳日:2023-10-03 20:07:47 公開日:2023-09-29
# MoViT:医用画像解析用暗視変換器

MoViT: Memorizing Vision Transformers for Medical Image Analysis ( http://arxiv.org/abs/2303.15553v3 )

ライセンス: Link先を確認
Yiqing Shen, Pengfei Guo, Jingpu Wu, Qianqi Huang, Nhat Le, Jinyuan Zhou, Shanshan Jiang, Mathias Unberath(参考訳) トランスフォーマーからの長距離依存と畳み込みニューラルネットワーク(cnns)からの画像コンテンツの局所表現の相乗効果は、その相補的な利点により、高度なアーキテクチャと様々な医用画像解析タスクのパフォーマンス向上につながった。 しかし、cnnと比較すると、トランスフォーマーは多くのパラメータと帰納バイアスの欠如のため、かなり多くのトレーニングデータを必要とする。 ますます大規模なデータセットの必要性は、特に医用画像の文脈において問題であり続けており、アノテーションの取り組みとデータ保護の両方がデータ可用性を制限している。 本研究は,新たなエビデンスと従来記憶されていた経験とを関連付ける人間の意思決定プロセスに着想を得て,大規模なデータセットの必要性を軽減し,トランスフォーマーベースのアーキテクチャをトレーニングし,デプロイするための記憶型視覚変換器(MoViT)を提案する。 MoViTは、トレーニング段階の履歴注意スナップショットをキャッシュするために、外部メモリ構造を利用する。 オーバーフィッティングを防止するため,メモリ更新方式である注意時間移動平均法を取り入れ,記憶された外部記憶を履歴移動平均で更新する。 推論高速化のために、我々は外部メモリをより小さな代表サブセットに蒸留するプロトタイプ型注意学習法を設計する。 本手法は, 医用画像解析タスクに応用されたMoViTが, 特に少量の注釈データしか利用できない場合において, 様々なデータレギュラーにおいてバニラトランスフォーマーモデルより優れていることを示すため, パブリックヒストロジー画像データセットと社内MRIデータセットを用いて評価を行った。 さらに重要なのは、トレーニングデータのわずか3.0%で、MoViTの競合パフォーマンスに到達することだ。

The synergy of long-range dependencies from transformers and local representations of image content from convolutional neural networks (CNNs) has led to advanced architectures and increased performance for various medical image analysis tasks due to their complementary benefits. However, compared with CNNs, transformers require considerably more training data, due to a larger number of parameters and an absence of inductive bias. The need for increasingly large datasets continues to be problematic, particularly in the context of medical imaging, where both annotation efforts and data protection result in limited data availability. In this work, inspired by the human decision-making process of correlating new evidence with previously memorized experience, we propose a Memorizing Vision Transformer (MoViT) to alleviate the need for large-scale datasets to successfully train and deploy transformer-based architectures. MoViT leverages an external memory structure to cache history attention snapshots during the training stage. To prevent overfitting, we incorporate an innovative memory update scheme, attention temporal moving average, to update the stored external memories with the historical moving average. For inference speedup, we design a prototypical attention learning method to distill the external memory into smaller representative subsets. We evaluate our method on a public histology image dataset and an in-house MRI dataset, demonstrating that MoViT applied to varied medical image analysis tasks, can outperform vanilla transformer models across varied data regimes, especially in cases where only a small amount of annotated data is available. More importantly, MoViT can reach a competitive performance of ViT with only 3.0% of the training data.
翻訳日:2023-10-03 19:57:49 公開日:2023-09-29
# crossloc3d: 地上のクロスソース3d位置認識

CrossLoc3D: Aerial-Ground Cross-Source 3D Place Recognition ( http://arxiv.org/abs/2303.17778v2 )

ライセンス: Link先を確認
Tianrui Guan, Aswath Muthuselvam, Montana Hoover, Xijun Wang, Jing Liang, Adarsh Jagan Sathyamoorthy, Damon Conover, Dinesh Manocha(参考訳) そこで我々は,クロスソース環境での大規模点マッチング問題を解決する新しい3D位置認識手法であるCrossLoc3Dを提案する。 クロスソースなポイントクラウドデータは、異なる精度の深度センサや、異なる距離や視点から取得したポイントセットに対応する。 異なるソースから取得した点間の表現ギャップを考慮に入れた3次元位置認識手法の開発という課題に対処する。 提案手法は,多粒度特徴を活用し,最も顕著な特徴に対応する畳み込みカーネルサイズを選択することで,クロスソースデータを処理する。 拡散モデルにインスパイアされた本手法では,埋め込み空間を異なるソースから単一の正準空間に徐々にシフトさせ,よりよいメトリック学習を実現する。 さらにCS-Campus3Dは,空中および地上の両方のLiDARスキャンから得られる点雲データからなる,最初の3次元地上クロスソースデータセットである。 cs-campus3dのポイントクラウドは、表示ギャップや、異なるビュー、ポイント密度、ノイズパターンなどの特徴を持っている。 CS-Campus3Dベンチマークでは,CrossLoc3Dアルゴリズムが4.74%から15.37%の改善を実現し,Oxford RobotCarの最先端の3D位置認識手法に匹敵する性能を達成した。 CS-CAMPUS3Dベンチマークはgithub.com/rayguan97/crossloc3dで利用可能である。

We present CrossLoc3D, a novel 3D place recognition method that solves a large-scale point matching problem in a cross-source setting. Cross-source point cloud data corresponds to point sets captured by depth sensors with different accuracies or from different distances and perspectives. We address the challenges in terms of developing 3D place recognition methods that account for the representation gap between points captured by different sources. Our method handles cross-source data by utilizing multi-grained features and selecting convolution kernel sizes that correspond to most prominent features. Inspired by the diffusion models, our method uses a novel iterative refinement process that gradually shifts the embedding spaces from different sources to a single canonical space for better metric learning. In addition, we present CS-Campus3D, the first 3D aerial-ground cross-source dataset consisting of point cloud data from both aerial and ground LiDAR scans. The point clouds in CS-Campus3D have representation gaps and other features like different views, point densities, and noise patterns. We show that our CrossLoc3D algorithm can achieve an improvement of 4.74% - 15.37% in terms of the top 1 average recall on our CS-Campus3D benchmark and achieves performance comparable to state-of-the-art 3D place recognition method on the Oxford RobotCar. The code and CS-CAMPUS3D benchmark will be available at github.com/rayguan97/crossloc3d.
翻訳日:2023-10-03 19:47:25 公開日:2023-09-29
# 低次元多様体上の超音速重力空力

Grasping Extreme Aerodynamics on a Low-Dimensional Manifold ( http://arxiv.org/abs/2305.08024v2 )

ライセンス: Link先を確認
Kai Fukami and Kunihiko Taira(参考訳) 現代の航空車両は輸送、防衛、監視、救助など幅広い活動を行っている。 これらの航空機は穏やかな状態で飛行できるが、都市部の峡谷や山岳地帯、船舶の航跡で遭遇する不気味な環境での運用を避けることができる。 地球温暖化による極端な天候の頻繁化に伴い、航空機、特に小型航空機は大きな大気障害に遭遇し、安定した飛行が期待されている。 しかし、翼に対する極端な渦ガスの影響を記述する理論的流体力学の基礎はほとんど存在しない。 この難しさを補うために、ガスト・ウィング相互作用のパラメータ空間は大きい。 このような相互作用はガストパラメータの組み合わせごとに複雑で異なるように見えるが、極端な空気力学の背後にある基礎物理学は従来予想されていたよりもはるかにシンプルで低ランクであることを示す。 本研究では, 時間およびパラメータ空間上の非線形渦流れ場を, リフト誘導オートエンコーダを用いて3変数に圧縮し, 元の高次元物理の本質を保持しながら圧縮できることを明らかにした。 極端に空力的な流れは機械学習によって低次元多様体に圧縮することができ、これはリアルタイムスパース再構成、動的モデリング、および非常に非定常なガスティーフローの制御を可能にする。 本研究は,従来飛行不可能とされてきた大気環境下での次世代小型航空機の安定飛行を支援するものである。

Modern air vehicles perform a wide range of operations, including transportation, defense, surveillance, and rescue. These aircraft can fly in calm conditions but avoid operations in gusty environments, encountered in urban canyons, over mountainous terrains, and in ship wakes. With extreme weather becoming ever more frequent due to global warming, it is anticipated that aircraft, especially those that are smaller in size, will encounter sizeable atmospheric disturbances and still be expected to achieve stable flight. However, there exists virtually no theoretical fluid-dynamic foundation to describe the influence of extreme vortical gusts on wings. To compound this difficulty, there is a large parameter space for gust-wing interactions. While such interactions are seemingly complex and different for each combination of gust parameters, we show that the fundamental physics behind extreme aerodynamics is far simpler and lower-rank than traditionally expected. We reveal that the nonlinear vortical flow field over time and parameter space can be compressed to only three variables with a lift-augmented autoencoder while holding the essence of the original high-dimensional physics. Extreme aerodynamic flows can be compressed through machine learning into a low-dimensional manifold, which can enable real-time sparse reconstruction, dynamical modeling, and control of extremely unsteady gusty flows. The present findings offer support for the stable flight of next-generation small air vehicles in atmosphere conditions traditionally considered unflyable.
翻訳日:2023-10-03 17:45:25 公開日:2023-09-29
# GPT-FL: モデル支援フェデレーション学習の生成

GPT-FL: Generative Pre-trained Model-Assisted Federated Learning ( http://arxiv.org/abs/2306.02210v3 )

ライセンス: Link先を確認
Tuo Zhang, Tiantian Feng, Samiul Alam, Dimitrios Dimitriadis, Mi Zhang, Shrikanth S. Narayanan, Salman Avestimehr(参考訳) 本稿では,gpt-flを提案する。これは生成型事前学習モデル支援連合学習(fl)フレームワークである。 GPT-FLは、生成前訓練されたモデルを利用して、多様化された合成データを生成する。 これらの生成されたデータは、サーバ上のダウンストリームモデルをトレーニングするために使用され、標準のflフレームワークの下でプライベートクライアントデータと微調整される。 gpt-flは, モデルテストの精度, 通信効率, クライアントサンプリング効率の点で, 最先端fl法を一貫して上回っている。 総合的アブレーション解析により, 合成データによって生成された下流モデルが, gpt-flで観測された顕著な精度向上に寄与し, flトレーニング中の勾配多様性の方向を制御する上で重要な役割を担っていることを見出した。 また、目標データが事前訓練された生成モデルの領域内か外部かにかかわらず、gpt-flは、flまたは合成データのみで訓練されたモデルによって得られた結果よりも、一貫して著しい性能向上を達成している。

In this work, we propose GPT-FL, a generative pre-trained model-assisted federated learning (FL) framework. At its core, GPT-FL leverages generative pre-trained models to generate diversified synthetic data. These generated data are used to train a downstream model on the server, which is then fine-tuned with private client data under the standard FL framework. We show that GPT-FL consistently outperforms state-of-the-art FL methods in terms of model test accuracy, communication efficiency, and client sampling efficiency. Through comprehensive ablation analysis, we discover that the downstream model generated by synthetic data plays a crucial role in controlling the direction of gradient diversity during FL training, which enhances convergence speed and contributes to the notable accuracy boost observed with GPT-FL. Also, regardless of whether the target data falls within or outside the domain of the pre-trained generative model, GPT-FL consistently achieves significant performance gains, surpassing the results obtained by models trained solely with FL or synthetic data.
翻訳日:2023-10-03 17:37:23 公開日:2023-09-29
# 動的帯域幅を考慮したタスク対応分散音源符号化

Task-aware Distributed Source Coding under Dynamic Bandwidth ( http://arxiv.org/abs/2305.15523v2 )

ライセンス: Link先を確認
Po-han Li, Sravan Kumar Ankireddy, Ruihan Zhao, Hossein Nourkhiz Mahjoub, Ehsan Moradi-Pari, Ufuk Topcu, Sandeep Chinchali, Hyeji Kim(参考訳) マルチセンサネットワークにおける通信過負荷を最小限に抑えるためには,相関データの効率的な圧縮が不可欠である。 このようなネットワークでは、各センサが独立してデータを圧縮し、通信帯域が限られているため中央ノードに送信する。 中央ノードのデコーダはデータを圧縮し、トレーニング済みの機械学習ベースのタスクに渡して最終的な出力を生成する。 したがって,タスクに関連する特徴を圧縮することが重要である。 さらに、最終的なパフォーマンスは利用可能な帯域幅に大きく依存する。 実際には、帯域幅のばらつきに遭遇することが一般的であり、より高い帯域幅でタスクの性能が向上する。 我々は,ニューラル分散主成分分析(neural distributed principal component analysis, ndpca)と呼ばれる,独立したエンコーダとジョイントデコーダからなる新しい分散圧縮フレームワークを設計した。 NDPCAは、複数のソースからのデータを単一のモデルで任意の帯域に柔軟に圧縮し、計算とストレージのオーバーヘッドを減らす。 NDPCAは、低ランクなタスク表現を学習し、センサ間の帯域幅を効率よく分散することにより、性能と帯域幅の良好なトレードオフを提供する。 実験の結果,NDPCAはマルチビューロボットアーム操作の成功率を9%向上し,衛星画像上の物体検出タスクの精度を14%向上した。

Efficient compression of correlated data is essential to minimize communication overload in multi-sensor networks. In such networks, each sensor independently compresses the data and transmits them to a central node due to limited communication bandwidth. A decoder at the central node decompresses and passes the data to a pre-trained machine learning-based task to generate the final output. Thus, it is important to compress the features that are relevant to the task. Additionally, the final performance depends heavily on the total available bandwidth. In practice, it is common to encounter varying availability in bandwidth, and higher bandwidth results in better performance of the task. We design a novel distributed compression framework composed of independent encoders and a joint decoder, which we call neural distributed principal component analysis (NDPCA). NDPCA flexibly compresses data from multiple sources to any available bandwidth with a single model, reducing computing and storage overhead. NDPCA achieves this by learning low-rank task representations and efficiently distributing bandwidth among sensors, thus providing a graceful trade-off between performance and bandwidth. Experiments show that NDPCA improves the success rate of multi-view robotic arm manipulation by 9% and the accuracy of object detection tasks on satellite imagery by 14% compared to an autoencoder with uniform bandwidth allocation.
翻訳日:2023-10-03 17:34:44 公開日:2023-09-29
# 量子ランダムアクセスメモリのためのシステムアーキテクチャ

Systems Architecture for Quantum Random Access Memory ( http://arxiv.org/abs/2306.03242v2 )

ライセンス: Link先を確認
Shifan Xu, Connor T. Hann, Ben Foxman, Steven M. Girvin, Yongshan Ding(参考訳) 量子力学の原理に基づいて動作する量子アルゴリズムは、最もよく利用可能な古典的アルゴリズムの到達範囲を超えている問題の解決を約束する。 このようなスピードアップを実現する上で不可欠な部分は、量子コンピュータが処理できる形式にデータを読み込む量子クエリの実装である。 量子ランダムアクセスメモリ(QRAM)は、量子クエリを実現するための有望なアーキテクチャである。 しかし、実際にQRAMを実装することは、クエリ待ち時間、メモリ容量、フォールトトレランスなど、大きな課題をもたらす。 本稿では,QRAMのためのエンドツーエンドシステムアーキテクチャを提案する。 まず,既存の2つの実装をハイブリッド化し,空間(量子数)と時間(深さ)の漸近的に優れたスケーリングを実現する新しいqramを提案する。 従来の仮想メモリと同様に、我々の構成はハードウェアで実際に利用可能なものよりも大きな仮想アドレス空間へのクエリを可能にする。 第2に,実ハードウェア上でQRAM回路を合成,マップ,スケジュールするコンパイルフレームワークを提案する。 グリッドレイアウトのような2次元ユークリッド空間に、最小限のルーティングオーバーヘッドで大規模qramを組み込む方法が、初めて実証された。 第3に,提案するQRAMの固有バイアスノイズレジリエンスを,ノイズ中規模量子 (NISQ) とフォールトトレラント量子コンピューティング (FTQC) のハードウェア上で実装する方法を示す。 最後に、これらの結果を古典的シミュレーションと量子ハードウェア実験の両方を通して数値的に検証する。 提案するfeynman-path-based simulatorは,従来よりも大規模でノイズの多いqram回路の効率的なシミュレーションを可能にする。 そこで本研究では,QRAMの実装に必要なソフトウェアおよびハードウェア制御の集合について概説した。

Operating on the principles of quantum mechanics, quantum algorithms hold the promise for solving problems that are beyond the reach of the best-available classical algorithms. An integral part of realizing such speedup is the implementation of quantum queries, which read data into forms that quantum computers can process. Quantum random access memory (QRAM) is a promising architecture for realizing quantum queries. However, implementing QRAM in practice poses significant challenges, including query latency, memory capacity and fault-tolerance. In this paper, we propose the first end-to-end system architecture for QRAM. First, we introduce a novel QRAM that hybridizes two existing implementations and achieves asymptotically superior scaling in space (qubit number) and time (circuit depth). Like in classical virtual memory, our construction enables queries to a virtual address space larger than what is actually available in hardware. Second, we present a compilation framework to synthesize, map, and schedule QRAM circuits on realistic hardware. For the first time, we demonstrate how to embed large-scale QRAM on a 2D Euclidean space, such as a grid layout, with minimal routing overhead. Third, we show how to leverage the intrinsic biased-noise resilience of the proposed QRAM for implementation on either Noisy Intermediate-Scale Quantum (NISQ) or Fault-Tolerant Quantum Computing (FTQC) hardware. Finally, we validate these results numerically via both classical simulation and quantum hardware experimentation. Our novel Feynman-path-based simulator allows for efficient simulation of noisy QRAM circuits at a larger scale than previously possible. Collectively, our results outline the set of software and hardware controls needed to implement practical QRAM.
翻訳日:2023-10-03 17:23:12 公開日:2023-09-29
# 分岐潜在性ニューラルマップ

Branched Latent Neural Maps ( http://arxiv.org/abs/2308.02599v2 )

ライセンス: Link先を確認
Matteo Salvador, Alison Lesley Marsden(参考訳) 複雑な物理過程を符号化する有限次元入力出力マップを学習するために分岐潜在ニューラルネットワーク(blnms)を導入する。 blnmは単純でコンパクトなフィードフォワード部分連結ニューラルネットワークによって定義され、微分方程式のモデルパラメータからの時間変数など、異なる固有役割を持つ入力を構造的に分離し、それらを利害関係の分野に転送する。 blnmsは、学習したダイナミクスを強化するために潜在出力を利用し、単一のプロセッサ上で小さなトレーニングデータセットと短いトレーニング時間で優れた一般化特性を示すことにより、次元の呪いを打ち破る。 実際、それらの一般化誤差は、テストフェーズで採用された離散化にかかわらず、同等である。 さらに、部分接続は調整可能なパラメータの数を大幅に減少させる。 小児低形成性左心症候群患者の心室モデルにおける電気生理学的シミュレーションを含む難治性検査症例におけるBLNMsの有用性を示す。 このモデルには高速伝導のための1D Purkinjeネットワークと3Dハートトルソ幾何学が含まれる。 具体的には,12誘導心電図 (ECGs) を, 細胞規模, 臓器レベルの7つのモデルパラメータに比例し, 150個のBLNMを訓練した。 12誘導心電図は急勾配で非常に速いダイナミクスを示すが、単一cpuで3時間未満で訓練された最適blnmを自動ハイパーパラメータチューニングした後は、わずか7つの隠れ層と19のニューロンを層ごとに保持する。 平均二乗誤差は、50の電気生理学的シミュレーションからなるテストデータセット上で10^{-4}$のオーダーである。 オンラインフェーズでは、BLNMは単一コアの標準コンピュータ上での心臓電気生理学のリアルタイムシミュレーションを5000倍高速に行うことができ、計算時間数秒で大域最適化による逆問題の解決に使用できる。

We introduce Branched Latent Neural Maps (BLNMs) to learn finite dimensional input-output maps encoding complex physical processes. A BLNM is defined by a simple and compact feedforward partially-connected neural network that structurally disentangles inputs with different intrinsic roles, such as the time variable from model parameters of a differential equation, while transferring them into a generic field of interest. BLNMs leverage latent outputs to enhance the learned dynamics and break the curse of dimensionality by showing excellent generalization properties with small training datasets and short training times on a single processor. Indeed, their generalization error remains comparable regardless of the adopted discretization during the testing phase. Moreover, the partial connections significantly reduce the number of tunable parameters. We show the capabilities of BLNMs in a challenging test case involving electrophysiology simulations in a biventricular cardiac model of a pediatric patient with hypoplastic left heart syndrome. The model includes a 1D Purkinje network for fast conduction and a 3D heart-torso geometry. Specifically, we trained BLNMs on 150 in silico generated 12-lead electrocardiograms (ECGs) while spanning 7 model parameters, covering cell-scale and organ-level. Although the 12-lead ECGs manifest very fast dynamics with sharp gradients, after automatic hyperparameter tuning the optimal BLNM, trained in less than 3 hours on a single CPU, retains just 7 hidden layers and 19 neurons per layer. The resulting mean square error is on the order of $10^{-4}$ on a test dataset comprised of 50 electrophysiology simulations. In the online phase, the BLNM allows for 5000x faster real-time simulations of cardiac electrophysiology on a single core standard computer and can be used to solve inverse problems via global optimization in a few seconds of computational time.
翻訳日:2023-10-03 17:05:47 公開日:2023-09-29
# 拡散モデルを用いた逆問題に対する変分的考察

A Variational Perspective on Solving Inverse Problems with Diffusion Models ( http://arxiv.org/abs/2305.04391v2 )

ライセンス: Link先を確認
Morteza Mardani, Jiaming Song, Jan Kautz, Arash Vahdat(参考訳) 拡散モデルは、視覚領域の基礎モデルの主要な柱として現れてきた。 彼らの重要な応用の1つは、各タスクを再訓練することなく単一の拡散によって異なる下流の逆タスクを普遍的に解くことである。 ほとんどの逆タスクは、測定値(マスク付き画像など)が与えられたデータ(フルイメージなど)の後方分布を推測するものとして定式化することができる。 しかし、拡散過程の非線形かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。 この課題に対処するために,設計により真の後方分布を近似しようとする変分的アプローチを提案する。 異なる時間ステップでデノワザが同時に画像に異なる構造的制約を課す拡散過程(red-diff)をデノライゼーションすることで、我々のアプローチは自然に正則化をもたらすことが示されている。 そこで本研究では,信号対雑音比(SNR)に基づく重み付け機構を提案する。 提案手法は,拡散モデルを用いた逆問題に対する新しい変分的視点を提供することにより,標本化を確率的最適化として定式化することができる。 インペインティングや超解像などの画像復元課題に対する実験は,最先端サンプリングに基づく拡散モデルと比較して,提案手法の強みを実証する。

Diffusion models have emerged as a key pillar of foundation models in visual domains. One of their critical applications is to universally solve different downstream inverse tasks via a single diffusion prior without re-training for each task. Most inverse tasks can be formulated as inferring a posterior distribution over data (e.g., a full image) given a measurement (e.g., a masked image). This is however challenging in diffusion models since the nonlinear and iterative nature of the diffusion process renders the posterior intractable. To cope with this challenge, we propose a variational approach that by design seeks to approximate the true posterior distribution. We show that our approach naturally leads to regularization by denoising diffusion process (RED-Diff) where denoisers at different timesteps concurrently impose different structural constraints over the image. To gauge the contribution of denoisers from different timesteps, we propose a weighting mechanism based on signal-to-noise-ratio (SNR). Our approach provides a new variational perspective for solving inverse problems with diffusion models, allowing us to formulate sampling as stochastic optimization, where one can simply apply off-the-shelf solvers with lightweight iterates. Our experiments for image restoration tasks such as inpainting and superresolution demonstrate the strengths of our method compared with state-of-the-art sampling-based diffusion models.
翻訳日:2023-10-03 14:51:40 公開日:2023-09-29
# ChatGPTの動作記憶能力に関する実証的研究

Working Memory Capacity of ChatGPT: An Empirical Study ( http://arxiv.org/abs/2305.03731v3 )

ライセンス: Link先を確認
Dongyu Gong, Xingchen Wan, Dingmin Wang(参考訳) ワーキングメモリは、人間の知性と人工知能の両方において重要な側面であり、情報の一時記憶と操作のためのワークスペースとして機能する。 本稿では,openai が開発した大規模言語モデル chatgpt の作業記憶能力について,様々な条件下での言語的・空間的 n-back タスクにおける性能を調べることにより体系的に評価する。 実験の結果,ChatGPTの動作メモリ容量は人間と著しく類似していることが判明した。 さらに,chatgptの性能に対する異なる指導戦略の影響を調査し,キャパシティ制限の基本パターンが持続することを確認した。 実験結果から,n-backタスクは,大規模言語モデルのワーキングメモリ容量をベンチマークするツールとして機能し,AIワーキングメモリの強化を目的とした今後の取り組みを示す可能性を示唆する。

Working memory is a critical aspect of both human intelligence and artificial intelligence, serving as a workspace for the temporary storage and manipulation of information. In this paper, we systematically assess the working memory capacity of ChatGPT, a large language model developed by OpenAI, by examining its performance in verbal and spatial n-back tasks under various conditions. Our experiments reveal that ChatGPT has a working memory capacity limit strikingly similar to that of humans. Furthermore, we investigate the impact of different instruction strategies on ChatGPT's performance and observe that the fundamental patterns of a capacity limit persist. From our empirical findings, we propose that n-back tasks may serve as tools for benchmarking the working memory capacity of large language models and hold potential for informing future efforts aimed at enhancing AI working memory.
翻訳日:2023-10-03 14:50:57 公開日:2023-09-29
# オフライン選好に基づく強化学習

Provable Offline Preference-Based Reinforcement Learning ( http://arxiv.org/abs/2305.14816v2 )

ライセンス: Link先を確認
Wenhao Zhan, Masatoshi Uehara, Nathan Kallus, Jason D. Lee, Wen Sun(参考訳) 本稿では,フィードバックが明示的な報酬ではなく,トラジェクティブペア間の嗜好の形で利用できる,人的フィードバックによるオフライン推論ベース強化学習(PbRL)の問題について検討する。 提案アルゴリズムは,(1)最大類似度推定(MLE)を用いた暗黙の報酬をオフラインデータから一般関数近似で推定し,(2)MLEの周辺に設定された信頼度に対する分布的に堅牢な計画問題を解く。 報奨が全軌道上で定義できる一般的な報酬設定について検討し、オフラインデータで対象ポリシーがカバーされている限り、多項式数で対象ポリシーを学習できる新しい保証を提供する。 この保証は一般関数近似を用いた最初のものである。 対象政策のカバレッジを計測するために, 軌跡毎の集中率係数を上限とする, 新たな単性集中度係数を導入する。 また,このような集中可能性の必要性と,状態-行動-報酬が直接観察される標準rlとの違いを強調する下限を設定する。 フィードバックがアクションペアに対して与えられると、さらにアルゴリズムを拡張して分析する。

In this paper, we investigate the problem of offline Preference-based Reinforcement Learning (PbRL) with human feedback where feedback is available in the form of preference between trajectory pairs rather than explicit rewards. Our proposed algorithm consists of two main steps: (1) estimate the implicit reward using Maximum Likelihood Estimation (MLE) with general function approximation from offline data and (2) solve a distributionally robust planning problem over a confidence set around the MLE. We consider the general reward setting where the reward can be defined over the whole trajectory and provide a novel guarantee that allows us to learn any target policy with a polynomial number of samples, as long as the target policy is covered by the offline data. This guarantee is the first of its kind with general function approximation. To measure the coverage of the target policy, we introduce a new single-policy concentrability coefficient, which can be upper bounded by the per-trajectory concentrability coefficient. We also establish lower bounds that highlight the necessity of such concentrability and the difference from standard RL, where state-action-wise rewards are directly observed. We further extend and analyze our algorithm when the feedback is given over action pairs.
翻訳日:2023-10-03 14:44:57 公開日:2023-09-29
# 定メモリアテンションブロックによるメモリ効率の良いニューラルプロセス

Memory Efficient Neural Processes via Constant Memory Attention Block ( http://arxiv.org/abs/2305.14567v2 )

ライセンス: Link先を確認
Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Yoshua Bengio, Mohamed Osama Ahmed(参考訳) ニューラルプロセス(nps)は予測の不確かさを効率的にモデル化する一般的なメタラーニング手法である。 しかし、最近の最先端の手法は高価な注意の仕組みを利用し、特に低リソース設定でアプリケーションを制限する。 本研究では,(1) が置換不変であり,(2) 出力を定数メモリで計算し,(3) 定数計算で更新を行う新しい汎用注意ブロックである constant memory attention block (cmab) を提案する。 CMAB上に構築したCMANP(Constant Memory Attentive Neural Processs)は, NP の変種であり, メモリは \textbf{constant} のみである。 実験により、CMANPは、従来の手法よりもはるかにメモリ効率が良く、人気のあるNPベンチマーク(Meta-regressionと画像補完)で最先端の結果が得られることを示した。

Neural Processes (NPs) are popular meta-learning methods for efficiently modelling predictive uncertainty. Recent state-of-the-art methods, however, leverage expensive attention mechanisms, limiting their applications, particularly in low-resource settings. In this work, we propose Constant Memory Attention Block (CMAB), a novel general-purpose attention block that (1) is permutation invariant, (2) computes its output in constant memory, and (3) performs updates in constant computation. Building on CMAB, we propose Constant Memory Attentive Neural Processes (CMANPs), an NP variant which only requires \textbf{constant} memory. Empirically, we show CMANPs achieve state-of-the-art results on popular NP benchmarks (meta-regression and image completion) while being significantly more memory efficient than prior methods.
翻訳日:2023-10-03 14:44:36 公開日:2023-09-29
# GraphCare: パーソナライズされた知識グラフによるヘルスケア予測の強化

GraphCare: Enhancing Healthcare Predictions with Personalized Knowledge Graphs ( http://arxiv.org/abs/2305.12788v2 )

ライセンス: Link先を確認
Pengcheng Jiang, Cao Xiao, Adam Cross, Jimeng Sun(参考訳) 臨床予測モデルは患者の電子健康記録(ehr)に依存することが多いが、予測と意思決定を強化するための医学知識の統合は困難である。 これは、パーソナライズされた予測にはパーソナライズドナレッジグラフ(kgs)が必要であり、患者ehrデータから生成することが難しいためである。 これを解決するために、外部KGを用いてEHRベースの予測を改善するオープンワールドフレームワークである \textsc{GraphCare} を提案する。 本手法は,大規模言語モデル(llms)と外部バイオメディカルkgから知識を抽出して患者固有のkgsを構築することで,医療予測のためのバイアテンション拡張(bat)グラフニューラルネットワーク(gnn)のトレーニングを行う。 MIMIC-IIIとMIMIC-IVの2つの公開データセットにおいて、 \textsc{GraphCare}は、死亡率、リードミッション、滞在期間(LOS)、薬物推奨の4つの重要な医療予測タスクにおいて、ベースラインを超える。 MIMIC-IIIでは、AUROCを17.6\%、レセプトを6.6\%、F1スコアを7.9\%、薬物レコメンデーションを10.8\%向上させる。 特に、 \textsc{GraphCare} は、データ可用性が制限されたシナリオにおいて、かなりのエッジを示している。 本研究は, 医療予測タスクにおける外部KGの使用の可能性を強調し, パーソナライズド医療を促進するために, パーソナライズドKGの生成において, textsc{GraphCare} が期待できることを実証した。

Clinical predictive models often rely on patients' electronic health records (EHR), but integrating medical knowledge to enhance predictions and decision-making is challenging. This is because personalized predictions require personalized knowledge graphs (KGs), which are difficult to generate from patient EHR data. To address this, we propose \textsc{GraphCare}, an open-world framework that uses external KGs to improve EHR-based predictions. Our method extracts knowledge from large language models (LLMs) and external biomedical KGs to build patient-specific KGs, which are then used to train our proposed Bi-attention AugmenTed (BAT) graph neural network (GNN) for healthcare predictions. On two public datasets, MIMIC-III and MIMIC-IV, \textsc{GraphCare} surpasses baselines in four vital healthcare prediction tasks: mortality, readmission, length of stay (LOS), and drug recommendation. On MIMIC-III, it boosts AUROC by 17.6\% and 6.6\% for mortality and readmission, and F1-score by 7.9\% and 10.8\% for LOS and drug recommendation, respectively. Notably, \textsc{GraphCare} demonstrates a substantial edge in scenarios with limited data availability. Our findings highlight the potential of using external KGs in healthcare prediction tasks and demonstrate the promise of \textsc{GraphCare} in generating personalized KGs for promoting personalized medicine.
翻訳日:2023-10-03 14:42:35 公開日:2023-09-29
# 振動子変圧器によるタスクの模倣と動作計画

Imitating Task and Motion Planning with Visuomotor Transformers ( http://arxiv.org/abs/2305.16309v2 )

ライセンス: Link先を確認
Murtaza Dalal, Ajay Mandlekar, Caelan Garrett, Ankur Handa, Ruslan Salakhutdinov, Dieter Fox(参考訳) 模倣学習はロボット操作ポリシーをトレーニングするための強力なツールであり、手動プログラミングや試行錯誤なしに専門家によるデモンストレーションから学ぶことができる。 しかし、人間の監督のような一般的なデータ収集方法は、時間と労力がかかるため、スケールが貧弱である。 対照的に、タスク・アンド・モーション・プランニング(TAMP)は多様なデモンストレーションの大規模なデータセットを自律的に生成できる。 本研究では,tampスーパーバイザが生成する大規模データセットと,それらに適合するフレキシブルトランスフォーマーモデルの組み合わせがロボット操作の強力なパラダイムであることを示す。 そこで本研究では,TAMPエージェントを模倣して大規模ビジュモータトランスフォーマーポリシーを訓練する,OPTIMUSと呼ばれる新しい模倣学習システムを提案する。 OPTIMUSは、模倣学習用に特別にキュレートされたTAMPデータを生成するパイプラインを導入し、パフォーマンストランスフォーマーベースのポリシーのトレーニングに使用することができる。 本稿では,TAMP を模倣するために必要な設計上の決定を徹底的に検討し,OPTIMUS が70 以上の物体から70 以上の物体を対象とし,70 から80% の成功率を達成できることを示す。 ビデオ結果とコードはhttps://mihdal.github.io/optimus/

Imitation learning is a powerful tool for training robot manipulation policies, allowing them to learn from expert demonstrations without manual programming or trial-and-error. However, common methods of data collection, such as human supervision, scale poorly, as they are time-consuming and labor-intensive. In contrast, Task and Motion Planning (TAMP) can autonomously generate large-scale datasets of diverse demonstrations. In this work, we show that the combination of large-scale datasets generated by TAMP supervisors and flexible Transformer models to fit them is a powerful paradigm for robot manipulation. To that end, we present a novel imitation learning system called OPTIMUS that trains large-scale visuomotor Transformer policies by imitating a TAMP agent. OPTIMUS introduces a pipeline for generating TAMP data that is specifically curated for imitation learning and can be used to train performant transformer-based policies. In this paper, we present a thorough study of the design decisions required to imitate TAMP and demonstrate that OPTIMUS can solve a wide variety of challenging vision-based manipulation tasks with over 70 different objects, ranging from long-horizon pick-and-place tasks, to shelf and articulated object manipulation, achieving 70 to 80% success rates. Video results and code at https://mihdalal.github.io/optimus/
翻訳日:2023-10-03 14:33:42 公開日:2023-09-29
# C-MCTS:Monte Carlo Tree Searchによる安全な計画

C-MCTS: Safe Planning with Monte Carlo Tree Search ( http://arxiv.org/abs/2305.16209v2 )

ライセンス: Link先を確認
Dinesh Parthasarathy, Georgios Kontes, Axel Plinge, Christopher Mutschler(参考訳) CMDP(Constrained Markov Decision Process)の定式化は、制約を受ける安全クリティカルな意思決定タスクの解決を可能にする。 CMDPはReinforcement Learningの文献で広く研究されているが、MCTSのようなサンプリングベースの計画アルゴリズムにはほとんど注目されていない。 以前のアプローチは、高いばらつきに苦しむモンテカルロコスト推定を使用することで、制約違反を避けるため、コストに関して保守的に機能する。 エージェント展開前のオフラインフェーズで時間差学習を訓練した安全評論家を用いてコストを見積もるConstrained MCTS(C-MCTS)を提案する。 批評家は、展開中にmcts内の安全でない軌道を刈り取ることで探索を制限する。 C-MCTSはコスト制約を満たすが、制約境界に近づき、以前の作業よりも高い報酬を達成する。 良い副産物として、プランナーはより効率的なw.r.t.計画ステップである。 最も重要なことは、プランナーと現実世界のモデルミスマッチの下で、C-MCTSは以前の作業よりもコスト違反の影響を受けにくいことだ。

The Constrained Markov Decision Process (CMDP) formulation allows to solve safety-critical decision making tasks that are subject to constraints. While CMDPs have been extensively studied in the Reinforcement Learning literature, little attention has been given to sampling-based planning algorithms such as MCTS for solving them. Previous approaches perform conservatively with respect to costs as they avoid constraint violations by using Monte Carlo cost estimates that suffer from high variance. We propose Constrained MCTS (C-MCTS), which estimates cost using a safety critic that is trained with Temporal Difference learning in an offline phase prior to agent deployment. The critic limits exploration by pruning unsafe trajectories within MCTS during deployment. C-MCTS satisfies cost constraints but operates closer to the constraint boundary, achieving higher rewards than previous work. As a nice byproduct, the planner is more efficient w.r.t. planning steps. Most importantly, under model mismatch between the planner and the real world, C-MCTS is less susceptible to cost violations than previous work.
翻訳日:2023-10-03 14:33:19 公開日:2023-09-29
# 生物学的データを用いたグラフニューラルネットワークのサイズ一般化:スペクトルの観点からの考察と実践

Size Generalization of Graph Neural Networks on Biological Data: Insights and Practices from the Spectral Perspective ( http://arxiv.org/abs/2305.15611v2 )

ライセンス: Link先を確認
Yujun Yan, Gaotang Li, Danai koutra(参考訳) 本研究では,グラフの大きさによる分布変化を調査し,その学習データに対するグラフニューラルネットワーク(gnns)の一般化能力に与える影響を評価する。 既存の文献では、gnnのサイズ汎化可能性について、主にアプリケーションドメインの相違とサイズ誘起分布シフトに関する基礎的な仮定によって、矛盾する結論を示している。 私たちは実際の生物学的データセットに注目し、サイズによって引き起こされる分散シフトのタイプを特徴付けることを求めます。 従来のアプローチと異なり、スペクトルの視点を採用し、サイズによって引き起こされるスペクトル差がサブグラフパターン(例えば、平均サイクル長)の違いと関係していることを明らかにする。 さらに、一般的なgnnはこれらのサブグラフパターンをキャプチャできないことが分かり、より大きなグラフでテストするとパフォーマンスが低下する。 これらのスペクトラルな洞察に基づいて,gnnに重要なサブグラフパターンを認識させ,そのサイズ一般化可能性を高めるための3つのモデル非依存戦略,すなわち自己スーパービジョン,拡張,サイズ非敏感な注意を導入し,比較する。 実験の結果,すべての戦略がgnnのサイズ一般化性を高め,最も効果的な手法として,単純なサイズ非感受性の注意が驚くほど現れていることが明らかとなった。 特に、この戦略は、トレーニンググラフよりも2~10倍大きい大規模なテストグラフ上でのグラフ分類性能を大幅に向上させ、F1スコアを最大8%向上させる。

We investigate size-induced distribution shifts in graphs and assess their impact on the ability of graph neural networks (GNNs) to generalize to larger graphs relative to the training data. Existing literature presents conflicting conclusions on GNNs' size generalizability, primarily due to disparities in application domains and underlying assumptions concerning size-induced distribution shifts. Motivated by this, we take a data-driven approach: we focus on real biological datasets and seek to characterize the types of size-induced distribution shifts. Diverging from prior approaches, we adopt a spectral perspective and identify that spectrum differences induced by size are related to differences in subgraph patterns (e.g., average cycle lengths). We further find that common GNNs cannot capture these subgraph patterns, resulting in performance decline when testing on larger graphs. Based on these spectral insights, we introduce and compare three model-agnostic strategies aimed at making GNNs aware of important subgraph patterns to enhance their size generalizability: self-supervision, augmentation, and size-insensitive attention. Our empirical results reveal that all strategies enhance GNNs' size generalizability, with simple size-insensitive attention surprisingly emerging as the most effective method. Notably, this strategy substantially enhances graph classification performance on large test graphs, which are 2-10 times larger than the training graphs, resulting in an improvement in F1 scores by up to 8%.
翻訳日:2023-10-03 14:31:41 公開日:2023-09-29
# RKHS近似と回帰による強化に基づく自己監督表現学習の理解

Understanding Augmentation-based Self-Supervised Representation Learning via RKHS Approximation and Regression ( http://arxiv.org/abs/2306.00788v2 )

ライセンス: Link先を確認
Runtian Zhai, Bingbin Liu, Andrej Risteski, Zico Kolter, Pradeep Ravikumar(参考訳) データ拡張は、対照的な学習やマスキング言語モデリングなど、現代の自己指導型表現学習の実証的成功に不可欠である。 しかし、拡張の正確な役割に関する理論的理解は限られている。 最近の研究は、自己教師付き学習とグラフラプラシア作用素の頂点固有空間の近似の関係を構築し、そのような表現上の線形プローブの学習がRKHS回帰に結びつくことを示唆している。 この知見に基づいて、この研究は拡張に基づく事前訓練の統計的分析に発展する。 アイソメトリ特性から、拡張によって与えられる対象関数の幾何学的特徴付けとして、モデルの効果と拡張の影響を解き、モデルの複雑さのない2つの一般化境界を証明する。 第1のバウンドは任意のエンコーダで動作し、線形プローブに適合してバウンドした推定誤差と、rkhs近似によってバウンドされた近似誤差の和である。 第2のバウンドは、特にエンコーダが基礎となる rkhs の有限サンプルベース近似のtop-d固有空間を抽出する場合を扱う。 私たちの分析で重要な要素は、異なる拡張を定量的に比較し、下流のパフォーマンスに与える影響を分析するために使用される拡張複雑さです。

Data augmentation is critical to the empirical success of modern self-supervised representation learning, such as contrastive learning and masked language modeling. However, a theoretical understanding of the exact role of the augmentation remains limited. Recent work has built the connection between self-supervised learning and the approximation of the top eigenspace of a graph Laplacian operator, suggesting that learning a linear probe atop such representation can be connected to RKHS regression. Building on this insight, this work delves into a statistical analysis of augmentation-based pretraining. Starting from the isometry property, a geometric characterization of the target function given by the augmentation, we disentangle the effects of the model and the augmentation, and prove two generalization bounds that are free of model complexity. Our first bound works for an arbitrary encoder, and it is the sum of an estimation error bound incurred by fitting a linear probe, and an approximation error bound by RKHS approximation. Our second bound specifically addresses the case where the encoder extracts the top-d eigenspace of a finite-sample-based approximation of the underlying RKHS. A key ingredient in our analysis is the augmentation complexity, which we use to quantitatively compare different augmentations and analyze their impact on downstream performance.
翻訳日:2023-10-03 14:24:26 公開日:2023-09-29
# 安定異方性正則化

Stable Anisotropic Regularization ( http://arxiv.org/abs/2305.19358v2 )

ライセンス: Link先を確認
William Rudman and Carsten Eickhoff(参考訳) 大規模言語モデル(llm)の成功を考えると、モデルアクティベーションの特性の研究にはかなりの関心が寄せられている。 文献は LLM 表現は、非常に高いばらつきと大きさを持つ少数の 'outlier dimensions' によって支配されていることに圧倒的に同意している。 自然言語処理(NLP)におけるいくつかの研究は、そのような外接次元の影響を緩和し、LLMを等方性にする(つまり、埋め込み空間におけるすべての次元に均一な分散を持つ)ことを目指している。 等方性は、モデル性能を改善し、テキスト表現と人間の直感をより緊密に整合させるLLMにとって望ましい性質であると考えられている。 しかし、NLPにおける等方性に関する主張の多くは、埋め込みの平均コサイン類似性に基づいており、これは最近、等方性の欠陥が示されている。 本稿では,i-star: isoscore*-based stable anisotropic regularization(i-star: isoscore*-based stable anisotropic regularization)を提案する。 i-star は isoscore* を用いており、これはミニバッチ計算において微分可能かつ安定な等方性の最初の正確な尺度である。 従来のいくつかの研究とは対照的に、文脈的埋め込みにおける等方性低下は、本論文で検討したタスクやモデルの大部分の性能を向上させる。

Given the success of Large Language Models (LLMs), there has been considerable interest in studying the properties of model activations. The literature overwhelmingly agrees that LLM representations are dominated by a few ``outlier dimensions'' with exceedingly high variance and magnitude. Several studies in Natural Language Processing (NLP) have sought to mitigate the impact of such outlier dimensions and force LLMs to be isotropic (i.e., have uniform variance across all dimensions in embedding space). Isotropy is thought to be a desirable property for LLMs that improves model performance and more closely aligns textual representations with human intuition. However, many of the claims regarding isotropy in NLP have been based on the average cosine similarity of embeddings, which has recently been shown to be a flawed measure of isotropy. In this paper, we propose I-STAR: IsoScore*-based STable Anisotropic Regularization, a novel regularization method that can be used to increase or decrease levels of isotropy in embedding space during training. I-STAR uses IsoScore*, the first accurate measure of isotropy that is both differentiable and stable on mini-batch computations. In contrast to several previous works, we find that decreasing isotropy in contextualized embeddings improves performance on the majority of tasks and models considered in this paper.
翻訳日:2023-10-03 14:23:46 公開日:2023-09-29
# 報酬非依存的選好に基づく強化学習

Provable Reward-Agnostic Preference-Based Reinforcement Learning ( http://arxiv.org/abs/2305.18505v2 )

ライセンス: Link先を確認
Wenhao Zhan, Masatoshi Uehara, Wen Sun, Jason D. Lee(参考訳) PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、明示的な報酬信号ではなく、軌道上のペアワイズに基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。 PbRLは微調整言語モデルで実用的成功をおさめたが、既存の理論的研究は後悔の最小化に重点を置いており、実践的なフレームワークのほとんどを捉えていない。 本研究では,人間のフィードバックを収集する前に,隠れた報酬関数の正確な学習を可能にする探索軌道が取得される理論的な報酬非依存PbRLフレームワークを提案することにより,理論的PbRLと実用的なアルゴリズムのギャップを埋める。 理論的解析により,線形パラメータ化と未知遷移を伴う選好モデルの下での最適方針の学習には,既存の理論文献と比較して,人間のフィードバックが少なくなることが示された。 具体的には,線形および低ランクmdpを効率的なサンプル複雑性に組み込むことができる。 さらに,アクションベース比較フィードバックによる報酬非依存rlを調査し,このシナリオに合わせた効率的な問合せアルゴリズムを提案する。

Preference-based Reinforcement Learning (PbRL) is a paradigm in which an RL agent learns to optimize a task using pair-wise preference-based feedback over trajectories, rather than explicit reward signals. While PbRL has demonstrated practical success in fine-tuning language models, existing theoretical work focuses on regret minimization and fails to capture most of the practical frameworks. In this study, we fill in such a gap between theoretical PbRL and practical algorithms by proposing a theoretical reward-agnostic PbRL framework where exploratory trajectories that enable accurate learning of hidden reward functions are acquired before collecting any human feedback. Theoretical analysis demonstrates that our algorithm requires less human feedback for learning the optimal policy under preference-based models with linear parameterization and unknown transitions, compared to the existing theoretical literature. Specifically, our framework can incorporate linear and low-rank MDPs with efficient sample complexity. Additionally, we investigate reward-agnostic RL with action-based comparison feedback and introduce an efficient querying algorithm tailored to this scenario.
翻訳日:2023-10-03 14:22:52 公開日:2023-09-29
# 非負の低ランク半定計画法による統計的K平均クラスタリング

Statistically Optimal K-means Clustering via Nonnegative Low-rank Semidefinite Programming ( http://arxiv.org/abs/2305.18436v2 )

ライセンス: Link先を確認
Yubo Zhuang, Xiaohui Chen, Yun Yang, Richard Y. Zhang(参考訳) K$-meansクラスタリングは、大規模なデータセットのパターンを識別する機械学習手法として広く使用されている。 半有限計画法(SDP)緩和法は, 統計的最適性の強い保証を享受する$K$-means最適化問題を解くために最近提案されているが, SDPソルバの実装の禁止コストは, これらの保証を実用的なデータセットに到達できないものにしている。 対照的に、非負行列分解(non negative matrix factorization, nmf)は、機械学習の実践者によって広く使われている単純なクラスタリングアルゴリズムである。 本稿では,sdpの非負低ランク制限を解いたnmfライクなアルゴリズムについて,非凸burer-monteiro因子分解法を用いて,k$-means定式化を緩和した。 結果として得られるアルゴリズムは、最先端のNMFアルゴリズムと同じくらい単純でスケーラブルであり、SDPと同じ強力な統計的最適性を保証する。 実験では,既存の最先端技術と比較して,アルゴリズムの誤クラスタ化誤差が著しく小さいことを観察した。

$K$-means clustering is a widely used machine learning method for identifying patterns in large datasets. Semidefinite programming (SDP) relaxations have recently been proposed for solving the $K$-means optimization problem that enjoy strong statistical optimality guarantees, but the prohibitive cost of implementing an SDP solver renders these guarantees inaccessible to practical datasets. By contrast, nonnegative matrix factorization (NMF) is a simple clustering algorithm that is widely used by machine learning practitioners, but without a solid statistical underpinning nor rigorous guarantees. In this paper, we describe an NMF-like algorithm that works by solving a nonnegative low-rank restriction of the SDP relaxed $K$-means formulation using a nonconvex Burer--Monteiro factorization approach. The resulting algorithm is just as simple and scalable as state-of-the-art NMF algorithms, while also enjoying the same strong statistical optimality guarantees as the SDP. In our experiments, we observe that our algorithm achieves substantially smaller mis-clustering errors compared to the existing state-of-the-art.
翻訳日:2023-10-03 14:22:32 公開日:2023-09-29
# push: ベイズ深層学習のための同時確率プログラミング

Push: Concurrent Probabilistic Programming for Bayesian Deep Learning ( http://arxiv.org/abs/2306.06528v2 )

ライセンス: Link先を確認
Daniel Huang, Chris Cama\~no, Jonathan Tsegaye, Jonathan Austin Gale(参考訳) 本稿では,ベイズ深層学習(BDL)に確率的プログラミングアプローチを取り入れたPushというライブラリを紹介する。 このライブラリは、ニューラルネットワーク(NN)モデルのためのマルチGPUハードウェア上で、BDL推論アルゴリズムの同時実行を可能にする。 これを達成するためにpushは、入力nnを粒子として表現する抽象化を導入している。 pushは、入力nnを複製し、粒子が非同期に通信できるように簡単にパーティクルの作成を可能にし、一般的なbdlアルゴリズムを含む様々なパラメータ更新を表現できるようにします。 私たちの希望は、pushはgpu間の粒子のスケーリングを合理化し、bdlの実験の障壁を下げることです。 視覚および科学機械学習(SciML)タスクにおける単一ノードマルチGPUデバイス上での粒子のスケーリング挙動を評価する。

We introduce a library called Push that takes a probabilistic programming approach to Bayesian deep learning (BDL). This library enables concurrent execution of BDL inference algorithms on multi-GPU hardware for neural network (NN) models. To accomplish this, Push introduces an abstraction that represents an input NN as a particle. Push enables easy creation of particles so that an input NN can be replicated and particles can communicate asynchronously so that a variety of parameter updates can be expressed, including common BDL algorithms. Our hope is that Push lowers the barrier to experimenting with BDL by streamlining the scaling of particles across GPUs. We evaluate the scaling behavior of particles on single-node multi-GPU devices on vision and scientific machine learning (SciML) tasks.
翻訳日:2023-10-03 14:12:49 公開日:2023-09-29
# adapt-vqeにおける演算子勾配の実測方法

How to really measure operator gradients in ADAPT-VQE ( http://arxiv.org/abs/2306.03227v2 )

ライセンス: Link先を確認
Panagiotis G. Anastasiou, Nicholas J. Mayhall, Edwin Barnes, Sophia E. Economou(参考訳) adapt-vqe は、反復的にコンパクトに成長し、任意に正確な問題対応 ans\"atze を回避した、主要な vqe アルゴリズムの1つである。 しかし、ハードウェア効率のよいオペレータプールの場合、アルゴリズムの勾配測定ステップでは、実デバイス上の関連するシステムサイズのボトルネックを表す$o(n^8)$ observablesの推定が必要となる。 本稿では,同時計測に基づくプール勾配の効率的な計測手法を提案する。 我々のアプローチはショットノイズ効果に対して比較的堅牢であり、プール勾配の測定は、実際は単純VQEイテレーションのわずか$O(N)$倍の費用しかかからないことを示す。 提案する計測戦略はadapt-vqeの測定オーバーヘッドを大幅に軽減し,実デバイスにおける実用的な実装に一歩近づいた。

ADAPT-VQE is one of the leading VQE algorithms which circumvents the choice-of-ansatz conundrum by iteratively growing compact and arbitrarily accurate problem-tailored ans\"atze. However, for hardware-efficient operator pools, the gradient-measurement step of the algorithm requires the estimation of $O(N^8)$ observables, which may represent a bottleneck for relevant system sizes on real devices. We present an efficient strategy for measuring the pool gradients based on simultaneously measuring commuting observables. We argue that our approach is relatively robust to shot-noise effects, and show that measuring the pool gradients is in fact only $O(N)$ times as expensive as a naive VQE iteration. Our proposed measurement strategy significantly ameliorates the measurement overhead of ADAPT-VQE and brings us one step closer to practical implementations on real devices.
翻訳日:2023-10-03 14:11:13 公開日:2023-09-29
# 知識強化分子表現のための双方向コントラスト学習

Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations ( http://arxiv.org/abs/2306.01631v3 )

ライセンス: Link先を確認
Pengcheng Jiang, Cao Xiao, Tianfan Fu, Jimeng Sun(参考訳) 分子表現学習は、分子特性や副作用の理解や予測など、下流の様々な応用に不可欠である。 本稿では,個々の分子の2段階構造を考慮に入れて,godeと呼ばれる新しい手法を提案する。 我々は、分子が固有のグラフ構造を持ち、より大きな分子知識グラフのノードであることを認識する。 GODEは、個々の分子のグラフ表現と知識グラフからの多領域生化学的データを統合する。 異なるグラフ構造上の2つのグラフニューラルネットワーク(GNN)と対照的な学習を組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。 この融合により、よりロバストで情報的な表現が得られ、化学情報と生物学的情報の両方を利用して分子特性の予測が促進される。 11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。 印象的なことに、分子特性予測における現在の先行モデルを超え、平均的な進歩は2.1%、回帰タスクは6.4%である。

Molecule representation learning is crucial for various downstream applications, such as understanding and predicting molecular properties and side effects. In this paper, we propose a novel method called GODE, which takes into account the two-level structure of individual molecules. We recognize that molecules have an intrinsic graph structure as well as being a node in a larger molecule knowledge graph. GODE integrates graph representations of individual molecules with multidomain biochemical data from knowledge graphs. By pre-training two graph neural networks (GNNs) on different graph structures, combined with contrastive learning, GODE fuses molecular structures with their corresponding knowledge graph substructures. This fusion results in a more robust and informative representation, which enhances molecular property prediction by harnessing both chemical and biological information. When fine-tuned across 11 chemical property tasks, our model outperforms existing benchmarks, registering an average ROC-AUC uplift of 13.8% for classification tasks and an average RMSE/MAE enhancement of 35.1% for regression tasks. Impressively, it surpasses the current leading model in molecule property predictions with average advancements of 2.1% in classification and 6.4% in regression tasks.
翻訳日:2023-10-03 14:10:39 公開日:2023-09-29
# 拡散モデルに3次元幾何制御を加える

Adding 3D Geometry Control to Diffusion Models ( http://arxiv.org/abs/2306.08103v2 )

ライセンス: Link先を確認
Wufei Ma, Qihao Liu, Jiahao Wang, Xiaoding Yuan, Angtian Wang, Yi Zhang, Zihao Xiao, Guofeng Zhang, Beijia Lu, Ruxiao Duan, Yongrui Qi, Adam Kortylewski, Yaoyao Liu, Alan Yuille(参考訳) 拡散モデルは様々な分野にわたる生成的モデリングの強力な方法として登場し、自然言語記述から素晴らしいフォトリアリスティックな画像を生成することができる。 しかし、これらのモデルは生成された画像の3d構造に対する明示的な制御を欠いている。 これにより、生成された画像の詳細な3Dアノテーションを入手したり、特定のポーズと距離でインスタンスを作れなくなる。 本稿では,3次元形状制御を拡散モデルに組み込む,シンプルで効果的な手法を提案する。 提案手法は,テキストプロンプトに加えて視覚的プロンプトを用いて拡散モデルを拡張する制御ネットを利用する。 3次元形状リポジトリ(ShapeNetやObjaverseなど)から取得した3Dオブジェクトの画像を生成し、さまざまなポーズや方向からレンダリングし、レンダリングされた画像のエッジマップを計算し、これらのエッジマップを視覚的プロンプトとして使用して、現実的な画像を生成する。 明示的な3次元幾何制御により、生成した画像中のオブジェクトの3次元構造を容易に変更でき、グラウンドトルース3Dアノテーションを自動で取得できる。 これにより、分類や3次元ポーズ推定といった幅広い視覚タスクを、内分布(ID)と外分布(OOD)の両方で改善することができる。 我々は,ImageNet-100, ImageNet-R, PASCAL3D+, ObjectNet3D, OOD-CV の広範な実験により,提案手法の有効性を実証した。 その結果,複数のベンチマークにおいて,DeiT-Bを用いたImageNet-100の3.8ポイント,NeMoを用いたPASCAL3D+とObjectNet3Dの3.5ポイントなど,既存の手法よりも有意に優れていた。

Diffusion models have emerged as a powerful method of generative modeling across a range of fields, capable of producing stunning photo-realistic images from natural language descriptions. However, these models lack explicit control over the 3D structure in the generated images. Consequently, this hinders our ability to obtain detailed 3D annotations for the generated images or to craft instances with specific poses and distances. In this paper, we propose a simple yet effective method that incorporates 3D geometry control into diffusion models. Our method exploits ControlNet, which extends diffusion models by using visual prompts in addition to text prompts. We generate images of the 3D objects taken from 3D shape repositories (e.g., ShapeNet and Objaverse), render them from a variety of poses and viewing directions, compute the edge maps of the rendered images, and use these edge maps as visual prompts to generate realistic images. With explicit 3D geometry control, we can easily change the 3D structures of the objects in the generated images and obtain ground-truth 3D annotations automatically. This allows us to improve a wide range of vision tasks, e.g., classification and 3D pose estimation, in both in-distribution (ID) and out-of-distribution (OOD) settings. We demonstrate the effectiveness of our method through extensive experiments on ImageNet-100, ImageNet-R, PASCAL3D+, ObjectNet3D, and OOD-CV. The results show that our method significantly outperforms existing methods across multiple benchmarks, e.g., 3.8 percentage points on ImageNet-100 using DeiT-B and 3.5 percentage points on PASCAL3D+ & ObjectNet3D using NeMo.
翻訳日:2023-10-03 14:02:26 公開日:2023-09-29
# インテリジェントな車両認識のための深層移動学習 : サーベイ

Deep Transfer Learning for Intelligent Vehicle Perception: a Survey ( http://arxiv.org/abs/2306.15110v2 )

ライセンス: Link先を確認
Xinyu Liu, Jinlong Li, Jin Ma, Huiming Sun, Zhigang Xu, Tianyun Zhang, Hongkai Yu(参考訳) ディープラーニングに基づくインテリジェントな車両認識は、自動運転における動き計画と意思決定の信頼できる情報源を提供するために、近年大きく進歩している。 多くの強力なディープラーニングベースの手法は、自律運転の様々な認識問題を解く上で優れた性能を達成することができる。 しかし、これらのディープラーニング手法には、実験室訓練(ソースドメイン)と実検体(ターゲットドメイン)データが同じ特徴分布に従うという仮定のようないくつかの制限がある。 多くの実世界のケースでは、それらの間に劇的なドメインギャップがしばしばあります。 この課題の解決策として、ディープトランスファー学習は、ある領域から別の領域に知識を移すことで、優れた状況に対処することができる。 Deep Transfer Learningは、以前別のドメインで学んだ同様のタスクの知識を活用することで、新しいドメインでのタスクパフォーマンスを改善することを目的としている。 それでも、インテリジェントな車両認識のためのディープトランスファー学習に関する調査論文はない。 本論文は、私たちの知る限り、インテリジェントな車両認識のためのディープトランスファー学習に関する最初の総合的な調査である。 本稿では,知的車両知覚におけるセンサ,データ,モデルの違いに関する領域間ギャップについて述べる。 インテリジェントな車両認識における最近の応用、課題、今後の研究も検討されている。

Deep learning-based intelligent vehicle perception has been developing prominently in recent years to provide a reliable source for motion planning and decision making in autonomous driving. A large number of powerful deep learning-based methods can achieve excellent performance in solving various perception problems of autonomous driving. However, these deep learning methods still have several limitations, for example, the assumption that lab-training (source domain) and real-testing (target domain) data follow the same feature distribution may not be practical in the real world. There is often a dramatic domain gap between them in many real-world cases. As a solution to this challenge, deep transfer learning can handle situations excellently by transferring the knowledge from one domain to another. Deep transfer learning aims to improve task performance in a new domain by leveraging the knowledge of similar tasks learned in another domain before. Nevertheless, there are currently no survey papers on the topic of deep transfer learning for intelligent vehicle perception. To the best of our knowledge, this paper represents the first comprehensive survey on the topic of the deep transfer learning for intelligent vehicle perception. This paper discusses the domain gaps related to the differences of sensor, data, and model for the intelligent vehicle perception. The recent applications, challenges, future researches in intelligent vehicle perception are also explored.
翻訳日:2023-10-03 13:51:51 公開日:2023-09-29
# BioCoder: 文脈論的知識を用いたバイオインフォマティクスコード生成ベンチマーク

BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual Pragmatic Knowledge ( http://arxiv.org/abs/2308.16458v3 )

ライセンス: Link先を確認
Xiangru Tang, Bill Qian, Rick Gao, Jiakang Chen, Xinyun Chen, Mark Gerstein(参考訳) 事前訓練された大きな言語モデルはコード生成を大幅に改善した。 これらのモデルが拡大するにつれて、アウトプットがより複雑なタスクを処理し、特定のドメインに適切に特化する必要がある。 バイオインフォマティクスは重要なドメインを提供する。 この分野で関数型プログラムを生成することは、専門知識の量、複雑なデータ操作の必要性、操作間の関数依存の複雑化など、重要な課題を生じさせる。 本稿では,バイオインフォマティクスコードの生成において,既存の事前学習モデルを評価するベンチマークであるBioCoderを提案する。 関数コード生成に関して、BioCoderは潜在的なパッケージ依存性、クラス宣言、グローバル変数をカバーしている。 GitHubから1026の関数と1243のメソッドをPythonとJavaに組み込んでおり、Rosalindプロジェクトから253の例がある。 BioCoderにはファズテストフレームワークが組み込まれており、InCoder、CodeGen、CodeGen2、SantaCoder、StarCoder、StarCoder+、InstructCodeT5+、GPT-3.5、GPT-4など多くのモデルの評価に利用しています。 その結果、成功モデルの2つの重要な側面が浮かび上がっている。 1) 生物情報学の特定の分野知識(コーディング知識以外のもの)を含むこと。 2) 完全なコンテキスト(機能的依存関係)で長いプロンプトを許容する。 テストに必要なデータセット、ベンチマーク、dockerイメージ、スクリプトはすべて、https://github.com/gersteinlab/biocoderで利用可能です。

Pre-trained large language models have significantly improved code generation. As these models scale up, there is an increasing need for the output to handle more intricate tasks and to be appropriately specialized to particular domains. Bioinformatics provides an important domain. In this field generating functional programs poses additional notable challenges due to the amount of specialized domain knowledge, the need for complicated data operations, and intricate functional dependencies between the operations. Here, we present BioCoder, a benchmark developed to evaluate existing pre-trained models in generating bioinformatics code. In relation to function-code generation, BioCoder covers potential package dependencies, class declarations, and global variables. It incorporates 1026 functions and 1243 methods in Python and Java from GitHub and 253 examples from the Rosalind Project. BioCoder incorporates a fuzz-testing framework for evaluation, and we have applied it to evaluate many models including InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+, GPT-3.5, and GPT-4. The results highlight two key aspects of successful models: 1) that they contain specific domain knowledge of bioinformatics (beyond just coding knowledge); 2) that they accommodate a long prompt with full context (i.e. functional dependencies). Our dataset, benchmark, Docker images, and scripts required for testing are all available at https://github.com/gersteinlab/biocoder.
翻訳日:2023-10-03 13:24:21 公開日:2023-09-29
# 動的オープン語彙強化型インテリジェンス付き安全着陸(DOVESEI)

Dynamic Open Vocabulary Enhanced Safe-landing with Intelligence (DOVESEI) ( http://arxiv.org/abs/2308.11471v3 )

ライセンス: Link先を確認
Haechan Mark Bong and Rongge Zhang and Ricardo de Azambuja and Giovanni Beltrame(参考訳) この作業は、都市空飛ぶロボットの基本的なステップである、安全な着陸を目指しています。 我々の関心は、安全な着陸知覚スタックの最も重要な側面であるセグメンテーション(segmentation)に向けられている。 本稿では,オープンボキャブラリ画像セグメンテーションの能力を生かして,視覚サーボ機能を利用したリアクティブUAVシステムを提案する。 このアプローチは、そのオープンな語彙方法論のおかげで、内部モデルを洗練するための広範なデータ蓄積の必要性を回避し、最小限の調整で様々なシナリオに適応することができる。 地方自治体が課す制限を考えると,我々の主な焦点は高度100メートルを起点とする運用である。 この選択は意図的であり、多くの先行作品が、小型ステレオカメラの能力に合わせて、高度30メートルに対処してきた。 その結果、残りの20mは従来の3次元経路計画法でナビゲートされる。 単眼カメラと画像セグメンテーションを用いて,高度20mの地点での着陸操作を成功させる能力を示した。 しかし,この手法は,映像ストリーム内のフレーム間セグメンテーションにおける断続的かつ時折急激な変動に対して脆弱である。 この課題に対処するために、我々はダイナミックフォーカスと呼ばれる、現在の着陸段階に応じて自己調整するマスキング機構を導入することにより、画像分割出力を強化する。 このダイナミックフォーカスは、地上に投影されたドローンの安全半径を超える領域を避けるよう制御システムを誘導し、ゆらぎの問題を緩和する。 この補助層の実装により,グローバルセグメンテーションと比較して,着陸成功率が約10倍に向上した。 ソースコードはすべてオープンソースでオンラインで入手できる(github.com/MISTLab/DOVESEI)。

This work targets what we consider to be the foundational step for urban airborne robots, a safe landing. Our attention is directed toward what we deem the most crucial aspect of the safe landing perception stack: segmentation. We present a streamlined reactive UAV system that employs visual servoing by harnessing the capabilities of open vocabulary image segmentation. This approach can adapt to various scenarios with minimal adjustments, bypassing the necessity for extensive data accumulation for refining internal models, thanks to its open vocabulary methodology. Given the limitations imposed by local authorities, our primary focus centers on operations originating from altitudes of 100 meters. This choice is deliberate, as numerous preceding works have dealt with altitudes up to 30 meters, aligning with the capabilities of small stereo cameras. Consequently, we leave the remaining 20m to be navigated using conventional 3D path planning methods. Utilizing monocular cameras and image segmentation, our findings demonstrate the system's capability to successfully execute landing maneuvers at altitudes as low as 20 meters. However, this approach is vulnerable to intermittent and occasionally abrupt fluctuations in the segmentation between frames in a video stream. To address this challenge, we enhance the image segmentation output by introducing what we call a dynamic focus: a masking mechanism that self adjusts according to the current landing stage. This dynamic focus guides the control system to avoid regions beyond the drone's safety radius projected onto the ground, thus mitigating the problems with fluctuations. Through the implementation of this supplementary layer, our experiments have reached improvements in the landing success rate of almost tenfold when compared to global segmentation. All the source code is open source and available online (github.com/MISTLab/DOVESEI).
翻訳日:2023-10-03 13:22:20 公開日:2023-09-29
# mechanic maker 2.0: 生成ルール評価のための強化学習

Mechanic Maker 2.0: Reinforcement Learning for Evaluating Generated Rules ( http://arxiv.org/abs/2309.09476v2 )

ライセンス: Link先を確認
Johor Jara Gonzalez, Seth Cooper, Mathew Guzdial(参考訳) ゲームの自動生成に関する研究であるautomated game design(agd)は、技術ゲーム研究において長い歴史を持つ。 agdアプローチは一般に、客観的機能またはaiエージェントの人間の遊びの近似に依存する。 それにもかかわらず、これらの近似値は静的であり、ゲームにおける人間の学習能力や改善能力を反映していない。 本稿では,ルール生成のための人間遊びの近似器として強化学習(RL)の適用について検討する。 従来のAGD環境であるMechanic Maker in Unityを,新たなオープンソースルール生成フレームワークとして再現する。 以上の結果から,RLはA*エージェントのベースラインから異なるルールセットを生成することが明らかとなった。

Automated game design (AGD), the study of automatically generating game rules, has a long history in technical games research. AGD approaches generally rely on approximations of human play, either objective functions or AI agents. Despite this, the majority of these approximators are static, meaning they do not reflect human player's ability to learn and improve in a game. In this paper, we investigate the application of Reinforcement Learning (RL) as an approximator for human play for rule generation. We recreate the classic AGD environment Mechanic Maker in Unity as a new, open-source rule generation framework. Our results demonstrate that RL produces distinct sets of rules from an A* agent baseline, which may be more usable by humans.
翻訳日:2023-10-03 13:00:34 公開日:2023-09-29
# レベルインパインティングによる既存レベルの再構築

Reconstructing Existing Levels through Level Inpainting ( http://arxiv.org/abs/2309.09472v2 )

ライセンス: Link先を確認
Johor Jara Gonzalez, Mathew Guzdial(参考訳) プロシージャコンテンツ生成 (PCG) とプロシージャコンテンツ生成 (PCGML) は, 様々なゲームにおいて, 先行研究に用いられている。 本稿では,ゲームレベルの再構築と拡張を伴うレベルインペインティングのサブプロブレムに着目し,コンテンツ拡張について述べる。 イメージインペインティングからインスピレーションを得て、このドメインから2つのテクニックを適用して、特定のユースケースに対処します。 本稿では,オートエンコーダとU-netの2つのレベルインペイント手法を提案する。 包括的ケーススタディを通じて,ベースライン法と比較して優れた性能を示し,それらの相対的メリットについて議論する。 さらに, レベルインペインティングタスクのアプローチを実践的に実証し, 今後の研究の方向性について考察する。

Procedural Content Generation (PCG) and Procedural Content Generation via Machine Learning (PCGML) have been used in prior work for generating levels in various games. This paper introduces Content Augmentation and focuses on the subproblem of level inpainting, which involves reconstructing and extending video game levels. Drawing inspiration from image inpainting, we adapt two techniques from this domain to address our specific use case. We present two approaches for level inpainting: an Autoencoder and a U-net. Through a comprehensive case study, we demonstrate their superior performance compared to a baseline method and discuss their relative merits. Furthermore, we provide a practical demonstration of both approaches for the level inpainting task and offer insights into potential directions for future research.
翻訳日:2023-10-03 13:00:24 公開日:2023-09-29
# シャープネス認識の最小化と安定性の限界

Sharpness-Aware Minimization and the Edge of Stability ( http://arxiv.org/abs/2309.12488v2 )

ライセンス: Link先を確認
Philip M. Long and Peter L. Bartlett(参考訳) 最近の実験では、ステップサイズ$\eta$の勾配降下(gd)を持つニューラルネットワークを訓練する場合、損失のヘッセンの演算子ノルムはおよそ2/\eta$に達するまで増加することが示されている。 2/\eta$の量は、損失の局所二次近似を考慮して「安定性の最先端」と呼ばれる。 我々は,GD の変種である SAM (Sharpness-Aware Minimization) の「安定性の端」に到達するための同様の計算を行う。 GDの場合とは異なり、結果のSAM-辺は勾配のノルムに依存する。 3つのディープラーニングトレーニングタスクを用いて、SAMは、この分析によって同定された安定性の端で動作していることを実証的に確認する。

Recent experiments have shown that, often, when training a neural network with gradient descent (GD) with a step size $\eta$, the operator norm of the Hessian of the loss grows until it approximately reaches $2/\eta$, after which it fluctuates around this value. The quantity $2/\eta$ has been called the "edge of stability" based on consideration of a local quadratic approximation of the loss. We perform a similar calculation to arrive at an "edge of stability" for Sharpness-Aware Minimization (SAM), a variant of GD which has been shown to improve its generalization. Unlike the case for GD, the resulting SAM-edge depends on the norm of the gradient. Using three deep learning training tasks, we see empirically that SAM operates on the edge of stability identified by this analysis.
翻訳日:2023-10-03 12:48:37 公開日:2023-09-29
# DeepSpeed-VisualChat:マルチモーダル因果注意によるマルチラウンドマルチイメージインターリーブチャット

DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention ( http://arxiv.org/abs/2309.14327v2 )

ライセンス: Link先を確認
Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qin, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He(参考訳) 既存のマルチモーダルモデルのほとんどは、マルチイメージ、マルチラウンドの対話において、インターリーブされた画像とテキストの入力を積極的に管理する能力に妨げられ、トレーニングとデータアクセシビリティのためのリソース割り当てにかなりの制約に直面し、様々な相互作用領域にわたる適応性とスケーラビリティに影響を与える。 そこで本研究では,複数モーダル機能を組み込んだ大規模言語モデル(LLM)の最適化を目的としたDeepSpeed-VisualChatフレームワークを提案する。 本フレームワークは,(1)マルチラウンドおよびマルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果的注意機構の導入,(3)既存のデータセットへのデータブレンディング技術を活用したマルチラウンド・マルチイメージ対話におけるシームレスなインタラクションの実現,で注目に値する。 既存のフレームワークと比較して、deepspeed-visualchatは、70bのパラメータ言語モデルサイズまでの優れたスケーラビリティを示し、マルチモーダル言語モデルの大幅な進歩を示し、将来の調査のための確かな基盤を設定する。

Most of the existing multi-modal models, hindered by their incapacity to adeptly manage interleaved image-and-text inputs in multi-image, multi-round dialogues, face substantial constraints in resource allocation for training and data accessibility, impacting their adaptability and scalability across varied interaction realms. To address this, we present the DeepSpeed-VisualChat framework, designed to optimize Large Language Models (LLMs) by incorporating multi-modal capabilities, with a focus on enhancing the proficiency of Large Vision and Language Models in handling interleaved inputs. Our framework is notable for (1) its open-source support for multi-round and multi-image dialogues, (2) introducing an innovative multi-modal causal attention mechanism, and (3) utilizing data blending techniques on existing datasets to assure seamless interactions in multi-round, multi-image conversations. Compared to existing frameworks, DeepSpeed-VisualChat shows superior scalability up to 70B parameter language model size, representing a significant advancement in multi-modal language models and setting a solid foundation for future explorations.
翻訳日:2023-10-03 12:39:18 公開日:2023-09-29
# LLMはグラフ構造情報を効果的に活用できるのか?

Can LLMs Effectively Leverage Graph Structural Information: When and Why ( http://arxiv.org/abs/2309.16595v2 )

ライセンス: Link先を確認
Jin Huang, Xingjian Zhang, Qiaozhu Mei, Jiaqi Ma(参考訳) 本稿では,構造化データ(特にグラフ)によって拡張された大規模言語モデル(llm)について検討する。 我々は,グラフデータに内在する構造情報の導入が,ノード分類タスクにおけるllmの予測性能をテキスト的特徴量で改善できる理由と時期を理解することを目的とする。 when''問題に対処するために、テキストノードの機能が豊富か不足している設定において、構造情報をエンコードするための様々なプロンプト手法について検討する。 という質問に対して、LLMのパフォーマンスに潜在的に寄与する2つの要因、すなわちデータ漏洩とホモフィリーを調査する。 これらの疑問を探究した結果 (i)特にテキストノードの機能に乏しい場合において、llmは構造情報から利益を享受することができる。 (ii)データの漏洩によりllmsの性能が著しく低下していることを示す実質的な証拠は存在せず、 3) 対象ノードにおける LLM のパフォーマンスは node\footnote{Codes の局所的ホモフィリ比と強く相関しており,データセットは以下のとおりである。

This paper studies Large Language Models (LLMs) augmented with structured data--particularly graphs--a crucial data modality that remains underexplored in the LLM literature. We aim to understand when and why the incorporation of structural information inherent in graph data can improve the prediction performance of LLMs on node classification tasks with textual features. To address the ``when'' question, we examine a variety of prompting methods for encoding structural information, in settings where textual node features are either rich or scarce. For the ``why'' questions, we probe into two potential contributing factors to the LLM performance: data leakage and homophily. Our exploration of these questions reveals that (i) LLMs can benefit from structural information, especially when textual node features are scarce; (ii) there is no substantial evidence indicating that the performance of LLMs is significantly attributed to data leakage; and (iii) the performance of LLMs on a target node is strongly positively related to the local homophily ratio of the node\footnote{Codes and datasets are at: \url{https://github.com/TRAIS-Lab/LLM-Structured-Data}}.
翻訳日:2023-10-03 10:57:46 公開日:2023-09-29
# ローレンツ量子ビットの提案

Proposal for a Lorenz qubit ( http://arxiv.org/abs/2112.13476v2 )

ライセンス: Link先を確認
Michael R. Geller(参考訳) 非線形キュービットマスター方程式は、周期倍数、ホップ分岐、典型的には古典的非線形系に関連する奇妙な誘引子などのリッチな力学現象を示すことが最近示されている。 本稿では,可変lorenzアトラクタをサポートする非線形量子ビットモデルについて検討する。 ローレンツ量子ビットは、実または模擬平均場力学によって生成されたキュービットねじれと線形増幅と散逸を組み合わせた実験によって実現することができる。 これにより、エンジニアリングされたローレンツ系を量子状態に拡張し、直接の実験研究と量子情報処理への応用が可能になる。

Nonlinear qubit master equations have recently been shown to exhibit rich dynamical phenomena such as period doubling, Hopf bifurcation, and strange attractors usually associated with classical nonlinear systems. Here we investigate nonlinear qubit models that support tunable Lorenz attractors. A Lorenz qubit could be realized experimentally by combining qubit torsion, generated by real or simulated mean field dynamics, with linear amplification and dissipation. This would extend engineered Lorenz systems to the quantum regime, allowing for their direct experimental study and possible application to quantum information processing.
翻訳日:2023-10-02 19:59:10 公開日:2023-09-29
# 情報密度の大きい人間言語は通信速度を増大させるが、会話の可読度は低下する

Human Languages with Greater Information Density Increase Communication Speed, but Decrease Conversation Breadth ( http://arxiv.org/abs/2112.08491v2 )

ライセンス: Link先を確認
Pedro Aceves and James A. Evans(参考訳) 人間の言語は、周囲のセマンティックドメイン(時間、空間、色、人体の一部、活動など)で情報をエンコードする方法に大きく異なるが、セマンティック情報のグローバルな構造についてはほとんど知られていない。 まず,約1,000の言語を例にとると,言語が単語にどのように情報をエンコードするかに幅広い変化があることを示す。 第二に、この言語情報密度は意味情報のより密な構成と関連していることを示す。 最後に、言語情報密度とコミュニケーションパターンの関係を追跡し、情報密度の高い言語は(1)より高速なコミュニケーションに向かっているが、(2)会話の話題がより深く議論される、概念的に狭い会話であることを示す。 これらの結果は、言語の構造が人間の関与の性質と質感を形作っており、社会のレベルをまたがる人間の行動に影響を及ぼすことを明らかにする、人間のコミュニケーションチャネルにおける重要な変化の源となっている。

Human languages vary widely in how they encode information within circumscribed semantic domains (e.g., time, space, color, human body parts and activities), but little is known about the global structure of semantic information and nothing about its relation to human communication. We first show that across a sample of ~1,000 languages, there is broad variation in how densely languages encode information into their words. Second, we show that this language information density is associated with a denser configuration of semantic information. Finally, we trace the relationship between language information density and patterns of communication, showing that informationally denser languages tend toward (1) faster communication, but (2) conceptually narrower conversations within which topics of conversation are discussed at greater depth. These results highlight an important source of variation across the human communicative channel, revealing that the structure of language shapes the nature and texture of human engagement, with consequences for human behavior across levels of society.
翻訳日:2023-10-02 19:58:59 公開日:2023-09-29
# ナシアンゲーム理論は量子物理学と相容れない

Nashian game theory is incompatible with quantum physics ( http://arxiv.org/abs/2112.03881v3 )

ライセンス: Link先を確認
Michal Baczyk and Ghislain Fourny(参考訳) 我々は、確率論のレンズを通してではなく、意思決定理論を通して量子測定結果を見ることを推奨する。 測定シナリオは,すべてのオブザーバが同意する構造を持つマルチプレイヤーゲームである。 測定軸と新たな測定結果は、自然が行動最小化経済要因である決定としてモデル化される。 我々は因果性、相関性、反事実性、文脈性の物理的概念をゲーム理論の特定の側面に翻訳する。 量子的な観点からは不完全な情報を持つ動的ゲームの因果一貫性を考察し,反事実的依存関係は因果関係と相関を区別すべきであると結論づける。 最も注目すべきは、ナッシュ平衡に基づくゲーム理論がベルの不等式違反と矛盾する点である。 そこで,本論文では,量子物理学を非ナシアンゲーム理論を用いて解析し,その内部動作をモデルを用いて検証する。

We suggest to look at quantum measurement outcomes not through the lens of probability theory, but instead through decision theory. We introduce an original game-theoretical framework, model and algorithmic procedure where measurement scenarios are multiplayer games with a structure all observers agree on. Measurement axes and, newly, measurement outcomes are modeled as decisions with nature being an action-minimizing economic agent. We translate physical notions of causality, correlation, counterfactuals, and contextuality to particular aspects of game theory. We investigate the causal consistency of dynamic games with imperfect information from the quantum perspective and conclude that counterfactual dependencies should be distinguished from causation and correlation as a separate phenomenon of its own. Most significantly, we observe that game theory based on Nash equilibria stands in contradiction with a violation of Bell inequalities. Hence, we propose that quantum physics should be analyzed with non-Nashian game theory, the inner workings of which we demonstrate using our proposed model.
翻訳日:2023-10-02 19:58:41 公開日:2023-09-29
# 玩具機構によるCBSの不平等の防止

Violating the KCBS inequality with a toy mechanism ( http://arxiv.org/abs/2109.07636v5 )

ライセンス: Link先を確認
Alisson Tezzin(参考訳) 近年、古典光のように厳密に量子ではない系の文脈性の研究に多くの研究が費やされており、文脈性分析のための理論に依存しない多くのフレームワークが開発されている。 これは、量子領域外の文脈性の意味に関する議論を提起し、また、もしそうであったとしても、それは非古典性の署名と見なすことができる。 本稿では,古典的対象(古典物理学の法則に従う対象)を用いて,CBSの不等式に違反する実験データを生成する,非常に単純な「思考実験」や「思考機構」を示すことによって,この議論に寄与しようとしている。 多くの思考実験と同様に、議論を単純化し、実際の実験で、あるいは純粋に理論的に、困難であるかもしれない問題に光を当てることが考えられている。 古典的現実主義と古典主義の区別、および量子論内外における文脈性との対比に特に注意を払う。

In recent years, much research has been devoted to exploring contextuality in systems that are not strictly quantum, like classical light, and many theory-independent frameworks for contextuality analysis have been developed. It has raised the debate on the meaning of contextuality outside the quantum realm, and also on whether -- and, if so, when -- it can be regarded as a signature of non-classicality. In this paper, we try to contribute to this debate by showing a very simple ``thought experiment'' or ``toy mechanism'' where a classical object (i.e., an object obeying the laws of classical physics) is used to generate experimental data violating the KCBS inequality. As with most thought experiments, the idea is to simplify the discussion and to shed light on issues that in real experiments, or from a purely theoretical perspective, may be cumbersome. We give special attention to the distinction between classical realism and classicality, and to the contrast between contextuality within and beyond quantum theory.
翻訳日:2023-10-02 19:58:03 公開日:2023-09-29
# quantum alphatron: カーネルとノイズを用いた学習における量子アドバンテージ

Quantum Alphatron: quantum advantage for learning with kernels and noise ( http://arxiv.org/abs/2108.11670v3 )

ライセンス: Link先を確認
Siyi Yang, Naixu Guo, Miklos Santha, Patrick Rebentrost(参考訳) 多くの機械学習アルゴリズムは、確率勾配降下を伴う損失関数を最適化し、カーネル手法を用いて線形学習タスクを非線形学習タスクに拡張する。 どちらの考え方も量子コンピューティングの文脈で議論されており、特に変分法を持つ短期量子コンピューティングやデータの特徴をエンコードするヒルベルト空間の利用について論じられている。 本稿では,フォールトトレラント量子コンピューティングモデルにおいて,証明可能な学習保証を持つ量子アルゴリズムについて述べる。 よく定義された学習モデルでは、この量子アルゴリズムは基礎となる概念クラスの幅広いパラメータの多項式のスピードアップを提供することができる。 本稿では,カーネルマトリックスの評価と,確率勾配降下法における勾配評価の2種類の速度アップについて検討する。 また、2層ニューラルネットワークの学習における量子優位性についても論じる。 我々の研究は、カーネルとサンプルによる量子学習の研究に貢献している。

Many machine learning algorithms optimize a loss function with stochastic gradient descent and use kernel methods to extend linear learning tasks to non-linear learning tasks. Both ideas have been discussed in the context of quantum computing, especially for near-term quantum computing with variational methods and the use of the Hilbert space to encode features of data. In this work, we discuss a quantum algorithm with provable learning guarantee in the fault-tolerant quantum computing model. In a well-defined learning model, this quantum algorithm is able to provide a polynomial speedup for a large range of parameters of the underlying concept class. We discuss two types of speedups, one for evaluating the kernel matrix and one for evaluating the gradient in the stochastic gradient descent procedure. We also discuss the quantum advantage in the context of the learning of two-layer neural networks. Our work contributes to the study of quantum learning with kernels and from samples.
翻訳日:2023-10-02 19:57:45 公開日:2023-09-29
# 高速トレーニング収束のための条件付きDETR

Conditional DETR for Fast Training Convergence ( http://arxiv.org/abs/2108.06152v3 )

ライセンス: Link先を確認
Depu Meng, Xiaokang Chen, Zejia Fan, Gang Zeng, Houqiang Li, Yuhui Yuan, Lei Sun, Jingdong Wang(参考訳) 最近開発されたDETRアプローチは、トランスフォーマーエンコーダとデコーダアーキテクチャをオブジェクト検出に適用し、有望な性能を達成する。 本稿では,重要な問題に対処し,トレーニングの収束を遅くし,高速DETRトレーニングのための条件付きクロスアテンション機構を提案する。 我々のアプローチは、DETRにおけるクロスアテンションは、4つの極端をローカライズし、ボックスを予測するためのコンテンツ埋め込みに大きく依存しているため、高品質なコンテンツ埋め込みの必要性が増し、トレーニングの難しさが増している。 提案手法は条件付きdetrと呼ばれ,マルチヘッドクロスアテンションのためのデコーダ埋め込みから条件付き空間クエリを学習する。 その利点は、条件付き空間問合せによって、各クロスアテンションヘッドが、例えば1つのオブジェクトの極端またはオブジェクトボックス内の領域を含むバンドに参加することができることである。 これにより、オブジェクト分類とボックス回帰のために異なる領域をローカライズするための空間範囲を狭め、コンテンツ埋め込みへの依存を緩和し、トレーニングを緩和する。 実験の結果、DTRはバックボーンR50とR101では6.7倍、バックボーンDC5-R50とDC5-R101では10倍の速度で収束することがわかった。 コードはhttps://github.com/Atten4Vis/ConditionalDETRで入手できる。

The recently-developed DETR approach applies the transformer encoder and decoder architecture to object detection and achieves promising performance. In this paper, we handle the critical issue, slow training convergence, and present a conditional cross-attention mechanism for fast DETR training. Our approach is motivated by that the cross-attention in DETR relies highly on the content embeddings for localizing the four extremities and predicting the box, which increases the need for high-quality content embeddings and thus the training difficulty. Our approach, named conditional DETR, learns a conditional spatial query from the decoder embedding for decoder multi-head cross-attention. The benefit is that through the conditional spatial query, each cross-attention head is able to attend to a band containing a distinct region, e.g., one object extremity or a region inside the object box. This narrows down the spatial range for localizing the distinct regions for object classification and box regression, thus relaxing the dependence on the content embeddings and easing the training. Empirical results show that conditional DETR converges 6.7x faster for the backbones R50 and R101 and 10x faster for stronger backbones DC5-R50 and DC5-R101. Code is available at https://github.com/Atten4Vis/ConditionalDETR.
翻訳日:2023-10-02 19:57:33 公開日:2023-09-29
# 確率プログラムの効率的な推論のための制御-データ分離と論理条件伝達

Control-Data Separation and Logical Condition Propagation for Efficient Inference on Probabilistic Programs ( http://arxiv.org/abs/2101.01502v3 )

ライセンス: Link先を確認
Ichiro Hasuo, Yuichiro Oyabu, Clovis Eberhart, Kohei Suenaga, Kenta Cho, Shin-ya Katsumata(参考訳) 本稿では,確率的プログラムのための新しいサンプリングフレームワークを提案する。 このフレームワークは,2つの最近のアイデア,すなわち \emph{control-data separation} と \emph{logical condition propagation} を非自明な方法で組み合わせることで,両者のメリットを向上する。 私たちはAnglican上にアルゴリズムを実装した。 実験結果は,特に while ループやまれな観測を行うプログラムに対して,アルゴリズムの効率性を示す。

We present a novel sampling framework for probabilistic programs. The framework combines two recent ideas -- \emph{control-data separation} and \emph{logical condition propagation} -- in a nontrivial manner so that the two ideas boost the benefits of each other. We implemented our algorithm on top of Anglican. The experimental results demonstrate our algorithm's efficiency, especially for programs with while loops and rare observations.
翻訳日:2023-10-02 19:57:06 公開日:2023-09-29
# 構成的実装法を用いて線形光学でどの量子演算を実現できるかを決定する方法

A method to determine which quantum operations can be realized with linear optics with a constructive implementation recipe ( http://arxiv.org/abs/1901.06178v3 )

ライセンス: Link先を確認
Juan Carlos Garcia-Escartin, Vicent Gimeno, Julio Jos\'e Moyano-Fern\'andez(参考訳) 線形光学デバイスによる量子光の進化は、系の散乱行列 $s$ によって説明できる。 m$ 可能なモードを持つ線型光学系に対して、n$ 入力光子の進化は、既知の準同型である $\varphi_{m,m}$ によって与えられるユニタリ行列 $u=\varphi_{m,m}(s)$ によって与えられる。 与えられたユニタリ進化が$m$モードの$n$光子に対して$U$で線形光学で達成できるかどうかを判定する手法と、変換を実装できるときの逆変換$\varphi_{m,M}^{-1} を述べる。 従来の結果とともに、この方法は線形光学の範囲内で任意の量子演算を実装する単純な光学系を見つけるのに使うことができる。 結果は、関連するユニタリ行列のリー群に対応するリー代数の随伴写像を研究した結果である。

The evolution of quantum light through linear optical devices can be described by the scattering matrix $S$ of the system. For linear optical systems with $m$ possible modes, the evolution of $n$ input photons is given by a unitary matrix $U=\varphi_{m,M}(S)$ given by a known homomorphism, $\varphi_{m,M}$, which depends on the size of the resulting Hilbert space of the possible photon states, $M$. We present a method to decide whether a given unitary evolution $U$ for $n$ photons in $m$ modes can be achieved with linear optics or not and the inverse transformation $\varphi_{m,M}^{-1}$ when the transformation can be implemented. Together with previous results, the method can be used to find a simple optical system which implements any quantum operation within the reach of linear optics. The results come from studying the adjoint map bewtween the Lie algebras corresponding to the Lie groups of the relevant unitary matrices.
翻訳日:2023-10-02 19:56:57 公開日:2023-09-29
# 対非アライントレーニングデータを用いた変形同変クロスモダリティ画像合成

Deformation equivariant cross-modality image synthesis with paired non-aligned training data ( http://arxiv.org/abs/2208.12491v2 )

ライセンス: Link先を確認
Joel Honkamaa, Umair Khan, Sonja Koivukoski, Mira Valkonen, Leena Latonen, Pekka Ruusuvuori, Pekka Marttinen(参考訳) クロスモダリティ画像合成は、複数の臨床応用の活発な研究課題である。 近年,ペアデータによるトレーニングを可能にする手法が登場し始めている。 しかし、広い範囲の現実世界のデータセットに適用できる堅牢で優れた方法は存在しない。 本研究では,新たな変形等分散化損失関数を導入することにより,ペアデータと非整合データとの相似画像合成問題に対する汎用解を提案する。 この方法は、画像合成ネットワークと別個の登録ネットワークとの合同訓練からなり、不整合データであっても入力に条件付けされた敵の訓練を可能にする。 この研究は、より難しいデータセットのためのクロスモダリティ画像合成ネットワークの努力的なトレーニングを可能にすることで、新しい臨床応用の限界を下げる。

Cross-modality image synthesis is an active research topic with multiple medical clinically relevant applications. Recently, methods allowing training with paired but misaligned data have started to emerge. However, no robust and well-performing methods applicable to a wide range of real world data sets exist. In this work, we propose a generic solution to the problem of cross-modality image synthesis with paired but non-aligned data by introducing new deformation equivariance encouraging loss functions. The method consists of joint training of an image synthesis network together with separate registration networks and allows adversarial training conditioned on the input even with misaligned data. The work lowers the bar for new clinical applications by allowing effortless training of cross-modality image synthesis networks for more difficult data sets.
翻訳日:2023-10-02 19:48:56 公開日:2023-09-29
# カークウッド・ディラック準確率法による可観測物の統計学

Kirkwood-Dirac quasiprobability approach to the statistics of incompatible observables ( http://arxiv.org/abs/2206.11783v3 )

ライセンス: Link先を確認
Matteo Lostaglio, Alessio Belenchia, Amikam Levy, Santiago Hern\'andez-G\'omez, Nicole Fabbri, Stefano Gherardini(参考訳) カークウッド・ディラック準確率(KDQ)が、凝縮物質物理学(スクランブル、動的相転移)、メトロジー(標準および後選択)、熱力学(出力とゆらぎの定理)、基礎(コンテキスト性、異常な弱さ)の文脈において、非古典的特徴を適切に説明するためのツールとして果たす中心的な役割を明らかにしている。 量子科学におけるKDQの関連性の高さを考えると、我々の目標は2つある: まず、量子可観測物の統計と、測定非互換性の存在下でのプロセスの統計を特徴づけることにおいて、準確率が果たす役割を強調します。 このようにして、KDQが自然に量子コレレータ、量子電流、Loschmidtエコー、弱値の基盤となり、統一する様子を示す。 第二に、kdqとその非古典的特徴にアクセスするための多種多様なスキームについて論じることで、新しい理論的および実験的視点を提供する。

Recent work has revealed the central role played by the Kirkwood-Dirac quasiprobability (KDQ) as a tool to properly account for non-classical features in the context of condensed matter physics (scrambling, dynamical phase transitions) metrology (standard and post-selected), thermodynamics (power output and fluctuation theorems), foundations (contextuality, anomalous weak values) and more. Given the growing relevance of the KDQ across the quantum sciences, our aim is two-fold: First, we highlight the role played by quasiprobabilities in characterizing the statistics of quantum observables and processes in the presence of measurement incompatibility. In this way, we show how the KDQ naturally underpins and unifies quantum correlators, quantum currents, Loschmidt echoes, and weak values. Second, we provide novel theoretical and experimental perspectives by discussing a wide variety of schemes to access the KDQ and its non-classicality features.
翻訳日:2023-10-02 19:48:25 公開日:2023-09-29
# モデル空間量子イマジナリー時間発展による多状態量子シミュレーション

Multi-state quantum simulations via model-space quantum imaginary time evolution ( http://arxiv.org/abs/2206.04494v2 )

ライセンス: Link先を確認
Takashi Tsuchimochi, Yoohee Ryo, Siu Chung Tsang, and Seiichiro L. Ten-no(参考訳) モデル空間の枠組みを量子イマジナリー時間発展(qite)に導入し、量子コンピュータを用いて基底状態と励起状態の安定な推定を可能にする。 モデル空間 QITE (MSQITE) はその直交性を維持することによってモデル空間を正確に伝播し、複数の状態を記述することができる。 量子Lanczos(QLanczos)アルゴリズムは収束を加速するためにMSQITEに拡張される。 提案手法は, 標準 QLanczos と最近提案された折り畳みスペクトル QITE の両方より励起状態のシミュレーションに優れていた。 さらに, 仮想時間プロパゲータを移動させることで, スピン汚染を効果的に除去できることを示すとともに, 特定のスピン量子数を持つ励起状態は, エネルギーの低い異なるスピン状態に陥ることなく効率的に捕獲できることを示した。 また,MSQITEにおける単位近似のレベルの違いが結果に与える影響についても検討した。 このアルゴリズムの有効性は,H4モデルの雑音シミュレーションによって実証された。

We introduce the framework of model space into quantum imaginary time evolution (QITE) to enable stable estimation of ground and excited states using a quantum computer. Model-space QITE (MSQITE) propagates a model space to the exact one by retaining its orthogonality, and hence is able to describe multiple states simultaneously. The quantum Lanczos (QLanczos) algorithm is extended to MSQITE to accelerate the convergence. The present scheme is found to outperform both the standard QLanczos and the recently proposed folded-spectrum QITE in simulating excited states. Moreover, we demonstrate that spin contamination can be effectively removed by shifting the imaginary time propagator, and thus excited states with a particular spin quantum number are efficiently captured without falling into the different spin states that have lower energies. We also investigate how different levels of the unitary approximation employed in MSQITE can affect the results. The effectiveness of the algorithm over QITE is demonstrated by noise simulations for the H4 model system.
翻訳日:2023-10-02 19:47:33 公開日:2023-09-29
# プロンプト調整のためのプロンプトアライメント勾配

Prompt-aligned Gradient for Prompt Tuning ( http://arxiv.org/abs/2205.14865v2 )

ライセンス: Link先を確認
Beier Zhu and Yulei Niu and Yucheng Han and Yue Wu and Hanwang Zhang(参考訳) CLIPのような大規模な事前学習された視覚言語モデル(VLM)により、画像の「[CLASS]」である画像の信頼度スコアを画像と「[CLASS]の写真」との類似度尺度で得られるように、ゼロショット分類器を"prompt"で作成することができる。 したがって、プロンプトは、プロンプトベースの類似度尺度を微調整すれば、下流タスクへのVLMの高速適応の可能性を示す。 しかしながら、不適切な微調整がタスク関連クラスに対するプロンプト固有の予測を損なうだけでなく、VLM語彙の他のクラスに対しても、よくある失敗が見つかる。 既存の手法では、早期停止やデータ拡張といった従来のオーバーフィット防止手法を使用してもこの問題に対処している。 我々は,vlmsから得られる一般的な知識を忘れないように,progradと呼ばれるプロンプトアライメント勾配を提案する。 特に、progradは、事前定義されたプロンプト予測のkl損失の勾配として表される「一般方向」に勾配をアライン(または非衝突)するプロンプトのみを更新する。 広汎な実験は、最先端のプロンプトチューニング手法に対するProGradのより強力な数発の一般化能力を示す。 コードはhttps://github.com/BeierZhu/Prompt-align.comで入手できる。

Thanks to the large pre-trained vision-language models (VLMs) like CLIP, we can craft a zero-shot classifier by "prompt", e.g., the confidence score of an image being "[CLASS]" can be obtained by using the VLM provided similarity measure between the image and the prompt sentence "a photo of a [CLASS]". Therefore, prompt shows a great potential for fast adaptation of VLMs to downstream tasks if we fine-tune the prompt-based similarity measure. However, we find a common failure that improper fine-tuning may not only undermine the prompt's inherent prediction for the task-related classes, but also for other classes in the VLM vocabulary. Existing methods still address this problem by using traditional anti-overfitting techniques such as early stopping and data augmentation, which lack a principled solution specific to prompt. We present Prompt-aligned Gradient, dubbed ProGrad, to prevent prompt tuning from forgetting the the general knowledge learned from VLMs. In particular, ProGrad only updates the prompt whose gradient is aligned (or non-conflicting) to the "general direction", which is represented as the gradient of the KL loss of the pre-defined prompt prediction. Extensive experiments demonstrate the stronger few-shot generalization ability of ProGrad over state-of-the-art prompt tuning methods. Codes are available at https://github.com/BeierZhu/Prompt-align.
翻訳日:2023-10-02 19:46:30 公開日:2023-09-29
# 自動車分類のためのハイブリッド量子ResNetとそのハイパーパラメータ最適化

Hybrid quantum ResNet for car classification and its hyperparameter optimization ( http://arxiv.org/abs/2205.04878v2 )

ライセンス: Link先を確認
Asel Sagingalieva, Mo Kordzanganeh, Andrii Kurkin, Artem Melnikov, Daniil Kuhmistrov, Michael Perelshtein, Alexey Melnikov, Andrea Skolik, David Von Dollen(参考訳) 画像認識は機械学習アルゴリズムの主要な応用の1つである。 それでも、現代の画像認識システムで使用される機械学習モデルは、調整にかなりの計算時間を必要とする数百万のパラメータで構成されている。 さらに、モデルハイパーパラメータの調整は、さらなるオーバーヘッドをもたらす。 このため、機械学習モデルとハイパーパラメータ最適化技術の新しい開発が必要である。 本稿では,量子インスパイアされたハイパーパラメータ最適化手法と,教師付き学習のためのハイブリッド量子古典機械学習モデルを提案する。 我々は,標準ブラックボックスの目標関数に対してハイパーパラメータ最適化手法をベンチマークし,探索空間の大きさの増大に応じて,予測実行時間と適合度を削減した形での性能改善を観察する。 提案手法をカーイメージ分類タスクでテストし,テンソルトレインハイパーパラメータ最適化を用いたハイブリッド量子resnetモデルの本格的な実装を実証する。 実験では,ニューラルネットワークResNet34で使用する標準標準のグラフグリッド探索手法に対して,定性的かつ定量的な優位性を示した。 分類精度0.97は18イテレーション後にハイブリッドモデルにより得られたが、古典モデルは75イテレーション後に0.92の精度を達成した。

Image recognition is one of the primary applications of machine learning algorithms. Nevertheless, machine learning models used in modern image recognition systems consist of millions of parameters that usually require significant computational time to be adjusted. Moreover, adjustment of model hyperparameters leads to additional overhead. Because of this, new developments in machine learning models and hyperparameter optimization techniques are required. This paper presents a quantum-inspired hyperparameter optimization technique and a hybrid quantum-classical machine learning model for supervised learning. We benchmark our hyperparameter optimization method over standard black-box objective functions and observe performance improvements in the form of reduced expected run times and fitness in response to the growth in the size of the search space. We test our approaches in a car image classification task and demonstrate a full-scale implementation of the hybrid quantum ResNet model with the tensor train hyperparameter optimization. Our tests show a qualitative and quantitative advantage over the corresponding standard classical tabular grid search approach used with a deep neural network ResNet34. A classification accuracy of 0.97 was obtained by the hybrid model after 18 iterations, whereas the classical model achieved an accuracy of 0.92 after 75 iterations.
翻訳日:2023-10-02 19:46:01 公開日:2023-09-29
# 量子空間重ね合わせと超光シグナルの可能性

Quantum spatial superpositions and the possibility of superluminal signaling ( http://arxiv.org/abs/2204.01190v3 )

ライセンス: Link先を確認
P. \'Avila, E. Okon, D. Sudarsky and M. Wiedemann(参考訳) 最近提案された2つの物体間の(重力的または電磁的)相互作用に関わるゲダンケン実験は、2つの位置の量子重ね合わせ状態に置かれた。 しかし、媒体場に量子的性質が与えられた場合、超光信号の可能性が完全に回避されていると論じられている。 さらに、重力の場合、この結論は重力場が量子化されなければならないという見解を論じるために用いられる。 本稿では,議論のいくつかの側面を明確にし,補完する。 特に、エンタングルメントがシステムのコンポーネントに広がる方法に注目して、スーパールミナルシグナリングの不可能性の背後にある基本的な量子的特徴についていくつかの洞察を与え、このプロトコルと関連するプロトコルにおいて、そのような不可能性のより一般的な証明を提供する。

A recently proposed gedankenexperiment involving the (gravitational or electromagnetic) interaction between two objects--one placed in a state of quantum superposition of two locations--seems to allow for faster-than-light communication. However, it has been argued that, if the mediating fields are endowed with quantum properties, then the possibility for superluminal signaling is fully avoided. Moreover, in the gravitational case, this conclusion has been used to argue for the view that the gravitational field must be quantized. In this work, we clarify and complement some aspects of the discussion. In particular, by focusing on the way in which entanglement spreads across the components of the system, we offer some insights into the fundamental quantum features behind the impossibility of superluminal signaling and we provide a more general proof of such an impossibility in this and related protocols.
翻訳日:2023-10-02 19:45:46 公開日:2023-09-29
# リッチ・ポータブル・大規模歩行者データ収集に向けて

Towards Rich, Portable, and Large-Scale Pedestrian Data Collection ( http://arxiv.org/abs/2203.01974v2 )

ライセンス: Link先を確認
Allan Wang, Abhijat Biswas, Henny Admoni, Aaron Steinfeld(参考訳) 近年,歩行者行動研究は機械学習に基づく手法へとシフトし,歩行者インタラクションのモデル化に関する話題に収束している。 そのためには、豊富な情報を含む大規模データセットが必要である。 本稿では,多様な環境での大規模データ収集を容易にする,ポータブルなデータ収集システムを提案する。 また,高速軌道ラベル生成のための半自律的なラベルパイプラインとシステムを結合する。 さらに、進行中のデータ収集作業であるTBD歩行者データセットから、最初のデータセットのバッチを紹介します。 既存の歩行者データと比較すると、我々のデータセットには3つの要素が含まれている: 計量空間に基礎を置く人間認証ラベル、トップダウンとビュービューの組み合わせ、社会的に適切な「ロボット」の存在下での自然主義的人間の行動。

Recently, pedestrian behavior research has shifted towards machine learning based methods and converged on the topic of modeling pedestrian interactions. For this, a large-scale dataset that contains rich information is needed. We propose a data collection system that is portable, which facilitates accessible large-scale data collection in diverse environments. We also couple the system with a semi-autonomous labeling pipeline for fast trajectory label production. We further introduce the first batch of dataset from the ongoing data collection effort -- the TBD pedestrian dataset. Compared with existing pedestrian datasets, our dataset contains three components: human verified labels grounded in the metric space, a combination of top-down and perspective views, and naturalistic human behavior in the presence of a socially appropriate "robot".
翻訳日:2023-10-02 19:45:29 公開日:2023-09-29
# 複雑な作用に対する流れに基づく状態密度

Flow-based density of states for complex actions ( http://arxiv.org/abs/2203.01243v2 )

ライセンス: Link先を確認
Jan M. Pawlowski, Julian M. Urban(参考訳) 正規化フローに基づく新しいサンプリングアルゴリズムは、格子計算におけるエルゴディディティ問題を解く可能性がある。 さらに、従来の方法ではアクセスが難しい熱力学量を計算するためにフローが使用できることも指摘されている。 このことは、それらは複素作用問題に対する状態密度アプローチにも適用可能であることを示唆している。 特に、フローベースサンプリングは、従来の対数関数の導関数の測定と積分による再構成戦略とは対照的に、直接的に密度を計算するために用いられる。 この手順を回避して、数値積分による誤差の蓄積を完全に回避し、全体正規化係数を明示的に決定することができる。 本稿では,2成分スカラー場理論の文脈において,O(2)$対称性が虚外場によって明確に破られるような手法を実証する。 まず、正確に解くことができるゼロ次元の場合に集中する。 本手法では, 分割関数のLee-Yang零点の配置に成功していることを示す。 次に, フローベースアプローチにより, 従来の手法で計算した密度を1次元および2次元モデルで正しく再現できることを確認した。

Emerging sampling algorithms based on normalizing flows have the potential to solve ergodicity problems in lattice calculations. Furthermore, it has been noted that flows can be used to compute thermodynamic quantities which are difficult to access with traditional methods. This suggests that they are also applicable to the density-of-states approach to complex action problems. In particular, flow-based sampling may be used to compute the density directly, in contradistinction to the conventional strategy of reconstructing it via measuring and integrating the derivative of its logarithm. By circumventing this procedure, the accumulation of errors from the numerical integration is avoided completely and the overall normalization factor can be determined explicitly. In this proof-of-principle study, we demonstrate our method in the context of two-component scalar field theory where the $O(2)$ symmetry is explicitly broken by an imaginary external field. First, we concentrate on the zero-dimensional case which can be solved exactly. We show that with our method, the Lee-Yang zeroes of the associated partition function can be successfully located. Subsequently, we confirm that the flow-based approach correctly reproduces the density computed with conventional methods in one- and two-dimensional models.
翻訳日:2023-10-02 19:45:17 公開日:2023-09-29
# MixUp-MIL:マルチインスタンス学習のための新しいデータ拡張と甲状腺癌の診断に関する研究

MixUp-MIL: Novel Data Augmentation for Multiple Instance Learning and a Study on Thyroid Cancer Diagnosis ( http://arxiv.org/abs/2211.05862v4 )

ライセンス: Link先を確認
Michael Gadermayr, Lukas Koller, Maximilian Tschuchnig, Lea Maria Stangassinger, Christina Kreutzer, Sebastien Couillard-Despres, Gertie Janneke Oostingh, Anton Hittmair(参考訳) 複数のインスタンス学習は、ピクセルレベルやパッチレベルのアノテーションがなければ、スライドイメージベースの診断全体に対して強力なアプローチを示す。 ホールスライド画像の巨大なサイズにもかかわらず、個々のスライドの数はかなり少なく、少数のラベル付きサンプルに繋がる。 トレーニングを改善するために,特徴ベクトルの線形補間(ミックスアップ)という考え方に基づいて,複数インスタンス学習のための異なるデータ拡張戦略を提案し,検討する。 最先端の複数インスタンス学習アーキテクチャと2つの甲状腺癌データセットに基づいて,様々な共通データ拡張戦略を総合的に検討した。 元々のミックスアップアプローチに基づく戦略では精度が低下したが,新しいスライド内補間法を用いることにより,精度が一貫して向上した。

Multiple instance learning exhibits a powerful approach for whole slide image-based diagnosis in the absence of pixel- or patch-level annotations. In spite of the huge size of hole slide images, the number of individual slides is often rather small, leading to a small number of labeled samples. To improve training, we propose and investigate different data augmentation strategies for multiple instance learning based on the idea of linear interpolations of feature vectors (known as MixUp). Based on state-of-the-art multiple instance learning architectures and two thyroid cancer data sets, an exhaustive study is conducted considering a range of common data augmentation strategies. Whereas a strategy based on to the original MixUp approach showed decreases in accuracy, the use of a novel intra-slide interpolation method led to consistent increases in accuracy.
翻訳日:2023-10-02 19:39:54 公開日:2023-09-29
# 幾何的プリミティブの移動によるゼロショット点雲のセグメンテーション

Zero-shot point cloud segmentation by transferring geometric primitives ( http://arxiv.org/abs/2210.09923v3 )

ライセンス: Link先を確認
Runnan Chen, Xinge Zhu, Nenglun Chen, Wei Li, Yuexin Ma, Ruigang Yang, Wenping Wang(参考訳) トランスダクティブなゼロショットポイントのクラウドセマンティクスセグメンテーションについて検討し、そこではネットワークが見えないオブジェクトに対してトレーニングされ、見えないオブジェクトをセグメンテーションすることができる。 3d幾何学的要素は、新しい3dオブジェクトタイプを示すために必須の手がかりである。 しかし,従来の手法では言語と3次元幾何学的要素との微粒な関係は無視されていた。 そこで本研究では,視覚的・非視覚的カテゴリのオブジェクトで共有される幾何学的プリミティブを学習し,言語と学習的プリミティブとの微粒なアライメントを利用する新しいフレームワークを提案する。 そのため,ネットワークは幾何学的プリミティブで表現された新しいオブジェクトを認識する。 具体的には,その特徴と学習可能なプロトタイプとの類似性ベクトルである新しい点の視覚表現を定式化し,プロトタイプがバックプロパゲーションによって幾何学的プリミティブを自動的にエンコードする。 また,視覚表現を言語に細分化するための未知認識情報ロスを提案する。 提案手法は, s3dis, scannet, semantickitti, nuscenesデータセット上で, 17.8\%, 30.4\%, 9.2\%, 7.9\%の改善により, 高調波平均断面積法 (hiou) の他の手法を著しく上回っている。 コードは利用可能である(https://github.com/runnanchen/Zero-Shot-Point-Cloud-Segmentation)。

We investigate transductive zero-shot point cloud semantic segmentation, where the network is trained on seen objects and able to segment unseen objects. The 3D geometric elements are essential cues to imply a novel 3D object type. However, previous methods neglect the fine-grained relationship between the language and the 3D geometric elements. To this end, we propose a novel framework to learn the geometric primitives shared in seen and unseen categories' objects and employ a fine-grained alignment between language and the learned geometric primitives. Therefore, guided by language, the network recognizes the novel objects represented with geometric primitives. Specifically, we formulate a novel point visual representation, the similarity vector of the point's feature to the learnable prototypes, where the prototypes automatically encode geometric primitives via back-propagation. Besides, we propose a novel Unknown-aware InfoNCE Loss to fine-grained align the visual representation with language. Extensive experiments show that our method significantly outperforms other state-of-the-art methods in the harmonic mean-intersection-over-union (hIoU), with the improvement of 17.8\%, 30.4\%, 9.2\% and 7.9\% on S3DIS, ScanNet, SemanticKITTI and nuScenes datasets, respectively. Codes are available (https://github.com/runnanchen/Zero-Shot-Point-Cloud-Segmentation)
翻訳日:2023-10-02 19:39:05 公開日:2023-09-29
# 新型コロナウイルス患者データにおける重症疾患分類の階層的Neyman-Pearson分類

Hierarchical Neyman-Pearson Classification for Prioritizing Severe Disease Categories in COVID-19 Patient Data ( http://arxiv.org/abs/2210.02197v2 )

ライセンス: Link先を確認
Lijia Wang, Y. X. Rachel Wang, Jingyi Jessica Li, Xin Tong(参考訳) 新型コロナウイルスは無症状から入院まで、さまざまな病気の重症度がある。 病気の重症度を促進するメカニズムを理解することは、効果的な治療法の開発と死亡率の低減に不可欠である。 このような理解を得る一つの方法は、患者の生物学的特徴を用いて患者の重症度クラスを予測するマルチクラス分類フレームワークを使用することである。 この重症度分類問題では、より重度な分類の分類を優先し、患者をより重度な分類に誤分類する「下位分類」エラーを制御することが有益である。 Neyman-Pearson(NP)分類パラダイムは、指定されたタイプのエラーを優先順位付けするために開発された。 しかし、現在のnp手続きはバイナリ分類のためか、マルチクラス分類における優先度付きエラーに対する高い確率制御を提供していない。 本稿では、一般的な分類手法に適応し、高い確率で下位分類誤差を制御する階層型NP(H-NP)フレームワークと傘アルゴリズムを提案する。 864名の患者を対象としたsingle-cell rna-seq(scrna-seq)データセットの総合的な収集について検討し,h-npアルゴリズムの有効性を検証した。 新型コロナウイルスの重症度分類以外にも、H-NPアルゴリズムは、クラスが優先的な順序を持つマルチクラス分類問題に適用される。

COVID-19 has a spectrum of disease severity, ranging from asymptomatic to requiring hospitalization. Understanding the mechanisms driving disease severity is crucial for developing effective treatments and reducing mortality rates. One way to gain such understanding is using a multi-class classification framework, in which patients' biological features are used to predict patients' severity classes. In this severity classification problem, it is beneficial to prioritize the identification of more severe classes and control the "under-classification" errors, in which patients are misclassified into less severe categories. The Neyman-Pearson (NP) classification paradigm has been developed to prioritize the designated type of error. However, current NP procedures are either for binary classification or do not provide high probability controls on the prioritized errors in multi-class classification. Here, we propose a hierarchical NP (H-NP) framework and an umbrella algorithm that generally adapts to popular classification methods and controls the under-classification errors with high probability. On an integrated collection of single-cell RNA-seq (scRNA-seq) datasets for 864 patients, we explore ways of featurization and demonstrate the efficacy of the H-NP algorithm in controlling the under-classification errors regardless of featurization. Beyond COVID-19 severity classification, the H-NP algorithm generally applies to multi-class classification problems, where classes have a priority order.
翻訳日:2023-10-02 19:38:10 公開日:2023-09-29
# 計測に基づく量子相補性の一般的な枠組み

General framework of quantum complementarity from a measurement-based perspective ( http://arxiv.org/abs/2210.00958v4 )

ライセンス: Link先を確認
Shan Huang, Wen-Bo Liu, Yundu Zhao, Hua-Lei Yin, Zeng-Bing Chen, and Shengjun Wu(参考訳) 量子物理学で最も注目すべき特徴の1つは、単一光子の波状および粒子状振舞いのような量子オブジェクトの属性が、それらが等しく実在するが同時に観測できないという意味で相補的であることである。 量子測定は、量子論の抽象的エデュケーションのビューを提供する窓として機能し、量子オブジェクトの本質的な振る舞いを示すための基本的なツールである。 しかし、高度測定における相補性の定量的定式化は、いまだ解明されていない。 本稿では,波動粒子双対関係を具体例として組み込んだ情報排除関係(iers)という形で,量子相補性を示す汎用フレームワークを開発した。 さらに,本理論のエンタングルメントにおける応用を探究し,iasがエントロピー的不確実性関係の延長形につながることを解明し,量子相補性と準備の不確実性との関係に関する興味深い知見を与える。

One of the most remarkable features of quantum physics is that attributes of quantum objects, such as the wave-like and particle-like behaviors of single photons, can be complementary in the sense that they are equally real but cannot be observed simultaneously. Quantum measurements, serving as windows providing views into the abstract edifice of quantum theory, are basic tools for manifesting the intrinsic behaviors of quantum objects. However, quantitative formulation of complementarity that highlights its manifestations in sophisticated measurements remains elusive. Here we develop a general framework for demonstrating quantum complementarity in the form of information exclusion relations (IERs), which incorporates the wave-particle duality relations as particular examples. Moreover, we explore the applications of our theory in entanglement witnessing and elucidate that our IERs lead to an extended form of entropic uncertainty relations, providing intriguing insights into the connection between quantum complementarity and the preparation uncertainty.
翻訳日:2023-10-02 19:37:48 公開日:2023-09-29
# Jacobian Normによるオープンセット認識の理解とクラス間分離

Understanding Open-Set Recognition by Jacobian Norm and Inter-Class Separation ( http://arxiv.org/abs/2209.11436v2 )

ライセンス: Link先を確認
Jaewoo Park, Hojin Park, Eunju Jeong, Andrew Beng Jin Teoh(参考訳) オープンセット認識(osr)の知見は、分類データセットでトレーニングされたモデルが、トレーニングプロセス中に見当たらない未知のクラスを検出することができることを示している。 具体的には、学習後、既知のクラスの学習表現は未知のクラスの表現から解離し、OSRを促進する。 本稿では,この創発現象について,表現のジャコビアンノルムとクラス間学習ダイナミクスの関係について検討する。 本稿では,クラス内学習が既知のクラスサンプルのジャコビアンノルムを減少させる一方で,クラス間学習が未知サンプルのジャコビアンノルムを増大させることを示す理論的解析を行う。 全体として、既知のクラスと未知クラスの間のヤコビノルムの相違はOSRを可能にする。 クラス間学習の重要な役割を強調するこの洞察に基づいて、クラス間分離を促進する限界的one-vs-rest(m-ovr)損失関数を考案する。 OSRの性能をさらに向上するため、我々はm-OvR損失をヤコビ標準差を最大化する追加戦略と統合する。 提案するOSR手法の有効性を実証し,理論観測を支援する総合的な実験結果を示す。

The findings on open-set recognition (OSR) show that models trained on classification datasets are capable of detecting unknown classes not encountered during the training process. Specifically, after training, the learned representations of known classes dissociate from the representations of the unknown class, facilitating OSR. In this paper, we investigate this emergent phenomenon by examining the relationship between the Jacobian norm of representations and the inter/intra-class learning dynamics. We provide a theoretical analysis, demonstrating that intra-class learning reduces the Jacobian norm for known class samples, while inter-class learning increases the Jacobian norm for unknown samples, even in the absence of direct exposure to any unknown sample. Overall, the discrepancy in the Jacobian norm between the known and unknown classes enables OSR. Based on this insight, which highlights the pivotal role of inter-class learning, we devise a marginal one-vs-rest (m-OvR) loss function that promotes strong inter-class separation. To further improve OSR performance, we integrate the m-OvR loss with additional strategies that maximize the Jacobian norm disparity. We present comprehensive experimental results that support our theoretical observations and demonstrate the efficacy of our proposed OSR approach.
翻訳日:2023-10-02 19:37:31 公開日:2023-09-29
# 咬合・欠落情報を用いた多視点視の統合のためのアンサンブル学習:実世界データを用いたフレームワークとドライバハンド活動認識への応用

Ensemble Learning for Fusion of Multiview Vision with Occlusion and Missing Information: Framework and Evaluations with Real-World Data and Applications in Driver Hand Activity Recognition ( http://arxiv.org/abs/2301.12592v2 )

ライセンス: Link先を確認
Ross Greer, Mohan Trivedi(参考訳) マルチセンサーフレームワークは、冗長性と補足情報を活用するためのアンサンブル学習とセンサー融合の機会を提供し、情報が断続的に欠落している場合であっても予測を必要とする連続運転状態監視のような現実世界の安全性アプリケーションに役立つ。 情報欠落(閉塞、ノイズ、センサ障害による)の断続的なインスタンスのこの問題を定義し、これらのデータギャップに関する学習フレームワークを設計し、欠落情報を扱うためのインプテーションスキームを提案し分析する。 これらのアイデアをカメラによる手動動作分類のタスクに適用し、自律運転時の堅牢な安全性を実現する。 並列畳み込みニューラルネットワーク間の遅延融通アプローチは,グループ内被検体に対する手持ち物体と位置の推定において,最良位置の単一カメラモデルにおいても優れており,マルチカメラフレームワークは,クロスグループ検証において平均で最高の性能を示し,融合アプローチがアンサンブル重み付き多数とモデル組み合わせスキームを上回っていることを示す。

Multi-sensor frameworks provide opportunities for ensemble learning and sensor fusion to make use of redundancy and supplemental information, helpful in real-world safety applications such as continuous driver state monitoring which necessitate predictions even in cases where information may be intermittently missing. We define this problem of intermittent instances of missing information (by occlusion, noise, or sensor failure) and design a learning framework around these data gaps, proposing and analyzing an imputation scheme to handle missing information. We apply these ideas to tasks in camera-based hand activity classification for robust safety during autonomous driving. We show that a late-fusion approach between parallel convolutional neural networks can outperform even the best-placed single camera model in estimating the hands' held objects and positions when validated on within-group subjects, and that our multi-camera framework performs best on average in cross-group validation, and that the fusion approach outperforms ensemble weighted majority and model combination schemes.
翻訳日:2023-10-02 19:27:51 公開日:2023-09-29
# ダイヤモンド中の不規則双極子スピンアンサンブルにおける準フロッケ予熱

Quasi-Floquet prethermalization in a disordered dipolar spin ensemble in diamond ( http://arxiv.org/abs/2212.11284v3 )

ライセンス: Link先を確認
Guanghui He, Bingtian Ye, Ruotian Gong, Zhongyuan Liu, Kater W. Murch, Norman Y. Yao, Chong Zu(参考訳) フロッケ(周期)駆動は、量子系を工学し、物質の非平衡相を実現する強力な技術として最近登場した。 このような系における量子現象の安定化に対する中心的な課題は、駆動場からのエネルギー吸収を防ぐことである。 幸いなことに、ドライブの周波数が多体系の局所エネルギースケールよりもかなり大きい場合、エネルギー吸収が抑制される。 このいわゆる予熱状態の存在は、相互作用の範囲と複数の駆動周波数の存在に敏感に依存する。 本稿では,双極子カップリングの角度依存性が相互作用の長距離的性質の緩和に寄与するダイヤモンドの強相互作用双極子スピンアンサンブルにおけるフロッケ予熱の観測について報告する。 さらに、実験結果を複数の非共振周波数の準フロケットドライブに拡張する。 単周波駆動とは対照的に、熱前化の存在は印加された磁場の滑らかさに非常に敏感であることがわかった。 結果は準周期駆動系における非平衡現象の安定化と特徴付けの扉を開く。

Floquet (periodic) driving has recently emerged as a powerful technique for engineering quantum systems and realizing non-equilibrium phases of matter. A central challenge to stabilizing quantum phenomena in such systems is the need to prevent energy absorption from the driving field. Fortunately, when the frequency of the drive is significantly larger than the local energy scales of the many-body system, energy absorption is suppressed. The existence of this so-called prethermal regime depends sensitively on the range of interactions and the presence of multiple driving frequencies. Here, we report the observation of Floquet prethermalization in a strongly interacting dipolar spin ensemble in diamond, where the angular dependence of the dipolar coupling helps to mitigate the long-ranged nature of the interaction. Moreover, we extend our experimental observation to quasi-Floquet drives with multiple incommensurate frequencies. In contrast to a single-frequency drive, we find that the existence of prethermalization is extremely sensitive to the smoothness of the applied field. Our results open the door to stabilizing and characterizing non-equilibrium phenomena in quasi-periodically driven systems.
翻訳日:2023-10-02 19:26:38 公開日:2023-09-29
# 数量知覚のための量子スピンモデル

Quantum spin models for numerosity perception ( http://arxiv.org/abs/2212.03344v2 )

ライセンス: Link先を確認
Jorge Yago Malo, Guido Marco Cicchini, Maria Concetta Morrone, Maria Luisa Chiofalo(参考訳) 人間は、脊椎動物と無脊椎動物の両方の動物と共有し、すでに誕生した環境にあるアイテムの数を感知する能力を持つ。 動物界におけるこのスキルの広汎性は、非常に単純なニューロン集団に出現することを示唆している。 しかしながら、現在のモデリング文献は、このタスクを実行する単純なアーキテクチャを提案するのに苦労しており、ほとんどの提案は、多層複雑なニューラルネットワークにおいて数感覚の出現を示唆し、典型的には教師付き学習を必要とする。 我々は、無秩序または秩序な時間系列に発生する多くの過渡信号と共に、刺激後のスペクトルにヌメロシティを符号化する、全対全接続を持つ単純な量子スピンモデルを提案する。 我々は、ニューラルネットワークにおける情報処理を記述可能な方法として、平衡から開放量子系の理論と方法から借用したパラダイムシミュレーションアプローチを用いる。 本手法は,そのようなシステムにおける数量性の知覚的特徴の多くを捉えることができる。 系のトンネル周波数の高調波における磁化スペクトルの周波数成分は、提示される刺激数とともに増加する。 理想的なオブザーバモデルで実行される各スペクトルの振幅復号法は、動物王国全体での特異性知覚の指標の一つであるウェバーの法則に従っていることを明らかにした。 これは、ウェバーの法則を線形系やアキュムレータモデルで再現できなかったこととは対照的である。

Humans share with animals, both vertebrates and invertebrates, the capacity to sense the number of items in their environment already at birth. The pervasiveness of this skill across the animal kingdom suggests that it should emerge in very simple populations of neurons. Current modelling literature, however, has struggled to suggest a simple architecture carrying out this task, with most proposals suggesting the emergence of number sense in multi-layered complex neural networks, and typically requiring supervised learning. We present a simple quantum spin model with all-to-all connectivity, where numerosity is encoded in the spectrum after stimulation with a number of transient signals occurring in a random or orderly temporal sequence. We use a paradigmatic simulational approach borrowed from the theory and methods of open quantum systems out of equilibrium, as a possible way to describe information processing in neural systems. Our method is able to capture many of the perceptual characteristics of numerosity in such systems. The frequency components of the magnetization spectra at harmonics of the system's tunneling frequency increase with the number of stimuli presented. The amplitude decoding of each spectrum, performed with an ideal-observer model, reveals that the system follows Weber's law, one of the hallmarks of numerosity perception across the animal kingdom. This contrasts with the well-known failure to reproduce Weber's law with linear system or accumulators models.
翻訳日:2023-10-02 19:26:19 公開日:2023-09-29
# 効率の良い再同定リスク制御のための微分プライベートデータ合成

Differentially-Private Data Synthetisation for Efficient Re-Identification Risk Control ( http://arxiv.org/abs/2212.00484v2 )

ライセンス: Link先を確認
T\^ania Carvalho and Nuno Moniz and Lu\'is Antunes and Nitesh Chawla(参考訳) ユーザデータのプライバシ保護は、統計変換から生成モデルに至るまで、多くの方法で達成できる。 しかし、いずれも重大な欠点がある。 例えば、従来のテクニックを使って変換データセットを作成するのは非常に時間がかかる。 また、近年のディープラーニングベースのソリューションは、長期トレーニングフェーズに加えて、重要な計算資源を必要としており、微分プライベートベースのソリューションはデータユーティリティを損なう可能性がある。 本稿では,再識別やリンケージ攻撃の防止を目的とした手法である$\epsilon$-PrivateSMOTEを提案する。 本提案では,ノイズ誘起補間による合成データ生成を組み合わせることで,高リスクケースを隠蔽し,元のデータの有用性を最大化する。 17データセット上の複数の従来的および最先端のプライバシ保存方法と比較して、$\epsilon$-PrivateSMOTEは、生成的敵ネットワーク、変分オートエンコーダ、差分プライバシーベースラインよりも、プライバシリスクと予測性能の競争的な結果を達成する。 また、エネルギー消費と時間要求をそれぞれ少なくとも11と15の係数で改善する。

Protecting user data privacy can be achieved via many methods, from statistical transformations to generative models. However, all of them have critical drawbacks. For example, creating a transformed data set using traditional techniques is highly time-consuming. Also, recent deep learning-based solutions require significant computational resources in addition to long training phases, and differentially private-based solutions may undermine data utility. In this paper, we propose $\epsilon$-PrivateSMOTE, a technique designed for safeguarding against re-identification and linkage attacks, particularly addressing cases with a high re-identification risk. Our proposal combines synthetic data generation via noise-induced interpolation to obfuscate high-risk cases while maximising the data utility of the original data. Compared to multiple traditional and state-of-the-art privacy-preservation methods on 17 data sets, $\epsilon$-PrivateSMOTE achieves competitive results in privacy risk and better predictive performance than generative adversarial networks, variational autoencoders, and differential privacy baselines. It also improves energy consumption and time requirements by at least a factor of 11 and 15, respectively.
翻訳日:2023-10-02 19:25:39 公開日:2023-09-29
# 反復線形化を用いた深層ネットワークにおけるスパース機能更新の理解

Understanding Sparse Feature Updates in Deep Networks using Iterative Linearisation ( http://arxiv.org/abs/2211.12345v3 )

ライセンス: Link先を確認
Adrian Goldwaser and Hong Ge(参考訳) 大規模でより深いネットワークは、過度に適合する能力の増大にもかかわらず、うまく一般化している。 なぜこの現象が起こるかを理解することは理論上、事実上重要である。 最近のアプローチでは、そのようなネットワークとその対応するカーネルの無限に広い限界に目を向けている。 しかし、これらの理論的なツールは、無限のネットワークとは対照的に、勾配-思春期に基づくトレーニングの間、経験的カーネルが著しく変化するため、有限ネットワークを完全には説明できない。 そこで本研究では,新しい経験的ツールとして反復線形化学習法を導出し,sparse(すなわち不適切な)機能更新の制御と,同等の性能を達成するために必要な機能学習頻度の定量化を可能にした。 特徴を学習しない無限幅レジームの有限アナログと標準勾配降下訓練との補間として反復線形化を正当化する。 非公式に言えば、これは二階法であるガウス・ニュートン法(gauss-newton algorithm)の減衰版と類似している。 様々なケースにおいて、反復線形化トレーニングは、標準トレーニングと同等に驚くほど性能を発揮しており、特に、同等のパフォーマンスを達成するのにどの程度の頻度で機能学習が必要とされるかに注意する必要がある。 また、優れたパフォーマンスには機能学習が不可欠であることも示しています。 このような特徴学習は必然的にNTKカーネルの変化を引き起こすため、トレーニング中にNTKカーネルが一定であることを示すNTK理論の直接的な否定的な証拠を提供する。

Larger and deeper networks generalise well despite their increased capacity to overfit. Understanding why this happens is theoretically and practically important. One recent approach looks at the infinitely wide limits of such networks and their corresponding kernels. However, these theoretical tools cannot fully explain finite networks as the empirical kernel changes significantly during gradient-descent-based training in contrast to infinite networks. In this work, we derive an iterative linearised training method as a novel empirical tool to further investigate this distinction, allowing us to control for sparse (i.e. infrequent) feature updates and quantify the frequency of feature learning needed to achieve comparable performance. We justify iterative linearisation as an interpolation between a finite analog of the infinite width regime, which does not learn features, and standard gradient descent training, which does. Informally, we also show that it is analogous to a damped version of the Gauss-Newton algorithm -- a second-order method. We show that in a variety of cases, iterative linearised training surprisingly performs on par with standard training, noting in particular how much less frequent feature learning is required to achieve comparable performance. We also show that feature learning is essential for good performance. Since such feature learning inevitably causes changes in the NTK kernel, we provide direct negative evidence for the NTK theory, which states the NTK kernel remains constant during training.
翻訳日:2023-10-02 19:25:18 公開日:2023-09-29
# ディープニューラルネットワークによる一般化バランス重み付け

Generalized Balancing Weights via Deep Neural Networks ( http://arxiv.org/abs/2211.07533v6 )

ライセンス: Link先を確認
Yoshiaki Kitazawa(参考訳) 観測データから因果効果を推定することは、多くの領域において中心的な問題である。 一般的なアプローチは、データの分布がランダム化を模倣するような重みと共変量のバランスをとることである。 本稿では,神経バランス重み (neural balancing weights, nbw) を一般化し, 離散的および連続的介入の混合による因果効果を推定する。 f$-divergenceの変動表現を最適化することにより, 源と平衡分布の密度比を直接推定し, 重みを得た。 このために、サンプル複雑性が基底真理値や偏りのないミニバッチ勾配とは無関係な推定子を持つため、効率的な最適化を示すために、$\alpha$-divergenceを選択した。 さらに,バランスウェイトの一般化性能の向上と,バランスウェイトによって変化する分布のバランスの確認という,バランスウェイトの推定方法を提案する。 最後に,多次元データのバランスをとる際の次元の呪いの一般的な問題として,重みのサンプルサイズ要件について考察する。 本研究は,変分$f$-divergencesを用いて多次元データのバランス重みを推定するための基礎的アプローチを提供する。

Estimating causal effects from observational data is a central problem in many domains. A general approach is to balance covariates with weights such that the distribution of the data mimics randomization. We present generalized balancing weights, Neural Balancing Weights (NBW), to estimate the causal effects of an arbitrary mixture of discrete and continuous interventions. The weights were obtained through direct estimation of the density ratio between the source and balanced distributions by optimizing the variational representation of $f$-divergence. For this, we selected $\alpha$-divergence as it presents efficient optimization because it has an estimator whose sample complexity is independent of its ground truth value and unbiased mini-batch gradients; moreover, it is advantageous for the vanishing-gradient problem. In addition, we provide the following two methods for estimating the balancing weights: improving the generalization performance of the balancing weights and checking the balance of the distribution changed by the weights. Finally, we discuss the sample size requirements for the weights as a general problem of a curse of dimensionality when balancing multidimensional data. Our study provides a basic approach for estimating the balancing weights of multidimensional data using variational $f$-divergences.
翻訳日:2023-10-02 19:24:54 公開日:2023-09-29
# 離散変調連続可変量子鍵分布のセキュリティ

Security of discrete-modulated continuous-variable quantum key distribution ( http://arxiv.org/abs/2303.09255v3 )

ライセンス: Link先を確認
Stefan B\"auml, Carlos Pascual Garc\'ia, Victoria Wright, Omar Fawzi, Antonio Ac\'in(参考訳) 離散変調による連続可変量子鍵分布は、広く利用可能な光学素子と既存の通信インフラを用いて情報理論のセキュリティを提供する可能性がある。 その実装はガウス変調に基づくプロトコルよりもはるかに単純であるが、コヒーレント攻撃に対する有限サイズのセキュリティを証明することは困難である。 本研究では、4つのコヒーレント状態とヘテロダイン検出を含む離散変調量子鍵分布プロトコルに対するコヒーレント攻撃に対する有限サイズのセキュリティを証明するために、これまで離散変数の設定に用いられてきたエントロピー累積定理を適用する。 そのために,従来の手法とは対照的に,すべての情報を離散化するプロトコルを考える。 我々はまず、その漸近速度を現実的なフォトン数カットオフ仮定の下で制限した。 この境界はエントロピー蓄積を用いた有限サイズのセキュリティ証明にアップグレードされる。 解析では、ラウンドあたり0.1-10^{-4}$bitsの範囲において、最大100kmまでの距離に対して漸近的なレートが与えられ、有限の場合と現実的なパラメータでは、n=10^{12}$ rounds と数十kmの距離の後に10ドルgbitsの秘密鍵が与えられる。

Continuous variable quantum key distribution with discrete modulation has the potential to provide information-theoretic security using widely available optical elements and existing telecom infrastructure. While their implementation is significantly simpler than that for protocols based on Gaussian modulation, proving their finite-size security against coherent attacks poses a challenge. In this work we apply the entropy accumulation theorem, a tool that has previously been used in the setting of discrete variables, to prove finite-size security against coherent attacks for a discrete-modulated quantum key distribution protocol involving four coherent states and heterodyne detection. To do so, and contrary to previous approaches, we consider a protocol in which all the information is discretized. We first bound its asymptotic rate under a realistic photon number cutoff assumption. This bound is then upgraded into a finite-size security proof using entropy accumulation. Our analysis provides asymptotic rates in the range of $0.1-10^{-4}$ bits per round for distances up to hundred kilometres, while in the finite case and for realistic parameters, we get of the order of $10$ Gbits of secret key after $n=10^{12}$ rounds and distances of few tens of kilometres.
翻訳日:2023-10-02 19:18:53 公開日:2023-09-29
# 時系列予測のためのマルチタスクメタラベル補正

Multi-task Meta Label Correction for Time Series Prediction ( http://arxiv.org/abs/2303.08103v2 )

ライセンス: Link先を確認
Luxuan Yang, Ting Gao, Wei Wei, Min Dai, Cheng Fang, Jinqiao Duan(参考訳) 時系列分類は避けられない2つの問題に直面している。 1つは部分的特徴情報であり、もう1つはラベル品質の低下であり、モデルの性能に影響を及ぼす可能性がある。 上記の問題に対処するため,マルチタスク・フレームワークの下で,メタラーニングによる時系列データに対するラベル補正手法を開発した。 主な貢献は3つある。 まず,外側ループに対して2分岐ニューラルネットワークを用いてラベル補正モデルを訓練する。 モデルに依存しない内部ループでは、既存の分類モデルをマルチタスク方式で使用し、メタ知識を共同で更新することにより、複雑な時系列上で適応的なラベリングを実現する。 第2に、歴史データのイメージパターンと予測地平線におけるデータの両方に対する新しいデータ可視化手法を考案する。 最後に、XOM、S\&P500、SZ50など、さまざまな財務データを用いて手法をテストする。 その結果,提案手法は既存のラベル補正手法よりも有効で正確であることがわかった。

Time series classification faces two unavoidable problems. One is partial feature information and the other is poor label quality, which may affect model performance. To address the above issues, we create a label correction method to time series data with meta-learning under a multi-task framework. There are three main contributions. First, we train the label correction model with a two-branch neural network for the outer loop. While in the model-agnostic inner loop, we use pre-existing classification models in a multi-task way and jointly update the meta-knowledge, which makes us achieve adaptive labeling on complex time series. Second, we devise new data visualization methods for both image patterns of the historical data and data in the prediction horizon. Finally, we test our method with various financial datasets, including XOM, S\&P500, and SZ50. Results show that our method is more effective and accurate than some existing label correction techniques.
翻訳日:2023-10-02 19:18:30 公開日:2023-09-29
# 画像超解像用再帰一般化変換器

Recursive Generalization Transformer for Image Super-Resolution ( http://arxiv.org/abs/2303.06373v3 )

ライセンス: Link先を確認
Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang(参考訳) トランスフォーマーアーキテクチャは、画像超解像(SR)において顕著な性能を示した。 トランスフォーマーにおける自己注意(SA)の2次計算複雑性のため、既存の手法ではオーバーヘッドを減らすために局所的にSAを採用する傾向にある。 しかし、局所的な設計は、正確な画像再構成に欠かせないグローバルな文脈利用を制限する。 本研究では,大域空間情報を捕捉し,高解像度画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。 具体的には、再帰的一般化自己注意(RG-SA)を提案する。 入力特徴を代表的特徴マップに再帰的に集約し,グローバル情報抽出にクロスアテンションを利用する。 一方、注意行列(クエリ、キー、値)のチャネル次元は、チャネルドメインの冗長性を軽減するためにさらにスケールされる。 さらに,RG-SAと局所自己意識を組み合わせることで,グローバルコンテキストの活用を促進するとともに,モジュール統合のためのハイブリッド適応統合(HAI)を提案する。 HAIは、異なるレベル(ローカルまたはグローバル)の機能間の直接的で効果的な融合を可能にする。 rgtが最近の最先端手法を定量的に定性的に上回っていることを示す広範な実験を行った。 コードはhttps://github.com/zhengchen1999/rgtでリリースされる。

Transformer architectures have exhibited remarkable performance in image super-resolution (SR). Since the quadratic computational complexity of the self-attention (SA) in Transformer, existing methods tend to adopt SA in a local region to reduce overheads. However, the local design restricts the global context exploitation, which is crucial for accurate image reconstruction. In this work, we propose the Recursive Generalization Transformer (RGT) for image SR, which can capture global spatial information and is suitable for high-resolution images. Specifically, we propose the recursive-generalization self-attention (RG-SA). It recursively aggregates input features into representative feature maps, and then utilizes cross-attention to extract global information. Meanwhile, the channel dimensions of attention matrices (query, key, and value) are further scaled to mitigate the redundancy in the channel domain. Furthermore, we combine the RG-SA with local self-attention to enhance the exploitation of the global context, and propose the hybrid adaptive integration (HAI) for module integration. The HAI allows the direct and effective fusion between features at different levels (local or global). Extensive experiments demonstrate that our RGT outperforms recent state-of-the-art methods quantitatively and qualitatively. Code is released at https://github.com/zhengchen1999/RGT.
翻訳日:2023-10-02 19:18:16 公開日:2023-09-29
# VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report]

VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report] ( http://arxiv.org/abs/2303.04068v4 )

ライセンス: Link先を確認
Maureen Daum, Enhao Zhang, Dong He, Stephen Mussmann, Brandon Haynes, Ranjay Krishna, and Magdalena Balazinska(参考訳) VOCALExploreは,ビデオデータセット上でのドメイン固有モデル構築を支援するシステムである。 VOCALExploreはインタラクティブなラベリングセッションをサポートし、ユーザ提供ラベルを使用してモデルをトレーニングする。 VOCALExploreは、収集されたラベルの観察スキューに基づいてサンプルを自動的に選択することで、モデル品質を最大化する。 また,特徴選択を帯域幅増加問題としてキャストすることで,トレーニングモデルで使用する最適な映像表現を選択する。 最後に、VOCALExploreはモデル性能を犠牲にすることなく低レイテンシを実現する最適化を実装している。 VOCALExploreは、候補取得関数と特徴抽出器が与えられたモデル品質に最も近い性能で、可視遅延が低く(イテレーション1秒あたり約1秒)、高価な前処理が不要であることを示す。

We introduce VOCALExplore, a system designed to support users in building domain-specific models over video datasets. VOCALExplore supports interactive labeling sessions and trains models using user-supplied labels. VOCALExplore maximizes model quality by automatically deciding how to select samples based on observed skew in the collected labels. It also selects the optimal video representations to use when training models by casting feature selection as a rising bandit problem. Finally, VOCALExplore implements optimizations to achieve low latency without sacrificing model performance. We demonstrate that VOCALExplore achieves close to the best possible model quality given candidate acquisition functions and feature extractors, and it does so with low visible latency (~1 second per iteration) and no expensive preprocessing.
翻訳日:2023-10-02 19:17:58 公開日:2023-09-29
# ノイズ系の共鳴蛍光

Resonance fluorescence of noisy systems ( http://arxiv.org/abs/2303.01531v3 )

ライセンス: Link先を確認
Rafa{\l} A. Bogaczewicz, Pawe{\l} Machnikowski(参考訳) 共鳴蛍光と呼ばれる共鳴またはほぼ共鳴励起系からの光散乱は、物質の量子状態の調査や量子情報の読み出しのための汎用的なツールとして重要視されている。 本研究では、遷移エネルギーが2つの重要なノイズ過程(位相拡散につながる白色雑音ゆらぎと有限状態の任意の定常マルコフ雑音過程)のノイズを受ける系の低励起限界における共鳴蛍光の一般理論を考案する。 後者は、ランダムなテレグラフノイズの場合と、任意の数の同一のランダムなテレグラフノイズコントリビューションの和に適用する。 ノイズの異なるクラスが特性的にRFスペクトルに影響を与えることを示す。 したがって、RFスペクトルは物理系に存在する雑音の特性に関する情報を伝達する。

Light scattering from resonantly or nearly resonantly excited systems, known as resonance fluorescence, has been gaining importance as a versatile tool for investigating quantum states of matter and readout of quantum information, recently including also the inherently noisy solid state systems. In this work we develop a general theory of resonance fluorescence in the low excitation limit on systems in which the transition energy is subject to noise for two important classes of noise processes: white noise fluctuations that lead to phase diffusion and an arbitrary stationary Markovian noise process on a finite set of states. We apply the latter to the case of random telegraph noise and a sum of an arbitrary number of identical random telegraph noise contributions. We show that different classes of noise influence the RF spectrum in a characteristic way. Hence, the RF spectrum carries information on the characteristics of noise present in the physical system.
翻訳日:2023-10-02 19:17:43 公開日:2023-09-29
# 単眼動的シーン分解のための意味的注意フロー場

Semantic Attention Flow Fields for Monocular Dynamic Scene Decomposition ( http://arxiv.org/abs/2303.01526v2 )

ライセンス: Link先を確認
Yiqing Liang, Eliot Laidlaw, Alexander Meyerowitz, Srinath Sridhar, James Tompkin(参考訳) ビデオから、時間変化する色、密度、シーンフロー、意味論、注意情報をキャプチャするニューラルボリュームを再構成する。 セマンティクスと注意により、時空を通して背景から別々に有意な前景オブジェクトを特定できる。 低解像度のセマンティクスとアテンションの機能を緩和するため、イメージ全体のコンテキストで詳細を交換するピラミッドを計算します。 最適化後、シーンを分解するサリエンシ対応クラスタリングを行う。 実世界のシーンを評価するために、NVIDIA Dynamic SceneとDyCheckデータセットにオブジェクトマスクを注釈付けします。 本研究では, 動的シーンを教師付き手法と競合する性能で非教師付き方式で分解し, 静的/動的分割法よりも前景/背景セグメンテーションを改善することを実証する。 プロジェクトWebページ: https://visual.cs.brown.edu/saff

From video, we reconstruct a neural volume that captures time-varying color, density, scene flow, semantics, and attention information. The semantics and attention let us identify salient foreground objects separately from the background across spacetime. To mitigate low resolution semantic and attention features, we compute pyramids that trade detail with whole-image context. After optimization, we perform a saliency-aware clustering to decompose the scene. To evaluate real-world scenes, we annotate object masks in the NVIDIA Dynamic Scene and DyCheck datasets. We demonstrate that this method can decompose dynamic scenes in an unsupervised way with competitive performance to a supervised method, and that it improves foreground/background segmentation over recent static/dynamic split methods. Project Webpage: https://visual.cs.brown.edu/saff
翻訳日:2023-10-02 19:17:31 公開日:2023-09-29
# メゾスコピック量子状態と回路形成のためのrydberg原子の量子制御

Quantum control of Rydberg atoms for mesoscopic-scale quantum state and circuit preparation ( http://arxiv.org/abs/2302.07893v2 )

ライセンス: Link先を確認
Valerio Crescimanna, Jacob Taylor, Aaron Z. Goldberg, Khabat Heshami(参考訳) 個別に閉じ込められたRydberg原子は、スケーラブルな量子シミュレーションとプログラム可能な量子コンピュータの開発のためのプラットフォームとして大きな可能性を示している。 特に、Rydbergブロック効果は、物理量子ビットを符号化する低次電子状態を介して、高速な量子ビット相互作用と長いコヒーレンス時間の両方を促進するために用いられる。 既存のRydberg-atom-based platformをフォールトトレラント量子計算に近づけるために、5つの原子からなるシステムで高忠実性状態と回路準備を示す。 具体的には、完全に接続されたクラスタ状態を確実に生成し、Laflammeらによる 'Perfect Quantum Error Correcting Code' に基づいて誤り訂正符号化回路をシミュレートするために量子制御が利用できることを示す。 [Phys. Rev. Lett. 77, 198 (1996)] 本研究は,これらのアイデアと実装を実験に直接アクセスし,実験誤差に対する耐雑音性を示すものである。 このアプローチでは、最小量子ビットモジュールの直接および高忠実性実装のための標準ゲート型量子回路と組み合わせて、小さなサブシステムにおける量子制御の適用を動機付ける。

Individually trapped Rydberg atoms show significant promise as a platform for scalable quantum simulation and for development of programmable quantum computers. In particular, the Rydberg blockade effect can be used to facilitate both fast qubit-qubit interactions and long coherence times via low-lying electronic states encoding the physical qubits. To bring existing Rydberg-atom-based platforms a step closer to fault-tolerant quantum computation, we demonstrate high-fidelity state and circuit preparation in a system of five atoms. We specifically show that quantum control can be used to reliably generate fully connected cluster states and to simulate the error-correction encoding circuit based on the 'Perfect Quantum Error Correcting Code' by Laflamme et al. [Phys. Rev. Lett. 77, 198 (1996)]. Our results make these ideas and their implementation directly accessible to experiments and demonstrate a promising level of noise tolerance with respect to experimental errors. With this approach, we motivate the application of quantum control in small subsystems in combination with the standard gate-based quantum circuits for direct and high-fidelity implementation of few-qubit modules.
翻訳日:2023-10-02 19:16:45 公開日:2023-09-29
# コードのための大規模言語モデル: セキュリティ強化と逆行テスト

Large Language Models for Code: Security Hardening and Adversarial Testing ( http://arxiv.org/abs/2302.05319v4 )

ライセンス: Link先を確認
Jingxuan He and Martin Vechev(参考訳) 大きな言語モデル(大きなlms)は、ますます巨大なコードベースで訓練され、コードを生成するのに使われる。 しかし、LMはセキュリティを意識せず、しばしば安全でないコードを生成する。 この研究は、2つの重要な軸に沿ってlmsのセキュリティを研究する。 (i)セキュアコード生成におけるlmsの信頼性向上を目的としたセキュリティ強化 (ii)敵対的立場からlsmのセキュリティを評価しようとする敵対的テスト。 制御コード生成と呼ばれる新しいセキュリティタスクを定式化することで、これら2つに対処する。 タスクはパラメトリックであり、LMが機能的に正しいコードを生成する能力を保持しながら、LMを誘導して安全または安全でないコードを生成するためにバイナリプロパティを入力する。 この課題を解決するために,SVENと呼ばれる新しい学習手法を提案する。 SVENはプロパティ固有の連続ベクトルを利用して、LMの重みを変更することなくプログラム生成を与えられたプロパティへ導く。 トレーニング手順は、コードの各領域に特別な損失項を強制することにより、これらの連続ベクトルを最適化する。 SVENは強力なセキュリティ制御を実現する上で極めて有効であることを示す。 例えば、2.7Bパラメータを持つ最先端のCodeGen LMは59.1%の時間でセキュアなコードを生成する。 このLM上でセキュリティ強化(または敵検定)を行うためにSVENを使用する場合、比率は92.3%(または36.8%に低下)に大幅に向上する。 重要なことに、SVENは機能的正確性において元のLMと密接に一致している。

Large language models (large LMs) are increasingly trained on massive codebases and used to generate code. However, LMs lack awareness of security and are found to frequently produce unsafe code. This work studies the security of LMs along two important axes: (i) security hardening, which aims to enhance LMs' reliability in generating secure code, and (ii) adversarial testing, which seeks to evaluate LMs' security at an adversarial standpoint. We address both of these by formulating a new security task called controlled code generation. The task is parametric and takes as input a binary property to guide the LM to generate secure or unsafe code, while preserving the LM's capability of generating functionally correct code. We propose a novel learning-based approach called SVEN to solve this task. SVEN leverages property-specific continuous vectors to guide program generation towards the given property, without modifying the LM's weights. Our training procedure optimizes these continuous vectors by enforcing specialized loss terms on different regions of code, using a high-quality dataset carefully curated by us. Our extensive evaluation shows that SVEN is highly effective in achieving strong security control. For instance, a state-of-the-art CodeGen LM with 2.7B parameters generates secure code for 59.1% of the time. When we employ SVEN to perform security hardening (or adversarial testing) on this LM, the ratio is significantly boosted to 92.3% (or degraded to 36.8%). Importantly, SVEN closely matches the original LMs in functional correctness.
翻訳日:2023-10-02 19:16:22 公開日:2023-09-29
# 都市環境における自律運転のための中レベル入力生成による階層型逆数模倣学習

Hierarchical Generative Adversarial Imitation Learning with Mid-level Input Generation for Autonomous Driving on Urban Environments ( http://arxiv.org/abs/2302.04823v2 )

ライセンス: Link先を確認
Gustavo Claudio Karl Couto and Eric Aislan Antonelo(参考訳) 現実的な都市ナビゲーションシナリオに対する堅牢な制御ポリシの導出は、簡単な作業ではない。 エンドツーエンドのアプローチでは、これらのポリシーは車両のカメラからの高次元画像をステアリングやスロットルのような低レベルのアクションにマッピングする必要がある。 純粋強化学習 (rl) のアプローチは報酬のみに基づいているが、生成的敵意模倣学習 (generative adversarial imitation learning, gail) エージェントは、環境と相互作用しながら専門家のデモンストレーションから学習する。 本研究では, エージェント環境の中間レベル入力表現を同時に学習しながら, 低レベル動作に直接知覚知覚をマッピングする, エンドツーエンドアプローチで車両の自律ナビゲーションを解決するためのhGAILアーキテクチャを提案する。 The proposed hGAIL consists of an hierarchical Adversarial Imitation Learning architecture composed of two main modules: the GAN (Generative Adversarial Nets) which generates the Bird's-Eye View (BEV) representation mainly from the images of three frontal cameras of the vehicle, and the GAIL which learns to control the vehicle based mainly on the BEV predictions from the GAN as input.Our experiments have shown that GAIL exclusively from cameras (without BEV) fails to even learn the task, while hGAIL, after training, was able to autonomously navigate successfully in all intersections of the city.

Deriving robust control policies for realistic urban navigation scenarios is not a trivial task. In an end-to-end approach, these policies must map high-dimensional images from the vehicle's cameras to low-level actions such as steering and throttle. While pure Reinforcement Learning (RL) approaches are based exclusively on rewards,Generative Adversarial Imitation Learning (GAIL) agents learn from expert demonstrations while interacting with the environment, which favors GAIL on tasks for which a reward signal is difficult to derive. In this work, the hGAIL architecture was proposed to solve the autonomous navigation of a vehicle in an end-to-end approach, mapping sensory perceptions directly to low-level actions, while simultaneously learning mid-level input representations of the agent's environment. The proposed hGAIL consists of an hierarchical Adversarial Imitation Learning architecture composed of two main modules: the GAN (Generative Adversarial Nets) which generates the Bird's-Eye View (BEV) representation mainly from the images of three frontal cameras of the vehicle, and the GAIL which learns to control the vehicle based mainly on the BEV predictions from the GAN as input.Our experiments have shown that GAIL exclusively from cameras (without BEV) fails to even learn the task, while hGAIL, after training, was able to autonomously navigate successfully in all intersections of the city.
翻訳日:2023-10-02 19:16:01 公開日:2023-09-29
# entl: 具体化ナビゲーションコース学習装置

ENTL: Embodied Navigation Trajectory Learner ( http://arxiv.org/abs/2304.02639v3 )

ライセンス: Link先を確認
Klemen Kotar, Aaron Walsman, Roozbeh Mottaghi(参考訳) エンボディナビゲーションのための長いシーケンス表現を抽出する手法であるEmbodied Navigation Trajectory Learner (ENTL)を提案する。 提案手法は,世界モデリング,ローカライゼーション,模倣学習を単一シーケンス予測タスクに統合する。 我々は,現在の状態と動作に基づく将来の状態のベクトル量子化予測を用いてモデルを訓練する。 ENTLの汎用アーキテクチャは、複数の困難な実施タスクのための時空間シーケンスエンコーダの共有を可能にする。 ローカライゼーションや将来のフレーム予測(世界モデリングのプロキシ)といった補助タスクを実行しながら,強力なベースラインよりもはるかに少ないデータを用いて,ナビゲーションタスクの競合性能を実現する。 提案手法の重要な特徴は、モデルが明示的な報酬信号なしで事前訓練されることであり、その結果、複数のタスクや環境に一般化できるということである。

We propose Embodied Navigation Trajectory Learner (ENTL), a method for extracting long sequence representations for embodied navigation. Our approach unifies world modeling, localization and imitation learning into a single sequence prediction task. We train our model using vector-quantized predictions of future states conditioned on current states and actions. ENTL's generic architecture enables sharing of the spatio-temporal sequence encoder for multiple challenging embodied tasks. We achieve competitive performance on navigation tasks using significantly less data than strong baselines while performing auxiliary tasks such as localization and future frame prediction (a proxy for world modeling). A key property of our approach is that the model is pre-trained without any explicit reward signal, which makes the resulting model generalizable to multiple tasks and environments.
翻訳日:2023-10-02 19:07:17 公開日:2023-09-29
# 量子最適制御のための効率的な量子アルゴリズム

Efficient Quantum Algorithms for Quantum Optimal Control ( http://arxiv.org/abs/2304.02613v2 )

ライセンス: Link先を確認
Xiantao Li, Chunhao Wang(参考訳) 本稿では,量子最適制御問題を解くために,古典的アルゴリズムよりも指数関数的に速い効率的な量子アルゴリズムを提案する。 この問題は、時給$T$で物理量を最大化する制御変数を見つけることであり、システムは時間依存のシュリンガー方程式によって支配される。 このタイプの制御問題は、機械学習とも複雑な関係を持つ。 本アルゴリズムは時間依存型ハミルトンシミュレーション法と高速勾配推定アルゴリズムに基づいている。 また,制御関数の有限次元表現,schr\"odinger方程式の離散化,数値二次数,最適化など,様々なステップからの総誤差を定量化する包括的な誤差解析も提供する。 量子アルゴリズムにはフォールトトレラントな量子コンピュータが必要です。

In this paper, we present efficient quantum algorithms that are exponentially faster than classical algorithms for solving the quantum optimal control problem. This problem involves finding the control variable that maximizes a physical quantity at time $T$, where the system is governed by a time-dependent Schr\"odinger equation. This type of control problem also has an intricate relation with machine learning. Our algorithms are based on a time-dependent Hamiltonian simulation method and a fast gradient-estimation algorithm. We also provide a comprehensive error analysis to quantify the total error from various steps, such as the finite-dimensional representation of the control function, the discretization of the Schr\"odinger equation, the numerical quadrature, and optimization. Our quantum algorithms require fault-tolerant quantum computers.
翻訳日:2023-10-02 19:07:06 公開日:2023-09-29
# 物質波輸送のための正規ハミルトン停止ラチェット

A regular Hamiltonian halting ratchet for matter wave transport ( http://arxiv.org/abs/2304.01873v2 )

ライセンス: Link先を確認
N. Dupont, L. Gabardos, F. Arrouas, N. Ombredane, J. Billy, B. Peaudecerf, D. Gu\'ery-Odelin(参考訳) 変動周期ポテンシャルの位相空間における周期的に安定な可積分軌道を利用するハミルトンラチェットの設計について報告し, 粒子の線形非拡散輸送に繋がる。 ボース=アインシュタイン凝縮体を変調された1次元光学格子に利用し、この新しい空間ラチェット輸送の最初の観測を行う。 半古典的な状態では、量子輸送はフロケ状態の混合による有効プランク定数に強く依存する。 また, 輸送周期性を高めるためにフローケット状態への効率的な初期状態生成のための量子最適制御の興味を示す。

We report on the design of a Hamiltonian ratchet exploiting periodically at rest integrable trajectories in the phase space of a modulated periodic potential, leading to the linear non-diffusive transport of particles. Using Bose-Einstein condensates in a modulated one-dimensional optical lattice, we make the first observations of this new spatial ratchet transport. In the semiclassical regime, the quantum transport strongly depends on the effective Planck constant due to Floquet state mixing. We also demonstrate the interest of quantum optimal control for efficient initial state preparation into the transporting Floquet states to enhance the transport periodicity.
翻訳日:2023-10-02 19:06:52 公開日:2023-09-29
# 教師なしバックライト画像強調のための反復学習

Iterative Prompt Learning for Unsupervised Backlit Image Enhancement ( http://arxiv.org/abs/2303.17569v2 )

ライセンス: Link先を確認
Zhexin Liang, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Chen Change Loy(参考訳) 画素レベルの画像強調のためのCLIP(Contrastive Language- Image Pre-Training)の可能性を探ることにより,CLIP-LIT(CLIP-LIT)と略される新しいバックライト画像強調法を提案する。 オープンワールドのCLIPは、バックライト画像と well-lit 画像の区別だけでなく、輝度の異なる異種領域の認識にも役立ち、拡張ネットワークの最適化が容易であることを示す。 高レベルのタスクや画像操作タスクとは異なり、CLIPを拡張タスクに直接適用するのは簡単ではない。 そこで本研究では,クリップ潜在空間におけるプロンプト(負/正のサンプル)と対応する画像(バックリット画像/ウェルリット画像)とのテキスト・イメージの類似性を制約することにより,最初に最初のプロンプトペアを学習するプロンプト学習フレームワークを考案する。 次に,拡張結果と初期プロンプトペアとのテキスト・画像類似性に基づいて拡張ネットワークを訓練する。 初期プロンプトペアの精度をさらに向上させるため,バックライト画像間の分布ギャップを低減し,結果の強化,ランク学習による高輝度画像とを反復的に微調整することで,エンハンスパフォーマンスの向上を図る。 本手法は,視覚的に満足できる結果が得られるまで,プロンプト学習フレームワークとエンハンスメントネットワークの更新を交互に行う。 広範な実験により,本手法は,データ対を必要とせず,視覚品質と一般化能力の観点から最先端の手法よりも優れていることが示された。

We propose a novel unsupervised backlit image enhancement method, abbreviated as CLIP-LIT, by exploring the potential of Contrastive Language-Image Pre-Training (CLIP) for pixel-level image enhancement. We show that the open-world CLIP prior not only aids in distinguishing between backlit and well-lit images, but also in perceiving heterogeneous regions with different luminance, facilitating the optimization of the enhancement network. Unlike high-level and image manipulation tasks, directly applying CLIP to enhancement tasks is non-trivial, owing to the difficulty in finding accurate prompts. To solve this issue, we devise a prompt learning framework that first learns an initial prompt pair by constraining the text-image similarity between the prompt (negative/positive sample) and the corresponding image (backlit image/well-lit image) in the CLIP latent space. Then, we train the enhancement network based on the text-image similarity between the enhanced result and the initial prompt pair. To further improve the accuracy of the initial prompt pair, we iteratively fine-tune the prompt learning framework to reduce the distribution gaps between the backlit images, enhanced results, and well-lit images via rank learning, boosting the enhancement performance. Our method alternates between updating the prompt learning framework and enhancement network until visually pleasing results are achieved. Extensive experiments demonstrate that our method outperforms state-of-the-art methods in terms of visual quality and generalization ability, without requiring any paired data.
翻訳日:2023-10-02 19:06:43 公開日:2023-09-29
# ボリュームオルガンセグメンテーションの基礎モデルとマイトショットパラメータ効率向上のための微調整

Towards foundation models and few-shot parameter-efficient fine-tuning for volumetric organ segmentation ( http://arxiv.org/abs/2303.17051v2 )

ライセンス: Link先を確認
Julio Silva-Rodr\'iguez, Jose Dolz and Ismail Ben Ayed(参考訳) 近年のコンピュータビジョンとNLPの基礎モデルの増加に伴い、下流タスクで大規模モデルを微調整する事前訓練適応戦略が人気を集めている。 しかしながら、従来の微調整アプローチでは、ターゲットタスクのラベル付きデータが少ない場合、重要なリソースが必要であり、最適以下の結果が得られる可能性がある。 特に臨床場面ではそうである。 この課題に対処するために,医療画像分割のための新しい現実的な設定であるfseft( few-shot efficient fine-tuning)を定式化した。 さらに, 医用画像セグメンテーションに適したパラメータ効率の良い微調整戦略を提案する。 (a)密集した予測作業に適した空間アダプタモジュール b)タスク固有の事前知識を活用する制約付きトランスダクティブ推論。 臓器セグメンテーションのための公開CTデータセットの集合に関する包括的実験は、数ショットシナリオにおける標準的な微調整手法の限界を明らかにし、視覚アダプタやトランスダクティブ推論の可能性を示し、基礎モデルの適合性を確認する。

With the recent raise of foundation models in computer vision and NLP, the pretrain-and-adapt strategy, where a large-scale model is fine-tuned on downstream tasks, is gaining popularity. However, traditional fine-tuning approaches may still require significant resources and yield sub-optimal results when the labeled data of the target task is scarce. This is especially the case in clinical settings. To address this challenge, we formalize few-shot efficient fine-tuning (FSEFT), a novel and realistic setting for medical image segmentation. Furthermore, we introduce a novel parameter-efficient fine-tuning strategy tailored to medical image segmentation, with (a) spatial adapter modules that are more appropriate for dense prediction tasks; and (b) a constrained transductive inference, which leverages task-specific prior knowledge. Our comprehensive experiments on a collection of public CT datasets for organ segmentation reveal the limitations of standard fine-tuning methods in few-shot scenarios, point to the potential of vision adapters and transductive inference, and confirm the suitability of foundation models.
翻訳日:2023-10-02 19:06:11 公開日:2023-09-29
# アクティブな自己監視型学習:必要最低限の関係性

Active Self-Supervised Learning: A Few Low-Cost Relationships Are All You Need ( http://arxiv.org/abs/2303.15256v2 )

ライセンス: Link先を確認
Vivien Cabannes, Leon Bottou, Yann Lecun, Randall Balestriero(参考訳) Self-Supervised Learning (SSL)は、ラベルのないデータから転送可能な表現を学習する選択肢のソリューションとして登場した。 しかし、SSLは意味論的に類似していること、すなわち肯定的なビューで知られているサンプルを構築する必要がある。 このような知識を必要とすることはSSLの主要な制限であり、しばしば同じ入力に既知のデータ拡張を適用するといったアドホック戦略によって取り組まれる。 本研究では,oracle がサンプル間のセマンティック関係を問合せする positive active learning (pal) を通じて,この原則を形式化し,一般化する。 PALは3つの主要な目標を達成する。 まず、SSLを超えて理論的に基礎を成す学習フレームワークを公開し、類似性グラフに基づいて、採用するオラクルに応じて教師付きおよび半教師付き学習に取り組むように拡張する。 第二に、事前知識、例えばいくつかのラベルをトレーニングパイプラインの変更なしにSSL損失に組み込むための一貫したアルゴリズムを提供する。 第3に、アノテートデータセットに対する低コストなソリューションを提供する適切なアクティブラーニングフレームワークを提供し、入力間のセマンティックな関係に関する単純な問合せに基づくアクティブラーニングの理論と実践のギャップを確実に引き起こす。

Self-Supervised Learning (SSL) has emerged as the solution of choice to learn transferable representations from unlabeled data. However, SSL requires to build samples that are known to be semantically akin, i.e. positive views. Requiring such knowledge is the main limitation of SSL and is often tackled by ad-hoc strategies e.g. applying known data-augmentations to the same input. In this work, we formalize and generalize this principle through Positive Active Learning (PAL) where an oracle queries semantic relationships between samples. PAL achieves three main objectives. First, it unveils a theoretically grounded learning framework beyond SSL, based on similarity graphs, that can be extended to tackle supervised and semi-supervised learning depending on the employed oracle. Second, it provides a consistent algorithm to embed a priori knowledge, e.g. some observed labels, into any SSL losses without any change in the training pipeline. Third, it provides a proper active learning framework yielding low-cost solutions to annotate datasets, arguably bringing the gap between theory and practice of active learning that is based on simple-to-answer-by-non-experts queries of semantic relationships between inputs.
翻訳日:2023-10-02 19:05:53 公開日:2023-09-29
# 微分進化を用いた変分量子アルゴリズムにおける局所最小値の回避

Using Differential Evolution to avoid local minima in Variational Quantum Algorithms ( http://arxiv.org/abs/2303.12186v2 )

ライセンス: Link先を確認
Daniel Fa\'ilde, Jos\'e Daniel Viqueira, Mariamo Mussa Juane, Andr\'es G\'omez(参考訳) 変分量子アルゴリズム(VQA)は、様々な分野で量子コンピューティングを利用する最も有望なNISQ時代のアルゴリズムの一つである。 しかしながら、これらのアルゴリズムの根底にある最適化プロセスは、通常、局所的なミニマ問題や不毛の高原問題に対処し、効率よくスケーリングできない。 本研究の目的は,これらの問題の影響を回避あるいは軽減できる代替最適化手法を検討することである。 そこで本研究では,VQAs最適化に微分進化(DE)アルゴリズムを適用することを提案する。 我々の仮説では、DEは2つの主な理由から勾配と局所ミニマの消失に耐性がある。 (i)勾配には依存せず、 (ii)その変異と組換えスキームにより、これらのケースにおいてもdeは進化し続けることができる。 提案手法の性能を実証するために,まず,変動量子固有解法アルゴリズムを用いて,最先端局所最適化器(SLSQP,COBYLA,L-BFGS-B,SPSA)とDECを比較した。 その結果、deは常にローカルオプティマイザを上回ることがわかった。 特に、14キュービットの1次元イジングチェーンの正確なシミュレーションでは、デは100\%の成功率で基底状態を達成するが、局所最適化器は約40\%である。 また,DEMと局所最適化器を組み合わせることで,局所最小化を回避することでエネルギー推定の精度が向上することを示した。 最後に、1D HubbardモデルでDECの性能を研究することによって、我々の結果をより複雑な問題に拡張する方法を実証する。

Variational Quantum Algorithms (VQAs) are among the most promising NISQ-era algorithms for harnessing quantum computing in diverse fields. However, the underlying optimization processes within these algorithms usually deal with local minima and barren plateau problems, preventing them from scaling efficiently. Our goal in this paper is to study alternative optimization methods that can avoid or reduce the effect of these problems. To this end, we propose to apply the Differential Evolution (DE) algorithm to VQAs optimizations. Our hypothesis is that DE is resilient to vanishing gradients and local minima for two main reasons: (i) it does not depend on gradients, and (ii) its mutation and recombination schemes allow DE to continue evolving even in these cases. To demonstrate the performance of our approach, first, we use a robust local minima problem to compare state-of-the-art local optimizers (SLSQP, COBYLA, L-BFGS-B and SPSA) against DE using the Variational Quantum Eigensolver algorithm. Our results show that DE always outperforms local optimizers. In particular, in exact simulations of a 1D Ising chain with 14 qubits, DE achieves the ground state with a 100\% success rate, while local optimizers only exhibit around 40\%. We also show that combining DE with local optimizers increases the accuracy of the energy estimation once avoiding local minima. Finally, we demonstrate how our results can be extended to more complex problems by studying DE performance in a 1D Hubbard model.
翻訳日:2023-10-02 19:05:32 公開日:2023-09-29
# 不満足な部分最適化によるcspの効率的な説明(拡張アルゴリズムと例)

Efficiently Explaining CSPs with Unsatisfiable Subset Optimization (extended algorithms and examples) ( http://arxiv.org/abs/2303.11712v2 )

ライセンス: Link先を確認
Emilio Gamba, Bart Bogaerts, Tias Guns(参考訳) 我々は,制約満足度問題 (CSP) の解を,人間に理解可能な方法で段階的に説明する手法を最近提案した。 ここでは、コスト関数を用いて単純さを定量化する単純な推論ステップの列を説明する。 説明生成アルゴリズムは、派生した不満足な式から最小不満足な部分集合(MUS)を抽出し、いわゆる非冗長な説明とMUSを1対1で対応させる。 しかし、mus抽出アルゴリズムは、与えられたコスト関数に対する部分的最小性や最適性の保証を提供しない。 したがって、これらの形式的基礎の上に構築し、改善の主なポイント、すなわち(与えられたコストメトリックに関して)確実に最適な説明を効率的に生成する方法に取り組む。 そこで本研究では,(1)最適制約を満たさない部分集合を探索するヒット集合型アルゴリズム,(2)複数のアルゴリズム呼び出しで関連する情報を再利用する手法,(3)説明シーケンス生成を高速化するためにドメイン固有情報を利用する手法を開発した。 我々は多数のcsp問題に対してアルゴリズムを実験的に検証した。 我々のアルゴリズムは、説明品質と計算時間(標準のMUSアプローチよりも平均56%高速)において、MUSアプローチよりも優れていることがわかった。

We build on a recently proposed method for stepwise explaining solutions of Constraint Satisfaction Problems (CSP) in a human-understandable way. An explanation here is a sequence of simple inference steps where simplicity is quantified using a cost function. The algorithms for explanation generation rely on extracting Minimal Unsatisfiable Subsets (MUS) of a derived unsatisfiable formula, exploiting a one-to-one correspondence between so-called non-redundant explanations and MUSs. However, MUS extraction algorithms do not provide any guarantee of subset minimality or optimality with respect to a given cost function. Therefore, we build on these formal foundations and tackle the main points of improvement, namely how to generate explanations efficiently that are provably optimal (with respect to the given cost metric). For that, we developed (1) a hitting set-based algorithm for finding the optimal constrained unsatisfiable subsets; (2) a method for re-using relevant information over multiple algorithm calls; and (3) methods exploiting domain-specific information to speed up the explanation sequence generation. We experimentally validated our algorithms on a large number of CSP problems. We found that our algorithms outperform the MUS approach in terms of explanation quality and computational time (on average up to 56 % faster than a standard MUS approach).
翻訳日:2023-10-02 19:05:02 公開日:2023-09-29
# 階層型変分オートエンコーダによる逆問題正則化

Inverse problem regularization with hierarchical variational autoencoders ( http://arxiv.org/abs/2303.11217v2 )

ライセンス: Link先を確認
Jean Prost and Antoine Houdard and Andr\'es Almansa and Nicolas Papadakis(参考訳) 本稿では,HVAE(Deep Hierarchical Variational Autoencoder)を画像として,不規則な逆問題に対する正規化を提案する。 提案手法は,その利点を合成する i)denoiser ベースの plug \&play アプローチ及び 二 逆問題に対する生成モデルに基づくアプローチ まず,プラグ・アンド・プレイ法(pnp)の収束保証の利点を享受する効率的なアルゴリズムの設計にvae特性を利用する。 第2に,提案するPnP-HVAEモデルでは,任意のサイズの自然画像に対する画像復元問題を解くことができる。 提案手法は, PnP-HVAE法とSOTAデノイザを用いたPnP法と, 生成モデルに基づく他のSOTA復元法との競合性を示す。

In this paper, we propose to regularize ill-posed inverse problems using a deep hierarchical variational autoencoder (HVAE) as an image prior. The proposed method synthesizes the advantages of i) denoiser-based Plug \& Play approaches and ii) generative model based approaches to inverse problems. First, we exploit VAE properties to design an efficient algorithm that benefits from convergence guarantees of Plug-and-Play (PnP) methods. Second, our approach is not restricted to specialized datasets and the proposed PnP-HVAE model is able to solve image restoration problems on natural images of any size. Our experiments show that the proposed PnP-HVAE method is competitive with both SOTA denoiser-based PnP approaches, and other SOTA restoration methods based on generative models.
翻訳日:2023-10-02 19:04:42 公開日:2023-09-29
# SITReg:画像登録のための対称・逆整合・トポロジーのためのマルチレゾリューションアーキテクチャ

SITReg: Multi-resolution architecture for symmetric, inverse consistent, and topology preserving image registration ( http://arxiv.org/abs/2303.10211v3 )

ライセンス: Link先を確認
Joel Honkamaa and Pekka Marttinen(参考訳) 深層学習は、2つの画像の座標系間のマッピングを見つけることを目的として、変形可能な医用画像登録のための古典的反復手法の強力な代替手段として登場した。 一般的な古典的画像登録法は、対称性、逆整合性、構造によるトポロジー保存の有用な帰納的バイアスを強制する。 しかし、多くの深層学習登録手法は損失関数を介してこれらの特性を奨励するが、いずれの方法もそれらすべてを構成的に強制するものではない。 本稿では, 対称, 逆整合性, トポロジ保存による多分解能特徴表現の抽出に基づく新しい登録アーキテクチャを提案する。 また,変形場のメモリ効率向上のための暗黙の層も開発した。 提案手法は,2つのデータセットに対する最先端の登録精度を実現する。

Deep learning has emerged as a strong alternative for classical iterative methods for deformable medical image registration, where the goal is to find a mapping between the coordinate systems of two images. Popular classical image registration methods enforce the useful inductive biases of symmetricity, inverse consistency, and topology preservation by construct. However, while many deep learning registration methods encourage these properties via loss functions, none of the methods enforces all of them by construct. Here, we propose a novel registration architecture based on extracting multi-resolution feature representations which is by construct symmetric, inverse consistent, and topology preserving. We also develop an implicit layer for memory efficient inversion of the deformation fields. Our method achieves state-of-the-art registration accuracy on two datasets.
翻訳日:2023-10-02 19:04:27 公開日:2023-09-29
# OR-NeRF:ニューラルラジアンス場を用いたマルチビューセグメンテーションによる3次元シーンからの物体除去

OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation with Neural Radiance Fields ( http://arxiv.org/abs/2305.10503v3 )

ライセンス: Link先を確認
Youtan Yin, Zhoujie Fu, Fan Yang, Guosheng Lin(参考訳) ニューラル・レージアンス・フィールド(NeRF)の出現により,3次元シーン編集への関心が高まっている。 編集における重要なタスクは、視覚的合理的性とマルチビューの一貫性を確保しながら、シーンからオブジェクトを取り除くことである。 しかし、現在のメソッドは、時間を要するオブジェクトラベリング、特定のターゲットを削除する能力の制限、削除後のレンダリング品質の低下といった課題に直面している。 本稿では,従来よりも少ない時間で,ユーザ登録ポイントやテキストプロンプトで3dシーンからオブジェクトを削除できる,新たなオブジェクト削除パイプラインor-nerfを提案する。 提案手法は, ユーザアノテーションを3次元幾何と疎対応により全ビューに展開し, 処理負担の軽減を図る。 次に,近年の2次元セグメンテーションモデルsegment-anything (sam) を用いてマスクの予測を行い,2次元インパインティングモデルを用いてカラー監督を行う。 最後に, 物体除去後の形状と外観の整合性を維持するために, 奥行き監視と知覚損失を適用した。 実験結果から,本手法は品質と量の両方を考慮して,従来よりも少ない時間で編集品質を向上することが示された。

The emergence of Neural Radiance Fields (NeRF) for novel view synthesis has increased interest in 3D scene editing. An essential task in editing is removing objects from a scene while ensuring visual reasonability and multiview consistency. However, current methods face challenges such as time-consuming object labeling, limited capability to remove specific targets, and compromised rendering quality after removal. This paper proposes a novel object-removing pipeline, named OR-NeRF, that can remove objects from 3D scenes with user-given points or text prompts on a single view, achieving better performance in less time than previous works. Our method spreads user annotations to all views through 3D geometry and sparse correspondence, ensuring 3D consistency with less processing burden. Then recent 2D segmentation model Segment-Anything (SAM) is applied to predict masks, and a 2D inpainting model is used to generate color supervision. Finally, our algorithm applies depth supervision and perceptual loss to maintain consistency in geometry and appearance after object removal. Experimental results demonstrate that our method achieves better editing quality with less time than previous works, considering both quality and quantity.
翻訳日:2023-10-02 18:59:12 公開日:2023-09-29
# 変圧器のアクティブ学習におけるデータセット転送性について

On Dataset Transferability in Active Learning for Transformers ( http://arxiv.org/abs/2305.09807v2 )

ライセンス: Link先を確認
Fran Jeleni\'c, Josip Juki\'c, Nina Drobac, Jan \v{S}najder(参考訳) アクティブラーニング(al)は、モデル学習に最も有益な例をクエリすることで、ラベリングコストを削減することを目的としている。 微調整変換器を用いた事前学習言語モデル(PLM)に対するALの有効性が示されているが、一方のモデルから他方への変換によって得られるALの利得の程度は明らかになっていない。 テキスト分類におけるアクティブなデータセットの転送可能性の問題について考察し、ALを用いて構築したデータセットと特定のPLMを併用して異なるPLMをトレーニングする場合にALゲインが持続するかどうかを検討する。 我々は、異なるplmでクエリされたインスタンスの類似性にalデータセットの転送可能性をリンクし、同じ取得シーケンスを持つalメソッドが使用するモデルに関係なく、高度に転送可能なデータセットを生成することを示す。 さらに, 取得シーケンスの類似性は, モデルの選択よりもAL法の選択に強く影響されていることを示す。

Active learning (AL) aims to reduce labeling costs by querying the examples most beneficial for model learning. While the effectiveness of AL for fine-tuning transformer-based pre-trained language models (PLMs) has been demonstrated, it is less clear to what extent the AL gains obtained with one model transfer to others. We consider the problem of transferability of actively acquired datasets in text classification and investigate whether AL gains persist when a dataset built using AL coupled with a specific PLM is used to train a different PLM. We link the AL dataset transferability to the similarity of instances queried by the different PLMs and show that AL methods with similar acquisition sequences produce highly transferable datasets regardless of the models used. Additionally, we show that the similarity of acquisition sequences is influenced more by the choice of the AL method than the choice of the model.
翻訳日:2023-10-02 18:58:47 公開日:2023-09-29
# PESTS: セマンティックテキスト類似性のためのペルシャ英語クロスリンガルコーパス

PESTS: Persian_English Cross Lingual Corpus for Semantic Textual Similarity ( http://arxiv.org/abs/2305.07893v2 )

ライセンス: Link先を確認
Mohammad Abdous, Poorya Piroozfar, Behrouz Minaei Bidgoli(参考訳) 最近多くの調査を受けた自然言語処理のコンポーネントの1つは、セマンティックテキストの類似性である。 計算言語学や自然言語処理では、単語、句、段落、テキストの意味的類似性を評価することが重要である。 意味的類似性(semantic similarity)は、単言語版とクロス言語版の両方で提供される2つのテキスト片、段落、句間の意味的類似度を計算することである。 言語間の意味的類似性は、ソース言語とターゲット言語の両方に意味的類似度を持つ文対が存在するコーパスを必要とする。 多くの既存の言語間セマンティック類似モデルでは、機械翻訳誤差の伝搬がモデルの精度を低下させるクロス言語間セマンティック類似性データセットが利用できないため、機械翻訳を用いる。 一方、機械翻訳に意味的類似性を利用したい場合は、意味的類似性のために同じ機械翻訳を使うべきではない。 ペルシャ語は低資源言語の1つであるが、この点において努力は行われておらず、2つの言語の文脈を理解できるモデルの必要性はこれまで以上に感じられる。 本稿では,ペルシア語と英語の文間の意味的テキスト類似性のコーパスを,言語専門家を用いて初めて作成した。 このデータセットをPESTS (Persian English Semantic Textual similarity) と名付けた。 このコーパスは5375の文対を含む。 また、トランスフォーマーに基づくモデルもこのデータセットを使って微調整されている。 その結果、PESTSデータセットを用いて、XLM ROBERTaモデルのピアソン相関は85.87%から95.62%に増加した。

One of the components of natural language processing that has received a lot of investigation recently is semantic textual similarity. In computational linguistics and natural language processing, assessing the semantic similarity of words, phrases, paragraphs, and texts is crucial. Calculating the degree of semantic resemblance between two textual pieces, paragraphs, or phrases provided in both monolingual and cross-lingual versions is known as semantic similarity. Cross lingual semantic similarity requires corpora in which there are sentence pairs in both the source and target languages with a degree of semantic similarity between them. Many existing cross lingual semantic similarity models use a machine translation due to the unavailability of cross lingual semantic similarity dataset, which the propagation of the machine translation error reduces the accuracy of the model. On the other hand, when we want to use semantic similarity features for machine translation the same machine translations should not be used for semantic similarity. For Persian, which is one of the low resource languages, no effort has been made in this regard and the need for a model that can understand the context of two languages is felt more than ever. In this article, the corpus of semantic textual similarity between sentences in Persian and English languages has been produced for the first time by using linguistic experts. We named this dataset PESTS (Persian English Semantic Textual Similarity). This corpus contains 5375 sentence pairs. Also, different models based on transformers have been fine-tuned using this dataset. The results show that using the PESTS dataset, the Pearson correlation of the XLM ROBERTa model increases from 85.87% to 95.62%.
翻訳日:2023-10-02 18:58:31 公開日:2023-09-29
# サーベイランスに対する身体的敵対攻撃:調査

Physical Adversarial Attacks for Surveillance: A Survey ( http://arxiv.org/abs/2305.01074v2 )

ライセンス: Link先を確認
Kien Nguyen, Tharindu Fernando, Clinton Fookes, Sridha Sridharan(参考訳) 現代の自動監視技術は、ディープラーニング手法に大きく依存している。 優れたパフォーマンスにもかかわらず、これらの学習システムは本質的に敵対的な攻撃に弱い。 敵は、敵のTシャツ、眼鏡、帽子、あるいは特定の行動により、身体的に外見を変えることができ、監視システムの様々な形態の検出、追跡、認識を回避し、安全資産や資産への不正アクセスを得ることができる。 これは現代の監視システムのセキュリティと安全性に深刻な脅威をもたらす。 本稿では,監視アプリケーションに対する物理敵攻撃の学習と設計における最近の試みと成果についてレビューする。 特に,身体的敵意攻撃を解析するためのフレームワークを提案し,このフレームワークに基づく4つの重要な監視課題である検出,識別,追跡,行動認識に対する物理的な敵意攻撃の包括的な調査を行う。 さらに, 物理的攻撃に対する防御戦略と防御の強さを評価する方法について検討し, 分析を行った。 本稿では,物理的な攻撃に対する監視システム内でのレジリエンスを構築するための重要なステップを示す。

Modern automated surveillance techniques are heavily reliant on deep learning methods. Despite the superior performance, these learning systems are inherently vulnerable to adversarial attacks - maliciously crafted inputs that are designed to mislead, or trick, models into making incorrect predictions. An adversary can physically change their appearance by wearing adversarial t-shirts, glasses, or hats or by specific behavior, to potentially avoid various forms of detection, tracking and recognition of surveillance systems; and obtain unauthorized access to secure properties and assets. This poses a severe threat to the security and safety of modern surveillance systems. This paper reviews recent attempts and findings in learning and designing physical adversarial attacks for surveillance applications. In particular, we propose a framework to analyze physical adversarial attacks and provide a comprehensive survey of physical adversarial attacks on four key surveillance tasks: detection, identification, tracking, and action recognition under this framework. Furthermore, we review and analyze strategies to defend against the physical adversarial attacks and the methods for evaluating the strengths of the defense. The insights in this paper present an important step in building resilience within surveillance systems to physical adversarial attacks.
翻訳日:2023-10-02 18:57:34 公開日:2023-09-29
# ベル差分サンプリングによる安定化器推定の改善

Improved Stabilizer Estimation via Bell Difference Sampling ( http://arxiv.org/abs/2304.13915v2 )

ライセンス: Link先を確認
Sabee Grewal, Vishnu Iyer, William Kretschmer, Daniel Liang(参考訳) 安定化器の定式化に関して、量子状態の学習の複雑さについて研究し、以下の結果を得る。 - 計算的に擬似ランダムな量子状態を作成するためには、任意のクリフォード+T$回路に$\Omega(n)$$T$-gatesが必要であることを証明します。 この境界は、線形時間量子安全な擬ランダム関数が存在する場合、漸近的に厳密である。 -n$-qubit の純粋な量子状態 $|\psi\rangle$ が与えられたとき、少なくとも$\tau$ と安定化状態との忠実性を持つアルゴリズムを与え、少なくとも $\tau - \varepsilon$ の忠実性を示す安定化状態の簡潔な記述を出力する。 このアルゴリズムは、$O(n/(\varepsilon^2\tau^4))$サンプルと$\exp\left(O(n/\tau^4)\right) / \varepsilon^2$ timeを使用する。 このアルゴリズムは、$\tau$定数の状態では、全ての安定化状態におけるna\"ive $\exp(o(n^2))$-time brute-forceアルゴリズムよりもかなり高速に安定化器の忠実度を推定する。 -$\tau > \cos^2(\pi/8)$の特殊な場合、上記のアルゴリズムの修正は多項式時間で実行されることを示す。 -Gross,Nezami,Walter[Comms. Math. Phys. 385 (2021)]による安定化状態特性試験アルゴリズムの音質解析を改善した。 適用例として、安定化状態に対する耐久性試験アルゴリズムを示す。 すべての結果の基本的なアルゴリズムプリミティブはベル差分サンプリングです。 この結果を証明するために,ベル差分サンプリング,シンプレクティックフーリエ解析,グラフ理論の接続を確立および/または強化する。

We study the complexity of learning quantum states in various models with respect to the stabilizer formalism and obtain the following results: - We prove that $\Omega(n)$ $T$-gates are necessary for any Clifford+$T$ circuit to prepare computationally pseudorandom quantum states, an exponential improvement over the previously known bound. This bound is asymptotically tight if linear-time quantum-secure pseudorandom functions exist. - Given an $n$-qubit pure quantum state $|\psi\rangle$ that has fidelity at least $\tau$ with some stabilizer state, we give an algorithm that outputs a succinct description of a stabilizer state that witnesses fidelity at least $\tau - \varepsilon$. The algorithm uses $O(n/(\varepsilon^2\tau^4))$ samples and $\exp\left(O(n/\tau^4)\right) / \varepsilon^2$ time. In the regime of $\tau$ constant, this algorithm estimates stabilizer fidelity substantially faster than the na\"ive $\exp(O(n^2))$-time brute-force algorithm over all stabilizer states. - In the special case of $\tau > \cos^2(\pi/8)$, we show that a modification of the above algorithm runs in polynomial time. - We improve the soundness analysis of the stabilizer state property testing algorithm due to Gross, Nezami, and Walter [Comms. Math. Phys. 385 (2021)]. As an application, we exhibit a tolerant property testing algorithm for stabilizer states. The underlying algorithmic primitive in all of our results is Bell difference sampling. To prove our results, we establish and/or strengthen connections between Bell difference sampling, symplectic Fourier analysis, and graph theory.
翻訳日:2023-10-02 18:57:14 公開日:2023-09-29
# 変分エンコーダデコーダネットワークによる逆問題に対するゴール指向不確実性定量化

Goal-oriented Uncertainty Quantification for Inverse Problems via Variational Encoder-Decoder Networks ( http://arxiv.org/abs/2304.08324v2 )

ライセンス: Link先を確認
Babak Maboudi Afkham, Julianne Chung, Matthias Chung(参考訳) 本稿では,可変エンコーダデコーダ(ved)ネットワークを用いた逆問題に対する目標指向の不確実性定量化手法を提案する。 標準的な逆問題とは対照的に、これらのアプローチは、解そのものではなく、逆問題の解の関数であるある量の興味(QoI)を推定することを目的としている。 さらに, qoi に関連する不確実性指標の計算にも興味を持ち, 予測演算子と後方探索手法を組み込んだ逆問題に対してベイズ法を適用した。 これは特に、非線形、おそらくは未知の演算子と非標準事前仮定において困難である。 大規模逆問題に対するデータ駆動アプローチを記述するために,最近の機械学習,すなわちvedネットワークの進歩を利用する。 これにより、QoIに対するリアルタイムなゴール指向の不確実性定量化が可能になる。 提案手法の利点の1つは、ネットワークをトレーニングし、観測からQoIへのマッピングを近似することで、倒立問題の解決を避けることである。 もう一つの大きな利点は、潜在空間の確率分布を活用することにより、QoIに対する不確実量化を可能にすることである。 これにより、QoIサンプルを効率的に生成し、複雑な、あるいは未知のフォワードモデルや予測演算子を回避できる。 医用トモグラフィーと非線形油圧トモグラフィーの数値結果から,アプローチの可能性と適用範囲が示唆された。

In this work, we describe a new approach that uses variational encoder-decoder (VED) networks for efficient goal-oriented uncertainty quantification for inverse problems. Contrary to standard inverse problems, these approaches are \emph{goal-oriented} in that the goal is to estimate some quantities of interest (QoI) that are functions of the solution of an inverse problem, rather than the solution itself. Moreover, we are interested in computing uncertainty metrics associated with the QoI, thus utilizing a Bayesian approach for inverse problems that incorporates the prediction operator and techniques for exploring the posterior. This may be particularly challenging, especially for nonlinear, possibly unknown, operators and nonstandard prior assumptions. We harness recent advances in machine learning, i.e., VED networks, to describe a data-driven approach to large-scale inverse problems. This enables a real-time goal-oriented uncertainty quantification for the QoI. One of the advantages of our approach is that we avoid the need to solve challenging inversion problems by training a network to approximate the mapping from observations to QoI. Another main benefit is that we enable uncertainty quantification for the QoI by leveraging probability distributions in the latent space. This allows us to efficiently generate QoI samples and circumvent complicated or even unknown forward models and prediction operators. Numerical results from medical tomography reconstruction and nonlinear hydraulic tomography demonstrate the potential and broad applicability of the approach.
翻訳日:2023-10-02 18:56:17 公開日:2023-09-29
# 分子偏光子のためのハイブリッドthzアーキテクチャ

Hybrid THz architectures for molecular polaritonics ( http://arxiv.org/abs/2304.03654v2 )

ライセンス: Link先を確認
Ahmed Jaber, Michael Reitz, Avinash Singh, Ali Maleki, Yongbao Xin, Brian Sullivan, Ksenia Dolgaleva, Robert W. Boyd, Claudiu Genes, Jean-Michel M\'enard(参考訳) 材料の物理的および化学的性質は共鳴光学モードで修正することができる。 このような最近の実証は主に平面空洞形状に依存し、他のものはプラズモニック共振器に依存している。 しかし、これらの2つのデバイスアーキテクチャの組み合わせは、特に光間相互作用を最大化する文脈において、ほとんど未解明のままである。 本稿では, テラヘルツ領域の分子振動に対する局所化フォトニックモードの集団結合を容易にするため, 電磁界閉じ込め方式について検討する。 主な特徴は、標準的なファブリー・ペロ構造と組み合わされた中表面プラズモニック構造と、スプレーコーティングによる薄いグルコース層が密集した電磁モードボリューム内に堆積することである。 より重要なことは、プラズモニック共鳴、フォトニックキャビティモード、低エネルギー分子共鳴を組み合わせた場合、最大200 ghzの真空ラビ分裂の強化を示すことである。 さらに、プラズモン共振器の零点電界振幅を高めるためにキャビティモードをどのように利用できるかを示す。 本研究は, 有機分子を用いた偏光プラットフォームの設計に関する重要な知見を提供し, ハイブリッド光物質状態のユニークな性質を解明する。

Physical and chemical properties of materials can be modified by a resonant optical mode. Such recent demonstrations have mostly relied on a planar cavity geometry, others have relied on a plasmonic resonator. However, the combination of these two device architectures have remained largely unexplored, especially in the context of maximizing light-matter interactions. Here, we investigate several schemes of electromagnetic field confinement aimed at facilitating the collective coupling of a localized photonic mode to molecular vibrations in the terahertz region. The key aspects are the use of metasurface plasmonic structures combined with standard Fabry-Perot configurations and the deposition of a thin layer of glucose, via a spray coating technique, within a tightly focused electromagnetic mode volume. More importantly, we demonstrate enhanced vacuum Rabi splittings reaching up to 200 GHz when combining plasmonic resonances, photonic cavity modes and low-energy molecular resonances. Furthermore, we demonstrate how a cavity mode can be utilized to enhance the zero-point electric field amplitude of a plasmonic resonator. Our study provides key insight into the design of polaritonic platforms with organic molecules to harvest the unique properties of hybrid light-matter states.
翻訳日:2023-10-02 18:55:28 公開日:2023-09-29
# 深O($n$)-同変超球面の学習

Learning Deep O($n$)-Equivariant Hyperspheres ( http://arxiv.org/abs/2305.15613v2 )

ライセンス: Link先を確認
Pavlo Melnyk, Michael Felsberg, M{\aa}rten Wadenb\"ack, Andreas Robinson, Cuong Le(参考訳) 本稿では,超球面と正則な$n$-simplexes を用いて,直交変換の下で同値な (深い) $n$d 特徴を学習する手法を提案する。 我々の主な貢献は理論であり、幾何変換の下での等分散や不変といった幾何学的深層学習における大きな課題に取り組むことである。 すなわち、我々は最近開発された3次元球状ニューロン(SO(3)-同変フィルタバンク)の理論を、球状決定面を持つニューロンに基づいて強化し、そのニューロンを$n$Dに拡張し、深い同変超球と呼び、それらの多層構造を可能にする。 合成データと実世界のデータを$n$Dで使用することにより、我々の理論的貢献を実験的に検証し、我々のアプローチが1つのケースを除いて小さなトレーニングデータセットのベースラインよりも優れていることを発見した。

This paper presents an approach to learning (deep) $n$D features equivariant under orthogonal transformations, utilizing hyperspheres and regular $n$-simplexes. Our main contributions are theoretical and tackle major challenges in geometric deep learning such as equivariance and invariance under geometric transformations. Namely, we enrich the recently developed theory of steerable 3D spherical neurons -- SO(3)-equivariant filter banks based on neurons with spherical decision surfaces -- by extending said neurons to $n$D, which we call deep equivariant hyperspheres, and enabling their multi-layer construction. Using synthetic and real-world data in $n$D, we experimentally verify our theoretical contributions and find that our approach is superior to the baselines for small training data sets in all but one case.
翻訳日:2023-10-02 18:47:24 公開日:2023-09-29
# Sinkhorn divergence を用いた特徴整列N-BEATS

Feature-aligned N-BEATS with Sinkhorn divergence ( http://arxiv.org/abs/2305.15196v2 )

ライセンス: Link先を確認
Joonhun Lee, Myeongho Jeon, Myungjoo Kang, Kyunghyun Park(参考訳) ドメイン一般化時系列予測モデルとして特徴整列N-BEATSを提案する。 これは N-BEATS の非自明な拡張であり、二重残留積み重ね原理 (Oreshkin et al.[42]) を表現学習フレームワークへ拡張する。 特に、各スタックにおけるN-BEATSの残基および特徴抽出作用素の複雑な組成によって引き起こされる限界特徴確率測度を中心に回転し、シンクホーン発散と呼ばれる最適な輸送距離を近似してスタックワイズする。 トレーニング損失は、複数のソースドメイン(すなわち予測損失)からの経験的リスク最小化と、シンクホーン発散によって計算されたアライメント損失から成り、N-BEATSの解釈可能な設計と予測能力を維持しながら、複数のソースデータシーケンスにわたって不変性をスタックワイズに学習することができる。 アブレーション実験による総合的な実験的評価を行い, 提案モデルの予測と一般化能力を示す。

We propose Feature-aligned N-BEATS as a domain-generalized time series forecasting model. It is a nontrivial extension of N-BEATS with doubly residual stacking principle (Oreshkin et al.[42]) into a representation learning framework. In particular, it revolves around marginal feature probability measures induced by the intricate composition of residual and feature extracting operators of N-BEATS in each stack and aligns them stack-wisely via an approximate of an optimal transport distance referred to as the Sinkhorn divergence. The training loss consists of an empirical risk minimization from multiple source domains, i.e., forecasting loss, and an alignment loss calculated with the Sinkhorn divergence, which allows the model to learn invariant features stack-wisely across multiple source data sequences while retaining N-BEATS's interpretable design and forecasting power. Comprehensive experimental evaluations with ablation studies are provided and the corresponding results demonstrate the proposed model's forecasting and generalization capabilities.
翻訳日:2023-10-02 18:47:09 公開日:2023-09-29
# アドバンテージに基づくオフラインポリシーグラディエントによる言語モデルの改善

Improving Language Models with Advantage-based Offline Policy Gradients ( http://arxiv.org/abs/2305.14718v2 )

ライセンス: Link先を確認
Ashutosh Baheti, Ximing Lu, Faeze Brahman, Ronan Le Bras, Maarten Sap, Mark Riedl(参考訳) 抽象言語モデル (LM) は、Reinforcement Learning with Human Feedback (RLHF) を用いて微調整された場合、かなりの言語能力を達成する。 しかし、RLHFは不安定でデータ処理のプロセスであり、微調整のために新しい高品質なLM生成データを必要とする。 本稿では,既存のデータに対するRLトレーニングを可能にするオフラインポリシー勾配アルゴリズムであるAdvantage-Leftover Lunch RL (A-LoL)を紹介する。 LM出力シーケンス全体を単一のアクションとして仮定することで、A-LoLはシーケンスレベルの分類器や人間設計のスコアリング機能を報酬として組み込むことができる。 その後、LMの内部シーケンスレベル値を推定することにより、A-LoLはトレーニング中に負の利点(低品質)のデータポイントをフィルタし、ノイズに耐性を持たせる。 全体として、A-LoLはサンプル効率が高く安定したLMトレーニングレシピである。 A-LoLとその変種の有効性を4つの異なる言語生成タスクで示す。 オンラインRL(PPO)と最近のRL(DPO, PRO)とオフラインRL(GOLD)を比較した。 一般的に使用されているRLHFベンチマークであるHelpful and Harmless Assistant (HHA)では、A-LoLメソッドで訓練されたLMは、人間によるベースラインよりも安全で役に立つと評価されている。 さらに、残りの3つのタスクにおいて、a-lolは、ノイズやサブオプティカルトレーニングデータを使用しても、複数の異なる報酬機能を最適化することができる。 実験コードもリリースしています。 https://github.com/abaheti95/LoL-RL

Abstract Language Models (LMs) achieve substantial language capabilities when finetuned using Reinforcement Learning with Human Feedback (RLHF). However, RLHF is an unstable and data-hungry process that continually requires new high-quality LM-generated data for finetuning. We introduce Advantage-Leftover Lunch RL (A-LoL), a new class of offline policy gradient algorithms that enable RL training on any pre-existing data. By assuming the entire LM output sequence as a single action, A-LoL allows incorporating sequence-level classifiers or human-designed scoring functions as rewards. Subsequently, by using LM's internal sequence-level value estimate, A-LoL filters negative advantage (low-quality) data points during training, making it resilient to noise. Overall, A-LoL is an easy-to-implement LM training recipe that is sample-efficient and stable. We demonstrate the effectiveness of A-LoL and its variants with a set of four different language generation tasks. We compare against both online RL (PPO) and recent preference-based (DPO, PRO) and reward-based (GOLD) offline RL baselines. On the commonly-used RLHF benchmark, Helpful and Harmless Assistant (HHA), LMs trained with A-LoL methods achieve the highest diversity while also being rated more safe and helpful than baselines according to humans. Additionally, in the remaining three tasks, A-LoL could optimize multiple distinct reward functions even when using noisy or suboptimal training data. We also release our experimental code. https://github.com/abaheti95/LoL-RL
翻訳日:2023-10-02 18:46:50 公開日:2023-09-29
# 深分類器におけるマハラノビス距離を用いた不確かさ推定のためのガウス的潜在表現

Gaussian Latent Representations for Uncertainty Estimation using Mahalanobis Distance in Deep Classifiers ( http://arxiv.org/abs/2305.13849v3 )

ライセンス: Link先を確認
Aishwarya Venkataramanan, Assia Benbihi, Martin Laviale, Cedric Pradalier(参考訳) 近年,ネットワークの潜在空間におけるデータ分布は,分類の不確かさを推定し,ood(out-of-distribution)サンプルを検出するのに有用であることが示された。 不確実性推定に資するよく規則化された潜在空間を得るため、既存の手法はモデルアーキテクチャやトレーニング手順に大きな変化をもたらす。 本稿では,マハラノビス距離に基づく不確実性予測のための軽量,高速,高性能な正規化手法を提案する。 マハラノビス距離計算に好適なガウス的潜在表現を導出するために、クラス内表現を複数のガウス的表現に分離する自己教師付き表現学習法を提案する。 非ガウス表現を持つクラスは自動的に識別され、ほぼガウス表現である複数の新しいクラスに動的にクラスタ化される。 標準OODベンチマークによる評価の結果,提案手法は最小推定時間でOOD検出の最先端化を実現し,予測確率のキャリブレーションに非常に競争力があることがわかった。 最後に,本手法の微生物分類における実生活コンピュータビジョン利用事例への適用性を示す。

Recent works show that the data distribution in a network's latent space is useful for estimating classification uncertainty and detecting Out-of-distribution (OOD) samples. To obtain a well-regularized latent space that is conducive for uncertainty estimation, existing methods bring in significant changes to model architectures and training procedures. In this paper, we present a lightweight, fast, and high-performance regularization method for Mahalanobis distance-based uncertainty prediction, and that requires minimal changes to the network's architecture. To derive Gaussian latent representation favourable for Mahalanobis Distance calculation, we introduce a self-supervised representation learning method that separates in-class representations into multiple Gaussians. Classes with non-Gaussian representations are automatically identified and dynamically clustered into multiple new classes that are approximately Gaussian. Evaluation on standard OOD benchmarks shows that our method achieves state-of-the-art results on OOD detection with minimal inference time, and is very competitive on predictive probability calibration. Finally, we show the applicability of our method to a real-life computer vision use case on microorganism classification.
翻訳日:2023-10-02 18:46:21 公開日:2023-09-29
# 不正確ラベル学習:不正確ラベル構成を用いた統一学習フレームワーク

Imprecise Label Learning: A Unified Framework for Learning with Various Imprecise Label Configurations ( http://arxiv.org/abs/2305.12715v3 )

ライセンス: Link先を確認
Hao Chen, Ankit Shah, Jindong Wang, Ran Tao, Yidong Wang, Xing Xie, Masashi Sugiyama, Rita Singh, Bhiksha Raj(参考訳) 一般に「textit{imprecise} labels」と呼ぶ、ノイズラベルや部分ラベル、複数ラベル候補などのラベリング標準を減らした学習は、機械学習タスクにおいて一般的な課題である。 従来の手法では、創発的な不正確なラベル構成ごとに特定の設計を提案する傾向があり、複数の不正確な共存構成の場合、通常は持続不可能である。 本稿では,不正確なラベル構成で学習を統一するためのフレームワークである不正確なラベル学習(ILL)を紹介する。 illは、不正確なラベル情報をモデル化し、正確なラベルを潜在変数として扱うために、期待最大化(em)を利用する。 illは部分的ラベル学習、半教師付き学習、ノイズの多いラベル学習、そしてもっと重要なことに、これらの設定の混合にシームレスに適応できることを実証する。 特にILLは、不正確なラベルを扱うための既存の特定のテクニックを超越しており、様々な困難な設定で堅牢で効果的なパフォーマンスを持つ最初の統一フレームワークである。 私たちの研究がこのトピックに関するさらなる研究を刺激し、正確なラベルが高価で入手が難しい、より広いシナリオで病気の完全な可能性を解き放つことを期待しています。

Learning with reduced labeling standards, such as noisy label, partial label, and multiple label candidates, which we generically refer to as \textit{imprecise} labels, is a commonplace challenge in machine learning tasks. Previous methods tend to propose specific designs for every emerging imprecise label configuration, which is usually unsustainable when multiple configurations of imprecision coexist. In this paper, we introduce imprecise label learning (ILL), a framework for the unification of learning with various imprecise label configurations. ILL leverages expectation-maximization (EM) for modeling the imprecise label information, treating the precise labels as latent variables.Instead of approximating the correct labels for training, it considers the entire distribution of all possible labeling entailed by the imprecise information. We demonstrate that ILL can seamlessly adapt to partial label learning, semi-supervised learning, noisy label learning, and, more importantly, a mixture of these settings. Notably, ILL surpasses the existing specified techniques for handling imprecise labels, marking the first unified framework with robust and effective performance across various challenging settings. We hope our work will inspire further research on this topic, unleashing the full potential of ILL in wider scenarios where precise labels are expensive and complicated to obtain.
翻訳日:2023-10-02 18:45:25 公開日:2023-09-29
# CRISPR/Cas9オフターゲット酵素反応の理解のための解釈可能なニューラルアーキテクチャ探索と伝達学習

Interpretable neural architecture search and transfer learning for understanding CRISPR/Cas9 off-target enzymatic reactions ( http://arxiv.org/abs/2305.11917v2 )

ライセンス: Link先を確認
Zijun Zhang, Adam R. Lamson, Michael Shelley, Olga Troyanskaya(参考訳) 微細に調整された酵素経路は細胞過程を制御し、その解離は疾患を引き起こす。 これらの経路の予測および解釈可能なモデルの作成は、経路の複雑さと、細胞およびゲノムのコンテキストのため困難である。 本稿では,これらの課題を解決する深層学習フレームワークであるelektrumについて紹介する。 まず、in vitroの速度論的アッセイを用いて、反応速度を予測する高品質のKinetically Interpretable Neural Networks(KINN)のアンサンブルを迅速に仮説化します。 次に、新たなトランスファー学習ステップを採用し、キンを中間層として深い畳み込みニューラルネットワークに挿入し、反応依存性のin vivo結果の予測を微調整する。 elektrumは、限られたがクリーンなin vitroデータと、細胞のコンテキストをキャプチャする複雑なin vivoデータを有効に利用します。 我々は、Eektrumを用いてCRISPR-Cas9オフターゲット編集確率を予測し、Eektrumが最先端のパフォーマンスを実現し、ニューラルネットワークアーキテクチャを標準化し、物理的解釈可能性を維持することを示す。

Finely-tuned enzymatic pathways control cellular processes, and their dysregulation can lead to disease. Creating predictive and interpretable models for these pathways is challenging because of the complexity of the pathways and of the cellular and genomic contexts. Here we introduce Elektrum, a deep learning framework which addresses these challenges with data-driven and biophysically interpretable models for determining the kinetics of biochemical systems. First, it uses in vitro kinetic assays to rapidly hypothesize an ensemble of high-quality Kinetically Interpretable Neural Networks (KINNs) that predict reaction rates. It then employs a novel transfer learning step, where the KINNs are inserted as intermediary layers into deeper convolutional neural networks, fine-tuning the predictions for reaction-dependent in vivo outcomes. Elektrum makes effective use of the limited, but clean in vitro data and the complex, yet plentiful in vivo data that captures cellular context. We apply Elektrum to predict CRISPR-Cas9 off-target editing probabilities and demonstrate that Elektrum achieves state-of-the-art performance, regularizes neural network architectures, and maintains physical interpretability.
翻訳日:2023-10-02 18:45:01 公開日:2023-09-29
# 深層アンサンブルの多様化:ood検出,キャリブレーション,精度向上のためのsaliency mapアプローチ

Diversifying Deep Ensembles: A Saliency Map Approach for Enhanced OOD Detection, Calibration, and Accuracy ( http://arxiv.org/abs/2305.11616v3 )

ライセンス: Link先を確認
Stanislav Dereka, Ivan Karpukhin, Maksim Zhdanov, Sergey Kolesnikov(参考訳) ディープアンサンブルは、分類と分散(ood)検出において最先端の結果を得ることができる。 しかし、その効果はアンサンブル内の学習パターンの均質性によって制限される。 そこで本研究では,この課題を克服するために,sdde(saliency diversified deep ensemble)を提案する。 塩分マップの多様化により,従来のアンサンブル手法を上回り,複数分類およびood検出タスクにおけるキャリブレーションを改善した。 特に,提案手法は,CIFAR10/100や大規模画像Netデータセットを含む複数のベンチマークにおいて,最先端のOOD検出品質,キャリブレーション,精度を実現する。

Deep ensembles are capable of achieving state-of-the-art results in classification and out-of-distribution (OOD) detection. However, their effectiveness is limited due to the homogeneity of learned patterns within ensembles. To overcome this issue, our study introduces Saliency Diversified Deep Ensemble (SDDE), a novel approach that promotes diversity among ensemble members by leveraging saliency maps. Through incorporating saliency map diversification, our method outperforms conventional ensemble techniques and improves calibration in multiple classification and OOD detection tasks. In particular, the proposed method achieves state-of-the-art OOD detection quality, calibration, and accuracy on multiple benchmarks, including CIFAR10/100 and large-scale ImageNet datasets.
翻訳日:2023-10-02 18:44:40 公開日:2023-09-29
# GETMusic: 統一表現と拡散フレームワークで任意の音楽トラックを生成する

GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework ( http://arxiv.org/abs/2305.10841v2 )

ライセンス: Link先を確認
Ang Lv and Xu Tan and Peiling Lu and Wei Ye and Shikun Zhang and Jiang Bian and Rui Yan(参考訳) シンボリック・ミュージック・ジェネレーションは、提供されたソース・トラックに基づいてターゲット楽器のトラックを生成するなど、ユーザーが作曲するのに役立つ音楽ノートを作成することを目的としている。 事前定義されたトラックのアンサンブルと様々な構成ニーズがある実用的なシナリオでは、他のトラックに基づいて任意のターゲットトラックを生成できる効率的で効率的な生成モデルが重要になります。 しかし、これまでの努力は、音楽表現やモデルに制限があるため、この必要性に対処するに足りなかった。 本稿では,「GET」を「 Generate music Tracks」の意とする「GETMusic」というフレームワークを紹介する。 ''このフレームワークには、新しい音楽表現 ``GETScore'' と拡散モデル ``GETDiff が含まれている。 ゲインコアは音符をトークンとして表現し、2d構造でトークンを整理し、トラックは垂直に積み重ねられ、時間とともに水平方向に進行する。 トレーニングステップでは、楽曲の各トラックをターゲットまたはソースとしてランダムに選択する。 トレーニングには2つのプロセスが含まれる: フォワードプロセスでは、ターゲットのトラックはトークンをマスクすることで破損するが、ソースのトラックは基礎的な真実のままである。 提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。 実験により, GETMusicは, 特定の構成タスクに対して提案された先行作業よりも優れた性能を示した。

Symbolic music generation aims to create musical notes, which can help users compose music, such as generating target instrument tracks based on provided source tracks. In practical scenarios where there's a predefined ensemble of tracks and various composition needs, an efficient and effective generative model that can generate any target tracks based on the other tracks becomes crucial. However, previous efforts have fallen short in addressing this necessity due to limitations in their music representations and models. In this paper, we introduce a framework known as GETMusic, with ``GET'' standing for ``GEnerate music Tracks.'' This framework encompasses a novel music representation ``GETScore'' and a diffusion model ``GETDiff.'' GETScore represents musical notes as tokens and organizes tokens in a 2D structure, with tracks stacked vertically and progressing horizontally over time. At a training step, each track of a music piece is randomly selected as either the target or source. The training involves two processes: In the forward process, target tracks are corrupted by masking their tokens, while source tracks remain as the ground truth; in the denoising process, GETDiff is trained to predict the masked target tokens conditioning on the source tracks. Our proposed representation, coupled with the non-autoregressive generative model, empowers GETMusic to generate music with any arbitrary source-target track combinations. Our experiments demonstrate that the versatile GETMusic outperforms prior works proposed for certain specific composition tasks.
翻訳日:2023-10-02 18:44:27 公開日:2023-09-29
# ai生成テキストのマルチスケール正ラベル検出

Multiscale Positive-Unlabeled Detection of AI-Generated Texts ( http://arxiv.org/abs/2305.18149v3 )

ライセンス: Link先を確認
Yuchuan Tian, Hanting Chen, Xutao Wang, Zheyuan Bai, Qinghua Zhang, Ruifeng Li, Chao Xu, Yunhe Wang(参考訳) 最近の大型言語モデル(llm)のリリース、例えばchatgptは、人間に似たテキストを生成することに驚いているが、それらはテキストの真正性に影響を与える可能性がある。 以前の研究では、単純なml分類器、事前訓練されたモデルベースのゼロショットメソッド、微調整された言語分類モデルを含む、これらのai生成テキストを検出する方法を提案した。 しかし、メインストリーム検出器は常にSMS、ツイート、レビューなどの短いテキストで失敗する。 本稿では,長文を犠牲にすることなく短文検出の難しさを解決するために,MPU(Multiscale Positive-Unlabeled)トレーニングフレームワークを提案する。 まず, 短機械テキストの人間組立性を認め, これらの短機械テキストを部分的に「未表示」とすることで, AIテキスト検出を部分肯定的 (PU) 問題として言い換える。 次に,このpuコンテキストにおいて,多変量コーパスの正の事前推定に抽象的再帰モデルを用いる,長さに敏感な多変量pu損失を提案する。 さらに,トレーニングコーパスを強化するためのテキストマルチスケーリングモジュールも導入する。 実験の結果,MPU法は長いAI生成テキストの検出性能を向上し,言語モデル検出の短文検出を大幅に改善することがわかった。 MPUで訓練された言語モデルは、様々な短文および長文検出ベンチマークで既存の検出器より優れている。 コードはhttps://github.com/mindspore-lab/mindone/tree/examples/detect_chatgptとhttps://github.com/YuchuanTian/AIGC_text_detectorで入手できる。

Recent releases of Large Language Models (LLMs), e.g. ChatGPT, are astonishing at generating human-like texts, but they may impact the authenticity of texts. Previous works proposed methods to detect these AI-generated texts, including simple ML classifiers, pretrained-model-based zero-shot methods, and finetuned language classification models. However, mainstream detectors always fail on short texts, like SMSes, Tweets, and reviews. In this paper, a Multiscale Positive-Unlabeled (MPU) training framework is proposed to address the difficulty of short-text detection without sacrificing long-texts. Firstly, we acknowledge the human-resemblance property of short machine texts, and rephrase AI text detection as a partial Positive-Unlabeled (PU) problem by regarding these short machine texts as partially "unlabeled". Then in this PU context, we propose the length-sensitive Multiscale PU Loss, where a recurrent model in abstraction is used to estimate positive priors of scale-variant corpora. Additionally, we introduce a Text Multiscaling module to enrich training corpora. Experiments show that our MPU method augments detection performance on long AI-generated texts, and significantly improves short-text detection of language model detectors. Language Models trained with MPU could outcompete existing detectors on various short-text and long-text detection benchmarks. The codes are available at https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt and https://github.com/YuchuanTian/AIGC_text_detector.
翻訳日:2023-10-02 18:38:51 公開日:2023-09-29
# マグノンの固有非線形熱ホール輸送:量子動力学のアプローチ

Intrinsic nonlinear thermal Hall transport of magnons: A Quantum kinetic theory approach ( http://arxiv.org/abs/2305.18127v2 )

ライセンス: Link先を確認
Harsh Varshney, Rohit Mukherjee, Arijit Kundu, and Amit Agarwal(参考訳) 量子力学理論フレームワークを用いたボソニック系の非線形熱ホール応答の系統的研究を行った。 本研究では、波動関数依存バンド幾何量である量子メートル法から生じる固有非線形ボソン熱電流の存在を実証する。 非線形ドリュードおよび非線形異常ホールの寄与とは対照的に、固有の非線形熱伝導度は散乱時間スケールとは独立である。 本研究では,dzyaloshinskii-moriya相互作用を伴わない2次元強磁性ハニカム格子におけるトポロジカルマグノンの固有熱ホール応答の優位性を示す。 本研究は, バンド形状による非線形熱輸送の意義と, 量子マグノニクスによる固有非線形熱ホール応答の動機付け実験を行った。

We present a systematic study of the nonlinear thermal Hall responses in bosonic systems using the quantum kinetic theory framework. We demonstrate the existence of an intrinsic nonlinear boson thermal current, arising from the quantum metric which is a wavefunction dependent band geometric quantity. In contrast to the nonlinear Drude and nonlinear anomalous Hall contributions, the intrinsic nonlinear thermal conductivity is independent of the scattering timescale. We demonstrate the dominance of this intrinsic thermal Hall response in topological magnons in a two-dimensional ferromagnetic honeycomb lattice without Dzyaloshinskii-Moriya interaction. Our findings highlight the significance of band geometry induced nonlinear thermal transport and motivate experimental probe of the intrinsic nonlinear thermal Hall response with implications for quantum magnonics.
翻訳日:2023-10-02 18:38:21 公開日:2023-09-29
# 自己監督学習のための行列情報理論

Matrix Information Theory for Self-Supervised Learning ( http://arxiv.org/abs/2305.17326v3 )

ライセンス: Link先を確認
Yifan Zhang, Zhiquan Tan, Jingqin Yang, Weiran Huang, Yang Yuan(参考訳) 対照的な学習はしばしば、正のアンカーサンプルと複数の負のサンプルを比較して自己教師付き学習(ssl)を行う。 しかし、BYOL、SimSiam、Barlow Twinsといった競合しないアプローチは、明示的な負のサンプルなしでSSLを実現する。 本稿では,コントラスト的および非矛盾的学習法を多数記述した統一行列情報理論の枠組みを提案する。 次に,行列情報理論に基づく新しい行列ssl法を提案する。 実験結果から, Matrix-SSLは, 線形評価条件下でのImageNetデータセットや, 伝達学習タスクにおけるMS-COCOにおいて, 最先端の手法を著しく上回ることがわかった。 具体的には,100エポック事前学習を行う場合,SimCLRの4.6%,MS-COCOで転送学習を行う場合,MoCo v2やBYOLなどの従来のSOTA手法よりも3.3%,800エポック前訓練に比べて400エポックに優れていた。 コードはhttps://github.com/yifanzhang-pro/matrix-ssl。

Contrastive learning often relies on comparing positive anchor samples with multiple negative samples to perform Self-Supervised Learning (SSL). However, non-contrastive approaches like BYOL, SimSiam, and Barlow Twins achieve SSL without explicit negative samples. In this paper, we introduce a unified matrix information-theoretic framework that explains many contrastive and non-contrastive learning methods. We then propose a novel method Matrix-SSL based on matrix information theory. Experimental results reveal that Matrix-SSL significantly outperforms state-of-the-art methods on the ImageNet dataset under linear evaluation settings and on MS-COCO for transfer learning tasks. Specifically, when performing 100 epochs pre-training, our method outperforms SimCLR by 4.6%, and when performing transfer learning tasks on MS-COCO, our method outperforms previous SOTA methods such as MoCo v2 and BYOL up to 3.3% with only 400 epochs compared to 800 epochs pre-training. Code available at https://github.com/yifanzhang-pro/Matrix-SSL.
翻訳日:2023-10-02 18:38:08 公開日:2023-09-29
# SelfClean: 自己監視型のデータクリーニング戦略

SelfClean: A Self-Supervised Data Cleaning Strategy ( http://arxiv.org/abs/2305.17048v2 )

ライセンス: Link先を確認
Fabian Gr\"oger, Simone Lionetti, Philippe Gottfrois, Alvaro Gonzalez-Jimenez, Ludovic Amruthalingam, Labelling Consortium, Matthew Groh, Alexander A. Navarini, Marc Pouly(参考訳) コンピュータビジョンのためのベンチマークデータセットの多くは、無関係の画像、ほぼ重複画像、ラベルエラーを含む。 したがって、これらのベンチマークのモデル性能は、一般化能力の正確な推定にはならないかもしれない。 これは、一般的にデータセットが小さく、利害関係が高く、アノテーションプロセスが高価でエラーを起こしやすい医学におけるコンピュータビジョンにおいて特に深刻な関心事である。 本稿では,自己スーパービジョンで学習した潜在空間を利用した画像データセットのクリーニング手法であるselfcleanを提案する。 自己教師付き学習を頼りにすることで,データ固有の特性に着目し,アノテーションバイアスを回避する。 データセットのクリーニングを,人間の注記労力を大幅に削減するランキング問題の組か,スコア分布に基づく完全な自動決定を可能にするスコア問題の集合として定式化する。 提案手法は,一般的なコンピュータビジョンベンチマークにおいて,無関係な画像,ほぼ重複画像,ラベルエラーを検知し,インジェクトされた合成ノイズと自然汚染の両方を検索することで,最先端の性能を実現することを実証する。 さらに,本手法を複数の画像データセットに適用し,評価信頼性の向上を確認した。

Most benchmark datasets for computer vision contain irrelevant images, near duplicates, and label errors. Consequently, model performance on these benchmarks may not be an accurate estimate of generalization capabilities. This is a particularly acute concern in computer vision for medicine where datasets are typically small, stakes are high, and annotation processes are expensive and error-prone. In this paper we propose SelfClean, a general procedure to clean up image datasets exploiting a latent space learned with self-supervision. By relying on self-supervised learning, our approach focuses on intrinsic properties of the data and avoids annotation biases. We formulate dataset cleaning as either a set of ranking problems, which significantly reduce human annotation effort, or a set of scoring problems, which enable fully automated decisions based on score distributions. We demonstrate that SelfClean achieves state-of-the-art performance in detecting irrelevant images, near duplicates, and label errors within popular computer vision benchmarks, retrieving both injected synthetic noise and natural contamination. In addition, we apply our method to multiple image datasets and confirm an improvement in evaluation reliability.
翻訳日:2023-10-02 18:37:46 公開日:2023-09-29
# 多層ニューラルネットワークにおける勾配降下の一般化

Generalization Guarantees of Gradient Descent for Multi-Layer Neural Networks ( http://arxiv.org/abs/2305.16891v2 )

ライセンス: Link先を確認
Puyu Wang, Yunwen Lei, Di Wang, Yiming Ying, Ding-Xuan Zhou(参考訳) 近年、アルゴリズム安定性アプローチを用いて勾配降下(GD)によって訓練されたニューラルネットワーク(NN)の一般化を理解するために大きな進歩がなされている。 しかし、既存の研究のほとんどは一層NNに重点を置いており、異なるネットワークスケーリングパラメータの影響に対処していない。 本稿では,多層nnに対するgdの包括的安定性と一般化解析を行うことにより,先行研究である \cite{lei2022stability,richards2021stability} を大きく拡張する。 2層NNでは,ネットワークスケーリングの一般的なパラメータに基づいて,従来の条件を緩和する。 3層NNの場合、我々の技術的貢献は、過度パラメータ化の効果を徹底的に探求する新しい誘導戦略を利用することで、ほぼコヒーレンシブな性質を示すことである。 一般的な知見の直接的な応用として、2層および3層NNのGDアルゴリズムに対して、O(1/\sqrt{n})$の過剰リスク率を導出する。 これは、gdが訓練した過小パラメータと過小パラメータのnnが所望のリスク率o(1/\sqrt{n})$を達成するのに必要な条件または必要条件に光を当てる。 さらに,スケーリングパラメータが増加するか,ネットワークの複雑性が低下すると,GDが所望の誤差率を達成するために過度なパラメータ化を必要としないことを示す。 さらに,低雑音条件下では,2層および3層nnにおいて,gdに対してo(1/n)$の高速リスク率を得る。

Recently, significant progress has been made in understanding the generalization of neural networks (NNs) trained by gradient descent (GD) using the algorithmic stability approach. However, most of the existing research has focused on one-hidden-layer NNs and has not addressed the impact of different network scaling parameters. In this paper, we greatly extend the previous work \cite{lei2022stability,richards2021stability} by conducting a comprehensive stability and generalization analysis of GD for multi-layer NNs. For two-layer NNs, our results are established under general network scaling parameters, relaxing previous conditions. In the case of three-layer NNs, our technical contribution lies in demonstrating its nearly co-coercive property by utilizing a novel induction strategy that thoroughly explores the effects of over-parameterization. As a direct application of our general findings, we derive the excess risk rate of $O(1/\sqrt{n})$ for GD algorithms in both two-layer and three-layer NNs. This sheds light on sufficient or necessary conditions for under-parameterized and over-parameterized NNs trained by GD to attain the desired risk rate of $O(1/\sqrt{n})$. Moreover, we demonstrate that as the scaling parameter increases or the network complexity decreases, less over-parameterization is required for GD to achieve the desired error rates. Additionally, under a low-noise condition, we obtain a fast risk rate of $O(1/n)$ for GD in both two-layer and three-layer NNs.
翻訳日:2023-10-02 18:37:25 公開日:2023-09-29
# コヒーレント物質波のゲージ場理論

A Gauge Field Theory of Coherent Matter Waves ( http://arxiv.org/abs/2305.16613v2 )

ライセンス: Link先を確認
Dana Z. Anderson and Katarzyna Krzyzanowska(参考訳) 相互作用する中性原子の一定の周波数で振動する電流をゲージ場で処理すると、電磁場に対するマクスウェルの方程式に物質波双対が導かれる。 電磁波とは対照的に、伝播速度は上限よりも低い限界を持ち、そうでなければ自由空間の波のインピーダンスは377オームよりも負の実数値である。 場の量子化はマトンにつながり、ゲージボゾンは光子と双対である。 光子とは異なり、マセオンは原子に結合し、正のエネルギーではなく負のエネルギーを持ち、電流の源が冷却される。 複合物質とゲージ場消滅作用素の固有状態は、大きな励起の極限において古典的なコヒーレンスを示す物質波場のコヒーレント状態を定義する。

A gauge field treatment of a current, oscillating at a fixed frequency, of interacting neutral atoms leads to a set of matter-wave duals to Maxwell's equations for the electromagnetic field. In contrast to electromagnetics, the velocity of propagation has a lower limit rather than upper limit and the wave impedance of otherwise free space is negative real-valued rather than 377 Ohms. Quantization of the field leads to the matteron, the gauge boson dual to the photon. Unlike the photon, the matteron is bound to an atom and carries negative rather than positive energy, causing the source of the current to undergo cooling. Eigenstates of the combined matter and gauge field annihilation operator define the coherent state of the matter-wave field, which exhibits classical coherence in the limit of large excitation.
翻訳日:2023-10-02 18:36:44 公開日:2023-09-29
# L_{2}$-regularized linear DNNにおけるSGDの入射バイアス:高位から低位への片方向ジャンプ

Implicit bias of SGD in $L_{2}$-regularized linear DNNs: One-way jumps from high to low rank ( http://arxiv.org/abs/2305.16038v2 )

ライセンス: Link先を確認
Zihan Wang, Arthur Jacot(参考訳) l_{2}$-regularized loss of deep linear networks (dlns) は複数の隠れ層を持つ。 行列補完のようなタスクでは、トレーニングデータに適合する最小限のランクで局所最小値に収束することが目標である。 ランク推定ミニマはデータに合わないため回避できるが、ランク推定ミニマではGDが立ち往生する可能性がある。 sgdでは, 最下位から下位にジャンプする確率は常に存在するが, ジャンプバックの確率はゼロである。 より正確には、$b_{1}\subset b_{2}\subset\cdots\subset b_{r}$ の列を定義して、$b_{r}$ は、十分に小さなリッジパラメータである $\lambda$ と学習率 $\eta$: sgd が prob を持つランク$r$ 以下の全てのミニマを含む。 0 は$B_{r}$ を残さず、任意の開始点から 0 でない確率が存在する。 SGD が$B_{r}$

The $L_{2}$-regularized loss of Deep Linear Networks (DLNs) with more than one hidden layers has multiple local minima, corresponding to matrices with different ranks. In tasks such as matrix completion, the goal is to converge to the local minimum with the smallest rank that still fits the training data. While rank-underestimating minima can be avoided since they do not fit the data, GD might get stuck at rank-overestimating minima. We show that with SGD, there is always a probability to jump from a higher rank minimum to a lower rank one, but the probability of jumping back is zero. More precisely, we define a sequence of sets $B_{1}\subset B_{2}\subset\cdots\subset B_{R}$ so that $B_{r}$ contains all minima of rank $r$ or less (and not more) that are absorbing for small enough ridge parameters $\lambda$ and learning rates $\eta$: SGD has prob. 0 of leaving $B_{r}$, and from any starting point there is a non-zero prob. for SGD to go in $B_{r}$.
翻訳日:2023-10-02 18:36:01 公開日:2023-09-29
# 最適輸送を用いた直接グラフモデル学習

Learning Directed Graphical Models with Optimal Transport ( http://arxiv.org/abs/2305.15927v2 )

ライセンス: Link先を確認
Vy Vo, Trung Le, Long-Tung Vuong, He Zhao, Edwin Bonilla, Dinh Phung(参考訳) 不完全なデータから確率的有向グラフィカルモデルのパラメータを推定することは長年の課題である。 これは、潜在変数の存在下では、構造依存やモデルクラスについてのさらなる仮定なしに、可能性関数と後方分布の両方が難解であるからである。 既設の学習手法は, 帰結の最大化を基本としているが, 最適移動のレンズを通してパラメータ学習問題の新たな視点を提供する。 この観点は、潜在変数の後方に非現実的な仮定をせず、あるいはブラックボックスの変分近似に頼ることなく、任意の有向グラフ上で動く一般的なフレームワークをライセンスする。 我々は理論的な枠組みを開発し、我々のアプローチの柔軟性と汎用性を示す広範な実証的な証拠でそれを支援する。 実験を通して,本手法は基底パラメータを復元できるだけでなく,下流アプリケーション,特に離散表現学習の非自明なタスクにおいて,比較可能あるいはよりよい性能を発揮することを示した。

Estimating the parameters of a probabilistic directed graphical model from incomplete data remains a long-standing challenge. This is because, in the presence of latent variables, both the likelihood function and posterior distribution are intractable without further assumptions about structural dependencies or model classes. While existing learning methods are fundamentally based on likelihood maximization, here we offer a new view of the parameter learning problem through the lens of optimal transport. This perspective licenses a general framework that operates on any directed graphs without making unrealistic assumptions on the posterior over the latent variables or resorting to black-box variational approximations. We develop a theoretical framework and support it with extensive empirical evidence demonstrating the flexibility and versatility of our approach. Across experiments, we show that not only can our method recover the ground-truth parameters but it also performs comparably or better on downstream applications, notably the non-trivial task of discrete representation learning.
翻訳日:2023-10-02 18:35:27 公開日:2023-09-29
# 改良されたreluネットワーク特徴学習のための神経特性アクティベーション値解析

Neural Characteristic Activation Value Analysis for Improved ReLU Network Feature Learning ( http://arxiv.org/abs/2305.15912v3 )

ライセンス: Link先を確認
Wenlin Chen, Hong Ge(参考訳) 本研究では、ニューラルネットワークにおける個々のReLUユニットの特性活性化値について検討する。 このような特性活性化値に対応する入力位置のセットを、reluユニットの特性活性化セットとして参照する。 特徴アクティベーションセットとReLUネットワークにおける学習特徴との間に明確な関係を描いている。 この接続は、現代のディープラーニングアーキテクチャで使用される様々なニューラルネットワーク正規化技術が、確率的勾配最適化を規則化し安定化する方法に関する新たな洞察をもたらす。 これらの知見を利用して,超球面座標系における半径パラメータと角パラメータを分離する特徴学習を改善するために,ReLUネットワークの幾何パラメータ化を提案する。 より注意深く選択された初期化スキームとより大きな学習率でその有用性を検証する。 本稿では,ImageNet上のResNet-50ネットワークを含む各種データセット上での最適化安定性,収束速度,一般化性能の大幅な改善について報告する。

This work examines the characteristic activation values of individual ReLU units in neural networks. We refer to the set of input locations corresponding to such characteristic activation values as the characteristic activation set of a ReLU unit. We draw an explicit connection between the characteristic activation set and learned features in ReLU networks. This connection leads to new insights into how various neural network normalization techniques used in modern deep learning architectures regularize and stabilize stochastic gradient optimization. Utilizing these insights, we propose geometric parameterization for ReLU networks to improve feature learning, which decouples the radial and angular parameters in the hyperspherical coordinate system. We empirically verify its usefulness with less carefully chosen initialization schemes and larger learning rates. We report significant improvements in optimization stability, convergence speed, and generalization performance for various models on a variety of datasets, including the ResNet-50 network on ImageNet.
翻訳日:2023-10-02 18:35:09 公開日:2023-09-29
# 継続的学習における安定性のギャップ克服

Overcoming the Stability Gap in Continual Learning ( http://arxiv.org/abs/2306.01904v2 )

ライセンス: Link先を確認
Md Yousuf Harun and Christopher Kanan(参考訳) 多くの現実世界のアプリケーションでは、データセットのサイズが大きくなるにつれて、ディープニューラルネットワークはスクラッチから再トレーニングされる。 再トレーニングネットワークの計算コストを考えると、継続的な学習によってネットワークの更新がより効率的になると主張している。 この目標を達成する上での障害は安定性ギャップであり、新しいデータを更新すると、事前に学習したデータのパフォーマンスが回復する前に劣化する、という観察を指す。 この問題に対処することで、ネットワーク更新が少なくて新しいデータを学ぶことができ、計算効率が向上する。 我々は安定性のギャップを緩和する方法を研究する。 我々は、安定性のギャップが発生する理由を理解するために、様々な仮説を試す。 これにより、このギャップを大幅に減らす方法が発見できます。 大規模クラスインクリメンタル学習実験では,継続的な学習に必要なネットワーク更新数を大幅に削減することができた。 我々の研究は、更新されたニューラルネットワークを維持するのに必要な炭素フットプリントを減らすとともに、現実世界のアプリケーションに対する継続的な学習の最先端を推し進める可能性がある。

In many real-world applications, deep neural networks are retrained from scratch as a dataset grows in size. Given the computational expense for retraining networks, it has been argued that continual learning could make updating networks more efficient. An obstacle to achieving this goal is the stability gap, which refers to an observation that when updating on new data, performance on previously learned data degrades before recovering. Addressing this problem would enable learning new data with fewer network updates, resulting in increased computational efficiency. We study how to mitigate the stability gap. We test a variety of hypotheses to understand why the stability gap occurs. This leads us to discover a method that vastly reduces this gap. In large-scale class incremental learning experiments, we are able to significantly reduce the number of network updates needed for continual learning. Our work has the potential to advance the state-of-the-art in continual learning for real-world applications along with reducing the carbon footprint required to maintain updated neural networks.
翻訳日:2023-10-02 18:28:00 公開日:2023-09-29
# 3次元分子相互作用学習に向けたジェネラリスト同変トランスフォーマー

Generalist Equivariant Transformer Towards 3D Molecular Interaction Learning ( http://arxiv.org/abs/2306.01474v3 )

ライセンス: Link先を確認
Xiangzhe Kong, Wenbing Huang, Yang Liu(参考訳) 生物学や創薬における多くのプロセスは、タンパク質やタンパク質、タンパク質や小分子などの分子間の様々な3d相互作用を含んでいる。 異なる分子は通常異なる粒度で表されるため、既存の手法では各種類の分子を異なるモデルで独立にエンコードし、普遍的な相互作用物理学を学ぶには欠陥がある。 本稿ではまず,任意の3次元錯体を集合の幾何学的グラフとして普遍的に表現し,全ての分子を1つのモデルで符号化することを提案する。 次に、ドメイン固有の階層とドメインに依存しない相互作用物理学の両方を効果的に捉えるためのジェネラリスト同変トランスフォーマー(get)を提案する。 具体的には、GETはバイレベルアテンションモジュール、フィードフォワードモジュール、レイヤ正規化モジュールで構成されており、各モジュールはE(3)同変であり、可変サイズの集合を扱うのに特化している。 特に、従来のプーリングベースの階層モデルとは対照的に、GETはあらゆるレベルのきめ細かい情報を保持できます。 タンパク質,小分子,rna/dna間の相互作用に関する広範な実験により,提案手法の有効性と汎用性が検証された。

Many processes in biology and drug discovery involve various 3D interactions between molecules, such as protein and protein, protein and small molecule, etc. Given that different molecules are usually represented in different granularity, existing methods usually encode each type of molecules independently with different models, leaving it defective to learn the universal underlying interaction physics. In this paper, we first propose to universally represent an arbitrary 3D complex as a geometric graph of sets, shedding light on encoding all types of molecules with one model. We then propose a Generalist Equivariant Transformer (GET) to effectively capture both domain-specific hierarchies and domain-agnostic interaction physics. To be specific, GET consists of a bilevel attention module, a feed-forward module and a layer normalization module, where each module is E(3) equivariant and specialized for handling sets of variable sizes. Notably, in contrast to conventional pooling-based hierarchical models, our GET is able to retain fine-grained information of all levels. Extensive experiments on the interactions between proteins, small molecules and RNA/DNAs verify the effectiveness and generalization capability of our proposed method across different domains.
翻訳日:2023-10-02 18:27:45 公開日:2023-09-29
# オーバーラップ分布における温度スケーリングの限界について

On the Limitations of Temperature Scaling for Distributions with Overlaps ( http://arxiv.org/abs/2306.00740v2 )

ライセンス: Link先を確認
Muthu Chidambaram and Rong Ge(参考訳) ディープニューラルネットワークの印象的な一般化機能にも関わらず、誤った場合には自信過剰であることが繰り返し示されています。 この問題を解決することはモデルキャリブレーションと呼ばれ、改良されたトレーニングスキームと温度スケーリングのようなトレーニング後のキャリブレーション手順という形で多くの注目を集めている。 温度スケーリングは単純さのため頻繁に用いられるが、しばしば改良されたトレーニングスキームによって置き換えられる。 本研究では,温度スケーリング性能の特定のボトルネックを特定する。 クラスのサポートが重複する分布の一般的な集合に対する経験的リスク最小化器の場合、温度スケーリング性能はクラス間の重複量とともに低下し、多数のクラスが存在する場合、漸近的にランダムに向上しないことを示す。 一方,Mixupデータ拡張技術によって引き起こされる経験的リスクの修正形式を最適化すると,ある程度のキャリブレーション性能が得られることが証明され,一部の状況ではトレーニング時間キャリブレーションが必要であることが示唆された。 また,Mixupがラベルノイズの形でクラスオーバーラップを導入した画像分類ベンチマークにおいて,実験的リスク最小化(複数のキャリブレーション指標)を著しく上回ることを示すことによって,我々の理論的結果が実践を反映していることを検証する。

Despite the impressive generalization capabilities of deep neural networks, they have been repeatedly shown to be overconfident when they are wrong. Fixing this issue is known as model calibration, and has consequently received much attention in the form of modified training schemes and post-training calibration procedures such as temperature scaling. While temperature scaling is frequently used because of its simplicity, it is often outperformed by modified training schemes. In this work, we identify a specific bottleneck for the performance of temperature scaling. We show that for empirical risk minimizers for a general set of distributions in which the supports of classes have overlaps, the performance of temperature scaling degrades with the amount of overlap between classes, and asymptotically becomes no better than random when there are a large number of classes. On the other hand, we prove that optimizing a modified form of the empirical risk induced by the Mixup data augmentation technique can in fact lead to reasonably good calibration performance, showing that training-time calibration may be necessary in some situations. We also verify that our theoretical results reflect practice by showing that Mixup significantly outperforms empirical risk minimization (with respect to multiple calibration metrics) on image classification benchmarks with class overlaps introduced in the form of label noise.
翻訳日:2023-10-02 18:27:24 公開日:2023-09-29
# NeuroGF: 高速測地距離と経路クエリのためのニューラル表現

NeuroGF: A Neural Representation for Fast Geodesic Distance and Path Queries ( http://arxiv.org/abs/2306.00658v3 )

ライセンス: Link先を確認
Qijian Zhang, Junhui Hou, Yohanes Yudhi Adikusuma, Wenping Wang, Ying He(参考訳) 測地学は幾何処理の多くの応用において必須である。 しかし、3dメッシュモデル上で測地距離や経路を計算する従来のアルゴリズムはしばしば非効率で遅い。 これにより、任意の点から点への測地線を広範囲に問合せする必要のあるシナリオでは実用的でない。 ニューラル暗示表現は3次元形状の幾何学を表現する一般的な方法として現れているが、深い暗示関数を持つ測地学を表現する研究はいまだにない。 このギャップを埋めるために,ニューラル暗黙関数を用いた3次元メッシュモデル上での測地学の表現を初めて試みる。 具体的には,与えられたメッシュの全ペア測地線を表現するために学習されるニューラルジオデシックフィールド(neurogfs)を導入する。 ニューロgfを用いることで,従来のアルゴリズムの限界を克服し,任意の測地距離と経路の問合せを効率的に正確に解くことができる。 一般的な3Dモデルによる評価では、NeuroGFsは単一ソースのオールデスティネーション(SSAD)とポイント・ツー・ポイントのジオデシクスを解くのに優れた性能を示し、常に高い精度を達成する。 さらに、NeuroGFsは3次元幾何学と測地学の両方を統一表現で符号化するユニークな利点も提供する。 さらに、形状特徴エンコーダを追加することにより、NuroGFの一般化可能な学習フレームワークをさらに拡張し、不明瞭な形状やカテゴリに対して満足な性能を示す。 コードはhttps://github.com/keeganhk/neurogf/tree/masterで入手できる。

Geodesics are essential in many geometry processing applications. However, traditional algorithms for computing geodesic distances and paths on 3D mesh models are often inefficient and slow. This makes them impractical for scenarios that require extensive querying of arbitrary point-to-point geodesics. Although neural implicit representations have emerged as a popular way of representing 3D shape geometries, there is still no research on representing geodesics with deep implicit functions. To bridge this gap, this paper presents the first attempt to represent geodesics on 3D mesh models using neural implicit functions. Specifically, we introduce neural geodesic fields (NeuroGFs), which are learned to represent the all-pairs geodesics of a given mesh. By using NeuroGFs, we can efficiently and accurately answer queries of arbitrary point-to-point geodesic distances and paths, overcoming the limitations of traditional algorithms. Evaluations on common 3D models show that NeuroGFs exhibit exceptional performance in solving the single-source all-destination (SSAD) and point-to-point geodesics, and achieve high accuracy consistently. Besides, NeuroGFs also offer the unique advantage of encoding both 3D geometry and geodesics in a unified representation. Moreover, we further extend generalizable learning frameworks of NeuroGFs by adding shape feature encoders, which also show satisfactory performances for unseen shapes and categories. Code is made available at https://github.com/keeganhk/NeuroGF/tree/master.
翻訳日:2023-10-02 18:27:02 公開日:2023-09-29
# Wuerstchen: 大規模テキスト-画像拡散モデルのための効率的なアーキテクチャ

Wuerstchen: An Efficient Architecture for Large-Scale Text-to-Image Diffusion Models ( http://arxiv.org/abs/2306.00637v2 )

ライセンス: Link先を確認
Pablo Pernias, Dominic Rampas, Mats L. Richter, Christopher J. Pal and Marc Aubreville(参考訳) 本稿では,大規模テキスト-画像拡散モデルにおける競合性能と前例のないコスト効率を組み合わせた,テキスト-画像合成のための新しいアーキテクチャであるw\"urstchenを紹介する。 我々の研究の重要な貢献は、拡散過程の導出に使用される詳細だが非常にコンパクトなセマンティックイメージ表現を学習する潜伏拡散技術を開発することである。 この高度に圧縮された画像表現は、言語の潜在表現よりもはるかに詳細なガイダンスを提供するため、最先端の結果を達成するための計算要求を著しく削減する。 また,提案手法は,ユーザの嗜好調査に基づくテキストコンディショニング画像生成の品質も向上する。 このアプローチのトレーニング要件は,Stable Diffusion 2.1の20,000GPU時間に比較して24,602 A100-GPU時間である。 このアプローチでは、これらの結果を達成するためのトレーニングデータも少なくなります。 さらに,コンパクトな潜在表現によって,2倍以上の速度で推論が可能となり,最先端の拡散モデル(sota)のコストとカーボンフットプリントを大幅に削減することができた。 より広範なSOTAモデルとの比較では、我々のアプローチはより効率的であり、画像品質の点で好適に比較される。 この研究は、パフォーマンスと計算のアクセシビリティの両方の優先順位付けにもっと重点を置いていると信じています。

We introduce W\"urstchen, a novel architecture for text-to-image synthesis that combines competitive performance with unprecedented cost-effectiveness for large-scale text-to-image diffusion models. A key contribution of our work is to develop a latent diffusion technique in which we learn a detailed but extremely compact semantic image representation used to guide the diffusion process. This highly compressed representation of an image provides much more detailed guidance compared to latent representations of language and this significantly reduces the computational requirements to achieve state-of-the-art results. Our approach also improves the quality of text-conditioned image generation based on our user preference study. The training requirements of our approach consists of 24,602 A100-GPU hours - compared to Stable Diffusion 2.1's 200,000 GPU hours. Our approach also requires less training data to achieve these results. Furthermore, our compact latent representations allows us to perform inference over twice as fast, slashing the usual costs and carbon footprint of a state-of-the-art (SOTA) diffusion model significantly, without compromising the end performance. In a broader comparison against SOTA models our approach is substantially more efficient and compares favorably in terms of image quality. We believe that this work motivates more emphasis on the prioritization of both performance and computational accessibility.
翻訳日:2023-10-02 18:26:34 公開日:2023-09-29
# ニューラルネットワークによる1ビットの通信による絡み合った状態のシミュレーション

Neural Network Approach to the Simulation of Entangled States with One Bit of Communication ( http://arxiv.org/abs/2305.19935v5 )

ライセンス: Link先を確認
Peter Sidajaya, Aloysius Dewen Lim, Baichu Yu, Valerio Scarani(参考訳) ベルの定理は、局所隠れ変数(LHV)は、いくつかの絡み合った量子状態における測定の統計を十分に説明できないと述べている。 それらをシミュレートするのに、どの程度追加的な古典的コミュニケーションが必要か尋ねるのは自然です。 本研究では,ニューラルネットワークシミュレーションやその他のツールを用いて,この分野における2つの長年のオープン質問について検討する。 まず, 部分的絡み合った2量子ビット状態における全ての射影的測定は, 1ビットの通信しか必要としないことを示す。 我々は、正確な量子挙動とトレーニングされたネットワークの積、あるいはそれに触発された半解析モデルの間の統計的距離を定量化する。 第二に、一ビットの通信が最終的に全ての二部量子相関を再現できないという一般的な根拠(そして明らかな)で知られているが、明示的な例は回避可能である。 私たちの検索では、最大5つの入力と4つの出力を持つ2部ベルシナリオの1つを見つけられず、量子相関の再現における1ビットの通信のパワーが強調された。

Bell's theorem states that Local Hidden Variables (LHVs) cannot fully explain the statistics of measurements on some entangled quantum states. It is natural to ask how much supplementary classical communication would be needed to simulate them. We study two long-standing open questions in this field with neural network simulations and other tools. First, we present evidence that all projective measurements on partially entangled pure two-qubit states require only one bit of communication. We quantify the statistical distance between the exact quantum behaviour and the product of the trained network, or of a semianalytical model inspired by it. Second, while it is known on general grounds (and obvious) that one bit of communication cannot eventually reproduce all bipartite quantum correlation, explicit examples have proved evasive. Our search failed to find one for several bipartite Bell scenarios with up to 5 inputs and 4 outputs, highlighting the power of one bit of communication in reproducing quantum correlations.
翻訳日:2023-10-02 18:26:12 公開日:2023-09-29
# 大規模離散行動空間の動的近傍構築

Dynamic Neighborhood Construction for Structured Large Discrete Action Spaces ( http://arxiv.org/abs/2305.19891v2 )

ライセンス: Link先を確認
Fabian Akkerman, Julius Luy, Wouter van Heeswijk, Maximilian Schiffer(参考訳) 大規模離散行動空間(LDAS)は、強化学習における中心的な課題である。 既存のソリューションアプローチでは、最大数百万のアクションで非構造化LDASを処理できる。 しかし、物流、生産、輸送システムにおける現実世界のアプリケーションの多くは、小さなインスタンスでも数百万以上のアクションを展開する複合的なアクションスペースを持っている。 幸いなことに、そのような作用空間は構造、例えば等間隔の離散リソース単位を示す。 本稿では,現在のベンチマークでは処理できないサイズで構造化lda(sldas)を扱うことに焦点を当て,sldasの新しい活用パラダイムであるdynamic neighborhood construction(dnc)を提案する。 本稿では,このパラダイムを応用したスケーラブルな近傍探索ヒューリスティックを提案し,最大10〜73ドルのアクションを持つ構造化された行動空間における連続的プロキシアクションの周囲の離散的近傍を効率的に探索する。 2つの異なる環境にまたがる大きな離散的アクション空間向けに設計された3つの最先端のアプローチに対してベンチマークすることで,本手法の性能を実証する。 以上の結果から,dncは計算効率が向上しつつ,最先端の手法に匹敵することを示した。 さらに,本手法は,既存の手法では計算的に難解な動作空間にスケールする。

Large discrete action spaces (LDAS) remain a central challenge in reinforcement learning. Existing solution approaches can handle unstructured LDAS with up to a few million actions. However, many real-world applications in logistics, production, and transportation systems have combinatorial action spaces, whose size grows well beyond millions of actions, even on small instances. Fortunately, such action spaces exhibit structure, e.g., equally spaced discrete resource units. With this work, we focus on handling structured LDAS (SLDAS) with sizes that cannot be handled by current benchmarks: we propose Dynamic Neighborhood Construction (DNC), a novel exploitation paradigm for SLDAS. We present a scalable neighborhood exploration heuristic that utilizes this paradigm and efficiently explores the discrete neighborhood around the continuous proxy action in structured action spaces with up to $10^{73}$ actions. We demonstrate the performance of our method by benchmarking it against three state-of-the-art approaches designed for large discrete action spaces across two distinct environments. Our results show that DNC matches or outperforms state-of-the-art approaches while being computationally more efficient. Furthermore, our method scales to action spaces that so far remained computationally intractable for existing methodologies.
翻訳日:2023-10-02 18:25:54 公開日:2023-09-29
# log-concave マルコフ鎖の鎖

Chain of Log-Concave Markov Chains ( http://arxiv.org/abs/2305.19473v2 )

ライセンス: Link先を確認
Saeed Saremi, Ji Won Park, Francis Bach(参考訳) 本稿では,単一固定雑音スケールの等方性ガウス核を用いた平滑化スキームに基づく非正規化密度からのサンプリングのための理論的枠組みを提案する。 密度(密度に関する最小の仮定)から、ノイズレベルの等しいノイズ測定値の蓄積による対数凸条件密度からのサンプリング列にサンプリングを分解できることを実証する。 私たちの構成は、サンプルの履歴をトラックし、Markovianではない全体を追跡するという点でユニークなものですが、歴史がサンプルの実行経験的な平均の形でのみ現れるため、アルゴリズム的に軽量です。 我々のサンプリングアルゴリズムは、ウォークジャンプサンプリングを一般化する(Saremi & Hyv\"arinen, 2019)。ウォーク"フェーズは、(log-concave)マルコフ連鎖の(非マルコフ)連鎖となり、蓄積された測定の"ジャンプ"は、経験的ベイズによって得られる。サンプリングアルゴリズムは、2-ワッサーシュタイン計量を用いて定量化し、様々なランゲヴィンMCMCアルゴリズムと比較する。また、我々のアルゴリズムの顕著な能力について報告する。

We introduce a theoretical framework for sampling from unnormalized densities based on a smoothing scheme that uses an isotropic Gaussian kernel with a single fixed noise scale. We prove one can decompose sampling from a density (minimal assumptions made on the density) into a sequence of sampling from log-concave conditional densities via accumulation of noisy measurements with equal noise levels. Our construction is unique in that it keeps track of a history of samples, making it non-Markovian as a whole, but it is lightweight algorithmically as the history only shows up in the form of a running empirical mean of samples. Our sampling algorithm generalizes walk-jump sampling (Saremi & Hyv\"arinen, 2019). The "walk" phase becomes a (non-Markovian) chain of (log-concave) Markov chains. The "jump" from the accumulated measurements is obtained by empirical Bayes. We study our sampling algorithm quantitatively using the 2-Wasserstein metric and compare it with various Langevin MCMC algorithms. We also report a remarkable capacity of our algorithm to "tunnel" between modes of a distribution.
翻訳日:2023-10-02 18:25:34 公開日:2023-09-29
# ニューラルPDEサロゲートを用いたダイバータプラズマの高速動的1次元シミュレーション

Fast Dynamic 1D Simulation of Divertor Plasmas with Neural PDE Surrogates ( http://arxiv.org/abs/2305.18944v3 )

ライセンス: Link先を確認
Yoeri Poels, Gijs Derks, Egbert Westerhof, Koen Minartz, Sven Wiesen, Vlado Menkovski(参考訳) ダイバータプラズマの管理は、ダイバータターゲットの熱と粒子フラックスの制約により、原子炉スケールトカマク装置の動作に不可欠である。 シミュレーションは、これらのプラズマを理解し制御するための重要なツールであるが、リアルタイムアプリケーションや徹底的なパラメータスキャンでは、単純な近似のみが現在十分高速である。 古典的数値解法を用いて学習した,データ駆動型ニューラルネットワークに基づくサロゲートモデルであるneural pde surrogatesを用いた高速シミュレータの欠如に対処する。 サーロゲートは、参照物理学に基づくモデルの完全な空間解を時間とともに発展させる時間ステップ作用素を近似する。 データ生成の基準モデルとして,ダイバータプラズマの1次元動的モデルであるDIV1Dを用いる。 DIV1DドメインはX点(上流)からターゲットまでの1次元熱流束管をカバーしている。 我々は,上流密度ランプによって誘導されるダイナミックスで現実的なTCVダイバータプラズマをシミュレートし,高速過渡現象への探索的展望を提供する。 最先端のニューラルPDEサロゲートは共通のフレームワークで評価され、DIV1Dデータの性質のために拡張される。 1) 速度精度のトレードオフ, (2) 非線形動作の再現, (3) データ効率, (4) パラメータ間および外挿について評価する。 一度訓練すると、ニューラルpdeサロゲートは準リアルタイム計算速度でdiv1dのダイバータプラズマダイナミクスを忠実に近似することができる: 提案された構成では、プラズマダイナミクスの2msは壁時計時間の約0.63msで計算でき、div1dよりも数桁速い。

Managing divertor plasmas is crucial for operating reactor scale tokamak devices due to heat and particle flux constraints on the divertor target. Simulation is an important tool to understand and control these plasmas, however, for real-time applications or exhaustive parameter scans only simple approximations are currently fast enough. We address this lack of fast simulators using neural PDE surrogates, data-driven neural network-based surrogate models trained using solutions generated with a classical numerical method. The surrogate approximates a time-stepping operator that evolves the full spatial solution of a reference physics-based model over time. We use DIV1D, a 1D dynamic model of the divertor plasma, as reference model to generate data. DIV1D's domain covers a 1D heat flux tube from the X-point (upstream) to the target. We simulate a realistic TCV divertor plasma with dynamics induced by upstream density ramps and provide an exploratory outlook towards fast transients. State-of-the-art neural PDE surrogates are evaluated in a common framework and extended for properties of the DIV1D data. We evaluate (1) the speed-accuracy trade-off; (2) recreating non-linear behavior; (3) data efficiency; and (4) parameter inter- and extrapolation. Once trained, neural PDE surrogates can faithfully approximate DIV1D's divertor plasma dynamics at sub real-time computation speeds: In the proposed configuration, 2ms of plasma dynamics can be computed in $\approx$0.63ms of wall-clock time, several orders of magnitude faster than DIV1D.
翻訳日:2023-10-02 18:24:42 公開日:2023-09-29
# トップクォークペア生産における量子絡み合い

Quantum Entanglement in Top Quark Pair Production ( http://arxiv.org/abs/2306.07788v3 )

ライセンス: Link先を確認
Mira Varma, O.K. Baker(参考訳) 標準模型で最も大きな粒子であるトップクォークは、ハドロン前に崩壊するのでかなりの注目を集めている。 これにより物理学者は、その性質を直接調査するユニークな機会が得られる。 この手紙では、G. Iskander, J. Pan, M. Tyler, C. Weber, O. K. Bakerの業績を拡大し、最も質量の大きい素粒子であっても、電弱相互作用と電磁相互作用の両方で観測されるエンタングルメントの同じ現象が現れることを示した。 2つのトップクォークに衝突する陽子から生じる熱成分は、2つの陽子波動関数内の絡み合いから生じる。 絡み合いの存在は、横運動量分布における熱散乱成分と硬散乱成分の共存を意味する。 我々は、ATLASとCMSの結果を用いて、データが期待される振る舞いを示すことを示す。

Top quarks, the most massive particles in the standard model, attract considerable attention since they decay before hadronizing. This presents physicists with a unique opportunity to directly investigate their properties. In this letter, we expand upon the work of G. Iskander, J. Pan, M. Tyler, C. Weber and O. K. Baker to demonstrate that even with the most massive fundamental particle, we see the same manifestation of entanglement observed in both electroweak and electromagnetic interactions. We propose that the thermal component resulting from protons colliding into two top quarks emerges from entanglement within the two-proton wave function. The presence of entanglement implies the coexistence of both thermal and hard scattering components in the transverse momentum distribution. We use published ATLAS and CMS results to show that the data exhibits the expected behavior.
翻訳日:2023-10-02 18:18:25 公開日:2023-09-29
# アルゴリズム的公平の7年間の未処理

Unprocessing Seven Years of Algorithmic Fairness ( http://arxiv.org/abs/2306.07261v3 )

ライセンス: Link先を確認
Andr\'e F. Cruz, Moritz Hardt(参考訳) 7年前、研究者は異なる集団間でモデルのエラー率を均等化するポストプロセッシング法を提案した。 作業は後処理のベースラインを改善するために数百の論文を発行した。 いくつかの表付きデータセット上で数千のモデル評価を行うことで,これらの主張を実証的に評価する。 ポストプロセッシングによって達成されたフェアネス精度のParetoフロンティアには、評価可能な他の方法がすべて含まれています。 そこで我々は,これまでの観測結果と合致した方法論的誤りを2つ解決した。 1つは、異なる制約のないベースモデルとのメソッドの比較に関するものである。 他の関心事は、異なるレベルの制約緩和を達成する方法である。 私たちの研究の中心は、ポストプロセッシングの逆に対応するアンプロセッシング(unprocessing)と呼ばれる単純なアイデアです。 アンプロセッシングにより、異なるモデルと緩和レベルを使用するメソッドを直接比較することができる。

Seven years ago, researchers proposed a postprocessing method to equalize the error rates of a model across different demographic groups. The work launched hundreds of papers purporting to improve over the postprocessing baseline. We empirically evaluate these claims through thousands of model evaluations on several tabular datasets. We find that the fairness-accuracy Pareto frontier achieved by postprocessing contains all other methods we were feasibly able to evaluate. In doing so, we address two common methodological errors that have confounded previous observations. One relates to the comparison of methods with different unconstrained base models. The other concerns methods achieving different levels of constraint relaxation. At the heart of our study is a simple idea we call unprocessing that roughly corresponds to the inverse of postprocessing. Unprocessing allows for a direct comparison of methods using different underlying models and levels of relaxation.
翻訳日:2023-10-02 18:18:09 公開日:2023-09-29
# Ada-NAV:ロボットナビゲーションのための適応軌道に基づく効率的な政策学習

Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for Robotic Navigation ( http://arxiv.org/abs/2306.06192v2 )

ライセンス: Link先を確認
Bhrij Patel, Kasun Weerakoon, Wesley A. Suttle, Alec Koppel, Brian M. Sadler, Tianyi Zhou, Amrit Singh Bedi and Dinesh Manocha(参考訳) 強化学習法は、ロボットナビゲーション戦略の学習に有効であるが、非常に非効率なサンプルであることが知られている。 このサンプルの非効率性は、政策最適化中に特に非定常の存在下での探索-展開のジレンマのバランスが不適切であることから生じる。 サンプル効率のための探索・探索のバランスを組み込むために, シャノンあるいは微分エントロピーで表されるポリシーのランダム性として長さが増加する適応軌道長スキームada-navを提案する。 適応軌跡長スキームは,より頻繁な勾配更新によるトレーニング開始時の探索を強調し,その後,より長い軌道での利用を強調する。 グリッドワールド, シミュレーションロボット環境, 実世界のロボット実験において, 一定かつランダムにサンプリングされた軌道長に対するアプローチの利点を, 性能と試料効率の観点から示す。 固定サンプル予算では、Ada-NAVは航法成功率が18%増加し、航法経路の長さが20~38%減少し、他の方法と比較して標高コストが9.32%低下する。 また,ada-navをclearpath huskyロボットに移し,性能を低下させることなく統合できることを実証した。

Reinforcement learning methods, while effective for learning robotic navigation strategies, are known to be highly sample inefficient. This sample inefficiency comes in part from not suitably balancing the explore-exploit dilemma, especially in the presence of non-stationarity, during policy optimization. To incorporate a balance of exploration-exploitation for sample efficiency, we propose Ada-NAV, an adaptive trajectory length scheme where the length grows as a policy's randomness, represented by its Shannon or differential entropy, decreases. Our adaptive trajectory length scheme emphasizes exploration at the beginning of training due to more frequent gradient updates and emphasizes exploitation later on with longer trajectories. In gridworld, simulated robotic environments, and real-world robotic experiments, we demonstrate the merits of the approach over constant and randomly sampled trajectory lengths in terms of performance and sample efficiency. For a fixed sample budget, Ada-NAV results in an 18% increase in navigation success rate, a 20-38% decrease in the navigation path length, and 9.32% decrease in the elevation cost compared to the policies obtained by the other methods. We also demonstrate that Ada-NAV can be transferred and integrated into a Clearpath Husky robot without significant performance degradation.
翻訳日:2023-10-02 18:17:58 公開日:2023-09-29
# 断層分類のための動的信号係数によるグラフ再構成

A Graph Reconstruction by Dynamic Signal Coefficient for Fault Classification ( http://arxiv.org/abs/2306.05281v3 )

ライセンス: Link先を確認
Wenbin He, Jianxu Mao, Yaonan Wang, Zhe Li, Qiu Fang, Haotian Wu(参考訳) 回転機械の強騒音下での故障を識別する性能を向上させるため,提案したエンドツーエンド故障診断モデルの重要な役割を担う動的特徴再構成信号グラフ法を提案する。 具体的には、最初にウェーブレットパケット分解(wpd)により元のメカニカル信号が分解され、係数行列を含む複数のサブバンドが得られる。 次に、当初定義された2つの特徴抽出因子MDDとDDDを用いて、標準エネルギーの分布の違いに基づいてWPDの特徴係数行列を動的に選択し、各サブシグナルが適応的な信号再構成を行うことのできるL2エネルギーノルム(DFSL)に基づく動的特徴選択法を提案する。 次に、最適な特徴サブバンドの係数行列を再構成して再構成し、特徴信号グラフを得る。 最後に、2D-畳み込みニューラルネットワーク(2D-CNN)により特徴信号グラフから深い特徴を抽出する。 軸受の公開データプラットフォームとロボット研削実験プラットフォームにおける実験結果から, この手法は騒音強度の異なる既存の手法よりも優れていることがわかった。

To improve the performance in identifying the faults under strong noise for rotating machinery, this paper presents a dynamic feature reconstruction signal graph method, which plays the key role of the proposed end-to-end fault diagnosis model. Specifically, the original mechanical signal is first decomposed by wavelet packet decomposition (WPD) to obtain multiple subbands including coefficient matrix. Then, with originally defined two feature extraction factors MDD and DDD, a dynamic feature selection method based on L2 energy norm (DFSL) is proposed, which can dynamically select the feature coefficient matrix of WPD based on the difference in the distribution of norm energy, enabling each sub-signal to take adaptive signal reconstruction. Next the coefficient matrices of the optimal feature sub-bands are reconstructed and reorganized to obtain the feature signal graphs. Finally, deep features are extracted from the feature signal graphs by 2D-Convolutional neural network (2D-CNN). Experimental results on a public data platform of a bearing and our laboratory platform of robot grinding show that this method is better than the existing methods under different noise intensities.
翻訳日:2023-10-02 18:17:33 公開日:2023-09-29
# SiBBlInGS:国別グラフを用いた類似性駆動型ビルディングブロック推論

SiBBlInGS: Similarity-driven Building-Block Inference using Graphs across States ( http://arxiv.org/abs/2306.04817v2 )

ライセンス: Link先を確認
Noga Mudrik, Gal Mishne, Adam S. Charles(参考訳) 多くの科学的領域におけるデータは、複数の異なる状態(例えば、異なる臨床介入)の下で収集されることが多く、潜伏過程(例えば、内部生物学的要因)は、単一の状態と状態の間の個々の試験の間で複雑な変動を引き起こす。 この複雑さに対処するための有望なアプローチは、データ内の基本的な表現単位(例えば、機能的ビルディングブロック(bbs))を明らかにすることである。 しかし、そのような多次元データを理解する既存の方法は、実世界のデータの特徴と一致しない仮定の下でテンソル分解に依存することが多く、異なる持続時間、欠落サンプル、様々なサンプリング率の試行に苦しむ。 本稿では,状態間のグラフを用いた類似性に基づくビルディングブロック推論のフレームワークを提案する。 SiBBlInGSは、BB発見のための頑健なグラフベースの辞書学習アプローチを採用し、時間的活動の共有、状態内関係、非直交成分、セッション数と状態間の持続時間の変化を考察し、ノイズ、ランダム初期化、欠落サンプルへの耐性を維持している。 さらに、状態特異的なBBと状態不変なBBの識別を可能にし、BB構造と心房内時間変動のクロスステート制御のバリエーションを可能にする。 我々は、SiBBlInGSを実世界のいくつかの実例で実証し、フィールド全体にわたる複雑な現象のメカニズムに関する洞察を提供する能力を強調した。

Data in many scientific domains are often collected under multiple distinct states (e.g., different clinical interventions), wherein latent processes (e.g., internal biological factors) can create complex variability between individual trials both within single states and between states. A promising approach for addressing this complexity is uncovering fundamental representational units within the data, i.e., functional Building Blocks (BBs), that can adjust their temporal activity and component structure across trials to capture the diverse spectrum of cross-trial variability. However, existing methods for understanding such multi-dimensional data often rely on tensor factorization under assumptions that may not align with the characteristics of real-world data, and struggle to accommodate trials of different durations, missing samples, and varied sampling rates. Here, we present a framework for Similarity-driven Building Block Inference using Graphs across States (SiBBlInGS). SiBBlInGS employs a robust graph-based dictionary learning approach for BB discovery that considers shared temporal activity, inter- and intra-state relationships, non-orthogonal components, and variations in session counts and duration across states, while remaining resilient to noise, random initializations, and missing samples. Additionally, it enables the identification of state-specific vs. state-invariant BBs and allows for cross-state controlled variations in BB structure and per-trial temporal variability. We demonstrate SiBBlInGS on synthetic and several real-world examples to highlight its ability to provide insights into the underlying mechanisms of complex phenomena across fields.
翻訳日:2023-10-02 18:17:14 公開日:2023-09-29
# 粗い方が良い? 未修正画像を用いた自己教師あり学習のための新しいパイプライン

Coarse Is Better? A New Pipeline Towards Self-Supervised Learning with Uncurated Images ( http://arxiv.org/abs/2306.04244v3 )

ライセンス: Link先を確認
Ke Zhu, Yin-Yin He, Jianxin Wu(参考訳) ほとんどの自己教師付き学習(SSL)メソッドは、オブジェクト中心の仮定が成立するキュレートデータセットで動作することが多い。 この仮定は未解決の画像に分解される。 既存のシーン画像SSL法は、よくマッチした、あるいは密度の高いオリジナルのシーン画像から2つのビューを見つけようとするが、これは複雑で計算的に重くなる。 まず、粗いオブジェクト(適切なオブジェクト性を持つ)である領域を見つけ出し、疑似オブジェクト中心のイメージとして抽出し、その後、sslメソッドを実際のオブジェクト中心のデータセットのように直接適用することができる。 つまり、粗い作物はシーンイメージSSLの恩恵を受ける。 粗いオブジェクトボックスを生成する新しい収穫戦略を提案する。 新しいパイプラインとトリミング戦略は、ImageNetなしで未処理のデータセットから品質機能を学ぶことに成功した。 実験の結果、パイプラインは既存のSSLメソッド(MoCo-v2、DenseCL、MAE)よりも、分類、検出、セグメンテーションタスクで優れています。 私たちはさらに、それを検証するために広範囲なアブレーションを行います。 1) パイプラインは事前訓練されたモデルに依存しない。 2) クロッピング戦略は,既存のオブジェクト発見方法よりも優れている。 3) この手法はハイパーパラメータやデータ拡張に敏感ではない。

Most self-supervised learning (SSL) methods often work on curated datasets where the object-centric assumption holds. This assumption breaks down in uncurated images. Existing scene image SSL methods try to find the two views from original scene images that are well matched or dense, which is both complex and computationally heavy. This paper proposes a conceptually different pipeline: first find regions that are coarse objects (with adequate objectness), crop them out as pseudo object-centric images, then any SSL method can be directly applied as in a real object-centric dataset. That is, coarse crops benefits scene images SSL. A novel cropping strategy that produces coarse object box is proposed. The new pipeline and cropping strategy successfully learn quality features from uncurated datasets without ImageNet. Experiments show that our pipeline outperforms existing SSL methods (MoCo-v2, DenseCL and MAE) on classification, detection and segmentation tasks. We further conduct extensively ablations to verify that: 1) the pipeline do not rely on pretrained models; 2) the cropping strategy is better than existing object discovery methods; 3) our method is not sensitive to hyperparameters and data augmentations.
翻訳日:2023-10-02 18:16:29 公開日:2023-09-29
# moleによる学習:再構成のないナビゲーションのための転送可能な潜在空間表現

Learning with a Mole: Transferable latent spatial representations for navigation without reconstruction ( http://arxiv.org/abs/2306.03857v2 )

ライセンス: Link先を確認
Guillaume Bono, Leonid Antsfeld, Assem Sadek, Gianluca Monaci, Christian Wolf(参考訳) 3D環境をナビゲートするエージェントは何らかのメモリを必要とするため、意思決定や計画に有用な観察履歴のコンパクトで実用的な表現を保持する必要がある。 ほとんどのエンド・ツー・エンドの学習アプローチでは、表現は潜在的で、通常は明確な解釈を持っていないが、クラシック・ロボティクスはこれをシーンの再構築で解決し、幾何やセンサモデルや学習で推定される何らかの形式の地図を生成する。 本研究では,目的とする下流タスクとは独立してシーンの動作可能な表現を,明示的に再構成を最適化することなく学習することを提案する。 学習された表現は、視覚的に直接観察することなく、複数の短いサブエピソードをナビゲートするように訓練された視覚補助エージェントによって最適化される。 我々は盲目性が重要であり、(訓練された)潜在表現が計画の唯一の手段であることを議論し示す。 探索実験により,学習表現が再現性ではなくナビゲータビリティを最適化することを示す。 下流のタスクでは、分散の変化、特に、実際のオフィスビルで実際の物理的ロボットで評価したsim2real gapにロバストであり、パフォーマンスが大幅に向上することを示している。

Agents navigating in 3D environments require some form of memory, which should hold a compact and actionable representation of the history of observations useful for decision taking and planning. In most end-to-end learning approaches the representation is latent and usually does not have a clearly defined interpretation, whereas classical robotics addresses this with scene reconstruction resulting in some form of map, usually estimated with geometry and sensor models and/or learning. In this work we propose to learn an actionable representation of the scene independently of the targeted downstream task and without explicitly optimizing reconstruction. The learned representation is optimized by a blind auxiliary agent trained to navigate with it on multiple short sub episodes branching out from a waypoint and, most importantly, without any direct visual observation. We argue and show that the blindness property is important and forces the (trained) latent representation to be the only means for planning. With probing experiments we show that the learned representation optimizes navigability and not reconstruction. On downstream tasks we show that it is robust to changes in distribution, in particular the sim2real gap, which we evaluate with a real physical robot in a real office building, significantly improving performance.
翻訳日:2023-10-02 18:16:11 公開日:2023-09-29
# 自然言語によるベイズ推論によるヒューマンライクなFew-Shot学習

Human-like Few-Shot Learning via Bayesian Reasoning over Natural Language ( http://arxiv.org/abs/2306.02797v3 )

ライセンス: Link先を確認
Kevin Ellis(参考訳) 概念学習のモデルにおける中心的な緊張は、モデルが仮説クラスの表現率と推論のトラクション可能性のバランスを慎重に取らなければならないことである。 しかし、人間は幅広い概念を効率的に学習することができる。 我々はその意味で人間らしくなろうとする帰納的学習のモデルを導入する。 ベイズ的推論プロセスを実装しており、まず言語モデルが自然言語で表現された候補仮説を提案し、その仮説を事前に再検討する。 人間のデータから事前推定を行うことで、数と集合に関する学習問題、生成的、判別的、命題的、高次的な概念にまたがる人間の判断を予測できる。

A core tension in models of concept learning is that the model must carefully balance the tractability of inference against the expressivity of the hypothesis class. Humans, however, can efficiently learn a broad range of concepts. We introduce a model of inductive learning that seeks to be human-like in that sense. It implements a Bayesian reasoning process where a language model first proposes candidate hypotheses expressed in natural language, which are then re-weighed by a prior and a likelihood. By estimating the prior from human data, we can predict human judgments on learning problems involving numbers and sets, spanning concepts that are generative, discriminative, propositional, and higher-order.
翻訳日:2023-10-02 18:15:49 公開日:2023-09-29
# Causal-Origin表現による強化学習における非定常処理

Tackling Non-Stationarity in Reinforcement Learning via Causal-Origin Representation ( http://arxiv.org/abs/2306.02747v2 )

ライセンス: Link先を確認
Wanpeng Zhang, Yilin Li, Boyu Yang, Zongqing Lu(参考訳) 現実のシナリオでは、強化学習の応用は複雑な非定常性によって著しく挑戦される。 既存の手法のほとんどは、環境の変化を明示的にモデル化しようとします。 本稿では,非定常性は状態遷移中の複雑な因果関係を通じて伝播・蓄積し,その高度化と政策学習に影響を与える新しい視点を提案する。 非定常性の因果関係をトレースすることで、この課題をより効果的に解決できると考えている。 そこで我々はCausal-Origin RePresentation (COREP)アルゴリズムを提案する。 COREPは主に、因果オリジン表現と呼ばれる状態の安定グラフ表現を学ぶためのガイド付き更新機構を使用している。 この表現を利用することで、学習されたポリシーは非定常性に対する印象的なレジリエンスを示す。 本研究は,非定常強化学習の因果的解釈に基づく理論的解析で補足し,因果-オリジン表現の妥当性を提唱する。 実験により,非定常性に対処する既存手法よりもCOREPの方が優れた性能を示した。

In real-world scenarios, the application of reinforcement learning is significantly challenged by complex non-stationarity. Most existing methods attempt to model changes in the environment explicitly, often requiring impractical prior knowledge. In this paper, we propose a new perspective, positing that non-stationarity can propagate and accumulate through complex causal relationships during state transitions, thereby compounding its sophistication and affecting policy learning. We believe that this challenge can be more effectively addressed by tracing the causal origin of non-stationarity. To this end, we introduce the Causal-Origin REPresentation (COREP) algorithm. COREP primarily employs a guided updating mechanism to learn a stable graph representation for states termed as causal-origin representation. By leveraging this representation, the learned policy exhibits impressive resilience to non-stationarity. We supplement our approach with a theoretical analysis grounded in the causal interpretation for non-stationary reinforcement learning, advocating for the validity of the causal-origin representation. Experimental results further demonstrate the superior performance of COREP over existing methods in tackling non-stationarity.
翻訳日:2023-10-02 18:15:35 公開日:2023-09-29
# 産業シナリオにおける障害診断のためのスマートフィルタを用いたドメイン対向ニューラルネットワーク

Smart filter aided domain adversarial neural network for fault diagnosis in noisy industrial scenarios ( http://arxiv.org/abs/2307.01429v2 )

ライセンス: Link先を確認
Baorui Dai, Ga\"etan Frusque, Tianfu Li, Qi Li, Olga Fink(参考訳) 非教師なし領域適応(UDA)に基づく障害診断法の適用は、異なる運用条件、異なる運用単位、シミュレーションデータ、実データ間の運用経験と障害署名の転送を容易にし、産業環境において大きな効果を示した。 しかし、実際の産業シナリオでは、未知のレベルやノイズの種類がドメインアライメントの難しさを増幅し、深層学習モデルの診断性能に重大な影響を及ぼす可能性がある。 この問題に対処するため, ノイズの多い産業シナリオにおける故障診断のためのスマートフィルタ支援ドメイン適応ニューラルネットワーク (SFDANN) を提案する。 提案手法は2段階からなる。 最初のステップでは、時間周波数領域におけるソースとターゲットドメインデータの類似性を動的に強制するスマートフィルタを開発する。 これは学習可能なウェーブレットパケット変換ネットワーク(lwpt)と従来のウェーブレットパケット変換モジュールを組み合わせたものである。 第2のステップでは、スマートフィルタによって再構成されたデータをドメイン逆ニューラルネットワーク(DANN)に入力する。 ドメイン不変性と識別的特徴を学習するために、SFDANNの学習可能なモジュールは、時間周波数特徴近接、ドメインアライメント、障害分類の3つの目的で統一的に訓練される。 本研究では, 列車-線路連成振動系において, 騒音環境下での軸受の故障診断とスラブ線路の故障診断の2つの事例に基づくSFDANN法の有効性を検証した。 その結果, 他のUDA法と比較すると, SFDANNは優れた性能と顕著な安定性を示した。

The application of unsupervised domain adaptation (UDA)-based fault diagnosis methods has shown significant efficacy in industrial settings, facilitating the transfer of operational experience and fault signatures between different operating conditions, different units of a fleet or between simulated and real data. However, in real industrial scenarios, unknown levels and types of noise can amplify the difficulty of domain alignment, thus severely affecting the diagnostic performance of deep learning models. To address this issue, we propose an UDA method called Smart Filter-Aided Domain Adversarial Neural Network (SFDANN) for fault diagnosis in noisy industrial scenarios. The proposed methodology comprises two steps. In the first step, we develop a smart filter that dynamically enforces similarity between the source and target domain data in the time-frequency domain. This is achieved by combining a learnable wavelet packet transform network (LWPT) and a traditional wavelet packet transform module. In the second step, we input the data reconstructed by the smart filter into a domain adversarial neural network (DANN). To learn domain-invariant and discriminative features, the learnable modules of SFDANN are trained in a unified manner with three objectives: time-frequency feature proximity, domain alignment, and fault classification. We validate the effectiveness of the proposed SFDANN method based on two fault diagnosis cases: one involving fault diagnosis of bearings in noisy environments and another involving fault diagnosis of slab tracks in a train-track-bridge coupling vibration system, where the transfer task involves transferring from numerical simulations to field measurements. Results show that compared to other representative state of the art UDA methods, SFDANN exhibits superior performance and remarkable stability.
翻訳日:2023-10-02 18:08:04 公開日:2023-09-29
# ロバストポイントクラウド登録のための直接スーパーポイントマッチング

Direct Superpoints Matching for Robust Point Cloud Registration ( http://arxiv.org/abs/2307.01362v2 )

ライセンス: Link先を確認
Aniket Gupta, Yiming Xie, Hanumant Singh, Huaizu Jiang(参考訳) ディープニューラルネットワークは、非常に識別的な特徴表現を持つダウンサンプリングされたスーパーポイントを付与する。 以前の支配的ポイントクラウド登録アプローチは、シンクホーンアルゴリズムを第1ステップとして使用して、これらの特徴表現に一致する。 その後、RANSACライクな手法が後処理の改良として採用され、オプティラをフィルタする。 これらの手法は、RANSACの反復的な性質のため計算集約的であり、様々な応用に適応するためには慎重なパラメータチューニングが必要である。 本稿では,スーパーポイント機能マッチングにおけるマッチング戦略の役割を強調する。 我々は,グローバルソフトマックス層をエンドツーエンドで活用することにより,スーパーポイントと直接マッチングするための,単純かつ効果的なアプローチを提案する。 これらの一致したスーパーポイントは、ソースとターゲットポイントの雲の間のSE(3)変換を推定するのに役立つ。 特に,本手法では,各対応の重み付けとしてソフトマックス確率を用い,変換行列を適合させる際に,アウトリーチを拒否し,残りのインリーチを重み付けすることができる。 さらに,特徴表現学習,スーパーポイントマッチング,変換推定など,さまざまなコンポーネントを共同で最適化することで,より優れた登録性能を実現する。 modelnet、3dmatch、kittiを含む標準ベンチマークの実験結果は、最先端のメソッドと同等、あるいはそれ以上の精度が得られるこのアプローチの有効性を検証する。 コードとモデルの重み付けが公開されます。

Deep neural networks endow the downsampled superpoints with highly discriminative feature representations. Previous dominant point cloud registration approaches match these feature representations, \eg, using the Sinkhorn algorithm as the first step. A RANSAC-like method is then usually adopted as a post-processing refinement to filter the outliers. These approaches tend to be computationally intensive due to the iterative nature of RANSAC and require careful parameter tuning to adapt to various practical applications. In this paper, we emphasize the role of matching strategy in superpoint feature matching. We propose a straightforward and effective approach to directly match superpoints by leveraging a global softmax layer in an end-to-end fashion. These matched superpoints are instrumental in estimating the SE(3) transformation between the source and target point clouds. Notably, our approach employs softmax probabilities as weights for each correspondence, allowing us to reject the outliers and further weigh the rest inliers when fitting the transformation matrix, which does not need any post-processing refinement. Moreover, our approach enables joint optimization of different components, including feature representation learning, superpoints matching, and transformation estimation, leading to better registration performance. Experimental results on the standard benchmarks, including ModelNet, 3DMatch, and KITTI validate the effectiveness of our approach, where we obtain comparable or even better accuracy than state-of-the-art methods. Our code and model weights will be publicly available.
翻訳日:2023-10-02 18:07:33 公開日:2023-09-29
# 全文脈情報から動的グラフを学習し, 正確な訪問予測

Learning Dynamic Graphs from All Contextual Information for Accurate Point-of-Interest Visit Forecasting ( http://arxiv.org/abs/2306.15927v2 )

ライセンス: Link先を確認
Arash Hajisafi, Haowen Lin, Sina Shaham, Haoji Hu, Maria Despoina Siampou, Yao-Yi Chiang, Cyrus Shahabi(参考訳) 都市部におけるポイント・オブ・関心(POI)の訪問数予測は、都市計画・交通管理から公衆衛生・社会研究に至るまで、様々な分野の計画・意思決定に不可欠である。 この予測問題は、多変量時系列予測タスクとして定式化することができるが、現在の手法では、POI間の常に変化するマルチコンテキスト相関を完全に活用することはできない。 そこで本研究では,pois間のマルチコンテキスト相関を学習し,より正確な訪問予測のための時間的グラフニューラルネットワークであるbroadness graph neural network (bysgnn)を提案する。 動的グラフを学習するために時系列データのみを使用する他のアプローチとは異なり、BysGNNはコンテキスト情報と時系列データを利用して正確な動的グラフ表現を学ぶ。 文脈的・時間的・空間的な信号をすべて取り入れることで、米国中の実世界のデータセットを用いた実験において、最先端の予測モデルよりも予測精度が大幅に向上するのを観察する。

Forecasting the number of visits to Points-of-Interest (POI) in an urban area is critical for planning and decision-making for various application domains, from urban planning and transportation management to public health and social studies. Although this forecasting problem can be formulated as a multivariate time-series forecasting task, the current approaches cannot fully exploit the ever-changing multi-context correlations among POIs. Therefore, we propose Busyness Graph Neural Network (BysGNN), a temporal graph neural network designed to learn and uncover the underlying multi-context correlations between POIs for accurate visit forecasting. Unlike other approaches where only time-series data is used to learn a dynamic graph, BysGNN utilizes all contextual information and time-series data to learn an accurate dynamic graph representation. By incorporating all contextual, temporal, and spatial signals, we observe a significant improvement in our forecasting accuracy over state-of-the-art forecasting models in our experiments with real-world datasets across the United States.
翻訳日:2023-10-02 18:06:46 公開日:2023-09-29
# ニューラルネットワーク表現の識別性向上のためのタスク構造活用

Leveraging Task Structures for Improved Identifiability in Neural Network Representations ( http://arxiv.org/abs/2306.14861v2 )

ライセンス: Link先を確認
Wenlin Chen, Julien Horwood, Juyeon Heo, Jos\'e Miguel Hern\'andez-Lobato(参考訳) 本研究は,教師付き学習における識別可能性の理論を,タスクの分布へのアクセスによる結果を考慮して拡張するものである。 このような場合、回帰の場合においても識別性は達成可能であり、単一タスク分類の場合において、事前作業は線形識別性に制限される。 さらに, 条件付き先行要因を定義するタスク分布の存在は, 線形識別可能性よりもはるかに強く, より有用な, 置換やスケーリングに対する同一性クラスを減少させることを示した。 これらの課題に対してさらに因果構造を仮定すると,提案手法は,因果表現学習への下流適用性とともに,簡便な最大限度最適化を可能にする。 実験により,本モデルが合成および実世界の分子データに対する標準表現の復元において,より一般的な教師なしモデルよりも優れていることを検証した。

This work extends the theory of identifiability in supervised learning by considering the consequences of having access to a distribution of tasks. In such cases, we show that identifiability is achievable even in the case of regression, extending prior work restricted to linear identifiability in the single-task classification case. Furthermore, we show that the existence of a task distribution which defines a conditional prior over latent factors reduces the equivalence class for identifiability to permutations and scaling, a much stronger and more useful result than linear identifiability. When we further assume a causal structure over these tasks, our approach enables simple maximum marginal likelihood optimization together with downstream applicability to causal representation learning. Empirically, we validate that our model outperforms more general unsupervised models in recovering canonical representations for both synthetic and real-world molecular data.
翻訳日:2023-10-02 18:06:26 公開日:2023-09-29
# ロバストな命令調律による大規模マルチモーダルモデルの幻覚緩和

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning ( http://arxiv.org/abs/2306.14565v3 )

ライセンス: Link先を確認
Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang(参考訳) マルチモーダルタスクの有望な進歩にもかかわらず、現在の大規模マルチモーダルモデル(LMM)は、関連する画像や人間の指示に関して一貫性のない記述を幻覚させる傾向にある。 本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的命令チューニングデータセットを導入することでこの問題に対処する。 本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。 主に正の命令サンプルに焦点を当てた既存の研究とは異なり、我々は、より堅牢な視覚的命令チューニングのための正と負の両方の命令を含むLRV-インストラクションを設計する。 私たちの否定的な指示は3つの意味レベルで設計されています (i)存在しない物体の操作 (ii)存在物体の操作及び操作 (iii)知識操作。 LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。 GAVIEは人間による注釈付き基礎回答を必要とせず、多様な命令形式に適応することができる。 われわれはLMMの幻覚を調査するための総合的な実験を行った。 以上の結果から,既存のLMMには負の指示,特に既存のオブジェクトと知識操作の指示が提示されている。 さらに, LRV-InstructionにおけるMiniGPT4とmPLUG-Owlの微調整により幻覚を緩和し, 最先端の手法と比較していくつかの公開データセットの性能向上を実現した。 さらに,トレーニングデータにおける正のインスタンスと負のインスタンスのバランスの取れた比率が,より堅牢なモデルにつながることを観測した。

Despite the promising progress in multi-modal tasks, current large multi-modal models (LMMs) are prone to hallucinating inconsistent descriptions with respect to the associated image and human instructions. This paper addresses this issue by introducing the first large and diverse visual instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction. Our dataset comprises 400k visual instructions generated by GPT4, covering 16 vision-and-language tasks with open-ended instructions and answers. Unlike existing studies that primarily focus on positive instruction samples, we design LRV-Instruction to include both positive and negative instructions for more robust visual instruction tuning. Our negative instructions are designed at three semantic levels: (i) Nonexistent Object Manipulation, (ii) Existent Object Manipulation and (iii) Knowledge Manipulation. To efficiently measure the hallucination generated by LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a stable approach to evaluate visual instruction tuning like human experts. GAVIE does not require human-annotated groundtruth answers and can adapt to diverse instruction formats. We conduct comprehensive experiments to investigate the hallucination of LMMs. Our results demonstrate existing LMMs exhibit significant hallucinations when presented with our negative instructions, particularly Existent Object and Knowledge Manipulation instructions. Moreover, we successfully mitigate hallucination by finetuning MiniGPT4 and mPLUG-Owl on LRV-Instruction while improving performance on several public datasets compared to state-of-the-art methods. Additionally, we observed that a balanced ratio of positive and negative instances in the training data leads to a more robust model.
翻訳日:2023-10-02 18:06:11 公開日:2023-09-29
# 荒野におけるスプリアス相関の緩和に向けて - ベンチマークとより現実的なデータセット

Towards Mitigating Spurious Correlations in the Wild: A Benchmark and a more Realistic Dataset ( http://arxiv.org/abs/2306.11957v2 )

ライセンス: Link先を確認
Siddharth Joshi, Yu Yang, Yihao Xue, Wenhan Yang and Baharan Mirzasoleiman(参考訳) ディープニューラルネットワークは、クラスラベルと刺激的に相関する非予測的特徴をしばしば活用し、そのような特徴を持たない例群のパフォーマンスを低下させる。 突発的相関の緩和に関する最近の研究が増えているにもかかわらず、標準化されたベンチマークの欠如は再現可能な評価と提案されたソリューションの比較を妨げる。 そこで本研究では,現状の手法をモジュール化して実装したPythonパッケージであるSpuCoについて述べる。 SpuCoを用いることで、既存のデータセットと評価スキームの限界を実証し、突発性よりも予測的特徴の学習を検証する。 これらの制限を克服するため,(1)SpuCoMNIST,(2)SpuCoAnimals,(2)ImageNetから収集した大規模データセットは,既存のデータセットよりもはるかに密接な相関関係を捉え,実世界のデータ特性の効果をシミュレートする合成データセットを提案する。 これらの貢献は、現在の方法の欠点を強調し、スプリアス相関に取り組むための今後の研究の方向性を提供する。 ベンチマークとデータセットを含むSpuCoはhttps://github.com/BigML-CS-UCLA/SpuCoで見ることができる。

Deep neural networks often exploit non-predictive features that are spuriously correlated with class labels, leading to poor performance on groups of examples without such features. Despite the growing body of recent works on remedying spurious correlations, the lack of a standardized benchmark hinders reproducible evaluation and comparison of the proposed solutions. To address this, we present SpuCo, a python package with modular implementations of state-of-the-art solutions enabling easy and reproducible evaluation of current methods. Using SpuCo, we demonstrate the limitations of existing datasets and evaluation schemes in validating the learning of predictive features over spurious ones. To overcome these limitations, we propose two new vision datasets: (1) SpuCoMNIST, a synthetic dataset that enables simulating the effect of real world data properties e.g. difficulty of learning spurious feature, as well as noise in the labels and features; (2) SpuCoAnimals, a large-scale dataset curated from ImageNet that captures spurious correlations in the wild much more closely than existing datasets. These contributions highlight the shortcomings of current methods and provide a direction for future research in tackling spurious correlations. SpuCo, containing the benchmark and datasets, can be found at https://github.com/BigML-CS-UCLA/SpuCo, with detailed documentation available at https://spuco.readthedocs.io/en/latest/.
翻訳日:2023-10-02 18:05:19 公開日:2023-09-29
# the false dawn: チップマクロ配置のためのgoogleの強化学習の再評価

The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement ( http://arxiv.org/abs/2306.09633v7 )

ライセンス: Link先を確認
Igor L. Markov(参考訳) Google 2021 Natureの論文で、シリコンチップの物理的設計のための強化学習(RL)が論争を引き起こした。 論文は、重要な方法論のステップと結果の再現に必要な入力を保留した。 我々のメタ分析は、2つの異なる評価がギャップを埋め、Google RLが遅れていることを示す。 (i)人間デザイナー。 (ii)よく知られたアルゴリズム(Simulated Annealing)、及び (iii) 一般的に利用可能な商用ソフトウェアは遅いが,2023年のオープンリサーチコンテストでは,rlメソッドはトップ5には含まれていなかった。 クロスチェックデータによると、Nature論文の完全性は、行動、分析、報告の誤りによって著しく損なわれている。 発表前、Googleは内部告発を却下した。 チップ設計におけるポリシーの影響と結論に留意する。

Reinforcement learning (RL) for physical design of silicon chips in a Google 2021 Nature paper stirred controversy due to poorly documented claims that raised eyebrows and drew critical media coverage. The paper withheld critical methodology steps and most inputs needed to reproduce results. Our meta-analysis shows how two separate evaluations filled in the gaps and demonstrated that Google RL lags behind (i) human designers, (ii) a well-known algorithm (Simulated Annealing), and (iii) generally-available commercial software, while being slower; and in a 2023 open research contest, RL methods weren't in top 5. Crosschecked data indicate that the integrity of the Nature paper is substantially undermined owing to errors in conduct, analysis and reporting. Before publishing, Google rebuffed internal allegations of fraud. We note policy implications and conclusions for chip design.
翻訳日:2023-10-02 18:04:48 公開日:2023-09-29
# 時間的コモンセンス推論と買収の概観

An Overview Of Temporal Commonsense Reasoning and Acquisition ( http://arxiv.org/abs/2308.00002v2 )

ライセンス: Link先を確認
Georg Wenzel and Adam Jatowt(参考訳) テンポラル・コモンセンス推論(temporal commonsense reasoning)とは、フレーズ、アクション、イベントの典型的な時間的文脈を理解し、そのような知識を必要とする問題を推論するために使用する能力を指す。 この特徴は時相自然言語処理タスクにおいて必須であり、時相要約、時相質問応答、時相自然言語推論などの応用が可能となる。 大規模言語モデルの性能に関する最近の研究は, 構文的に正しい文を生成し, 分類タスクを解くことに長けているにもかかわらず, 推論のショートカットを行い, 単純な言語トラップに陥ることが多いことを示唆している。 本稿では,時間的コモンセンス推論の分野における研究の概要について述べる。特に,多種多様な拡張による言語モデルの性能向上と,さらに多くのデータセットを対象とした評価に焦点を当てる。 しかしながら、これらの強化モデルは、典型的な発生時間、順序、イベントの持続時間などの時間的共通感覚特性よりも、人間のパフォーマンスを推論するタスクにアプローチするのに依然として苦労している。 さらに,トランスフォーマの浅い推論に照らして,過度に予測される評価結果から保護する研究の慎重な解釈の必要性も強調する。 これはデータセットと適切な評価メトリクスを適切に準備することで実現できる。

Temporal commonsense reasoning refers to the ability to understand the typical temporal context of phrases, actions, and events, and use it to reason over problems requiring such knowledge. This trait is essential in temporal natural language processing tasks, with possible applications such as timeline summarization, temporal question answering, and temporal natural language inference. Recent research on the performance of large language models suggests that, although they are adept at generating syntactically correct sentences and solving classification tasks, they often take shortcuts in their reasoning and fall prey to simple linguistic traps. This article provides an overview of research in the domain of temporal commonsense reasoning, particularly focusing on enhancing language model performance through a variety of augmentations and their evaluation across a growing number of datasets. However, these augmented models still struggle to approach human performance on reasoning tasks over temporal common sense properties, such as the typical occurrence times, orderings, or durations of events. We further emphasize the need for careful interpretation of research to guard against overpromising evaluation results in light of the shallow reasoning present in transformers. This can be achieved by appropriately preparing datasets and suitable evaluation metrics.
翻訳日:2023-10-02 17:58:51 公開日:2023-09-29
# 公式統計へのフェデレーション学習の適用性

The Applicability of Federated Learning to Official Statistics ( http://arxiv.org/abs/2307.15503v2 )

ライセンス: Link先を確認
Joshua Stock, Oliver Hauke, Julius Wei{\ss}mann, Hannes Federrath(参考訳) 本研究は,公式統計における連合学習(federated learning, ffl)の可能性を調査し,flモデルの性能が集中型学習手法にどのように追いつくかを示す。f lは,データホルダのプライバシーを保護し,より広い範囲のデータへのアクセスを容易にするため,公式統計学において特に興味深い。 3つの異なるユースケースをシミュレートすることで、技術の適用性に関する重要な洞察が得られる。 ユースケースは、医療保険データセット、微粒子汚染データセット、移動無線カバレッジデータセットに基づいており、これらはすべて、公式統計に近いドメインのものだ。 各シミュレーションにおける集中型アルゴリズムとflアルゴリズムの性能の比較を含む、結果の詳細な分析を行う。 3つのユースケースすべてにおいて、集中型モデルベンチマークに非常に近いパフォーマンスに達するFLを介してモデルをトレーニングすることができました。 シミュレーションを実践に移す上で重要な観察と意義について概説する。 我々は、flが将来の公式統計のユースケースにおいて重要な技術として現れる可能性を持っているという結論に達した。

This work investigates the potential of Federated Learning (FL) for official statistics and shows how well the performance of FL models can keep up with centralized learning methods.F L is particularly interesting for official statistics because its utilization can safeguard the privacy of data holders, thus facilitating access to a broader range of data. By simulating three different use cases, important insights on the applicability of the technology are gained. The use cases are based on a medical insurance data set, a fine dust pollution data set and a mobile radio coverage data set - all of which are from domains close to official statistics. We provide a detailed analysis of the results, including a comparison of centralized and FL algorithm performances for each simulation. In all three use cases, we were able to train models via FL which reach a performance very close to the centralized model benchmarks. Our key observations and their implications for transferring the simulations into practice are summarized. We arrive at the conclusion that FL has the potential to emerge as a pivotal technology in future use cases of official statistics.
翻訳日:2023-10-02 17:58:08 公開日:2023-09-29
# 量子エラー訂正のためのハードウェア接続要件を緩和するTangling schedules

Tangling schedules eases hardware connectivity requirements for quantum error correction ( http://arxiv.org/abs/2307.10147v2 )

ライセンス: Link先を確認
Gyorgy P. Geher, Ophelia Crawford, Earl T. Campbell(参考訳) 量子コンピュータは、計算問題の解法を変える可能性がある。 量子ビットのノイズが多いため、計算中に生じる物理的エラーを訂正する必要性が生じる。 表面コードは、高いしきい値を示し、既に存在するデバイスの一種である正方形グリッド接続を持つハードウェアに論理量子状態を格納できるようなエラー訂正の有望な候補である。 しかし、論理量子計算には、不規則で非局所的な安定化器の測定が必要であり、ハードウェアの接続性を変更することなくその方法が現在分かっていない。 ここでは、フォールトトレラント量子計算の経路におけるこのギャップを埋めて、これを実現する方法を提案する。 本稿では,遠方キュービット間の可観測性の測定を可能にするタングルドシンドローム抽出回路を提案する。 提案手法の適用例として,ハードウェア自体を物理的に修正することなく,前述の不規則な非局所スタビリザを測定する方法を示す。 本稿では,平面符号を用いた一般格子手術を可能にする具体的スキームを提案する。 したがって、タングリングは正方形グリッド接続アーキテクチャ上で表面コードを使用してフォールトトレラントな論理量子計算を可能にする。

Quantum computers have the potential to change the way we solve computational problems. Due to the noisy nature of qubits, the need arises to correct physical errors occurring during computation. The surface code is a promising candidate for such error correction that shows high threshold and which can store a logical quantum state on hardware with square-grid connectivity, a type of device that already exists. However, for logical quantum computation, the measurement of some irregular, non-local stabilisers is required, and it is not currently known how to do this without modifying the connectivity of the hardware. Here, we present a method to achieve this, closing this gap on the path to fault-tolerant quantum computation. We introduce a method of tangled syndrome extraction circuits, which enables measurement of observables between distant qubits. As an application of our tangling technique, we show how to measure the aforementioned irregular non-local stabilisers, without physically modifying the hardware itself. We present a concrete scheme that enables general lattice surgery with the planar code. Therefore, tangling enables fault-tolerant logical quantum computation using the surface code on square-grid connectivity architectures.
翻訳日:2023-10-02 17:57:51 公開日:2023-09-29
# Decoupled Confident Learningによるラベルバイアスの緩和

Mitigating Label Bias via Decoupled Confident Learning ( http://arxiv.org/abs/2307.08945v2 )

ライセンス: Link先を確認
Yunyi Li, Maria De-Arteaga, Maytal Saar-Tsechansky(参考訳) アルゴリズムの公平性に対する懸念が高まり、アルゴリズムのバイアスを軽減する手法が急増した。 しかし、そのような方法論は、トレーニングデータの観察されたラベルが正しいとほとんど仮定している。 これは、ラベルのバイアスが医療、雇用、コンテンツモデレーションなど重要なドメインにまたがっているため、問題である。 特に、人為的なラベルは社会バイアスを符号化する傾向がある。 ラベル付けバイアスの存在は概念的に議論されているが,この問題に対処する方法論は乏しい。 本稿では,ラベルバイアスを緩和するためのプルーニング手法,Decoupled Confident Learning (DeCoLe)を提案する。 合成データセットでその性能を例示した後、ラベルバイアスが重要な課題として認識されているヘイトスピーチ検出の文脈でdecoleを適用し、バイアス付きラベルを識別し、競合するアプローチを上回っていることを示す。

Growing concerns regarding algorithmic fairness have led to a surge in methodologies to mitigate algorithmic bias. However, such methodologies largely assume that observed labels in training data are correct. This is problematic because bias in labels is pervasive across important domains, including healthcare, hiring, and content moderation. In particular, human-generated labels are prone to encoding societal biases. While the presence of labeling bias has been discussed conceptually, there is a lack of methodologies to address this problem. We propose a pruning method -- Decoupled Confident Learning (DeCoLe) -- specifically designed to mitigate label bias. After illustrating its performance on a synthetic dataset, we apply DeCoLe in the context of hate speech detection, where label bias has been recognized as an important challenge, and show that it successfully identifies biased labels and outperforms competing approaches.
翻訳日:2023-10-02 17:57:18 公開日:2023-09-29
# 大規模異種情報ネットワークにおけるプログレッシブサンプリングによる長距離メタパス探索

Long-range Meta-path Search through Progressive Sampling on Large-scale Heterogeneous Information Networks ( http://arxiv.org/abs/2307.08430v2 )

ライセンス: Link先を確認
Chao Li, Zijie Guo, Qiuting He, Hao Xu and Kun He(参考訳) 長距離依存の活用は、均質グラフで広く研究されているが、高コストと効果的な情報の利用の難しさが主な課題である大規模異種情報ネットワーク(hins)では、ほとんど研究されていない。 そこで本研究では,異なるメタパスの重要性を考察し,Long-range Meta-path Search through Progressive Smpling (LMSPS) と呼ばれる,HINの長距離依存性を利用するためのフレームワークを提案する。 具体的には,様々なデータセットやタスクのメタパスを事前に発見するために,すべてのターゲットノード関連メタパスを用いた検索空間を開発する。 プログレッシブサンプリングアルゴリズムにより、ホップ非依存の時間複雑さで探索空間を動的に縮小し、現在のHINとタスクによって駆動されるコンパクトな探索空間を得る。 サンプリング評価戦略をガイダンスとして用い,特定かつ表現力のあるメタパス選択を行う。 8つの異種データセットに対する大規模な実験により、LMSPSは効果的な長距離メタパスを発見し、最先端のモデルより優れていることが示された。 さらに、Open Graph Benchmarkでogbn-magのリーダーボードのトップ1にランクインしている。

Utilizing long-range dependency, though extensively studied in homogeneous graphs, is rarely studied in large-scale heterogeneous information networks (HINs), whose main challenge is the high costs and the difficulty in utilizing effective information. To this end, we investigate the importance of different meta-paths and propose an automatic framework for utilizing long-range dependency in HINs, called Long-range Meta-path Search through Progressive Sampling (LMSPS). Specifically, to discover meta-paths for various datasets or tasks without prior, we develop a search space with all target-node-related meta-paths. With a progressive sampling algorithm, we dynamically shrink the search space with hop-independent time complexity, leading to a compact search space driven by the current HIN and task. Utilizing a sampling evaluation strategy as the guidance, we conduct a specialized and expressive meta-path selection. Extensive experiments on eight heterogeneous datasets demonstrate that LMSPS discovers effective long-range meta-paths and outperforms state-of-the-art models. Besides, it ranks top-1 on the leaderboards of ogbn-mag in Open Graph Benchmark.
翻訳日:2023-10-02 17:57:05 公開日:2023-09-29
# 生成型大規模言語モデルによるasr誤り訂正は可能か?

Can Generative Large Language Models Perform ASR Error Correction? ( http://arxiv.org/abs/2307.04172v2 )

ライセンス: Link先を確認
Rao Ma, Mengjie Qian, Potsawee Manakul, Mark Gales, Kate Knill(参考訳) ASR誤り訂正はポスト処理音声認識システムの出力に興味深い選択肢である。 これらの誤り訂正モデルは、通常、ターゲットASRシステムの復号結果を用いて教師あり方式で訓練される。 このアプローチは計算集約的で、モデルは特定のASRシステムに調整される。 近年,多種多様な自然言語処理タスクに対して,ゼロショットあるいは少数ショットで動作可能な生成型大規模言語モデル(llm)が適用されている。 本稿では, ASR 誤り訂正のための生成 LLM である ChatGPT を用いて検討する。 ASR N-best 出力に基づいて、N-best リストのメンバーが選択された場合、非制約と制約の両方を提案する。 さらに、ゼロと1ショットの設定も評価される。 実験により、このジェネレーティブLLMアプローチは、2つの異なる最先端のASRアーキテクチャ、トランスデューサとアテンションエンコーダ-デコーダベース、および複数のテストセットの性能向上が得られることが示された。

ASR error correction is an interesting option for post processing speech recognition system outputs. These error correction models are usually trained in a supervised fashion using the decoding results of a target ASR system. This approach can be computationally intensive and the model is tuned to a specific ASR system. Recently generative large language models (LLMs) have been applied to a wide range of natural language processing tasks, as they can operate in a zero-shot or few shot fashion. In this paper we investigate using ChatGPT, a generative LLM, for ASR error correction. Based on the ASR N-best output, we propose both unconstrained and constrained, where a member of the N-best list is selected, approaches. Additionally, zero and 1-shot settings are evaluated. Experiments show that this generative LLM approach can yield performance gains for two different state-of-the-art ASR architectures, transducer and attention-encoder-decoder based, and multiple test sets.
翻訳日:2023-10-02 17:55:51 公開日:2023-09-29
# マルチタスク学習のためのデュアルバランス

Dual-Balancing for Multi-Task Learning ( http://arxiv.org/abs/2308.12029v2 )

ライセンス: Link先を確認
Baijiong Lin, Weisen Jiang, Feiyang Ye, Yu Zhang, Pengguang Chen, Ying-Cong Chen, Shu Liu, James T. Kwok(参考訳) 複数のタスクを同時に学習する学習パラダイムであるマルチタスク学習(MTL)は,様々な分野で大きな成功を収めている。 しかし、タスクバランス問題はMTLでは依然として大きな問題であり、損失/段階的なスケールの相違はしばしばパフォーマンスの妥協につながる。 本稿では、損失と勾配の両面からタスクバランスの問題を軽減するために、DB-MTL(Dual-Balancing Multi-Task Learning)法を提案する。 具体的には、DB-MTLは各タスク損失に対して対数変換を行うことで損失スケールの分散を保証し、すべてのタスク勾配を最大勾配基準と同じ大きさに正規化することで勾配磁度バランスを保証する。 いくつかのベンチマークデータセットで実施された大規模な実験は、DB-MTLの最先端性能を一貫して実証している。

Multi-task learning (MTL), a learning paradigm to learn multiple related tasks simultaneously, has achieved great success in various fields. However, task balancing problem remains a significant challenge in MTL, with the disparity in loss/gradient scales often leading to performance compromises. In this paper, we propose a Dual-Balancing Multi-Task Learning (DB-MTL) method to alleviate the task balancing problem from both loss and gradient perspectives. Specifically, DB-MTL ensures loss-scale balancing by performing a logarithm transformation on each task loss, and guarantees gradient-magnitude balancing via normalizing all task gradients to the same magnitude as the maximum gradient norm. Extensive experiments conducted on several benchmark datasets consistently demonstrate the state-of-the-art performance of DB-MTL.
翻訳日:2023-10-02 17:48:37 公開日:2023-09-29
# ビデオからのポーズ変調アバター

Pose Modulated Avatars from Video ( http://arxiv.org/abs/2308.11951v3 )

ライセンス: Link先を確認
Chunjin Song, Bastian Wandt, Helge Rhodin(参考訳) 基礎となる骨格によって駆動されるニューラル・レージアンス・フィールド(Near Radiance Fields,NeRF)を用いて、スパース・カメラ群から人間の動と形状を再構築することができる。 しかし、スケルトンポーズによる布や肌の変形をモデル化することが課題となっている。 暗黙的に学習したり、プロキシサーフェスに依存したりする既存のアバターモデルとは異なり、我々のアプローチは、異なるポーズがユニークな周波数割り当てを必要とするという観察によって動機づけられる。 この区別を無視すると、滑らかな領域でノイズの多いアーティファクトや、鋭い領域できめ細かいテクスチャや形状の詳細がぼやけてしまう。 周波数領域において適応的かつ明示的な2分岐ニューラルネットワークを開発する。 最初のブランチはグラフニューラルネットワークで、体の部分間の相関を局所的にモデル化し、骨格を入力とする。 第2のブランチは、これらの相関機能を一連のグローバル周波数に結合し、特徴エンコーディングを変調する。 実験により,ネットワークが最先端の手法よりも詳細保持と一般化能力の面で優れていることを実証した。

It is now possible to reconstruct dynamic human motion and shape from a sparse set of cameras using Neural Radiance Fields (NeRF) driven by an underlying skeleton. However, a challenge remains to model the deformation of cloth and skin in relation to skeleton pose. Unlike existing avatar models that are learned implicitly or rely on a proxy surface, our approach is motivated by the observation that different poses necessitate unique frequency assignments. Neglecting this distinction yields noisy artifacts in smooth areas or blurs fine-grained texture and shape details in sharp regions. We develop a two-branch neural network that is adaptive and explicit in the frequency domain. The first branch is a graph neural network that models correlations among body parts locally, taking skeleton pose as input. The second branch combines these correlation features to a set of global frequencies and then modulates the feature encoding. Our experiments demonstrate that our network outperforms state-of-the-art methods in terms of preserving details and generalization capabilities.
翻訳日:2023-10-02 17:48:24 公開日:2023-09-29
# スコープは必要なもの:HPCコードにLLMを変換する

Scope is all you need: Transforming LLMs for HPC Code ( http://arxiv.org/abs/2308.09440v3 )

ライセンス: Link先を確認
Tal Kadosh, Niranjan Hasabnis, Vy A. Vo, Nadav Schneider, Neva Krien, Abdul Wasay, Nesreen Ahmed, Ted Willke, Guy Tamir, Yuval Pinter, Timothy Mattson, and Gal Oren(参考訳) 強力な計算リソースへのアクセスが容易になるにつれ、ソフトウェア開発におけるAIの分野において、さまざまなプログラミングタスクに対処する大規模で大規模な言語モデル(LLM)を開発する傾向が高まっている。 ハイパフォーマンスコンピューティング(HPC)領域のタスクに適用されるLLMでさえ、巨大なサイズ(数十億のパラメータなど)であり、トレーニングに高価な計算資源を必要とする。 HPC固有のタスクには、HPCとは無関係な自然言語やプログラミング言語でトレーニングされた大規模なLLMが必要なのでしょうか? この一連の研究において、我々は、特定のドメインに対してより小さなLLMを開発することで、既存のLLMの設計選択を問うことを目指しています。 具体的には、ドメインとしてのHPCから始まり、HPCのコード前処理とコンパイル中心のタスクに特化して設計された、Tokompilerという新しいトークン化ツールを提案する。 Tokompilerは言語プリミティブの知識を活用して言語指向のトークンを生成し、コード構造に対するコンテキスト対応の理解を提供する。 私たちはTokompilerを2つの最先端モデルであるSPT-CodeとPolycoderの事前トレーニングに使用しました。 これらのモデルの性能を従来のLLMと比較して評価する。 結果から,Tokompilerは正規化・複雑化テストにおける従来のトークン化ツールと比較して,コード補完精度と意味理解を約1パープレキシティスコアまで向上させることがわかった。 本研究は、HPCとコンパイルタスクのユニークな要求に対応するため、ドメイン固有のLLMのさらなる進歩の道を開く。

With easier access to powerful compute resources, there is a growing trend in the field of AI for software development to develop larger and larger language models (LLMs) to address a variety of programming tasks. Even LLMs applied to tasks from the high-performance computing (HPC) domain are huge in size (e.g., billions of parameters) and demand expensive compute resources for training. We found this design choice confusing - why do we need large LLMs trained on natural languages and programming languages unrelated to HPC for HPC-specific tasks? In this line of work, we aim to question design choices made by existing LLMs by developing smaller LLMs for specific domains - we call them domain-specific LLMs. Specifically, we start off with HPC as a domain and propose a novel tokenizer named Tokompiler, designed specifically for preprocessing code in HPC and compilation-centric tasks. Tokompiler leverages knowledge of language primitives to generate language-oriented tokens, providing a context-aware understanding of code structure while avoiding human semantics attributed to code structures completely. We applied Tokompiler to pre-train two state-of-the-art models, SPT-Code and Polycoder, for a Fortran code corpus mined from GitHub. We evaluate the performance of these models against the conventional LLMs. Results demonstrate that Tokompiler significantly enhances code completion accuracy and semantic understanding compared to traditional tokenizers in normalized-perplexity tests, down to ~1 perplexity score. This research opens avenues for further advancements in domain-specific LLMs, catering to the unique demands of HPC and compilation tasks.
翻訳日:2023-10-02 17:47:34 公開日:2023-09-29
# 数学的検証のための大規模言語モデルの前方逆推論

Forward-Backward Reasoning in Large Language Models for Mathematical Verification ( http://arxiv.org/abs/2308.07758v4 )

ライセンス: Link先を確認
Weisen Jiang and Han Shi and Longhui Yu and Zhengying Liu and Yu Zhang and Zhenguo Li and James T. Kwok(参考訳) CoT(Chain-of-Thought)は、大規模言語モデル(LLM)において、数学的推論タスクにおいて有望な性能を示す。 最近、自己矛盾は異なる回答を持つ様々な推論チェーンをサンプリングし、多数決で答えを選択する。 効果的ではあるが、より多くの推論チェーンをサンプリングすることで、さらなる性能向上はできない。 この問題に対処するため,回答検証に後方推論を統合することを提案する。 最初に、問題の数値を${\bf x}$でマスクする。 上記の質問に対する答えが $\{a\}$ であるなら、未知変数 ${\bf x}$?'' の値は、与えられた候補の回答が正しければ、llmはマスク番号を正しく予測することが期待される。 性能をさらに向上させるため,提案手法であるfobar (forward-backward reasoning) を提案する。 6つの標準的な数学的データセットと3つのLCM(text-davinci-003, GPT-3.5-Turbo, GPT-4)で実験を行う。 その結果,FOBARは最先端の性能を達成することがわかった。 特に、FOBARはフォワード推論のみを使用し、フォワード推論とフォワード推論の組み合わせがより優れていることを示すセルフ一貫性よりも優れています。 また、既存の検証手法を上回り、後方推論における単純なテンプレートの使用の有効性と提案の組み合わせを検証する。

Chain-of-Thought (CoT) prompting in large language models (LLMs) has shown promising performance on mathematical reasoning tasks. Recently, Self-Consistency samples a diverse set of reasoning chains with different answers and chooses the answer by majority voting. Though effective, its performance cannot be further improved by sampling more reasoning chains. To address this problem, we propose to integrate backward reasoning into answer verification. We first mask a number in the question by ${\bf x}$. The LLM is then asked to predict the masked number with a candidate answer $A$ embedded in the template: ``If we know the answer to the above question is $\{A\}$, what is the value of unknown variable ${\bf x}$?'' The LLM is expected to predict the masked number successfully if the provided candidate answer is correct. To further improve performance, we propose FOBAR (FOrward-BAckward Reasoning) to combine forward and backward reasoning for verifying candidate answers. Experiments are performed on six standard mathematical data sets and three LLMs (text-davinci-003, GPT-3.5-Turbo, GPT-4). Results show that FOBAR achieves state-of-the-art performance. In particular, FOBAR outperforms Self-Consistency which uses forward reasoning alone, demonstrating that combining forward and forward reasoning is better. It also outperforms existing verification methods, verifying the effectiveness of using the simple template in backward reasoning and the proposed combination.
翻訳日:2023-10-02 17:46:59 公開日:2023-09-29
# ロボットブロック構築作業の予測・行動選択・説明のための因果確率的枠組みを目指して

Towards a Causal Probabilistic Framework for Prediction, Action-Selection & Explanations for Robot Block-Stacking Tasks ( http://arxiv.org/abs/2308.06203v2 )

ライセンス: Link先を確認
Ricardo Cannizzaro, Jonathan Routley, and Lars Kunze(参考訳) 現実世界の不確実性は、システム設計者がロボットが遭遇する可能性のあるすべてのシナリオを予想し、明示的に設計することは不可能であることを意味する。 このように設計されたロボットは脆弱で、高度に制御された環境の外で失敗する。 因果モデル(英: Causal model)は、ロボットと環境との相互作用を管理する因果関係の形式的知識を符号化するための原則的枠組みを提供する。 因果推論と組み合わせることで、これらのモデルは自律エージェントがその環境を理解し、推論し、説明することができる。 本研究では,倉庫のロジスティクスや家庭内人力支援ロボットなど,多くのアプリケーションで要求される基本的な認識と操作能力から,ロボットのブロック積み上げ作業の課題に焦点をあてる。 本研究では,物理シミュレーション機能を構造因果モデルに組み込むことで,ロボットがブロックスタッキングタスクの現況を認識・評価し,配置候補から次の最善動作を推論し,ポストホックな反事実的説明を生成する,新たな因果確率的枠組みを提案する。 シミュレーションおよび実世界のロボットブロックスタッキングタスクにおいて,実証的な次善行動選択結果を提供し,計画実験の概要を示す。

Uncertainties in the real world mean that is impossible for system designers to anticipate and explicitly design for all scenarios that a robot might encounter. Thus, robots designed like this are fragile and fail outside of highly-controlled environments. Causal models provide a principled framework to encode formal knowledge of the causal relationships that govern the robot's interaction with its environment, in addition to probabilistic representations of noise and uncertainty typically encountered by real-world robots. Combined with causal inference, these models permit an autonomous agent to understand, reason about, and explain its environment. In this work, we focus on the problem of a robot block-stacking task due to the fundamental perception and manipulation capabilities it demonstrates, required by many applications including warehouse logistics and domestic human support robotics. We propose a novel causal probabilistic framework to embed a physics simulation capability into a structural causal model to permit robots to perceive and assess the current state of a block-stacking task, reason about the next-best action from placement candidates, and generate post-hoc counterfactual explanations. We provide exemplar next-best action selection results and outline planned experimentation in simulated and real-world robot block-stacking tasks.
翻訳日:2023-10-02 17:46:33 公開日:2023-09-29
# 拡散モデルの誤差伝播について

On Error Propagation of Diffusion Models ( http://arxiv.org/abs/2308.05021v2 )

ライセンス: Link先を確認
Yangming Li, Mihaela van der Schaar(参考訳) 拡散モデル(DM)は様々なタスク(音声合成や画像生成など)において有望な性能を示すが、連続的な構造のためエラーの伝播に悩まされる可能性がある。 しかし、条件ランダム場(CRF)のようないくつかの逐次モデルがこの問題から解放されているため、これは定かではない。 この問題に対処するために,dmsのアーキテクチャにおける誤り伝播を数学的に定式化する理論的枠組みを開発し,そのフレームワークはモジュールエラー,累積誤差,伝播方程式の3つの要素を含む。 モジュラーおよび累積誤差は、DMが実際にエラー伝播に影響を受けていることを解釈する方程式によって関連付けられる。 我々の理論的研究は、累積誤差がDMの生成品質と密接に関連していることも示唆している。 この結果に基づいて累積誤差を正規化項として適用し,誤差伝播を減少させる。 この用語は計算に難解であるため、その上界を導出し、最適化のための境界を効率的に推定するブートストラップアルゴリズムを設計する。 我々は,複数の画像データセットについて広範な実験を行い,提案手法が誤差伝播を減少させ,バニラdmsを著しく改善し,従来のベースラインを上回ることを示した。

Although diffusion models (DMs) have shown promising performances in a number of tasks (e.g., speech synthesis and image generation), they might suffer from error propagation because of their sequential structure. However, this is not certain because some sequential models, such as Conditional Random Field (CRF), are free from this problem. To address this issue, we develop a theoretical framework to mathematically formulate error propagation in the architecture of DMs, The framework contains three elements, including modular error, cumulative error, and propagation equation. The modular and cumulative errors are related by the equation, which interprets that DMs are indeed affected by error propagation. Our theoretical study also suggests that the cumulative error is closely related to the generation quality of DMs. Based on this finding, we apply the cumulative error as a regularization term to reduce error propagation. Because the term is computationally intractable, we derive its upper bound and design a bootstrap algorithm to efficiently estimate the bound for optimization. We have conducted extensive experiments on multiple image datasets, showing that our proposed regularization reduces error propagation, significantly improves vanilla DMs, and outperforms previous baselines.
翻訳日:2023-10-02 17:46:04 公開日:2023-09-29
# フェイクからリアルへ:バランスのとれた合成画像の事前学習からバイアス予防へ

From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Bias ( http://arxiv.org/abs/2308.04553v2 )

ライセンス: Link先を確認
Maan Qraitem, Kate Saenko, Bryan A. Plummer(参考訳) 視覚認識モデルは、ある条件のB$ (\eg, Indoors) が特定のクラスで過剰に表現されるバイアス付きトレーニングセットによって引き起こされる刺激的な相関を学習する傾向がある。 生成モデルからの合成データは、実際のデータセットで表現されていない条件を増大させることでこの問題を緩和する有望な方向を提供する。 しかし、これは合成データの生成モデルアーティファクトからの別の潜在的なバイアス源をもたらす。 実際、以前の研究では合成データを使ってB$に対するモデルのバイアスを解決するが、サンプルが本物か合成的であるかを示す$(B, G)$に対してモデルのバイアスを補正しない。 したがって、モデルは、ペア$(B, G)$ (\eg, Synthetic Indoors) に基づいて信号を学び、約$Y$ (\eg, Big Dogs) の予測を行うことができる。 この問題に対処するため,From Fake to Real (FFR)と呼ばれる2段階のトレーニングパイプラインを提案する。 ffrの最初のステップは、バランスのとれた合成データに基づくモデルを事前学習し、サブグループ間のロバスト表現を学ぶ。 第2のステップでは、FFRはEMMまたは共通の損失に基づくバイアス緩和法を用いて、実データ上でモデルを微調整する。 実データと合成データを別々にトレーニングすることで、FFRはペアの$(B, G)$からの信号に対するバイアスの問題を避けることができる。 言い換えれば、第1ステップの合成データは、第2ステップのパフォーマンスを高める効果的な非バイアス表現を提供する。 実際、高いバイアス設定(99.9\%)の分析は、FFRが3つのデータセット(CelebA、UTK-Face、SpuCO Animals)よりも7-14\%向上していることを示している。

Visual recognition models are prone to learning spurious correlations induced by a biased training set where certain conditions $B$ (\eg, Indoors) are over-represented in certain classes $Y$ (\eg, Big Dogs). Synthetic data from generative models offers a promising direction to mitigate this issue by augmenting underrepresented conditions in the real dataset. However, this introduces another potential source of bias from generative model artifacts in the synthetic data. Indeed, as we will show, prior work uses synthetic data to resolve the model's bias toward $B$, but it doesn't correct the models' bias toward the pair $(B, G)$ where $G$ denotes whether the sample is real or synthetic. Thus, the model could simply learn signals based on the pair $(B, G)$ (\eg, Synthetic Indoors) to make predictions about $Y$ (\eg, Big Dogs). To address this issue, we propose a two-step training pipeline that we call From Fake to Real (FFR). The first step of FFR pre-trains a model on balanced synthetic data to learn robust representations across subgroups. In the second step, FFR fine-tunes the model on real data using ERM or common loss-based bias mitigation methods. By training on real and synthetic data separately, FFR avoids the issue of bias toward signals from the pair $(B, G)$. In other words, synthetic data in the first step provides effective unbiased representations that boosts performance in the second step. Indeed, our analysis of high bias setting (99.9\%) shows that FFR improves performance over the state-of-the-art by 7-14\% over three datasets (CelebA, UTK-Face, and SpuCO Animals).
翻訳日:2023-10-02 17:45:41 公開日:2023-09-29
# シーン画像を用いたマルチラベル自己監督学習

Multi-Label Self-Supervised Learning with Scene Images ( http://arxiv.org/abs/2308.03286v3 )

ライセンス: Link先を確認
Ke Zhu and Minghao Fu and Jianxin Wu(参考訳) シーンイメージをターゲットとした自己教師あり学習(SSL)手法は最近急速に成長しており、主に専用の密マッチング機構か、高価な教師なしオブジェクト発見モジュールに依存している。 本稿では,これらの厳密な操作に代えて,シーン/複数ラベル画像SSLを多ラベル分類問題として扱い,学習フレームワークを大幅に単純化することで,高品質な画像表現を学習可能であることを示す。 具体的には、組込みと2つの辞書の組込みを比較して各入力画像に複数の二項擬似ラベルを割り当て、二項クロスエントロピー損失を用いてネットワークを最適化する。 提案手法はマルチラベル自己教師学習(MLS)と呼ばれる。 MLSによる擬似ラベルは、異なる画像にまたがって意味的に類似した擬似陽性のペアを自動的に見つけ、コントラスト学習を容易にする。 MLSはMS-COCOの高品質な表現を学習し、分類、検出、セグメンテーションのベンチマークで最先端の結果を得る。 同時に、MLSは既存のメソッドよりもはるかにシンプルで、デプロイやさらなる探索が容易である。

Self-supervised learning (SSL) methods targeting scene images have seen a rapid growth recently, and they mostly rely on either a dedicated dense matching mechanism or a costly unsupervised object discovery module. This paper shows that instead of hinging on these strenuous operations, quality image representations can be learned by treating scene/multi-label image SSL simply as a multi-label classification problem, which greatly simplifies the learning framework. Specifically, multiple binary pseudo-labels are assigned for each input image by comparing its embeddings with those in two dictionaries, and the network is optimized using the binary cross entropy loss. The proposed method is named Multi-Label Self-supervised learning (MLS). Visualizations qualitatively show that clearly the pseudo-labels by MLS can automatically find semantically similar pseudo-positive pairs across different images to facilitate contrastive learning. MLS learns high quality representations on MS-COCO and achieves state-of-the-art results on classification, detection and segmentation benchmarks. At the same time, MLS is much simpler than existing methods, making it easier to deploy and for further exploration.
翻訳日:2023-10-02 17:45:11 公開日:2023-09-29
# 混合量子古典写像法における詳細バランス

Detailed balance in mixed quantum-classical mapping approaches ( http://arxiv.org/abs/2309.04686v2 )

ライセンス: Link先を確認
Graziano Amati, Jonathan R. Mannouch, and Jeremy O. Richardson(参考訳) 詳細なバランス違反は、非断熱力学をシミュレートする現在の準古典的手法の大部分に深刻な問題を引き起こす。 この問題の深刻度を分析するために, 古典エルゴード理論の議論を応用し, 様々な準古典的マッピングアプローチにより, 電子集団の長期的限界を予測した。 分析の結果,エレンフェスト近似を超越するために多くのマッピング手法が導入する負の集団に対応する写像空間の領域が,適切な熱化挙動を再現する上で最も深刻な問題であることがわかった。 これは、負の電子集団が核に侵入して生じる逆ポテンシャルが、非物理的に無限に加速する軌道に繋がるからである。 最近開発された表面ホッピング(MASH)へのマッピングアプローチは、ダイナミクスの正確な記述を維持しながら、逆ポテンシャルを避ける簡単な方法を提供する。 他の準古典的アプローチとは異なり、MASHは全ての量子$\unicode{x2013}$classical systemの正確な熱化挙動を記述することが保証されており、実凝縮相系における非断熱力学をシミュレートする最も有望な方法の1つである。

The violation of detailed balance poses a serious problem for the majority of current quasiclassical methods for simulating nonadiabatic dynamics. In order to analyze the severity of the problem, we predict the long-time limits of the electronic populations according to various quasiclassical mapping approaches, by applying arguments from classical ergodic theory. Our analysis confirms that regions of the mapping space that correspond to negative populations, which most mapping approaches introduce in order to go beyond the Ehrenfest approximation, pose the most serious issue for reproducing the correct thermalization behaviour. This is because inverted potentials, which arise from negative electronic populations entering into the nuclear force, can result in trajectories unphysically accelerating off to infinity. The recently developed mapping approach to surface hopping (MASH) provides a simple way of avoiding inverted potentials, while retaining an accurate description of the dynamics. We prove that MASH, unlike any other quasiclassical approach, is guaranteed to describe the exact thermalization behaviour of all quantum$\unicode{x2013}$classical systems, confirming it as one of the most promising methods for simulating nonadiabatic dynamics in real condensed-phase systems.
翻訳日:2023-10-02 17:39:14 公開日:2023-09-29
# 動的離散視覚化を用いたLLMにおける統一言語ビジョン事前学習

Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization ( http://arxiv.org/abs/2309.04669v2 )

ライセンス: Link先を確認
Yang Jin, Kun Xu, Kun Xu, Liwei Chen, Chao Liao, Jianchao Tan, Quzhe Huang, Bin Chen, Chenyi Lei, An Liu, Chengru Song, Xiaoqiang Lei, Di Zhang, Wenwu Ou, Kun Gai, Yadong Mu(参考訳) 近年、LLM(Large Language Model)の顕著な進歩により、研究者は、その異常な推論能力を視覚データと言語データの両方に委ねるようになった。 しかし,主に視覚入力をプロンプトとみなし,凍結LDMによる視覚内容に応じたテキスト生成プロセスの最適化にのみ焦点をあてるアプローチが主流である。 このような視覚と言語に対する不平等な扱いは、モデルの可能性を強く制限する。 本稿では,視覚と言語の両方を統一形式で表現することで,この限界を突破する。 具体的には,非言語イメージをllmで読める外国語のような離散トークン列に変換するための,よく設計されたビジュアルトークン化器を導入する。 結果として得られる視覚トークンは、単語にふさわしいハイレベルな意味論を含み、画像から変化する動的シーケンス長をサポートする。 このトークン化と組み合わせて、LaVITと呼ばれる提示された基盤モデルは、同じ生成学習パラダイムの下で、画像とテキストの両方を無差別に扱うことができる。 この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。 大規模な実験では、膨大な視覚言語タスクにおいて、既存のモデルよりも優れた性能を示す。 私たちのコードとモデルはhttps://github.com/jy0205/LaVIT.comで公開されます。

Recently, the remarkable advance of the Large Language Model (LLM) has inspired researchers to transfer its extraordinary reasoning capability to both vision and language data. However, the prevailing approaches primarily regard the visual input as a prompt and focus exclusively on optimizing the text generation process conditioned upon vision content by a frozen LLM. Such an inequitable treatment of vision and language heavily constrains the model's potential. In this paper, we break through this limitation by representing both vision and language in a unified form. Specifically, we introduce a well-designed visual tokenizer to translate the non-linguistic image into a sequence of discrete tokens like a foreign language that LLM can read. The resulting visual tokens encompass high-level semantics worthy of a word and also support dynamic sequence length varying from the image. Coped with this tokenizer, the presented foundation model called LaVIT can handle both image and text indiscriminately under the same generative learning paradigm. This unification empowers LaVIT to serve as an impressive generalist interface to understand and generate multi-modal content simultaneously. Extensive experiments further showcase that it outperforms the existing models by a large margin on massive vision-language tasks. Our code and models will be available at https://github.com/jy0205/LaVIT.
翻訳日:2023-10-02 17:38:52 公開日:2023-09-29
# 混合過程におけるコミュニケーションと参考歌の役割:プロフェッショナルミックスエンジニアの視点から

The Role of Communication and Reference Songs in the Mixing Process: Insights from Professional Mix Engineers ( http://arxiv.org/abs/2309.03404v3 )

ライセンス: Link先を確認
Soumya Sai Vanka, Maryam Safi, Jean-Baptiste Rolland, and Gy\"orgy Fazekas(参考訳) 効果的な音楽の混合には技術的および創造的な微妙さが必要だが、クライアントとの明確なコミュニケーションは不可欠である。 混合エンジニアは、クライアントの期待や好みを理解し、望ましい音を達成するために協力する必要があります。 ミックスの所望の音に対する暗黙の合意は、しばしば、アーティストとエンジニアの間で交換される参照歌やデモミックスのようなガイドを使って確立され、時には意味的な言葉を使って口頭で表現される。 本稿では,技術者がクライアントとどのように相互作用し,そのフィードバックを用いてミキシングプロセスのガイドを行うかを理解することを目的とした2段階の探索的研究の成果を示す。 第1フェーズでは,コミュニケーション戦略,創造的プロセス,意思決定基準に関する洞察を収集するために,混合技術者5人と半構造化面接を行った。 これらの質問紙からの推測に基づき,第2段階で22名の混合技術者からなる大規模グループを対象にオンラインアンケートを設計,実施した。 本研究の結果は, 混合プロセスにおける協調, 共感, 意図の重要性を浮き彫りにし, これらの実践を支援するスマートなマルチトラック混合システムの開発に寄与することができる。 これらの知見の意義を強調することにより,音楽制作の協調性に関する研究の進展に寄与し,革新的なミキシングツールの設計と実装に有効なレコメンデーションを提供する。

Effective music mixing requires technical and creative finesse, but clear communication with the client is crucial. The mixing engineer must grasp the client's expectations, and preferences, and collaborate to achieve the desired sound. The tacit agreement for the desired sound of the mix is often established using guides like reference songs and demo mixes exchanged between the artist and the engineer and sometimes verbalised using semantic terms. This paper presents the findings of a two-phased exploratory study aimed at understanding how professional mixing engineers interact with clients and use their feedback to guide the mixing process. For phase one, semi-structured interviews were conducted with five mixing engineers with the aim of gathering insights about their communication strategies, creative processes, and decision-making criteria. Based on the inferences from these interviews, an online questionnaire was designed and administered to a larger group of 22 mixing engineers during the second phase. The results of this study shed light on the importance of collaboration, empathy, and intention in the mixing process, and can inform the development of smart multi-track mixing systems that better support these practices. By highlighting the significance of these findings, this paper contributes to the growing body of research on the collaborative nature of music production and provides actionable recommendations for the design and implementation of innovative mixing tools.
翻訳日:2023-10-02 17:38:31 公開日:2023-09-29
# slime: 私のようなセグメント

SLiMe: Segment Like Me ( http://arxiv.org/abs/2309.03179v2 )

ライセンス: Link先を確認
Aliasghar Khani, Saeid Asgari Taghanaki, Aditya Sanghi, Ali Mahdavi Amiri, Ghassan Hamarneh(参考訳) 画像編集、画像対応、および3d形状生成を含む様々な下流タスクのために、stable diffusion (sd) のような大きな視覚言語モデルを使用して大きな進歩を遂げた。 これらの進歩に触発されて、SLiMeを提案することで1つの注釈付きサンプルを用いて、任意の粒度で画像のセグメンテーションにこれらの広範囲な視覚言語モデルを活用することを検討する。 SLiMeはこの問題を最適化タスクとして捉えている。 具体的には,1枚のトレーニング画像とそのセグメンテーションマスクから,SD前の「重み付き累積自己注意マップ」を含む注意マップを抽出する。 そして、抽出した注目マップを用いて、安定拡散のテキスト埋め込みを最適化し、トレーニング画像からそれぞれ1つのセグメント化された領域について学習する。 これらの学習された埋め込みはアテンションマップのセグメンテーション領域を強調し、それによってセグメンテーションマップを導出することができる。 これにより、SLiMeはトレーニングイメージ内のセグメント化された領域の粒度の推論中に、たった1つの例を使って、現実世界の画像をセグメント化できる。 さらに、利用可能な追加のトレーニングデータ、すなわち数ショットを活用することで、SLiMeのパフォーマンスが向上する。 各種設計因子について知識に富んだ実験を行い,スライムは他のワンショットおよびマイナショットセグメンテーション法よりも優れていることを示した。

Significant strides have been made using large vision-language models, like Stable Diffusion (SD), for a variety of downstream tasks, including image editing, image correspondence, and 3D shape generation. Inspired by these advancements, we explore leveraging these extensive vision-language models for segmenting images at any desired granularity using as few as one annotated sample by proposing SLiMe. SLiMe frames this problem as an optimization task. Specifically, given a single training image and its segmentation mask, we first extract attention maps, including our novel "weighted accumulated self-attention map" from the SD prior. Then, using the extracted attention maps, the text embeddings of Stable Diffusion are optimized such that, each of them, learn about a single segmented region from the training image. These learned embeddings then highlight the segmented region in the attention maps, which in turn can then be used to derive the segmentation map. This enables SLiMe to segment any real-world image during inference with the granularity of the segmented region in the training image, using just one example. Moreover, leveraging additional training data when available, i.e. few-shot, improves the performance of SLiMe. We carried out a knowledge-rich set of experiments examining various design factors and showed that SLiMe outperforms other existing one-shot and few-shot segmentation methods.
翻訳日:2023-10-02 17:38:06 公開日:2023-09-29
# pre-trained neural recommenders:レコメンデーションシステムのための転送可能なゼロショットフレームワーク

Pre-trained Neural Recommenders: A Transferable Zero-Shot Framework for Recommendation Systems ( http://arxiv.org/abs/2309.01188v2 )

ライセンス: Link先を確認
Junting Wang, Adit Krishnan, Hari Sundaram, Yunzhe Li(参考訳) 現代のニューラルコラボレーティブフィルタリング技術は、eコマース、ソーシャルメディア、コンテンツ共有プラットフォームの成功に不可欠である。 しかし、技術的な進歩にもかかわらず、新しいアプリケーションドメインごとに、scratchからncfモデルをトレーニングする必要があります。 対照的に、事前訓練された視覚と言語モデルは、様々なアプリケーションに直接(ゼロショット)または限定的な微調整で適用される。 事前学習モデルの影響に触発されて、補助ユーザやアイテム情報を使わずに、最小あるいは全く再トレーニングすることなく、新しいドメインでレコメンデータシステムを構築するための事前学習されたレコメンデータモデルの可能性を探る。 重複したユーザやアイテムがない場合、データセット間でユーザとアイテムの関連を形成できないため、補助情報のないゼロショットレコメンデーションは難しい。 我々の基本的な洞察は、ユーザ・イテム相互作用行列の統計特性が、異なるドメインやデータセットで普遍的に利用可能であるということである。 そこで我々は,ユーザとアイテム間の相互作用行列の統計的特徴を用いて,ユーザとアイテムのデータセット非依存表現を同定する。 両部間相互作用グラフからノードとエッジのユニバーサル(ユーザやアイテムの補助情報なしでゼロショット適応をサポートする)表現を学習する方法を示す。 ユーザとアイテムのマージンを含む相互作用データの統計的特性とクラスタのサイズと密度分布を利用して表現を学習する。

Modern neural collaborative filtering techniques are critical to the success of e-commerce, social media, and content-sharing platforms. However, despite technical advances -- for every new application domain, we need to train an NCF model from scratch. In contrast, pre-trained vision and language models are routinely applied to diverse applications directly (zero-shot) or with limited fine-tuning. Inspired by the impact of pre-trained models, we explore the possibility of pre-trained recommender models that support building recommender systems in new domains, with minimal or no retraining, without the use of any auxiliary user or item information. Zero-shot recommendation without auxiliary information is challenging because we cannot form associations between users and items across datasets when there are no overlapping users or items. Our fundamental insight is that the statistical characteristics of the user-item interaction matrix are universally available across different domains and datasets. Thus, we use the statistical characteristics of the user-item interaction matrix to identify dataset-independent representations for users and items. We show how to learn universal (i.e., supporting zero-shot adaptation without user or item auxiliary information) representations for nodes and edges from the bipartite user-item interaction graph. We learn representations by exploiting the statistical properties of the interaction data, including user and item marginals, and the size and density distributions of their clusters.
翻訳日:2023-10-02 17:37:41 公開日:2023-09-29
# jaisとjais-chat:アラビア語中心の基礎と命令調整による大言語モデル

Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models ( http://arxiv.org/abs/2308.16149v2 )

ライセンス: Link先を確認
Neha Sengupta, Sunil Kumar Sahu, Bokang Jia, Satheesh Katipomu, Haonan Li, Fajri Koto, William Marshall, Gurpreet Gosal, Cynthia Liu, Zhiming Chen, Osama Mohammed Afzal, Samta Kamboj, Onkar Pandit, Rahul Pal, Lalit Pradhan, Zain Muhammad Mujahid, Massa Baali, Xudong Han, Sondos Mahmoud Bsharat, Alham Fikri Aji, Zhiqiang Shen, Zhengzhong Liu, Natalia Vassilieva, Joel Hestness, Andy Hock, Andrew Feldman, Jonathan Lee, Andrew Jackson, Hector Xuguang Ren, Preslav Nakov, Timothy Baldwin, Eric Xing(参考訳) jais と jais-chat を新たに導入し,新しいアラビア語中心の基盤と,命令調整による大規模言語モデルである open generative large language models (llm) を導入した。 モデルはGPT-3デコーダのみのアーキテクチャに基づいており、様々なプログラミング言語のソースコードを含むアラビア語と英語のテキストが混在している。 13億のパラメータを持つアラビア語の知識と推論能力は、広範囲な評価に基づいて、既存のアラビア語と多言語モデルよりも大きなマージンで示される。 さらに、英語のデータがはるかに少ないにもかかわらず、同様の大きさの英語中心のオープンモデルと比較すると、モデルは英語で競争力がある。 モデルのトレーニング,チューニング,安全性アライメント,評価について詳細な説明を行う。 我々は、アラビア語のLLMの研究を促進するために、2つのオープンバージョン - 基礎的Jaisモデルと命令調整されたJais-chat変種 - をリリースする。 huggingface.co/inception-mbzuai/jais-13b-chatで利用可能

We introduce Jais and Jais-chat, new state-of-the-art Arabic-centric foundation and instruction-tuned open generative large language models (LLMs). The models are based on the GPT-3 decoder-only architecture and are pretrained on a mixture of Arabic and English texts, including source code in various programming languages. With 13 billion parameters, they demonstrate better knowledge and reasoning capabilities in Arabic than any existing open Arabic and multilingual models by a sizable margin, based on extensive evaluation. Moreover, the models are competitive in English compared to English-centric open models of similar size, despite being trained on much less English data. We provide a detailed description of the training, the tuning, the safety alignment, and the evaluation of the models. We release two open versions of the model -- the foundation Jais model, and an instruction-tuned Jais-chat variant -- with the aim of promoting research on Arabic LLMs. Available at https://huggingface.co/inception-mbzuai/jais-13b-chat
翻訳日:2023-10-02 17:36:56 公開日:2023-09-29
# 計測タンパ検出ベンチマーク

Benchmarks for Detecting Measurement Tampering ( http://arxiv.org/abs/2308.15605v5 )

ライセンス: Link先を確認
Fabien Roger, Ryan Greenblatt, Max Nadeau, Buck Shlegeris, Nate Thomas(参考訳) 複雑なタスクを実行するために強力なAIシステムをトレーニングする場合、最適化に堅牢なトレーニング信号を提供することは困難である。 ひとつは \textit{measurement tampering} で、aiシステムは望ましい結果を得るのではなく、良い結果の錯覚を作り出すために複数の測定値を操作する。 本研究では,大規模言語モデルにおける計測改ざん検出手法を評価するために,新たに4つのテキストベースデータセットを構築した。 具体的には、何らかの結果が生じたかどうかを判断するためのテキスト入力と測定のセットと、測定結果を正確に予測できるベースモデルが与えられた場合、すべての測定結果が実際に結果が生じたかどうかを示す例、測定の改ざんによって引き起こされたかどうかを判断する。 ほとんどのデータセットで単純なベースラインを上回りますが、最大パフォーマンスは達成できません。 技術とデータセットの両方に改善の余地があると信じており、測定の改ざんに取り組む今後の作業に興奮しています。

When training powerful AI systems to perform complex tasks, it may be challenging to provide training signals which are robust to optimization. One concern is \textit{measurement tampering}, where the AI system manipulates multiple measurements to create the illusion of good results instead of achieving the desired outcome. In this work, we build four new text-based datasets to evaluate measurement tampering detection techniques on large language models. Concretely, given sets of text inputs and measurements aimed at determining if some outcome occurred, as well as a base model able to accurately predict measurements, the goal is to determine if examples where all measurements indicate the outcome occurred actually had the outcome occur, or if this was caused by measurement tampering. We demonstrate techniques that outperform simple baselines on most datasets, but don't achieve maximum performance. We believe there is significant room for improvement for both techniques and datasets, and we are excited for future work tackling measurement tampering.
翻訳日:2023-10-02 17:36:36 公開日:2023-09-29
# gisinの定理の量子場への一般化

Generalization of Gisin's Theorem to Quantum Fields ( http://arxiv.org/abs/2308.14913v2 )

ライセンス: Link先を確認
Konrad Schlichtholz and Marcin Markiewicz(参考訳) 我々は、純粋状態の絡み合いとベル非古典性の間の関係に関するギシンの定理を、定理を未定義の粒子数で被覆するように拡張する量子場のモードのモード絡み合いの場合に一般化する。 分離モードの2つの群間の絡み合いを含む体の純粋な状態が、いくつかのクレーター=ホルン不等式に反することを示す。 最初のステップで違反につながる可観測性を構築するために、2つのモードの分離群を含む1粒子空間から構築されたフォック空間と、2つの抽象可分ヒルベルト空間のテンソル積の間の同型性を示す。 2番目のステップでは、このテンソル積空間に写像された与えられた絡み合った状態のシュミット分解を行い、得られたシュミット分解を検討中の系の元のフォック空間に写像する。 このようなフォック空間におけるシュミット分解は、クロージャ・ホーンの不等式に違反する可観測性の構築を可能にする。 また、ギシンの定理の一般化は、実際には無限個の粒子を持つ状態を表す非分離ヒルベルト空間上の状態の場合にも成り立つことを示す。 このような状態は、例えば量子相転移の議論において現れる。 最後に, 組込みベル試験の実験的実現可能性について検討し, 受動線形光学領域における本試験の実現に必要条件を提供する。

We generalize Gisin's theorem on the relation between the entanglement of pure states and Bell non-classicality to the case of mode entanglement of separated groups of modes of quantum fields extending the theorem to cover also states with undefined particle number. We show that any pure state of the field which contains entanglement between two groups of separated modes violates some Clauser-Horne inequality. In order to construct the observables leading to a violation in the first step, we show an isomorphism between the Fock space built from a single-particle space involving two separated groups of modes and a tensor product of two abstract separable Hilbert spaces spanned by formal monomials of creation operators. In the second step, we perform a Schmidt decomposition of a given entangled state mapped to this tensor product space and then we map back the obtained Schmidt decomposition to the original Fock space of the system under consideration. Such obtained Schmidt decomposition in Fock space allows for construction of observables leading to a violation of the Clauser-Horne inequality. We also show that our generalization of Gisin's theorem holds for the case of states on non-separable Hilbert spaces, which physically represent states with actually infinite number of particles. Such states emerge, for example, in the discussion of quantum phase transitions. Finally, we discuss the experimental feasibility of constructed Bell test and provide a necessary condition for realizability of this test within the realm of passive linear optics.
翻訳日:2023-10-02 17:36:17 公開日:2023-09-29
# 古典的あるいは量子的二進最適化による線形系の次元の増大:大規模線形方程式系を解く新しい方法

Increasing the dimension of linear systems solved by classical or quantum binary optimization: A new method to solve large linear equation systems ( http://arxiv.org/abs/2309.09933v2 )

ライセンス: Link先を確認
Erick R. Castro, Eldues O. Martins, Roberto S. Sarthour, Alexandre M. Souza, Ivan S. Oliveira(参考訳) 近年、量子コンピューティングと量子コンピューティングにインスパイアされた古典システムの開発により、バイナリ最適化は魅力的な研究トピックとなっている。 これらのハードウェアシステムは計算の高速化を約束している。 本研究では,バイナリ最適化問題として記述された線形系の解法を提案する。 この手順は問題を効率的に解き、大きな線形システムを扱うことができる。 本手法は元の線形問題の幾何学に基づいており,勾配共役法に類似している。 共役方向はアルゴリズムの収束率を大幅に向上させることができる。 また、問題の内在幾何学の部分的知識は、元の問題をより小さな次元の独立した部分確率に分割できることを示す。 これらの部分問題は、量子解または古典解法を用いて解くことができる。 問題の幾何を決定するには計算コストがかかるが,従来の実装と比較して,本手法の性能は大幅に向上する。

Recently, binary optimization has become an attractive research topic due to the development of quantum computing and specialized classical systems inspired by quantum computing. These hardware systems promise to speed up the computation significantly. In this work, we propose a new method to solve linear systems written as a binary optimization problem. The procedure solves the problem efficiently and allows it to handle large linear systems. Our approach is founded on the geometry of the original linear problem and resembles the gradient conjugate method. The conjugated directions used can significantly improve the algorithm's convergence rate. We also show that a partial knowledge of the intrinsic geometry of the problem can divide the original problem into independent sub-problems of smaller dimensions. These sub-problems can then be solved using quantum or classical solvers. Although determining the geometry of the problem has an additional computational cost, it can substantially improve the performance of our method compared to previous implementations.
翻訳日:2023-10-02 17:27:16 公開日:2023-09-29
# 視覚ベースのアジャイル飛行におけるロバストなシーン転送強化のためのコントラスト学習

Contrastive Learning for Enhancing Robust Scene Transfer in Vision-based Agile Flight ( http://arxiv.org/abs/2309.09865v2 )

ライセンス: Link先を確認
Jiaxu Xing, Leonard Bauersfeld, Yunlong Song, Chunwei Xing, Davide Scaramuzza(参考訳) 視覚に基づくモバイルロボティクスアプリケーションのためのシーン転送は、非常に重要で困難な問題である。 ロボットの実用性は、十分に制御された実験室環境以外で、現実世界でタスクを実行する能力に大きく依存する。 既存のシーン転送のエンドツーエンドのポリシー学習アプローチは、しばしばサンプル効率の低下や限定的な一般化能力に悩まされ、モバイルロボティクスアプリケーションには適さない。 本研究では,ゼロショットシーン転送と実世界の展開を可能にする視覚表現学習のための適応型マルチペアコントラスト学習戦略を提案する。 組み込みに依存するコントロールポリシは、デプロイメント環境の微調整を必要とせずに、見えない環境で動作することができる。 私たちは、アジャイルなビジョンベースのクアドロター飛行のタスクにおける我々のアプローチのパフォーマンスをデモします。 大規模なシミュレーションと実世界の実験により,本手法はトレーニング領域を超えて一般化し,全てのベースラインを上回る結果となった。

Scene transfer for vision-based mobile robotics applications is a highly relevant and challenging problem. The utility of a robot greatly depends on its ability to perform a task in the real world, outside of a well-controlled lab environment. Existing scene transfer end-to-end policy learning approaches often suffer from poor sample efficiency or limited generalization capabilities, making them unsuitable for mobile robotics applications. This work proposes an adaptive multi-pair contrastive learning strategy for visual representation learning that enables zero-shot scene transfer and real-world deployment. Control policies relying on the embedding are able to operate in unseen environments without the need for finetuning in the deployment environment. We demonstrate the performance of our approach on the task of agile, vision-based quadrotor flight. Extensive simulation and real-world experiments demonstrate that our approach successfully generalizes beyond the training domain and outperforms all baselines.
翻訳日:2023-10-02 17:27:04 公開日:2023-09-29
# コントラストデコードによる大規模言語モデルの推論改善

Contrastive Decoding Improves Reasoning in Large Language Models ( http://arxiv.org/abs/2309.09117v2 )

ライセンス: Link先を確認
Sean O'Brien, Mike Lewis(参考訳) li et al 2022 によって提案された、単純で計算量が少なく、トレーニングフリーなテキスト生成手法であるコントラスト復号化が、様々な推論タスクにおける欲張りなデコードよりも大幅に改善されていることを実証する。 もともと長文テキスト生成の知覚的品質を改善するために示されていたContrastive Decodingは、強いモデルと弱いモデルの間の可能性の重み付け差を最大化する文字列を探索する。 我々は,LLaMA-65BがHellaSwagのコモンセンス推論ベンチマークでLLaMA 2, GPT-3.5, PaLM 2-Lを上回り, GSM8Kの算術語推論ベンチマークでLLaMA 2, GPT-3.5, PaLM-540Bを上回り,他のタスクのコレクションの改善に加えて,LLaMA 2, GPT-3.5, PaLM-540Bを上回ります。 分析によると、Contrastive Decodingは、いくつかの抽象的推論エラーを防止し、また、チェーン・オブ・インプット中に入力のセクションをコピーするといった単純なモードを避けることによって、既存の手法よりも改善されている。 全体として、Contrastive Decodingは、ロングフォーム生成のための核サンプリングと推論タスクのためのグリージーデコーディングに優れており、言語モデルからテキストを生成するための強力な汎用的方法である。

We demonstrate that Contrastive Decoding -- a simple, computationally light, and training-free text generation method proposed by Li et al 2022 -- achieves large out-of-the-box improvements over greedy decoding on a variety of reasoning tasks. Originally shown to improve the perceived quality of long-form text generation, Contrastive Decoding searches for strings that maximize a weighted difference in likelihood between strong and weak models. We show that Contrastive Decoding leads LLaMA-65B to outperform LLaMA 2, GPT-3.5 and PaLM 2-L on the HellaSwag commonsense reasoning benchmark, and to outperform LLaMA 2, GPT-3.5 and PaLM-540B on the GSM8K math word reasoning benchmark, in addition to improvements on a collection of other tasks. Analysis suggests that Contrastive Decoding improves over existing methods by preventing some abstract reasoning errors, as well as by avoiding simpler modes such as copying sections of the input during chain-of-thought. Overall, Contrastive Decoding outperforms nucleus sampling for long-form generation and greedy decoding for reasoning tasks, making it a powerful general purpose method for generating text from language models.
翻訳日:2023-10-02 17:26:48 公開日:2023-09-29
# ストーリーテリングの力学原理

The Dynamical Principles of Storytelling ( http://arxiv.org/abs/2309.07797v2 )

ライセンス: Link先を確認
Isidoros Doxas (1 and 2), James Meiss (3), Steven Bottone (1), Tom Strelich (4 and 5), Andrew Plummer (5 and 6), Adrienne Breland (5 and 7), Simon Dennis (8 and 9), Kathy Garvin-Doxas (9 and 10), Michael Klymkowsky (3) ((1) Northrop Grumman Corporation, (2) Some work performed at the University of Colorado, Boulder, (3) University of Colorado, Boulder, (4) Fusion Constructive LLC, (5) Work performed at Northop Grumman Corporation (6) Current Address JP Morgan, (7) Current address, GALT Aerospace, (8) University of Melbourne, (9) Work performed at the University of Colorado, Boulder, (10) Boulder Internet Technologies)(参考訳) 1800の短編の冒頭を考えると、平均的な物語の1ダースの段落はarxiv:2309.06600で定義された行動原理に従うことが分かる。 段落の順序が絞られた場合、平均はもはやこの性質を示さない。 この結果は、物語を始める際に意味空間に優先的な方向があることを示し、おそらくはアリストテレス・イン・ポエティクス(Aristotle in Poetics)が示唆した、西洋の一般的な物語作りの伝統に関連している。

When considering the opening part of 1800 short stories, we find that the first dozen paragraphs of the average narrative follow an action principle as defined in arXiv:2309.06600. When the order of the paragraphs is shuffled, the average no longer exhibits this property. The findings show that there is a preferential direction we take in semantic space when starting a story, possibly related to a common Western storytelling tradition as implied by Aristotle in Poetics.
翻訳日:2023-10-02 17:26:16 公開日:2023-09-29
# 動的システムとしての物語

Narrative as a Dynamical System ( http://arxiv.org/abs/2309.06600v2 )

ライセンス: Link先を確認
Isidoros Doxas (1 and 2), James Meiss (3), Steven Bottone (1), Tom Strelich (4 and 5), Andrew Plummer (5 and 6), Adrienne Breland (5 and 7), Simon Dennis (8 and 9), Kathy Garvin-Doxas (9 and 10), Michael Klymkowsky (3) ( (1) Northrop Grumman Corporation, (2) Some work performed at the University of Colorado, Boulder, (3) University of Colorado, Boulder, (4) Fusion Constructive LLC, (5) Work performed at Northop Grumman Corporation (6) Current Address JP Morgan, (7) Current address, GALT Aerospace, (8) University of Melbourne, (9) Work performed at the University of Colorado, Boulder, (10) Boulder Internet Technologies)(参考訳) 人間の活動、特に物語が物理学的な意味での力学系として扱われる証拠が増えており、その進化が作用積分によって記述され、a点からb点までの全ての可能な経路の平均は作用の極値によって与えられる。 約500の異なる物語を平均化して3つの経路を構築し,平均的な経路が行動原理と一致することを示す。

There is increasing evidence that human activity in general, and narrative in particular, can be treated as a dynamical system in the physics sense; a system whose evolution is described by an action integral, such that the average of all possible paths from point A to point B is given by the extremum of the action. We create by construction three such paths by averaging about 500 different narratives, and we show that the average path is consistent with an action principle.
翻訳日:2023-10-02 17:25:42 公開日:2023-09-29
# オフライン逆RLを用いたクエリ依存型プロンプト評価と最適化

Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL ( http://arxiv.org/abs/2309.06553v2 )

ライセンス: Link先を確認
Hao Sun, Alihan H\"uy\"uk, Mihaela van der Schaar(参考訳) 本研究では,ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。 このような最適化において、以前見過ごされたクエリ依存の目的を特定し、迅速な最適化手法の成功と経済的設計を妨げる2つの課題を解明する。 第一の問題は、金の答えが利用できないときに推論中にプロンプトを評価する効果的な方法がないことである。 同時に、拡張的な自然言語をナビゲートするためのllmとのインタラクションを通じて学習することで、リソース集約性が証明される。 これに対処するために,オフラインの逆強化学習を利用して,オフラインでプロンプトするデモンストレーションデータから洞察を引き出すprompt-oirlを導入する。 このようなデータは、オープンアクセス可能なデータセット上でさまざまなプロンプトがベンチマークされるときに副産物として存在する。 Prompt-OIRLでは、オフライン報酬モデルを学習することで、クエリ依存のプロンプト最適化の目的を達成する。 このモデルは、llmにアクセスせずに任意のクエリ-promptペアを評価することができる。 その後、最適なプロンプトを推奨するためにベストオブN戦略が展開される。 提案手法の有効性と経済性を評価するために, LLM尺度と算術推論データセットを用いた実験を行った。

In this study, we aim to enhance the arithmetic reasoning ability of Large Language Models (LLMs) through zero-shot prompt optimization. We identify a previously overlooked objective of query dependency in such optimization and elucidate two ensuing challenges that impede the successful and economical design of prompt optimization techniques. One primary issue is the absence of an effective method to evaluate prompts during inference when the golden answer is unavailable. Concurrently, learning via interactions with the LLMs to navigate the expansive natural language prompting space proves to be resource-intensive. To address this, we introduce Prompt-OIRL, which harnesses offline inverse reinforcement learning to draw insights from offline prompting demonstration data. Such data exists as by-products when diverse prompts are benchmarked on open-accessible datasets. With Prompt-OIRL, the query-dependent prompt optimization objective is achieved by first learning an offline reward model. This model can evaluate any query-prompt pairs without accessing LLMs. Subsequently, a best-of-N strategy is deployed to recommend the optimal prompt. Our experimental evaluations across various LLM scales and arithmetic reasoning datasets underscore both the efficacy and economic viability of the proposed approach.
翻訳日:2023-10-02 17:25:33 公開日:2023-09-29
# PACE-LM:クラウドインシデント根本原因解析におけるGPT-4による信頼度推定の実証と増大

PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation with GPT-4 in Cloud Incident Root Cause Analysis ( http://arxiv.org/abs/2309.05833v3 )

ライセンス: Link先を確認
Dylan Zhang, Xuchao Zhang, Chetan Bansal, Pedro Las-Casas, Rodrigo Fonseca, Saravan Rajmohan(参考訳) 主要なクラウドプロバイダは、大規模な言語モデルのような高度なAIベースのソリューションを使用して、クラウドインシデントの根本原因を特定する。 根本原因分析プロセスにおけるai駆動アシスタントの普及にもかかわらず、オンコールエンジニアの補助効果は、タスクの本質的な難易度、llmベースの幻覚アプローチの推進、これらよく知られた幻覚の識別の困難などにより、低い精度で制限されている。 この課題に対処するために,オンコールエンジニアがモデル予測を採用するかどうかを判断するために,予測に対する信頼度推定を行うことを提案する。 多くのLSMベースの根本原因予測器のブラックボックスの性質を考えると、微調整や温度スケーリングに基づくアプローチは適用できない。 そこで我々は,根本原因予測器から最小限の情報を要求する検索強化大言語モデル (LLM) に基づく,革新的な信頼度推定フレームワークを設計する。 このアプローチは、2つのスコアリングフェーズから構成される: LLMベースの信頼度推定器は、まず、参照データにおける「接地感」レベルを反映した現在のインシデントに対する判断の信頼性を評価し、その後、歴史的参照に基づいて根本原因予測を評価する。 最適化ステップは、これらの2つのスコアを組み合わせて最終信頼割り当てを行う。 本手法は,予測された根本原因に対する信頼度の推定を校正し,検索履歴データの有用性と促進戦略を検証し,異なる根本原因予測モデルにまたがる一般化可能性を示す。 本研究は,LLMをクラウドインシデント管理システムに確実に効果的に組み込むための重要な動きである。

Major cloud providers have employed advanced AI-based solutions like large language models to aid humans in identifying the root causes of cloud incidents. Despite the growing prevalence of AI-driven assistants in the root cause analysis process, their effectiveness in assisting on-call engineers is constrained by low accuracy due to the intrinsic difficulty of the task, a propensity for LLM-based approaches to hallucinate, and difficulties in distinguishing these well-disguised hallucinations. To address this challenge, we propose to perform confidence estimation for the predictions to help on-call engineers make decisions on whether to adopt the model prediction. Considering the black-box nature of many LLM-based root cause predictors, fine-tuning or temperature-scaling-based approaches are inapplicable. We therefore design an innovative confidence estimation framework based on prompting retrieval-augmented large language models (LLMs) that demand a minimal amount of information from the root cause predictor. This approach consists of two scoring phases: the LLM-based confidence estimator first evaluates its confidence in making judgments in the face of the current incident that reflects its ``grounded-ness" level in reference data, then rates the root cause prediction based on historical references. An optimization step combines these two scores for a final confidence assignment. We show that our method is able to produce calibrated confidence estimates for predicted root causes, validate the usefulness of retrieved historical data and the prompting strategy as well as the generalizability across different root cause prediction models. Our study takes an important move towards reliably and effectively embedding LLMs into cloud incident management systems.
翻訳日:2023-10-02 17:25:14 公開日:2023-09-29
# 非エルミートモット皮膚効果

Non-Hermitian Mott Skin Effect ( http://arxiv.org/abs/2309.14111v2 )

ライセンス: Link先を確認
Tsuneya Yoshida, Song-Bo Zhang, Titus Neupert, and Norio Kawakami(参考訳) 非エルミート量子多体系において、非エルミートモット皮膚効果を示す新しいタイプの皮膚効果を提案する。 この現象は強い相関と非エルミート点ギャップ位相との相互作用によって引き起こされる。 モット皮膚効果は、スピン度の自由度(すなわち電荷分布は境界条件に敏感ではない)でのみ境界条件に対する極端な感度を誘導し、非相互作用系における通常の非エルミート皮膚効果とは対照的である。 具体的には, ボソニック非エルミタン鎖は, 有効ハミルトニアンをよく調べることで, 強い相関関係にあるモットの皮膚効果を示す。 モット皮膚効果の出現はボゾン鎖の数値対角化によっても支持される。 通常の非エルミート皮膚効果とモット皮膚効果の差は、物理量の時間進化にも反映され、電荷分布が空間的に均一でありながら、時間進化のスピン蓄積が観察される。

We propose a novel type of skin effects in non-Hermitian quantum many-body systems which we dub a non-Hermitian Mott skin effect. This phenomenon is induced by the interplay between strong correlations and the non-Hermitian point-gap topology. The Mott skin effect induces extreme sensitivity to the boundary conditions only in the spin degree of freedom (i.e., the charge distribution is not sensitive to boundary conditions), which is in sharp contrast to the ordinary non-Hermitian skin effect in non-interacting systems. Concretely, we elucidate that a bosonic non-Hermitian chain exhibits the Mott skin effect in the strongly correlated regime by closely examining an effective Hamiltonian. The emergence of the Mott skin effect is also supported by numerical diagonalization of the bosonic chain. The difference between the ordinary non-Hermitian skin effect and the Mott skin effect is also reflected in the time-evolution of physical quantities; under the time-evolution spin accumulation is observed while the charge distribution remains spatially uniform.
翻訳日:2023-10-02 17:18:58 公開日:2023-09-29
# BiSinger:バイリンガル歌声合成

BiSinger: Bilingual Singing Voice Synthesis ( http://arxiv.org/abs/2309.14089v2 )

ライセンス: Link先を確認
Huali Zhou, Yueqian Lin, Yao Shi, Peng Sun, Ming Li(参考訳) 歌声合成(SVS)はテキスト音声合成(TTS)技術で大きな進歩を遂げているが、多言語歌唱音声モデリングはいまだに研究されていない。 本稿では,英語と中国語のマンダリン用バイリンガルpop svsシステムであるbisingerについて述べる。 現在のシステムは言語ごとに別々のモデルを必要としており、中国語と英語の両方を正確に表現することはできない。 このギャップに対処するため、中国語と英語の歌声の共有表現を設計し、CMU辞書とマッピング規則を用いて実現した。 単言語歌唱データセットをオープンソースの歌唱音声変換技術で融合してバイリンガル音声を生成するとともに,バイリンガル音声データの利用の可能性を探る。 実験により、我々の言語非依存の表現と関連するデータセットの取り込みにより、中国語の歌の演奏を維持しながら、英語とコードスウィッチのSVSの性能を向上した単一モデルが実現可能であることを確認した。 オーディオサンプルはhttps://bisinger-svs.github.ioで入手できる。

Although Singing Voice Synthesis (SVS) has made great strides with Text-to-Speech (TTS) techniques, multilingual singing voice modeling remains relatively unexplored. This paper presents BiSinger, a bilingual pop SVS system for English and Chinese Mandarin. Current systems require separate models per language and cannot accurately represent both Chinese and English, hindering code-switch SVS. To address this gap, we design a shared representation between Chinese and English singing voices, achieved by using the CMU dictionary with mapping rules. We fuse monolingual singing datasets with open-source singing voice conversion techniques to generate bilingual singing voices while also exploring the potential use of bilingual speech data. Experiments affirm that our language-independent representation and incorporation of related datasets enable a single model with enhanced performance in English and code-switch SVS while maintaining Chinese song performance. Audio samples are available at https://bisinger-svs.github.io.
翻訳日:2023-10-02 17:18:41 公開日:2023-09-29
# Fast-HuBERT:自己教師型音声表現学習のための効率的な学習フレームワーク

Fast-HuBERT: An Efficient Training Framework for Self-Supervised Speech Representation Learning ( http://arxiv.org/abs/2309.13860v2 )

ライセンス: Link先を確認
Guanrou Yang, Ziyang Ma, Zhisheng Zheng, Yakun Song, Zhikang Niu, Xie Chen(参考訳) 近年,音声処理タスクにおける自己教師付き学習(SSL)手法の進歩が目覚ましい。 様々な音声ベースのSSLモデルを開発し、音声認識を含む下流タスクで有望な性能を示す。 しかし、既存の音声ベースのSSLモデルは計算コストの観点から共通のジレンマに直面しており、その潜在的な応用と詳細な学術研究を妨げる可能性がある。 本稿では,まず,HuBERT事前学習中の異なるモジュールの計算コストを分析し,その上で,Fast-HuBERTと呼ばれる効率最適化のスタックを導入する。 提案されたFast-HuBERTは、Librispeech 960hベンチマークで8つのV100 GPUで1.1日でトレーニングできる。 さらに、Fast-HuBERTの2つのよく研究された手法について検討し、以前の研究で報告されたように一貫した改善を示す。

Recent years have witnessed significant advancements in self-supervised learning (SSL) methods for speech-processing tasks. Various speech-based SSL models have been developed and present promising performance on a range of downstream tasks including speech recognition. However, existing speech-based SSL models face a common dilemma in terms of computational cost, which might hinder their potential application and in-depth academic research. To address this issue, we first analyze the computational cost of different modules during HuBERT pre-training and then introduce a stack of efficiency optimizations, which is named Fast-HuBERT in this paper. The proposed Fast-HuBERT can be trained in 1.1 days with 8 V100 GPUs on the Librispeech 960h benchmark, without performance degradation, resulting in a 5.2x speedup, compared to the original implementation. Moreover, we explore two well-studied techniques in the Fast-HuBERT and demonstrate consistent improvements as reported in previous work.
翻訳日:2023-10-02 17:18:05 公開日:2023-09-29
# ビジネス最適化のためのAI-Copilot:生産スケジューリングのフレームワークとケーススタディ

AI-Copilot for Business Optimisation: A Framework and A Case Study in Production Scheduling ( http://arxiv.org/abs/2309.13218v2 )

ライセンス: Link先を確認
Pivithuru Thejan Amarasinghe, Su Nguyen, Yuan Sun and Damminda Alahakoon(参考訳) ビジネス最適化は、ビジネスに競争上の優位性をもたらすために、効率的で費用対効果の高い運用方法を見つけ、実装するプロセスである。 問題定式化は、人間の専門知識を中心としたビジネス最適化の不可欠な部分であり、ボトルネックになる可能性が高い。 近年のLarge Language Models (LLMs) の進歩により、問題定式化に必要な人間の専門知識は、人工知能(AI)を用いて最小化できる可能性がある。 しかし、データ要件のトレーニングやトークン制限、LLMにおける適切なパフォーマンス指標の欠如など、問題定式化のためのLLMの開発は困難である。 大規模なトレーニングデータの要求を最小限に抑えるため、最近、特定のタスクのためにLLMをスクラッチからトレーニングするのではなく、下流タスクのための微調整済みのLLMにかなりの注意が向けられている。 本稿では,本手法を採用し,事前学習したllmを問題定式化のために微調整することにより,ビジネス最適化のためのai-copilotを提案する。 トークン制限に対処するために,LLMのトークン制限に適合するモジュールとして,複雑な問題定式化を合成するためのモジュール化とエンジニアリング手法を導入する。 さらに,既存の評価指標と比較して,問題定式化の精度と品質を評価するのに適した評価指標を設計する。 実験により,我々のAI-Copilotは,生産スケジューリングにおける典型的なビジネス最適化問題に対して,複雑で大規模な問題定式化を合成できることが示されている。

Business optimisation is the process of finding and implementing efficient and cost-effective means of operation to bring a competitive advantage for businesses. Synthesizing problem formulations is an integral part of business optimisation which is centred around human expertise, thus with a high potential of becoming a bottleneck. With the recent advancements in Large Language Models (LLMs), human expertise needed in problem formulation can potentially be minimized using Artificial Intelligence (AI). However, developing a LLM for problem formulation is challenging, due to training data requirements, token limitations, and the lack of appropriate performance metrics in LLMs. To minimize the requirement of large training data, considerable attention has recently been directed towards fine-tuning pre-trained LLMs for downstream tasks, rather than training a LLM from scratch for a specific task. In this paper, we adopt this approach and propose an AI-Copilot for business optimisation by fine-tuning a pre-trained LLM for problem formulation. To address token limitations, we introduce modularization and prompt engineering techniques to synthesize complex problem formulations as modules that fit into the token limits of LLMs. In addition, we design performance evaluation metrics that are more suitable for assessing the accuracy and quality of problem formulations compared to existing evaluation metrics. Experiment results demonstrate that our AI-Copilot can synthesize complex and large problem formulations for a typical business optimisation problem in production scheduling.
翻訳日:2023-10-02 17:17:47 公開日:2023-09-29
# 強反発二層モデルにおける創発的feshbach共鳴からのペアリングドーム

Pairing dome from an emergent Feshbach resonance in a strongly repulsive bilayer model ( http://arxiv.org/abs/2309.13040v2 )

ライセンス: Link先を確認
Hannah Lange, Lukas Homeier, Eugene Demler, Ulrich Schollw\"ock, Annabelle Bohrdt and Fabian Grusdt(参考訳) 従来の超伝導を理解する鍵は、ドープ反強磁性体における移動電荷キャリアのペアリング機構を解き明かすことであり、強い反発性クーロン相互作用が存在する場合でも電荷間の効果的なアトラクションをもたらす。 本稿では, 有限ドーピング系において強く強化された, 強い結合エネルギーを持つ二層ニッケルの最小モデルにおけるペアリングについて検討する。 混合次元 (mixD) $t-J$ ladder は、小さな反発で密に束縛された穴 (閉チャネル) から、大きな反発でより空間的に拡張され、相関した個々の穴 (オープンチャネル) の対へと交差する。 我々は、原子Feshbach共鳴に類似して、アトラクションが閉じたチャネルによって媒介される、後者の効果的なモデルを引き出す。 密度行列再正規化群 (DMRG) シミュレーションを用いて, 約30 %$ドーピングで大きな結合エネルギーのドームを明らかにし, 隣接する2つのスピン電荷励起対からなるプラケットのテトラパルトン密度波の形成を観察した。 我々の研究は、ドープ量子磁石、特にni系超伝導体におけるペアリングの微視的理論への道を開くものであり、我々の予測は最先端の量子シミュレータで検証できる。

A key to understanding unconventional superconductivity lies in unraveling the pairing mechanism of mobile charge carriers in doped antiferromagnets, yielding an effective attraction between charges even in the presence of strong repulsive Coulomb interactions. Here, we study pairing in a minimal model of bilayer nickelates, featuring robust binding energies - despite dominant repulsive interactions - that are strongly enhanced in the finite doping regime. The mixed-dimensional (mixD) $t-J$ ladder we study features a crossover from tightly bound pairs of holes (closed channel) at small repulsion, to more spatially extended, correlated pairs of individual holes (open channel) at large repulsion. We derive an effective model for the latter, in which the attraction is mediated by the closed channel, in analogy to atomic Feshbach resonances. Using density matrix renormalization group (DMRG) simulations we reveal a dome of large binding energies at around $30\%$ doping and we observe the formation of a tetraparton density wave of plaquettes consisting of two spin-charge excitation pairs on neighboring rungs. Our work paves the way towards a microscopic theory of pairing in doped quantum magnets, in particular Ni-based superconductors, and our predictions can be tested in state-of-the-art quantum simulators.
翻訳日:2023-10-02 17:17:06 公開日:2023-09-29
# DRG-LLaMA : LLaMAモデルによる入院患者の診断関連集団の予測

DRG-LLaMA : Tuning LLaMA Model to Predict Diagnosis-related Group for Hospitalized Patients ( http://arxiv.org/abs/2309.12625v2 )

ライセンス: Link先を確認
Hanyin Wang, Chufan Gao, Christopher Dantona, Bryan Hull, Jimeng Sun(参考訳) 米国の入院医療システムでは、診断関連グループ(DRG)が重要であるが、その割り当てプロセスは非効率である。 本研究は,臨床ノートに微調整された先進的大規模言語モデル (llm) である drg-llama について紹介する。 LLaMAを基礎モデルとして, 236,192 MIMIC-IV放電サマリー上のローランド適応 (LoRA) を用いて最適化し, DRG-LLaMA-7Bモデルでは, 注目すべきマクロ平均F1スコア0.327, トップ-1予測精度52.0%, 最大入力トークン長0.986, マクロ平均領域512を示した。 このモデルは、DRG予測における先行モデルの性能を上回り、平均F1スコアの40.3%と35.7%の相対的な改善を示した。 ベースDRGとCC/MCC予測に適用すると、DRG-LLaMAはそれぞれ67.8%と67.5%の予測精度でトップ1の予測精度を達成した。 さらに, DRG-LLaMAの性能はモデルパラメータの増加と入力コンテキスト長と相関していることがわかった。

In the U.S. inpatient payment system, the Diagnosis-Related Group (DRG) is pivotal, but its assignment process is inefficient. The study introduces DRG-LLaMA, an advanced large language model (LLM) fine-tuned on clinical notes to enhance DRGs assignment. Utilizing LLaMA as the foundational model and optimizing it through Low-Rank Adaptation (LoRA) on 236,192 MIMIC-IV discharge summaries, our DRG-LLaMA-7B model exhibited a noteworthy macro-averaged F1 score of 0.327, a top-1 prediction accuracy of 52.0%, and a macro-averaged Area Under the Curve (AUC) of 0.986, with a maximum input token length of 512. This model surpassed the performance of prior leading models in DRG prediction, showing a relative improvement of 40.3% and 35.7% in macro-averaged F1 score compared to ClinicalBERT and CAML, respectively. Applied to base DRG and complication or comorbidity (CC)/major complication or comorbidity (MCC) prediction, DRG-LLaMA achieved a top-1 prediction accuracy of 67.8% and 67.5%, respectively. Additionally, our findings indicate that DRG-LLaMA's performance correlates with increased model parameters and input context lengths.
翻訳日:2023-10-02 17:16:37 公開日:2023-09-29
# シーンプリエントを用いた一般化ニューラルネットワークによる3次元再構成

3D Reconstruction with Generalizable Neural Fields using Scene Priors ( http://arxiv.org/abs/2309.15164v2 )

ライセンス: Link先を確認
Yang Fu, Shalini De Mello, Xueting Li, Amey Kulkarni, Jan Kautz, Xiaolong Wang, Sifei Liu(参考訳) 高忠実度3Dシーン再構成は、近年の神経磁場の進展により大幅に進歩している。 しかし、既存のほとんどのメソッドは個々のシーンごとに別のネットワークをスクラッチからトレーニングする。 これはスケーラビリティがなく、非効率で、限られたビューで良い結果を得ることができない。 学習ベースのマルチビューステレオメソッドは、この問題をある程度緩和するが、マルチビュー設定は、スケールアップや幅広いアプリケーションへの柔軟性を低下させる。 代わりに、シーンプリエント(nfps)を組み込んだトレーニング一般化ニューラルネットワークを導入する。 NFPネットワークは、任意のシングルビューRGB-D画像を符号付き距離と放射値にマッピングする。 完全なシーンは、融合モジュールを外した体積空間の個々のフレームをマージすることで再構築でき、柔軟性が向上する。 シーン先行を大規模なデータセットでトレーニングすることで、ビューの少ない新しいシーンの再構築を迅速に行うことができる。 NFPは、SOTAシーンの再構成性能と効率を実証するだけでなく、ニューラルネットワークで過小評価されている単一画像のノベルビュー合成もサポートする。 より質的な結果が、https://oasisyang.github.io/neural-prior.comで公開されている。

High-fidelity 3D scene reconstruction has been substantially advanced by recent progress in neural fields. However, most existing methods train a separate network from scratch for each individual scene. This is not scalable, inefficient, and unable to yield good results given limited views. While learning-based multi-view stereo methods alleviate this issue to some extent, their multi-view setting makes it less flexible to scale up and to broad applications. Instead, we introduce training generalizable Neural Fields incorporating scene Priors (NFPs). The NFP network maps any single-view RGB-D image into signed distance and radiance values. A complete scene can be reconstructed by merging individual frames in the volumetric space WITHOUT a fusion module, which provides better flexibility. The scene priors can be trained on large-scale datasets, allowing for fast adaptation to the reconstruction of a new scene with fewer views. NFP not only demonstrates SOTA scene reconstruction performance and efficiency, but it also supports single-image novel-view synthesis, which is underexplored in neural fields. More qualitative results are available at: https://oasisyang.github.io/neural-prior
翻訳日:2023-10-02 17:05:36 公開日:2023-09-29
# Supersonic: C/C++でソースコード最適化を生成することを学ぶ

Supersonic: Learning to Generate Source Code Optimisations in C/C++ ( http://arxiv.org/abs/2309.14846v2 )

ライセンス: Link先を確認
Zimin Chen, Sen Fang and Martin Monperrus(参考訳) ソフトウェア最適化は、機能を維持しながら、リソース効率のプログラムを洗練する。 伝統的に、これは開発者とコンパイラが行うプロセスである。 本稿では,第3の選択肢であるソースコードレベルでの自動最適化を提案する。 最適化のためのマイナーソースコード修正を目的としたニューラルネットワークであるSupersonicを提案する。 seq2seqモデルを使用して、SupersonicはC/C++プログラムペア($x_{t}$, $x_{t+1}$)でトレーニングされ、$x_{t+1}$は$x_{t}$の最適化バージョンであり、差分を出力する。 Supersonicのパフォーマンスは、OpenAIのGPT-3.5-TurboとGPT-4の競合プログラミングタスクに対してベンチマークされる。 実験の結果、Supersonicはコード最適化タスクにおいて両方のモデルを上回るだけでなく、GPT-3.5-Turboより600倍以上、GPT-4より3700倍小さいモデルで変更の程度を最小化できることがわかった。

Software optimization refines programs for resource efficiency while preserving functionality. Traditionally, it is a process done by developers and compilers. This paper introduces a third option, automated optimization at the source code level. We present Supersonic, a neural approach targeting minor source code modifications for optimization. Using a seq2seq model, Supersonic is trained on C/C++ program pairs ($x_{t}$, $x_{t+1}$), where $x_{t+1}$ is an optimized version of $x_{t}$, and outputs a diff. Supersonic's performance is benchmarked against OpenAI's GPT-3.5-Turbo and GPT-4 on competitive programming tasks. The experiments show that Supersonic not only outperforms both models on the code optimization task but also minimizes the extent of the change with a model more than 600x smaller than GPT-3.5-Turbo and 3700x smaller than GPT-4.
翻訳日:2023-10-02 17:05:20 公開日:2023-09-29
# 高分解能低光画像強調のためのブートストラップ拡散モデル曲線推定

Bootstrap Diffusion Model Curve Estimation for High Resolution Low-Light Image Enhancement ( http://arxiv.org/abs/2309.14709v2 )

ライセンス: Link先を確認
Jiancheng Huang, Yifan Liu, Shifeng Chen(参考訳) 学習に基づく手法は多くの研究の関心を集め、低照度画像の強化に大きな改善をもたらした。 しかし、それらの多くは、高解像度画像における高価な計算コストと、同時拡張とデノイングにおける不満足なパフォーマンスの2つの大きな問題に悩まされている。 これらの問題に対処するため,我々は,通常の光画像ではなく曲線パラメータの分布を学習するブートストラップ拡散モデルであるbdceを提案する。 具体的には,ブートストラップ拡散モデルにより曲線パラメータを推定する高分解能画像を扱うために曲線推定法を採用する。 さらに、曲線調整の各イテレーションに denoise モジュールを適用して、各イテレーションの中間強化結果を denoise する。 我々は,BDCEを一般的なベンチマークデータセットで評価し,最先端の質的,定量的な性能が得られることを示す。

Learning-based methods have attracted a lot of research attention and led to significant improvements in low-light image enhancement. However, most of them still suffer from two main problems: expensive computational cost in high resolution images and unsatisfactory performance in simultaneous enhancement and denoising. To address these problems, we propose BDCE, a bootstrap diffusion model that exploits the learning of the distribution of the curve parameters instead of the normal-light image itself. Specifically, we adopt the curve estimation method to handle the high-resolution images, where the curve parameters are estimated by our bootstrap diffusion model. In addition, a denoise module is applied in each iteration of curve adjustment to denoise the intermediate enhanced result of each iteration. We evaluate BDCE on commonly used benchmark datasets, and extensive experiments show that it achieves state-of-the-art qualitative and quantitative performance.
翻訳日:2023-10-02 17:05:04 公開日:2023-09-29
# フェデレーション学習におけるモード接続性とデータ不均一性

Mode Connectivity and Data Heterogeneity of Federated Learning ( http://arxiv.org/abs/2309.16923v1 )

ライセンス: Link先を確認
Tailin Zhou, Jun Zhang, Danny H.K. Tsang(参考訳) フェデレーション学習(fl)は、複数のクライアントがデータをプライベートに保ちながらモデルをトレーニングすることを可能にする。 これまでの研究では、クライアント間のデータの異質性は、クライアント更新間のドリフトにつながることが示されている。 しかし、クライアントモードとグローバルモードの関係についての研究は少ないため、これらの更新がいつ漂流していくのかは明らかではない。 我々は、異なるモード間のパラメトリックパスに沿った性能変化(すなわち、接続性)を測定するモード接続を利用して、この関係に関する経験的および理論的研究を行う。 経験上、データの不均一性の低減は、異なるパス上の接続をよりよくし、クライアントとグローバルモードの間のより低エラーオーバーラップを形成する。 また、2つのグローバルモードを線形に接続する際、非線形モード接続を考えると、接続の障壁が生じる。 理論的には,平均場理論やドロップアウト安定性を用いたグローバルモード接続の定量的境界を確立する。 このバウンドは、データの多様性を減らし、トレーニングされたモデルを広げることにより、接続性が向上することを示している。 解析結果はさらに分析結果と一致した。

Federated learning (FL) enables multiple clients to train a model while keeping their data private collaboratively. Previous studies have shown that data heterogeneity between clients leads to drifts across client updates. However, there are few studies on the relationship between client and global modes, making it unclear where these updates end up drifting. We perform empirical and theoretical studies on this relationship by utilizing mode connectivity, which measures performance change (i.e., connectivity) along parametric paths between different modes. Empirically, reducing data heterogeneity makes the connectivity on different paths more similar, forming more low-error overlaps between client and global modes. We also find that a barrier to connectivity occurs when linearly connecting two global modes, while it disappears with considering non-linear mode connectivity. Theoretically, we establish a quantitative bound on the global-mode connectivity using mean-field theory or dropout stability. The bound demonstrates that the connectivity improves when reducing data heterogeneity and widening trained models. Numerical results further corroborate our analytical findings.
翻訳日:2023-10-02 15:58:22 公開日:2023-09-29
# YOLORに基づくマルチタスク学習

YOLOR-Based Multi-Task Learning ( http://arxiv.org/abs/2309.16921v1 )

ライセンス: Link先を確認
Hung-Shuo Chang, Chien-Yao Wang, Richard Robert Wang, Gene Chou, Hong-Yuan Mark Liao(参考訳) マルチタスク学習(mtl)は、単一のモデルを使って複数のタスクを学習することを目的としており、これらすべてを一般化と共有セマンティクスを仮定して共同で改善する。 共同学習中のタスク間の競合を減らすことは難しく、一般的に注意深いネットワーク設計と非常に大きなモデルを必要とする。 マルチタスクに特化したネットワークアーキテクチャYOLOR(You Only Learn One Representation)の構築を提案する。 YOLORは、データ観測から、暗黙の知識と暗黙の知識の両方を活用して、トレーニングパラメータの数を最小化しながら、共有表現を改善する。 しかし、YOLORとその後継であるYOLOv7は、一度に2つのタスクのみを訓練した。 本稿では,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーション,イメージキャプションを共同で訓練する。 トレードオフを分析し、セマンティック情報の共有を最大化しようとします。 アーキテクチャとトレーニング戦略を通じて,本手法は低パラメータ数を維持しつつ,事前学習を行わずに,全てのタスクにおいて競争性能を達成する。 すぐにコードをリリースします。

Multi-task learning (MTL) aims to learn multiple tasks using a single model and jointly improve all of them assuming generalization and shared semantics. Reducing conflicts between tasks during joint learning is difficult and generally requires careful network design and extremely large models. We propose building on You Only Learn One Representation (YOLOR), a network architecture specifically designed for multitasking. YOLOR leverages both explicit and implicit knowledge, from data observations and learned latents, respectively, to improve a shared representation while minimizing the number of training parameters. However, YOLOR and its follow-up, YOLOv7, only trained two tasks at once. In this paper, we jointly train object detection, instance segmentation, semantic segmentation, and image captioning. We analyze tradeoffs and attempt to maximize sharing of semantic information. Through our architecture and training strategies, we find that our method achieves competitive performance on all tasks while maintaining a low parameter count and without any pre-training. We will release code soon.
翻訳日:2023-10-02 15:58:05 公開日:2023-09-29
# ACGAN-GNNExplainer: グラフニューラルネットワークのための補助条件生成説明器

ACGAN-GNNExplainer: Auxiliary Conditional Generative Explainer for Graph Neural Networks ( http://arxiv.org/abs/2309.16918v1 )

ライセンス: Link先を確認
Yiqiao Li, Jianlong Zhou, Yifei Dong, Niusha Shafiabady, Fang Chen(参考訳) グラフニューラルネットワーク(gnns)は、様々な現実世界のアプリケーションでその効果を証明しているが、その基礎となるメカニズムは謎のままである。 この課題に対処し、信頼性の高い意思決定を可能にするため、近年多くのGNN説明者が提案されている。 しかし、これらの方法はしばしば、特定のインスタンスへの依存、見当たらないグラフへの一般化の欠如、潜在的に無効な説明の生成、不適切な忠実性をもたらすといった制限に遭遇する。 これらの制約を克服するため,本稿では,GNN説明分野に補助分類器生成支援ネットワーク(ACGAN)を導入し,新しいGNN説明器を提案し,その名称を「...\emph{ACGAN-GNNExplainer}」とした。 提案手法では,ジェネレータを利用して元の入力グラフの説明を生成するとともに,識別器を組み込んで生成過程を監督し,説明の忠実性を確保し,精度を向上させる。 合成および実世界のグラフデータセットを用いた実験により,既存のGNN説明器と比較して提案手法の優位性を示した。

Graph neural networks (GNNs) have proven their efficacy in a variety of real-world applications, but their underlying mechanisms remain a mystery. To address this challenge and enable reliable decision-making, many GNN explainers have been proposed in recent years. However, these methods often encounter limitations, including their dependence on specific instances, lack of generalizability to unseen graphs, producing potentially invalid explanations, and yielding inadequate fidelity. To overcome these limitations, we, in this paper, introduce the Auxiliary Classifier Generative Adversarial Network (ACGAN) into the field of GNN explanation and propose a new GNN explainer dubbed~\emph{ACGAN-GNNExplainer}. Our approach leverages a generator to produce explanations for the original input graphs while incorporating a discriminator to oversee the generation process, ensuring explanation fidelity and improving accuracy. Experimental evaluations conducted on both synthetic and real-world graph datasets demonstrate the superiority of our proposed method compared to other existing GNN explainers.
翻訳日:2023-10-02 15:57:46 公開日:2023-09-29
# ONNXExplainer: シェープ値を使ってニューラルネットワークを記述するためのONNXベースのジェネリックフレームワーク

ONNXExplainer: an ONNX Based Generic Framework to Explain Neural Networks Using Shapley Values ( http://arxiv.org/abs/2309.16916v1 )

ライセンス: Link先を確認
Yong Zhao, Runxin He, Nicholas Kersting, Can Liu, Shubham Agrawal, Chiranjeet Chetia, Yu Gu(参考訳) ニューラルネットワークモデルが決定を下す理由を理解することは、推論のパフォーマンスと同じくらい重要である。 シャプリー値が最も人気があるニューラルネットワークモデルの予測を説明するために、様々な方法が提案されている。 SHAPパッケージは、TensorFlowやPyTorchで実装されたニューラルネットワークを説明するためのShapley値の主導的な実装であるが、クロスプラットフォームのサポートがなく、ワンショットデプロイメントができないため、非常に非効率である。 これらの問題に対処するために、ONNXエコシステムのShapley値を使用してニューラルネットワークを説明する汎用フレームワークであるONNXExplainerを紹介する。 ONNXExplainerでは、ニューラルネットワークの推論と説明のワンショット展開を可能にするだけでなく、メモリ消費の少ない説明の計算効率を大幅に改善する独自の自動微分と最適化アプローチを開発している。 公平な比較目的では、tensorflowとpytorchで同じ最適化を実装し、現在のartオープンソース製品であるshapに対するパフォーマンスを測定します。 大規模なベンチマークでは、提案された最適化アプローチが、VGG19、ResNet50、DenseNet201、EfficientNetB0の説明遅延を最大500%改善することを示した。

Understanding why a neural network model makes certain decisions can be as important as the inference performance. Various methods have been proposed to help practitioners explain the prediction of a neural network model, of which Shapley values are most popular. SHAP package is a leading implementation of Shapley values to explain neural networks implemented in TensorFlow or PyTorch but lacks cross-platform support, one-shot deployment and is highly inefficient. To address these problems, we present the ONNXExplainer, which is a generic framework to explain neural networks using Shapley values in the ONNX ecosystem. In ONNXExplainer, we develop its own automatic differentiation and optimization approach, which not only enables One-Shot Deployment of neural networks inference and explanations, but also significantly improves the efficiency to compute explanation with less memory consumption. For fair comparison purposes, we also implement the same optimization in TensorFlow and PyTorch and measure its performance against the current state of the art open-source counterpart, SHAP. Extensive benchmarks demonstrate that the proposed optimization approach improves the explanation latency of VGG19, ResNet50, DenseNet201, and EfficientNetB0 by as much as 500%.
翻訳日:2023-10-02 15:57:27 公開日:2023-09-29
# ASAP: 複雑なロボット組立のための物理的可能性を考慮した自動シーケンス計画

ASAP: Automated Sequence Planning for Complex Robotic Assembly with Physical Feasibility ( http://arxiv.org/abs/2309.16909v1 )

ライセンス: Link先を確認
Yunsheng Tian, Karl D.D. Willis, Bassel Al Omari, Jieliang Luo, Pingchuan Ma, Yichen Li, Farhad Javid, Edward Gu, Joshua Jacob, Shinjiro Sueda, Hui Li, Sachin Chitta and Wojciech Matusik(参考訳) 複雑な製品の自動組み立てには、多くの部品を組み立てる物理的に実現可能な一連のアクションを自動的に計画するシステムが必要である。 本稿では,一般型アセンブリを自動生成する物理ベースの計画手法であるASAPを提案する。 ASAPは、各サブアセンブリが物理的に安定し、限られた数の部品が保持され、支持面が保持されるシーケンスを設計するための重力を説明できる。 効率的な木探索アルゴリズムを応用し,このような集合列の決定の組合せ複雑性を低減した。 探索は、幾何学的ヒューリスティックスまたはシミュレーションラベルでデータに基づいてトレーニングされたグラフニューラルネットワークによってガイドすることができる。 最後に, 数百の複雑な製品集合体からなる大規模データセット上で, 物理的に現実的な組み立てシーケンス計画を生成する上で, ASAPの優れた性能を示す。 さらに,シミュレーションと実世界のロボット環境におけるASAPの適用性を示す。 プロジェクトウェブサイト: asap.csail.mit.edu

The automated assembly of complex products requires a system that can automatically plan a physically feasible sequence of actions for assembling many parts together. In this paper, we present ASAP, a physics-based planning approach for automatically generating such a sequence for general-shaped assemblies. ASAP accounts for gravity to design a sequence where each sub-assembly is physically stable with a limited number of parts being held and a support surface. We apply efficient tree search algorithms to reduce the combinatorial complexity of determining such an assembly sequence. The search can be guided by either geometric heuristics or graph neural networks trained on data with simulation labels. Finally, we show the superior performance of ASAP at generating physically realistic assembly sequence plans on a large dataset of hundreds of complex product assemblies. We further demonstrate the applicability of ASAP on both simulation and real-world robotic setups. Project website: asap.csail.mit.edu
翻訳日:2023-10-02 15:57:03 公開日:2023-09-29
# 多ビット直交積基底による非局所性

Nonlocality via multiqubit orthogonal product bases ( http://arxiv.org/abs/2309.16907v1 )

ライセンス: Link先を確認
Lin Chen and Yutong Jiang(参考訳) 2, 3, 4量子ビット直交積基底(opbs)の識別を通じて量子非局所性を調べる。 各2量子ビット,約3および4量子PBは局所的に区別可能であることを示す。 残りの3ビットと4ビットのPBは局所的に区別できず、絡み合わずに量子非局所性を示すことが判明した。 また,量子テレポーテーションを用いたシステムとベル状態の補助により区別する。

We investigate the quantum nonlocality via the discrimination on two, three and four-qubit orthogonal product bases (OPBs). We show that every two-qubit, and some three and four-qubit OPBs can be locally distinguished. It turns out that the remaining three and four-qubit OPBs cannot be locally distinguished, and thus they show the quantum nonlocality without entanglement. We also distinguish them by merging some systems using quantum teleportation with assisted Bell states.
翻訳日:2023-10-02 15:56:47 公開日:2023-09-29
# 連続学習による適応型問題コンテンツ検出のための統一フレームワーク

Towards a Unified Framework for Adaptable Problematic Content Detection via Continual Learning ( http://arxiv.org/abs/2309.16905v1 )

ライセンス: Link先を確認
Ali Omrani, Alireza S. Ziabari, Preni Golazizian, Jeffery Sorensen, Morteza Dehghani(参考訳) ヘイトスピーチのような問題のあるコンテンツの検出は、社会的ダイナミクス、ユーザー人口、ソースの多様性、進化する言語の影響を受けて、多面的かつ絶え間なく変化するタスクである。 アカデミックと産業の両方において、問題のあるコンテンツの様々な側面を捉えた注釈付きリソースを開発するための重要な取り組みがあった。 研究者の多様な目的により、アノテーションは一貫性がなく、問題のあるコンテンツの検出が進んでいるという報告が断片化されている。 このパターンは、問題の動的性質を考慮して資源を集約しない限り継続することが期待される。 利用可能なリソースの統合を提案し、その動的性質を活用してこのパターンを破る。 本稿では,8つのソースから15のアノテーションスキーマを含む84以上の関連タスクを含む問題コンテンツ検出のための,連続学習ベンチマークとフレームワークを提案する。 我々のベンチマークは、特定のタスクに優れるよりも進化するタスクへの分類器の適応性を優先することという、新しい進歩の尺度を作成する。 フレームワークの継続的な関連性を保証するため、ベンチマークに新しいタスクを簡単に組み込めるように設計しました。 本研究のベースラインは,コンテンツの進化を捉え,問題のあるコンテンツの新たな表現に適応する上で,継続的な学習の可能性を示すものである。

Detecting problematic content, such as hate speech, is a multifaceted and ever-changing task, influenced by social dynamics, user populations, diversity of sources, and evolving language. There has been significant efforts, both in academia and in industry, to develop annotated resources that capture various aspects of problematic content. Due to researchers' diverse objectives, the annotations are inconsistent and hence, reports of progress on detection of problematic content are fragmented. This pattern is expected to persist unless we consolidate resources considering the dynamic nature of the problem. We propose integrating the available resources, and leveraging their dynamic nature to break this pattern. In this paper, we introduce a continual learning benchmark and framework for problematic content detection comprising over 84 related tasks encompassing 15 annotation schemas from 8 sources. Our benchmark creates a novel measure of progress: prioritizing the adaptability of classifiers to evolving tasks over excelling in specific tasks. To ensure the continuous relevance of our framework, we designed it so that new tasks can easily be integrated into the benchmark. Our baseline results demonstrate the potential of continual learning in capturing the evolving content and adapting to novel manifestations of problematic content.
翻訳日:2023-10-02 15:56:40 公開日:2023-09-29
# PT対称ポテンシャルを持つ線形結合NLS方程式におけるソリトンの分岐と励起の対称性

Symmetry breaking bifurcations and excitations of solitons in linearly coupled NLS equations with PT-symmetric potentials ( http://arxiv.org/abs/2309.16904v1 )

ライセンス: Link先を確認
Jin Song, Boris A. Malomed, Zhenya Yan(参考訳) 我々は1次元線形結合NLS方程式の基底状態 (GS) における対称性破壊分岐 (SBB) と双極子モード (DM) ソリトンに対処し、ケーラー非線形性と2種類のPT対称ポテンシャルを持つデュアルコア平面導波路における光の伝搬をモデル化する。 PT対称ポテンシャルは、異なるタイプの溶液を得るために用いられる。 超臨界ピッチフォーク分岐はGS型とDM型の対称解の族で起こる。 このシステムの新たな特徴は、PTの破断とコア間対称性の相互作用である。 両タイプのSBBが生成する対称GSおよびDMモードとその非対称モードの安定性について,線形安定解析およびシミュレーションを用いて検討した。 PT対称解の不安定性は、核間対称性の破れの前に起こる。 驚くべきことに、安定な核間対称gs溶液は、pt対称性が破られる間も安定である。 完全非対称gsとdmソリトンは部分的に安定である。 さらに、SBBが亜臨界である純虚局所ポテンシャルの作用の下で、対称および非対称なGSソリトンを構築する。 これらの結果は、安定なソリトンが依然として散逸系で見られることを示している。 最後に, ポテンシャルパラメータや系の結合定数関数を用いて対称および非対称のソリトンを励起し, 一定の条件下ではgsソリトンを非対称形状から対称に変換できることを示した。 これらの結果は、ptポテンシャルと関連する実験設計を持つデュアルコア平面導波路における線形および非線形現象の研究の道を開くかもしれない。

We address symmetry breaking bifurcations (SBBs) in the ground-state (GS) and dipole-mode (DM) solitons of the 1D linearly coupled NLS equations, modeling the propagation of light in a dual-core planar waveguide with the Kerr nonlinearity and two types of PT-symmetric potentials. The PT-symmetric potential is employed to obtained different types of solutions. A supercritical pitchfork bifurcation occurs in families of symmetric solutions of both the GS and DM types. A novel feature of the system is interplay between breakings of the PT and inter-core symmetries. Stability of symmetric GS and DM modes and their asymmetric counterparts, produced by SBBs of both types, is explored via the linear-stability analysis and simulations. It is found that the instability of PT-symmetric solutions takes place prior to the inter-core symmetry breaking. Surprisingly, stable inter-core-symmetric GS solutions may remain stable while the PT symmetry is broken. Fully asymmetric GS and DM solitons are only partially stable. Moreover, we construct symmetric and asymmetric GS solitons under the action of a pure imaginary localized potential, for which the SBB is subcritical. These results exhibit that stable solitons can still be found in dissipative systems. Finally, excitations of symmetric and asymmetric GS solitons are investigated by making the potential's parameters or the system's coupling constant functions, showing that GS solitons can be converted from an asymmetric shape onto a symmetric one under certain conditions. These results may pave the way for the study of linear and nonlinear phenomena in a dual-core planar waveguide with PT potential and related experimental designs.
翻訳日:2023-10-02 15:56:21 公開日:2023-09-29
# 産業欠陥分割における畳み込みニューラルネットワークのシフト等価性の検討

Investigating Shift Equivalence of Convolutional Neural Networks in Industrial Defect Segmentation ( http://arxiv.org/abs/2309.16902v1 )

ライセンス: Link先を確認
Zhen Qu, Xian Tao, Fei Shen, Zhengtao Zhang, Tao Li(参考訳) 産業欠陥セグメンテーションタスクでは、ピクセル精度とIoU(Intersection over Union)が一般的にセグメンテーション性能を評価するために使用されるが、モデルの出力一貫性(等価性とも呼ばれる)はしばしば見過ごされる。 入力画像の小さなシフトであっても、セグメンテーション結果にかなりの変動をもたらす可能性がある。 既存の手法は主にデータ拡張やアンチエイリアスに焦点をあてて、翻訳変換に対するネットワークの堅牢性を高めるが、それらのシフト等価性はテストセットでは不十分である。 さらに、入力画像の変換による境界の変化は一貫して無視されるため、シフト等価性にさらなる制限が課される。 この課題に対応するために,cnnにおける従来のサンプリング層の代替として,コンポーネント・アテンション・ポリフェーズサンプリング(caps)と呼ばれる新しい一対のダウン・アップサンプリング層が提案されている。 画像境界変動が等価性に与える影響を軽減するため、適応ウィンドウモジュールをCAPSで設計し、画像の境界画素を適応的にフィルタリングする。 さらに,すべてのダウンサンプリング機能を融合してセグメンテーション性能を向上させるコンポーネントアテンションモジュールを提案する。 マイクロサーフェス欠陥(msd)データセットと4つの実世界の産業的欠陥データセットの実験結果は、提案手法が他の最先端手法に比べて高い等価性とセグメンテーション性能を示すことを示している。

In industrial defect segmentation tasks, while pixel accuracy and Intersection over Union (IoU) are commonly employed metrics to assess segmentation performance, the output consistency (also referred to equivalence) of the model is often overlooked. Even a small shift in the input image can yield significant fluctuations in the segmentation results. Existing methodologies primarily focus on data augmentation or anti-aliasing to enhance the network's robustness against translational transformations, but their shift equivalence performs poorly on the test set or is susceptible to nonlinear activation functions. Additionally, the variations in boundaries resulting from the translation of input images are consistently disregarded, thus imposing further limitations on the shift equivalence. In response to this particular challenge, a novel pair of down/upsampling layers called component attention polyphase sampling (CAPS) is proposed as a replacement for the conventional sampling layers in CNNs. To mitigate the effect of image boundary variations on the equivalence, an adaptive windowing module is designed in CAPS to adaptively filter out the border pixels of the image. Furthermore, a component attention module is proposed to fuse all downsampled features to improve the segmentation performance. The experimental results on the micro surface defect (MSD) dataset and four real-world industrial defect datasets demonstrate that the proposed method exhibits higher equivalence and segmentation performance compared to other state-of-the-art methods.Our code will be available at https://github.com/xiaozhen228/CAPS.
翻訳日:2023-10-02 15:55:52 公開日:2023-09-29
# 物理インフォームド誘導機モデリング

Physics-Informed Induction Machine Modelling ( http://arxiv.org/abs/2309.16943v1 )

ライセンス: Link先を確認
Qing Shen, Yifan Zhou, Peng Zhang(参考訳) この迅速な通信は、ニューラルネットワークモデル(NeuIM)を考案し、物理インフォームド機械学習を用いてAIベースの電磁過渡シミュレーションを可能にする。 1) 誘導機を位相領域で表現するneuimの形成, (2) データの欠如時にも高速で遅いimダイナミクスをキャプチャ可能な物理に変形したニューラルネットワーク, (3) 様々なレベルのデータ可用性に適応したデータ物理学的統合型ハイブリッドneuimアプローチの3つである。 広範なケーススタディはneuimの有効性、特に純粋データ駆動アプローチに対する利点を検証する。

This rapid communication devises a Neural Induction Machine (NeuIM) model, which pilots the use of physics-informed machine learning to enable AI-based electromagnetic transient simulations. The contributions are threefold: (1) a formation of NeuIM to represent the induction machine in phase domain; (2) a physics-informed neural network capable of capturing fast and slow IM dynamics even in the absence of data; and (3) a data-physics-integrated hybrid NeuIM approach which is adaptive to various levels of data availability. Extensive case studies validate the efficacy of NeuIM and in particular, its advantage over purely data-driven approaches.
翻訳日:2023-10-02 15:47:05 公開日:2023-09-29
# G4SATBench: グラフニューラルネットワークによるSAT解決のベンチマークと改善

G4SATBench: Benchmarking and Advancing SAT Solving with Graph Neural Networks ( http://arxiv.org/abs/2309.16941v1 )

ライセンス: Link先を確認
Zhaoyu Li, Jinpei Guo, Xujie Si(参考訳) グラフニューラルネットワーク(GNN)は先頃、従来のバックトラックやローカルサーチSATソルバに代わる選択肢を提供する、Boolean Satisfiability Problem(SAT)を解決するための有望なアプローチとして登場した。 しかし、この分野における文献の量の増加にもかかわらず、既存のアプローチを評価し比較するための統一データセットと公正なベンチマークが存在しないことは注目すべきである。 G4SATBenchは、GNNベースのSATソルバの総合的な評価フレームワークを確立する最初のベンチマーク研究である。 G4SATBenchでは,3つの難易度を持つ7つの問題からなるSATデータセットの大規模かつ多種多様な集合を慎重にキュレートし,様々な予測タスク,学習目標,推論アルゴリズムを含む幅広いGNNモデルをベンチマークする。 学習能力を探究し,GNNベースのSATソルバの強みと限界を理解するために,それらの解法とサーチベースのSATソルバのヒューリスティックスを比較する。 実験結果から,既存のGNNモデルでは,局所探索に類似した解法を効果的に学習できるが,潜在空間における探索のバックトラックを学習できないことが示唆された。

Graph neural networks (GNNs) have recently emerged as a promising approach for solving the Boolean Satisfiability Problem (SAT), offering potential alternatives to traditional backtracking or local search SAT solvers. However, despite the growing volume of literature in this field, there remains a notable absence of a unified dataset and a fair benchmark to evaluate and compare existing approaches. To address this crucial gap, we present G4SATBench, the first benchmark study that establishes a comprehensive evaluation framework for GNN-based SAT solvers. In G4SATBench, we meticulously curate a large and diverse set of SAT datasets comprising 7 problems with 3 difficulty levels and benchmark a broad range of GNN models across various prediction tasks, training objectives, and inference algorithms. To explore the learning abilities and comprehend the strengths and limitations of GNN-based SAT solvers, we also compare their solving processes with the heuristics in search-based SAT solvers. Our empirical results provide valuable insights into the performance of GNN-based SAT solvers and further suggest that existing GNN models can effectively learn a solving strategy akin to greedy local search but struggle to learn backtracking search in the latent space.
翻訳日:2023-10-02 15:46:51 公開日:2023-09-29
# 鳥眼流によるロバスト非同期協調3次元検出

Robust Asynchronous Collaborative 3D Detection via Bird's Eye View Flow ( http://arxiv.org/abs/2309.16940v1 )

ライセンス: Link先を確認
Sizhe Wei, Yuxi Wei, Yue Hu, Yifan Lu, Yiqi Zhong, Siheng Chen, Ya Zhang(参考訳) 複数のエージェント間のコミュニケーションを容易にすることで、協調的な知覚は各エージェントの知覚能力を大幅に向上させることができる。 しかし、エージェント間の時間的同期は、通信遅延、割り込み、クロックの不一致により、現実世界では避けられない。 この問題は、マルチエージェント融合中に情報ミスマッチを引き起こし、コラボレーションの基礎をひどく揺るがす。 この問題に対処するために,鳥の目視(BEV)の流れに基づく,非同期でロバストな3D認識システムであるCoBEVFlowを提案する。 CoBEVFlowの重要な直感は、複数のエージェントが送信した非同期コラボレーションメッセージを調整するために、モーションを補償することである。 シーン内の動きをモデル化するために,各空間位置に対応する動きベクトルの集合であるBEVフローを提案する。 BEVフローに基づいて、非同期の知覚的特徴を適切な位置に割り当て、非同期性の影響を軽減することができる。 CoBEVFlowには2つの利点がある。 (i)CoBEVFlowは、不規則かつ連続したタイムスタンプで送信される非同期の協調メッセージを識別することなく処理することができる。 (ii) BEVフローでは、CoBEVFlowは、新しい知覚機能を生成する代わりに、元の知覚機能のみを輸送し、追加のノイズを避ける。 CoBEVFlowの有効性を検証するために、実世界の様々なシナリオをシミュレートする様々な時間軸索を持つ最初の合成協調認識データセットIRV2V(IRV2V)を作成する。 IRV2Vと実世界のデータセットであるDAIR-V2Xで実施された大規模な実験は、CoBEVFlowが他のベースラインを一貫して上回り、非常に非同期な設定で堅牢であることを示している。 コードはリリースされます。

By facilitating communication among multiple agents, collaborative perception can substantially boost each agent's perception ability. However, temporal asynchrony among agents is inevitable in real-world due to communication delays, interruptions, and clock misalignments. This issue causes information mismatch during multi-agent fusion, seriously shaking the foundation of collaboration. To address this issue, we propose CoBEVFlow, an asynchrony-robust collaborative 3D perception system based on bird's eye view (BEV) flow. The key intuition of CoBEVFlow is to compensate motions to align asynchronous collaboration messages sent by multiple agents. To model the motion in a scene, we propose BEV flow, which is a collection of the motion vector corresponding to each spatial location. Based on BEV flow, asynchronous perceptual features can be reassigned to appropriate positions, mitigating the impact of asynchrony. CoBEVFlow has two advantages: (i) CoBEVFlow can handle asynchronous collaboration messages sent at irregular, continuous time stamps without discretization; and (ii) with BEV flow, CoBEVFlow only transports the original perceptual features, instead of generating new perceptual features, avoiding additional noises. To validate CoBEVFlow's efficacy, we create IRregular V2V(IRV2V), the first synthetic collaborative perception dataset with various temporal asynchronies that simulate different real-world scenarios. Extensive experiments conducted on both IRV2V and the real-world dataset DAIR-V2X show that CoBEVFlow consistently outperforms other baselines and is robust in extremely asynchronous settings. The code will be released.
翻訳日:2023-10-02 15:46:27 公開日:2023-09-29
# 議論をしたいと思います: 大規模言語モデルにおける議論的推論

I Wish to Have an Argument: Argumentative Reasoning in Large Language Models ( http://arxiv.org/abs/2309.16938v1 )

ライセンス: Link先を確認
Adrian de Wynter and Tommy Yuan(参考訳) 我々は,現代大言語モデル (LLM) が議論的推論を行う能力を評価する。 我々は、引数マイニング(am)および引数ペア抽出(ape)タスクを用いて実験を行い、入力および出力表現(例えば、任意のラベル集合、意味グラフ)の抽象化レベルを増加させる際に推論を行う能力を評価する。 LLM は AM や APE の最先端技術に適合または超越することができるが,それらの議論的推論性能は入力および出力表現に大きく依存している。 また,タスクパフォーマンスに不利な例が多くなり,最大で4~5が最適である「経験的効果」も見いだされる。 いずれの結果もチェーン・オブ・シント(CoT)には及ばない: 例示的な効果を無効にし, 結果から, CoTが不条件条件下でのより良い性能を実現することが示唆された。 LLMにおける議論的推論の改善に貢献することを願っている。

We evaluate the ability of contemporary large language models (LLMs) to perform argumentative reasoning. We frame our experiments in terms of the argument mining (AM) and argument pair extraction (APE) tasks, and evaluate their ability to perform reasoning at increasing levels of abstraction in the input and output representations (e.g., arbitrary label sets, semantic graphs). We find that, although LLMs are able to match or surpass the state-of-the-art in AM and APE, their argumentative reasoning performance is very dependent on the input and output representation. We also find an "exemplar effect", where too many exemplars increasingly become detrimental for task performance, and about 4-5 being the optimal amount. Neither result extends to chain-of-thought (CoT) prompting: we find the exemplar effect to be nullified, and our results suggest that CoT allows for better performance under ill-conditioned problems. We hope that the work reported contributes to the improvement of argumentative reasoning in LLMs.
翻訳日:2023-10-02 15:45:59 公開日:2023-09-29
# SSHR:多言語音声認識のための自己教師付き階層表現の活用

SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition ( http://arxiv.org/abs/2309.16937v1 )

ライセンス: Link先を確認
Hongfei Xue, Qijie Shao, Kaixun Huang, Peikun Chen, Lei Xie, Jie Liu(参考訳) 多言語自動音声認識(ASR)システムは、言語の範囲を世界中に広げる可能性に注目を集めている。 自己教師付き学習(SSL)は多言語ASRにおいて有効性を示しているが、SSLの様々なレイヤの表現には、完全に活用されていない異なる情報が含まれている可能性があることに注意する必要がある。 本研究では,自己教師付き階層表現(SSHR)を微調整多言語ASRに適用する手法を提案する。 まず、言語関連およびコンテンツ関連情報のためのsslモデルの異なる層を分析し、より強い相関を示す層を明らかにする。 そして,関係する中間層から言語関連フレームを抽出し,自己認識機構を通じて特定のコンテンツ抽出を誘導する。 さらに,提案したCross-CTCを用いて,最終層におけるコンテンツ関連情報獲得のモデルを構築した。 我々は,2つの多言語データセット,Common Voice と ML-SUPERB を用いてSSHRを評価し,その実験結果から,我々の知識を最大限に活用できることを示す。

Multilingual automatic speech recognition (ASR) systems have garnered attention for their potential to extend language coverage globally. While self-supervised learning (SSL) has demonstrated its effectiveness in multilingual ASR, it is worth noting that the various layers' representations of SSL potentially contain distinct information that has not been fully leveraged. In this study, we propose a novel method that leverages self-supervised hierarchical representations (SSHR) to fine-tune multilingual ASR. We first analyze the different layers of the SSL model for language-related and content-related information, uncovering layers that show a stronger correlation. Then, we extract a language-related frame from correlated middle layers and guide specific content extraction through self-attention mechanisms. Additionally, we steer the model toward acquiring more content-related information in the final layers using our proposed Cross-CTC. We evaluate SSHR on two multilingual datasets, Common Voice and ML-SUPERB, and the experimental results demonstrate that our method achieves state-of-the-art performance to the best of our knowledge.
翻訳日:2023-10-02 15:45:38 公開日:2023-09-29
# pc-adapter:正則擬似ラベルを持つ点雲上の効率的なドメイン適応のためのトポロジー対応アダプタ

PC-Adapter: Topology-Aware Adapter for Efficient Domain Adaption on Point Clouds with Rectified Pseudo-label ( http://arxiv.org/abs/2309.16936v1 )

ライセンス: Link先を確認
Joonhyung Park, Hyunjin Seo, Eunho Yang(参考訳) 実世界から捉えた点雲の理解は、物体のスケールやセンサーの角度、自己完結によって引き起こされるデータ分布の変化によって困難である。 従来の研究は, 自己教師型学習, 自己学習, 対人訓練といった近年の学習原理を組み合わせることでこの問題に対処してきた。これにより, ポイントクラウドの領域適応の簡潔さが向上し, ドメインシフトシナリオ下でのポイントクラウドデータのユニークな課題を再考し, ソースデータのグローバルジオメトリの重要性と, ソースラベル分布に偏ったターゲットの擬似ラベルのトレンドを明らかにする。 そこで本研究では,対象領域の局所的特性をグラフ畳み込み機能を備えた他のアダプタで学習しながら,注意に基づくアダプタを用いてソース領域のグローバル形状情報を保存できるアダプタガイドドメイン適応法pc-adapterを提案する。 さらに,クラス毎の信頼度分布を用いて信頼度を調整し,相対的信頼度を考慮し,分類子バイアスに耐性のある新たな擬似ラベル戦略を提案する。 本手法は,ベンチマークデータセット(PointDA, GraspNetPC, PointSegDA)におけるドメインシフト設定のベースラインよりも優れていることを示す。

Understanding point clouds captured from the real-world is challenging due to shifts in data distribution caused by varying object scales, sensor angles, and self-occlusion. Prior works have addressed this issue by combining recent learning principles such as self-supervised learning, self-training, and adversarial training, which leads to significant computational overhead.Toward succinct yet powerful domain adaptation for point clouds, we revisit the unique challenges of point cloud data under domain shift scenarios and discover the importance of the global geometry of source data and trends of target pseudo-labels biased to the source label distribution. Motivated by our observations, we propose an adapter-guided domain adaptation method, PC-Adapter, that preserves the global shape information of the source domain using an attention-based adapter, while learning the local characteristics of the target domain via another adapter equipped with graph convolution. Additionally, we propose a novel pseudo-labeling strategy resilient to the classifier bias by adjusting confidence scores using their class-wise confidence distributions to consider relative confidences. Our method demonstrates superiority over baselines on various domain shift settings in benchmark datasets - PointDA, GraspNetPC, and PointSegDA.
翻訳日:2023-10-02 15:45:19 公開日:2023-09-29
# TranDRL: 規範的メンテナンスフレームワークを実現するトランスフォーマー駆動の深層強化学習

TranDRL: A Transformer-Driven Deep Reinforcement Learning Enabled Prescriptive Maintenance Framework ( http://arxiv.org/abs/2309.16935v1 )

ライセンス: Link先を確認
Yang Zhao, Wenbo Wang(参考訳) 産業システムは、運用効率を高め、ダウンタイムを減らすための信頼性の高い予測保守戦略を要求する。 本稿では,トランスフォーマーニューラルネットワークと深層強化学習(drl)アルゴリズムを活用し,保守動作の最適化を行う,新しい統合フレームワークを提案する。 本手法では,センサデータの複雑な時間パターンを効果的に捕捉するトランスフォーマーモデルを用いて,機器の残留有用寿命(RUL)を正確に予測する。 同時に、このフレームワークのdrlコンポーネントは、コスト効率とタイムリーなメンテナンスの推奨を提供します。 我々は、NASA C-MPASSデータセット上で、我々のフレームワークの有効性を検証し、RUL予測精度とメンテナンス動作の最適化の両方において大きな進歩を示す。 その結果、先駆的なアプローチは、規範的保守のための革新的なデータ駆動手法を提供し、産業運用における重要な課題に対処し、より効率的でコスト効率が高く、信頼性の高いシステムへの道を開く。

Industrial systems demand reliable predictive maintenance strategies to enhance operational efficiency and reduce downtime. This paper introduces a novel, integrated framework that leverages the power of transformer neural networks and deep reinforcement learning (DRL) algorithms to optimize maintenance actions. Our approach employs the transformer model to effectively capture complex temporal patterns in sensor data, thereby accurately predicting the Remaining Useful Life (RUL) of equipment. Simultaneously, the DRL component of our framework provides cost-effective and timely maintenance recommendations. We validate the efficacy of our framework on the NASA C-MPASS dataset, where it demonstrates significant advancements in both RUL prediction accuracy and the optimization of maintenance actions. Consequently, our pioneering approach provides an innovative data-driven methodology for prescriptive maintenance, addressing key challenges in industrial operations and leading the way to more efficient, cost-effective, and reliable systems.
翻訳日:2023-10-02 15:44:55 公開日:2023-09-29
# 対称性は学習の構造的制約につながる

Symmetry Leads to Structured Constraint of Learning ( http://arxiv.org/abs/2309.16932v1 )

ライセンス: Link先を確認
Liu Ziyin(参考訳) 共通のアーキテクチャ設計のため、現代ニューラルネットワークでは対称性が広く存在する。 本研究では,機械学習モデルの学習行動に影響を及ぼすかどうかを判断する上で,損失関数対称性の重要性を明らかにする。 損失関数のすべてのミラー対称性が構造的制約に導かれることを証明し、重み減衰あるいは勾配雑音が大きい場合に有利な解となる。 直接系として,再スケーリング対称性がスパース性,回転対称性が低ランク性,置換対称性が均質なセンスミリングをもたらすことを示す。 そこで, ニューラルネットワークにおける可塑性の喪失と様々な崩壊現象を理論的枠組みで説明できることを示すとともに, アルゴリズムの設計に対称性を用いて, 異なる方法でハード制約を強制する方法を提案する。

Due to common architecture designs, symmetries exist extensively in contemporary neural networks. In this work, we unveil the importance of the loss function symmetries in affecting, if not deciding, the learning behavior of machine learning models. We prove that every mirror symmetry of the loss function leads to a structured constraint, which becomes a favored solution when either the weight decay or gradient noise is large. As direct corollaries, we show that rescaling symmetry leads to sparsity, rotation symmetry leads to low rankness, and permutation symmetry leads to homogeneous ensembling. Then, we show that the theoretical framework can explain the loss of plasticity and various collapse phenomena in neural networks and suggest how symmetries can be used to design algorithms to enforce hard constraints in a differentiable way.
翻訳日:2023-10-02 15:44:39 公開日:2023-09-29
# 支援を受けるための学習: 介入認識概念埋め込みモデル

Learning to Receive Help: Intervention-Aware Concept Embedding Models ( http://arxiv.org/abs/2309.16928v1 )

ライセンス: Link先を確認
Mateo Espinosa Zarlenga, Katherine M. Collins, Krishnamurthy Dvijotham, Adrian Weller, Zohreh Shams, Mateja Jamnik(参考訳) 概念ボトルネックモデル(cbms)は、ハイレベルな概念の集合を用いてそれらの予測を構築し、説明することで、神経アーキテクチャの不透明性に取り組む。 これらのモデルの特別な特性は、ユーザーが誤予測された概念を修正でき、それによってモデルの性能が向上する、概念の介入を許すことである。 しかし、近年の研究では、介入の有効性は、モデルのアーキテクチャとトレーニングハイパーパラメーターに概念が介入される順序に大きく依存することが示されている。 これは、cbmがモデルが概念的介入を適切に受け付けるために列車の時間的インセンティブを欠いていることに起因していると論じている。 そこで我々は,テスト時の介入に対するモデルの受容性を改善する新しいcbmベースのアーキテクチャとトレーニングパラダイムであるintervention-aware concept embedded models (intcems)を提案する。 本モデルでは,列車走行時の有意義な介入軌跡をサンプリングし,エンドツーエンドで概念介入ポリシーを学習する。 この条件は、テスト時にデプロイされたときに、効果的にコンセプト介入を選択および受信する。 実験の結果,IntCEMはテスト時間の概念介入を施す場合,最先端の概念解釈モデルよりも優れており,本手法の有効性が示された。

Concept Bottleneck Models (CBMs) tackle the opacity of neural architectures by constructing and explaining their predictions using a set of high-level concepts. A special property of these models is that they permit concept interventions, wherein users can correct mispredicted concepts and thus improve the model's performance. Recent work, however, has shown that intervention efficacy can be highly dependent on the order in which concepts are intervened on and on the model's architecture and training hyperparameters. We argue that this is rooted in a CBM's lack of train-time incentives for the model to be appropriately receptive to concept interventions. To address this, we propose Intervention-aware Concept Embedding models (IntCEMs), a novel CBM-based architecture and training paradigm that improves a model's receptiveness to test-time interventions. Our model learns a concept intervention policy in an end-to-end fashion from where it can sample meaningful intervention trajectories at train-time. This conditions IntCEMs to effectively select and receive concept interventions when deployed at test-time. Our experiments show that IntCEMs significantly outperform state-of-the-art concept-interpretable models when provided with test-time concept interventions, demonstrating the effectiveness of our approach.
翻訳日:2023-10-02 15:44:25 公開日:2023-09-29
# インクリメンタルローテーション平均化再訪など: 新しいローテーション平均化ベンチマーク

Incremental Rotation Averaging Revisited and More: A New Rotation Averaging Benchmark ( http://arxiv.org/abs/2309.16924v1 )

ライセンス: Link先を確認
Xiang Gao, Hainan Cui, and Shuhan Shen(参考訳) インクリメンタルパラメータ推定に基づく回転平均化手法の精度とロバスト性をさらに向上するために,インクリメンタル回転平均化(IRA)ファミリーの新たなメンバーを導入し,IRAv4と呼ぶ。 IRAv4の最も重要な特徴として、タスク固有の連結支配集合が抽出され、より信頼性が高く正確な回転グローバルアライメントの基準となる。 In addition, to further address the limitations of the existing rotation averaging benchmark of relying on the slightly outdated Bundler camera calibration results as ground truths and focusing solely on rotation estimation accuracy, this paper presents a new COLMAP-based rotation averaging benchmark that incorporates a cross check between COLMAP and Bundler, and employ the accuracy of both rotation and downstream location estimation as evaluation metrics, which is desired to provide a more reliable and comprehensive evaluation tool for the rotation averaging research. 提案するirav4と他の主軸回転平均法との包括的比較により,提案手法の有効性が示された。

In order to further advance the accuracy and robustness of the incremental parameter estimation-based rotation averaging methods, in this paper, a new member of the Incremental Rotation Averaging (IRA) family is introduced, which is termed as IRAv4. As the most significant feature of the IRAv4, a task-specific connected dominating set is extracted to serve as a more reliable and accurate reference for rotation global alignment. In addition, to further address the limitations of the existing rotation averaging benchmark of relying on the slightly outdated Bundler camera calibration results as ground truths and focusing solely on rotation estimation accuracy, this paper presents a new COLMAP-based rotation averaging benchmark that incorporates a cross check between COLMAP and Bundler, and employ the accuracy of both rotation and downstream location estimation as evaluation metrics, which is desired to provide a more reliable and comprehensive evaluation tool for the rotation averaging research. Comprehensive comparisons between the proposed IRAv4 and other mainstream rotation averaging methods on this new benchmark demonstrate the effectiveness of our proposed approach.
翻訳日:2023-10-02 15:44:02 公開日:2023-09-29
# 組合せ最適化のための連続緩和制御

Controlling Continuous Relaxation for Combinatorial Optimization ( http://arxiv.org/abs/2309.16965v1 )

ライセンス: Link先を確認
Yuma Ichikawa(参考訳) 組合せ最適化(CO)問題の最近の進歩は、グラフニューラルネットワーク(GNN)の可能性を強調している。 物理に着想を得た GNN (PI-GNN) ソルバは教師なし学習により近似解を求めるが, 大規模CO問題に注目が集まっている。 それにもかかわらず、比較的高密度なグラフ上でのCO問題に対するPI-GNNソルバの性能に関する限定的な議論がある。 さらに、PI-GNNソルバは緩和戦略を採用しているため、学習後に連続空間から元の離散空間への人工的な変換が必要であり、解の堅牢性を損なう可能性がある。 本論文は,高密度グラフ上のCO問題の早期学習において,PI-GNNソルバがすべての変数がゼロとなる局所解に閉じ込められることを数値的に示す。 次に, 局所解を回避しつつ, 緩和変数の連続性と離散性を制御することにより, これらの問題に対処する。 (i)緩和変数の連続性と離散性を制御し、局所解を排除する新たなペナルティ用語を導入すること。 (II)新しい連続緩和焼鈍(CRA)戦略を提案する。 この新たなアニールは、まず連続解を優先し、局所解を避けながら連続性を活用して探索を強化し、その後、緩和された変数がほぼ離散値になるまで離散解を優先順位付けするためのペナルティ項をスケジュールし、連続から元の離散空間への人工的な変換の必要性を排除した。 実証的には、PI-GNNソルバが妥当な解を見つけるのに苦労するグラフ上のCO問題や比較的スパースなグラフ上の問題に対してより良い結果が得られる。 さらに、計算時間のスケーリングはPI-GNNソルバと同じである。

Recent advancements in combinatorial optimization (CO) problems emphasize the potential of graph neural networks (GNNs). The physics-inspired GNN (PI-GNN) solver, which finds approximate solutions through unsupervised learning, has attracted significant attention for large-scale CO problems. Nevertheless, there has been limited discussion on the performance of the PI-GNN solver for CO problems on relatively dense graphs where the performance of greedy algorithms worsens. In addition, since the PI-GNN solver employs a relaxation strategy, an artificial transformation from the continuous space back to the original discrete space is necessary after learning, potentially undermining the robustness of the solutions. This paper numerically demonstrates that the PI-GNN solver can be trapped in a local solution, where all variables are zero, in the early stage of learning for CO problems on the dense graphs. Then, we address these problems by controlling the continuity and discreteness of relaxed variables while avoiding the local solution: (i) introducing a new penalty term that controls the continuity and discreteness of the relaxed variables and eliminates the local solution; (ii) proposing a new continuous relaxation annealing (CRA) strategy. This new annealing first prioritizes continuous solutions and intensifies exploration by leveraging the continuity while avoiding the local solution and then schedules the penalty term for prioritizing a discrete solution until the relaxed variables are almost discrete values, which eliminates the need for an artificial transformation from the continuous to the original discrete space. Empirically, better results are obtained for CO problems on the dense graphs, where the PI-GNN solver struggles to find reasonable solutions, and for those on relatively sparse graphs. Furthermore, the computational time scaling is identical to that of the PI-GNN solver.
翻訳日:2023-10-02 15:39:33 公開日:2023-09-29
# AdaPose:コモディティWiFiを用いたクロスサイトデバイスフリーヒューマンポース推定を目指して

AdaPose: Towards Cross-Site Device-Free Human Pose Estimation with Commodity WiFi ( http://arxiv.org/abs/2309.16964v1 )

ライセンス: Link先を確認
Yunjiao Zhou, Jianfei Yang, He Huang, Lihua Xie(参考訳) WiFiベースのポーズ推定は、スマートホームとメタバースアバター生成の発展に大きな可能性を持つ技術である。 しかし、現在のWiFiベースのポーズ推定手法は、厳密な視覚モデルを用いて制御された実験室条件下で主に評価され、正確なラベル付きデータを取得する。 さらに、WiFi CSIは環境変数に非常に敏感であり、事前学習されたモデルの新しい環境への直接適用は、ドメインシフトによる準最適結果をもたらす可能性がある。 本稿では,弱教師付きWiFiベースのポーズ推定に特化して設計されたドメイン適応アルゴリズムAdaPoseを提案する。 提案手法は,環境動態に強く抵抗する一貫した人間のポーズを同定することを目的とする。 この目的を達成するために、マッピングレベルでの入力と出力の内的整合性に基づいて、ソースとターゲットドメインのドメイン不一致を整合させるマッピング一貫性損失を導入する。 我々は、WiFi CSIフレームを含む自作ポーズ推定データセットを用いて、2つの異なるシーンにおけるドメイン適応に関する広範な実験を行った。 その結果、AdaPoseのドメインシフト排除効果とロバスト性を実証し、スマートシティにおけるWiFiベースのポーズ推定の広範な適用を容易にした。

WiFi-based pose estimation is a technology with great potential for the development of smart homes and metaverse avatar generation. However, current WiFi-based pose estimation methods are predominantly evaluated under controlled laboratory conditions with sophisticated vision models to acquire accurately labeled data. Furthermore, WiFi CSI is highly sensitive to environmental variables, and direct application of a pre-trained model to a new environment may yield suboptimal results due to domain shift. In this paper, we proposes a domain adaptation algorithm, AdaPose, designed specifically for weakly-supervised WiFi-based pose estimation. The proposed method aims to identify consistent human poses that are highly resistant to environmental dynamics. To achieve this goal, we introduce a Mapping Consistency Loss that aligns the domain discrepancy of source and target domains based on inner consistency between input and output at the mapping level. We conduct extensive experiments on domain adaptation in two different scenes using our self-collected pose estimation dataset containing WiFi CSI frames. The results demonstrate the effectiveness and robustness of AdaPose in eliminating domain shift, thereby facilitating the widespread application of WiFi-based pose estimation in smart cities.
翻訳日:2023-10-02 15:39:04 公開日:2023-09-29
# 強化学習政策の説明の生成について--実証的研究

On Generating Explanations for Reinforcement Learning Policies: An Empirical Study ( http://arxiv.org/abs/2309.16960v1 )

ライセンス: Link先を確認
Mikihisa Yuasa, Huy T. Tran, Ramavarapu S. Sreenivas(参考訳) 本稿では,ポリシーの説明を提供するために設計された<textit{Linear Temporal Logic} (LTL) 式について紹介する。 私たちの焦点は、ポリシーによって達成された究極の目的と、その実行中に維持される前提の両方を明らかにする説明を作ることです。 これらのLTLに基づく説明は構造化表現を特徴とし、特に局所探索技術に適している。 提案手法の有効性は,旗環境をシミュレートして示す。 この論文は今後の研究の方向性を示唆している。

In this paper, we introduce a set of \textit{Linear Temporal Logic} (LTL) formulae designed to provide explanations for policies. Our focus is on crafting explanations that elucidate both the ultimate objectives accomplished by the policy and the prerequisites it upholds throughout its execution. These LTL-based explanations feature a structured representation, which is particularly well-suited for local-search techniques. The effectiveness of our proposed approach is illustrated through a simulated capture the flag environment. The paper concludes with suggested directions for future research.
翻訳日:2023-10-02 15:38:45 公開日:2023-09-29
# COMNet: 弱修正セマンティックセグメンテーションのための同時同期マッチング

COMNet: Co-Occurrent Matching for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2309.16959v1 )

ライセンス: Link先を確認
Yukun Su, Jingliang Deng, Zonghan Li(参考訳) 画像レベルの弱教師付きセマンティックセグメンテーションは近年深く研究されている課題である。 一般的なソリューションのほとんどは、クラスアクティベーションマップ(CAM)を利用してオブジェクト領域を特定する。 しかしながら、分類ネットワークによって生成されたそのような応答マップは通常、識別対象部分に焦点を当てる。 本稿では,CAMの品質を向上し,オブジェクトの全体に対して注意を払うためにネットワークを強制する,新しいコオカレントマッチングネットワーク(COMNet)を提案する。 具体的には,対応領域を拡大するための共通クラスを含むペア画像の相互マッチングを行い,対象領域にまたがる意味的特徴を伝達するために1つの画像に内部マッチングを構築する。 pascal voc 2012とms-cocoデータセットの実験では、ネットワークがベースラインモデルのパフォーマンスを効果的に向上させ、新たな最先端のパフォーマンスを達成できることが示されています。

Image-level weakly supervised semantic segmentation is a challenging task that has been deeply studied in recent years. Most of the common solutions exploit class activation map (CAM) to locate object regions. However, such response maps generated by the classification network usually focus on discriminative object parts. In this paper, we propose a novel Co-Occurrent Matching Network (COMNet), which can promote the quality of the CAMs and enforce the network to pay attention to the entire parts of objects. Specifically, we perform inter-matching on paired images that contain common classes to enhance the corresponded areas, and construct intra-matching on a single image to propagate the semantic features across the object regions. The experiments on the Pascal VOC 2012 and MS-COCO datasets show that our network can effectively boost the performance of the baseline model and achieve new state-of-the-art performance.
翻訳日:2023-10-02 15:38:37 公開日:2023-09-29
# Model2Scene:コントラスト言語CADモデルによる3次元シーン表現学習

Model2Scene: Learning 3D Scene Representation via Contrastive Language-CAD Models Pre-training ( http://arxiv.org/abs/2309.16956v1 )

ライセンス: Link先を確認
Runnan Chen, Xinge Zhu, Nenglun Chen, Dawei Wang, Wei Li, Yuexin Ma, Ruigang Yang, Tongliang Liu, Wenping Wang(参考訳) 現在成功している3dシーン知覚の方法は、大規模な注釈付きポイントクラウドに依存している。 本稿では,CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。 主な課題はcadモデルと実際のシーンのオブジェクトの間のドメインギャップであり、モデルからシーンまで(単一モデルからシーンまで)、合成から現実まで(合成モデルから実際のシーンのオブジェクトまで)である。 上記の課題に対処するため、Model2Sceneはまず、データ拡張CADモデルを混合することにより、混雑したシーンをシミュレートする。 次に,DCR (Deep Convex-hull Regularization) と呼ばれる新しい特徴正規化演算を提案する。 最終的に、3Dネットワークを事前学習するために、言語埋め込みとCADモデルのポイント特徴に対照的な損失を課す。 学習した3Dシーンの表現は、ラベルなしの3Dオブジェクトのサルエント検出、ラベル効率のよい3Dシーン認識、ゼロショットの3Dセマンティックセマンティックセグメンテーションなど、様々な下流タスクに有用である。 特にModel2Sceneは、ScanNetとS3DISのデータセットでそれぞれ平均46.08\%と55.49\%のmAPで、ラベル無しの3Dオブジェクトのサリエント検出を行う。 コードは公開される予定だ。

Current successful methods of 3D scene perception rely on the large-scale annotated point cloud, which is tedious and expensive to acquire. In this paper, we propose Model2Scene, a novel paradigm that learns free 3D scene representation from Computer-Aided Design (CAD) models and languages. The main challenges are the domain gaps between the CAD models and the real scene's objects, including model-to-scene (from a single model to the scene) and synthetic-to-real (from synthetic model to real scene's object). To handle the above challenges, Model2Scene first simulates a crowded scene by mixing data-augmented CAD models. Next, we propose a novel feature regularization operation, termed Deep Convex-hull Regularization (DCR), to project point features into a unified convex hull space, reducing the domain gap. Ultimately, we impose contrastive loss on language embedding and the point features of CAD models to pre-train the 3D network. Extensive experiments verify the learned 3D scene representation is beneficial for various downstream tasks, including label-free 3D object salient detection, label-efficient 3D scene perception and zero-shot 3D semantic segmentation. Notably, Model2Scene yields impressive label-free 3D object salient detection with an average mAP of 46.08\% and 55.49\% on the ScanNet and S3DIS datasets, respectively. The code will be publicly available.
翻訳日:2023-10-02 15:38:15 公開日:2023-09-29
# 重み付き多重測度に対するエントロピー不確実性関係

Entropic uncertainty relations for multiple measurements assigned with biased weights ( http://arxiv.org/abs/2309.16955v1 )

ライセンス: Link先を確認
Shan Huang, Hua-Lei Yin, Zeng-Bing Chen, and Shengjun Wu(参考訳) ハイゼンベルクの不確実性原理を定式化するエントロピー的方法は、量子情報理論の応用において基本的な役割を果たすだけでなく、量子システムの真の非古典的特徴を示す上でも不可欠である。 本稿では、量子系の個々のコピーの測定を非一様確率で選択するシナリオにおいて、r\'{e}nyiエントロピーの不確かさ関係(eurs)について検討する。 観測者の測定結果に関する情報の全体的な欠如を特徴付けるEURとは対照的に,複数の測定値に対するエントロピーの重み付け和に対する状態依存的な下限を確立する。 したがって、従来のEURは全ての重みが等しい特別な場合に対応しており、そのような場合、我々の結果は概して以前のものよりも強いことを示す。 さらに, エントロピックステアリング基準を例として, 異なる測定値に割り当てられた重みを最適化することにより, 現実的な量子タスクにおいてEURが有利であることを示す。 重要なことに、この最適化は量子リソースを必要とせず、古典的コンピュータ上で効率的に計算できる。

The entropic way of formulating Heisenberg's uncertainty principle not only plays a fundamental role in applications of quantum information theory but also is essential for manifesting genuine nonclassical features of quantum systems. In this paper, we investigate R\'{e}nyi entropic uncertainty relations (EURs) in the scenario where measurements on individual copies of a quantum system are selected with non-uniform probabilities. In contrast with EURs that characterize observer's overall lack of information about outcomes with respect to a collection of measurements, we establish state-dependent lower bounds on the weighted sum of entropies over multiple measurements. Conventional EURs thus correspond to the special cases when all weights are equal, and in such cases, we show our results are generally stronger than previous ones. Moreover, taking the entropic steering criterion as an example, we numerically verify that our EURs could be advantageous in practical quantum tasks by optimizing the weights assigned to different measurements. Importantly, this optimization does not require quantum resources and is efficiently computable on classical computers.
翻訳日:2023-10-02 15:37:28 公開日:2023-09-29
# 画像透かしの適応的攻撃に対するレバレッジ最適化

Leveraging Optimization for Adaptive Attacks on Image Watermarks ( http://arxiv.org/abs/2309.16952v1 )

ライセンス: Link先を確認
Nils Lukas, Abdulrahman Diaa, Lucas Fenaux, Florian Kerschbaum(参考訳) 信頼できないユーザーは画像生成装置を誤用して高品質のディープフェイクを合成したり、オンラインスパムや偽情報キャンペーンに従事したりすることができる。 ウォーターマーキングは、生成されたコンテンツを隠されたメッセージでマークすることで誤用を検知する。 ウォーターマーキングのコアセキュリティ特性は堅牢性であり、攻撃者は画像品質を著しく劣化させることで検出を回避できる。 堅牢性を評価するには、特定の透かしアルゴリズムに対する適応攻撃を設計する必要がある。 ウォーターマーキングアルゴリズムとその(適応的な)攻撃を評価する際の課題は、適応攻撃が最適であるかどうかを判断することである。 目的関数を定義し,最適化問題として適応攻撃にアプローチすることで,この問題を解決した。 アダプティブアタックの核となる考え方は、差別化可能で、攻撃パラメータの最適化に使用できるサロゲートキーを作成することで、秘密のウォーターマークキーをローカルに複製することです。 本研究では,画像品質の劣化を無視して5つの透かし法をすべて破壊できる安定拡散モデルを示す。 これらの発見は、適応的で学習可能な攻撃者に対するより厳密な堅牢性テストの必要性を強調している。

Untrustworthy users can misuse image generators to synthesize high-quality deepfakes and engage in online spam or disinformation campaigns. Watermarking deters misuse by marking generated content with a hidden message, enabling its detection using a secret watermarking key. A core security property of watermarking is robustness, which states that an attacker can only evade detection by substantially degrading image quality. Assessing robustness requires designing an adaptive attack for the specific watermarking algorithm. A challenge when evaluating watermarking algorithms and their (adaptive) attacks is to determine whether an adaptive attack is optimal, i.e., it is the best possible attack. We solve this problem by defining an objective function and then approach adaptive attacks as an optimization problem. The core idea of our adaptive attacks is to replicate secret watermarking keys locally by creating surrogate keys that are differentiable and can be used to optimize the attack's parameters. We demonstrate for Stable Diffusion models that such an attacker can break all five surveyed watermarking methods at negligible degradation in image quality. These findings emphasize the need for more rigorous robustness testing against adaptive, learnable attackers.
翻訳日:2023-10-02 15:36:50 公開日:2023-09-29
# 機械学習とニューラルネットワークによる水質予測

Water quality prediction using machine learning and neural network approaches ( http://arxiv.org/abs/2309.16951v1 )

ライセンス: Link先を確認
Yinpu Li, Siqi Mao, Yaping Yuan, Ziren Wang, Yixin Kang, Yuanxin Yao(参考訳) 水資源は人間の生活と経済の発展の基盤となり、公衆衛生と環境保全の両方に固有のつながりがある。 水質の正確な予測は、水資源管理の強化と汚染対策の重要な要因となっている。 本研究では,ジョージア州におけるph値の予測において,線形回帰,ランダムフォレスト,xgboost,lightgbm,mlpニューラルネットワークの5つの異なるモデルの有効性を評価する。 同時に、lightgbmは調査されたすべてのモデルの中で最も高い精度を達成している。 ツリーベースのモデルは、回帰問題に対処する上での優位性を強調する。 さらに、MLPニューラルネットワークの性能は、機能スケーリングに敏感である。 さらに,時間的依存や空間的考慮の要因である元の研究と比較した場合,機械学習モデルの精度向上の背景にある理由を考察し,考察する。 この取り組みの主な目的は、特に実用用途に適した堅牢な予測パイプラインを確立することである。 データサイエンスの分野に精通した個人だけでなく、特定のアプリケーションドメインの専門性に欠ける個人にも向いている。 本質的に、データサイエンス方法論における相対的精度を達成するための新しい視点を提供し、予測精度と解釈可能性の両方を強調する。

Water resources serve as the cornerstone of human livelihoods and economic progress, with intrinsic links to both public health and environmental well-being. The accurate prediction of water quality stands as a pivotal factor in enhancing water resource management and combating pollution. This research, employing diverse performance metrics, assesses the efficacy of five distinct models, namely, linear regression, Random Forest, XGBoost, LightGBM, and MLP neural network, in forecasting pH values within Georgia, USA. Concurrently, LightGBM attains the highest average precision among all models examined. Tree-based models underscore their supremacy in addressing regression challenges. Furthermore, the performance of MLP neural network is sensitive to feature scaling. Additionally, we expound upon and dissect the reasons behind the superior precision of the machine learning models when they are compared to the original study, which factors in time dependencies and spatial considerations. The primary objective of this endeavor is to establish a robust predictive pipeline, specifically tailored for practical applications. It caters not only to individuals well-versed in the realm of data science but also to those lacking specialization in particular application domains. In essence, we offer a fresh perspective for achieving relative precision in data science methodologies, emphasizing both prediction accuracy and interpretability.
翻訳日:2023-10-02 15:36:27 公開日:2023-09-29
# crosszoom: モーションデブラリングとイベントスーパーリゾルディングを同時に行う

CrossZoom: Simultaneously Motion Deblurring and Event Super-Resolving ( http://arxiv.org/abs/2309.16949v1 )

ライセンス: Link先を確認
Chi Zhang, Xiang Zhang, Mingyuan Lin, Cheng Li, Chu He, Wen Yang, Gui-Song Xia, Lei Yu(参考訳) 従来のイベントカメラとニューロモルフィックなイベントカメラのコラボレーションは、フレームイベントベースの視覚応用に繁栄をもたらすが、その性能は空間領域と時間領域の両方で2つのモードを横断する解像度ギャップによって制限されている。 本稿では,画像の時間分解能,すなわち動きのぼかし,イベントの空間分解能,すなわちイベントの超解像を増加させることでギャップを橋渡しすることを目的としている。 そこで我々はCrossZoomという新しい統合ニューラルネットワーク(CZ-Net)を導入し、ぼやけた入力とそれに対応する高分解能(HR)イベントの露光期間内で、鋭い潜時シーケンスを共同で復元する。 具体的には,スケール変化特性を活用し,クロスモダリティ情報を効果的に融合してクロスエンハンスメントを実現するマルチスケールのぼやけ事象融合アーキテクチャを提案する。 注意に基づく適応的拡張と相互相互作用予測モジュールは、低解法(LR)イベントに固有の歪みを緩和し、事前のぼやけた相補的な情報を通じて最終結果を強化する。 さらに,HRシャープブル画像とそれに対応するHR-LRイベントストリームを含む新しいデータセットを提案する。 合成および実世界のデータセットに関する大規模定性的および定量的実験により,提案手法の有効性とロバスト性を実証した。 コードとデータセットはhttps://bestrivenzc.github.io/cz-net/でリリースされる。

Even though the collaboration between traditional and neuromorphic event cameras brings prosperity to frame-event based vision applications, the performance is still confined by the resolution gap crossing two modalities in both spatial and temporal domains. This paper is devoted to bridging the gap by increasing the temporal resolution for images, i.e., motion deblurring, and the spatial resolution for events, i.e., event super-resolving, respectively. To this end, we introduce CrossZoom, a novel unified neural Network (CZ-Net) to jointly recover sharp latent sequences within the exposure period of a blurry input and the corresponding High-Resolution (HR) events. Specifically, we present a multi-scale blur-event fusion architecture that leverages the scale-variant properties and effectively fuses cross-modality information to achieve cross-enhancement. Attention-based adaptive enhancement and cross-interaction prediction modules are devised to alleviate the distortions inherent in Low-Resolution (LR) events and enhance the final results through the prior blur-event complementary information. Furthermore, we propose a new dataset containing HR sharp-blurry images and the corresponding HR-LR event streams to facilitate future research. Extensive qualitative and quantitative experiments on synthetic and real-world datasets demonstrate the effectiveness and robustness of the proposed method. Codes and datasets are released at https://bestrivenzc.github.io/CZ-Net/.
翻訳日:2023-10-02 15:35:49 公開日:2023-09-29
# デノジング拡散橋モデル

Denoising Diffusion Bridge Models ( http://arxiv.org/abs/2309.16948v1 )

ライセンス: Link先を確認
Linqi Zhou, Aaron Lou, Samar Khanna, Stefano Ermon(参考訳) 拡散モデルは、確率過程を用いてデータにノイズをマッピングする強力な生成モデルである。 しかし、画像編集などの多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来ている。 このように、拡散モデルは、生成プロセスにこの情報を組み込むために、ガイダンスや投影サンプリングのような厄介な方法に依存する必要がある。 本研究では,2つの相対分布をエンドポイントとして補間する拡散ブリッジ群に基づく,このパラダイムの自然な代替として,ddbms(denoising diffusion bridge models)を提案する。 本手法は,データから拡散橋のスコアを学習し,学習したスコアに基づいて(統計的)微分方程式を解いて,一方のエンドポイント分布から他方へマップする。 本手法は,スコアベース拡散モデルやOTフローマッチングなどの生成モデルのクラスを自然に統一することで,既存の設計とアーキテクチャの選択をより一般的な問題に適応させることができる。 経験的に、ピクセルと潜在空間の両方の画像データセットにddbmsを適用する。 標準画像変換問題において、DDBMはベースライン法よりも大幅に改善され、ソース分布をランダムノイズに設定することで画像生成の問題を減らすと、DDBMはより一般的なタスクのために構築されているにもかかわらず、最先端のFIDスコアに匹敵する結果が得られる。

Diffusion models are powerful generative models that map noise to data using stochastic processes. However, for many applications such as image editing, the model input comes from a distribution that is not random noise. As such, diffusion models must rely on cumbersome methods like guidance or projected sampling to incorporate this information in the generative process. In our work, we propose Denoising Diffusion Bridge Models (DDBMs), a natural alternative to this paradigm based on diffusion bridges, a family of processes that interpolate between two paired distributions given as endpoints. Our method learns the score of the diffusion bridge from data and maps from one endpoint distribution to the other by solving a (stochastic) differential equation based on the learned score. Our method naturally unifies several classes of generative models, such as score-based diffusion models and OT-Flow-Matching, allowing us to adapt existing design and architectural choices to our more general problem. Empirically, we apply DDBMs to challenging image datasets in both pixel and latent space. On standard image translation problems, DDBMs achieve significant improvement over baseline methods, and, when we reduce the problem to image generation by setting the source distribution to random noise, DDBMs achieve comparable FID scores to state-of-the-art methods despite being built for a more general task.
翻訳日:2023-10-02 15:35:23 公開日:2023-09-29
# MEMQSim: 高メモリ効率および変調量子状態ベクトルシミュレーション

MEMQSim: Highly Memory-Efficient and Modularized Quantum State-Vector Simulation ( http://arxiv.org/abs/2309.16979v1 )

ライセンス: Link先を確認
Boyuan Zhang, Bo Fang, Qiang Guan, Ang Li, Dingwen Tao(参考訳) この拡張要約では、データ圧縮を前提とした量子回路のメモリ効率の高い状態ベクトルシミュレーションを導入し、cpuとgpuの機能を活用した。 我々は、このシステムを設計する際の固有の課題を解明し、同時にカスタマイズされたソリューションを提案しました。 さらに,予備実装を整理し,他のGPU指向シミュレータとの統合の可能性について検討した。 今後の研究では、より包括的な結果の集合を提示し、アプローチの有効性と性能の主張を促進することを目指している。

In this extended abstract, we have introduced a highly memory-efficient state vector simulation of quantum circuits premised on data compression, harnessing the capabilities of both CPUs and GPUs. We have elucidated the inherent challenges in architecting this system, while concurrently proposing our tailored solutions. Moreover, we have delineated our preliminary implementation and deliberated upon the potential for integration with other GPU-oriented simulators. In forthcoming research, we aim to present a more comprehensive set of results, bolstering the assertion of the efficacy and performance of our approach.
翻訳日:2023-10-02 15:26:31 公開日:2023-09-29
# 深部強化学習に基づく制御の信頼性定量化

Reliability Quantification of Deep Reinforcement Learning-based Control ( http://arxiv.org/abs/2309.16977v1 )

ライセンス: Link先を確認
Hitoshi Yoshioka, Hirotada Hashimoto(参考訳) 深部強化学習(DRL)に基づく制御の信頼性定量化は、安全クリティカルシステムにおける人工知能(AI)の実用化において重要な課題である。 本研究ではDRL制御の信頼性を定量化する手法を提案する。 まず, 従来手法であるランダムノイズ蒸留法を信頼性評価に適用し, 解決すべき課題を明らかにした。 第二に、これらの問題を解決するために信頼性定量化の新しい手法が提案された。 信頼性は、参照と評価の2つのニューラルネットワークを使用して定量化される。 それらは同じ初期パラメータを持つ同じ構造を持つ。 2つのネットワークの出力はトレーニング前に同じでした。 トレーニング中、評価器ネットワークパラメータを更新し、トレーニングされたデータに対する基準と評価器ネットワークの違いを最大化する。 これにより、2つのネットワーク間の出力差に基づいて、状態に対するDRLベースの制御の信頼性を評価することができる。 簡単なタスクの例としてDQNに基づく制御に適用し,その有効性を実証した。 最後に, 学習モデルの状態に応じて切り換える問題に対して, 提案手法を適用した。 その結果,drl制御の性能は,信頼性に応じてモデルの切り替えにより向上した。

Reliability quantification of deep reinforcement learning (DRL)-based control is a significant challenge for the practical application of artificial intelligence (AI) in safety-critical systems. This study proposes a method for quantifying the reliability of DRL-based control. First, an existing method, random noise distillation, was applied to the reliability evaluation to clarify the issues to be solved. Second, a novel method for reliability quantification was proposed to solve these issues. The reliability is quantified using two neural networks: reference and evaluator. They have the same structure with the same initial parameters. The outputs of the two networks were the same before training. During training, the evaluator network parameters were updated to maximize the difference between the reference and evaluator networks for trained data. Thus, the reliability of the DRL-based control for a state can be evaluated based on the difference in output between the two networks. The proposed method was applied to DQN-based control as an example of a simple task, and its effectiveness was demonstrated. Finally, the proposed method was applied to the problem of switching trained models depending on the state. Con-sequently, the performance of the DRL-based control was improved by switching the trained models according to their reliability.
翻訳日:2023-10-02 15:26:23 公開日:2023-09-29
# habana gaudiプロセッサにおける大規模言語モデルのベンチマークと詳細な性能評価

Benchmarking and In-depth Performance Study of Large Language Models on Habana Gaudi Processors ( http://arxiv.org/abs/2309.16976v1 )

ライセンス: Link先を確認
Chengming Zhang, Baixi Sun, Xiaodong Yu, Zhen Xie, Weijian Zheng, Kamil Iskra, Pete Beckman, Dingwen Tao(参考訳) トランスフォーマーモデルは様々な機械学習タスクで顕著な成功を収めてきたが、高い計算複雑性とリソース要求に苦しめられている。 セルフアテンション機構の二次的な複雑さは、長いシーケンスと大きなデータセットを扱う際のこれらの課題をさらに悪化させる。 Habana GAUDIアーキテクチャのような専門的なAIハードウェアアクセラレータは、これらの問題に取り組むための有望なソリューションを提供する。 GAUDI は Matrix Multiplication Engine (MME) と完全にプログラム可能な Tensor Processing Cores (TPC) のクラスタを備えている。 本稿では, GAUDIプロセッサを用いたトランスフォーマーベースモデルの高速化の可能性について検討し, プロセスにおける重要な課題に対処する。 まず、MMEコンポーネントとTPCコンポーネントの総合的な性能比較を行い、その相対的な強度と弱点を明らかにした。 第2に,MMEとTPCの活用を最適化する戦略について検討し,計算効率を向上させるための実践的な洞察を提供する。 第3に,ガウディにおけるトランスフォーマーの性能,特に長いシーケンスの処理や性能ボトルネックの解明について評価する。 最後に,2つのトランスフォーマベースの大規模言語モデル(llm)の性能評価を行った。 この研究の貢献は、実践者や研究者の実践的な洞察にも及んでいる。 我々は、体系的なプロファイリング、分析、最適化探索を通じて、GAUDIのトランスフォーマーの能力を掘り下げる。 本研究は研究ギャップを埋め,GAUDIアーキテクチャ上でTransformerベースのモデルトレーニングを最適化するためのロードマップを提供する。

Transformer models have achieved remarkable success in various machine learning tasks but suffer from high computational complexity and resource requirements. The quadratic complexity of the self-attention mechanism further exacerbates these challenges when dealing with long sequences and large datasets. Specialized AI hardware accelerators, such as the Habana GAUDI architecture, offer a promising solution to tackle these issues. GAUDI features a Matrix Multiplication Engine (MME) and a cluster of fully programmable Tensor Processing Cores (TPC). This paper explores the untapped potential of using GAUDI processors to accelerate Transformer-based models, addressing key challenges in the process. Firstly, we provide a comprehensive performance comparison between the MME and TPC components, illuminating their relative strengths and weaknesses. Secondly, we explore strategies to optimize MME and TPC utilization, offering practical insights to enhance computational efficiency. Thirdly, we evaluate the performance of Transformers on GAUDI, particularly in handling long sequences and uncovering performance bottlenecks. Lastly, we evaluate the end-to-end performance of two Transformer-based large language models (LLM) on GAUDI. The contributions of this work encompass practical insights for practitioners and researchers alike. We delve into GAUDI's capabilities for Transformers through systematic profiling, analysis, and optimization exploration. Our study bridges a research gap and offers a roadmap for optimizing Transformer-based model training on the GAUDI architecture.
翻訳日:2023-10-02 15:26:09 公開日:2023-09-29
# 高ダイナミックレンジイメージングのための知覚トーンマッピングモデル

Perceptual Tone Mapping Model for High Dynamic Range Imaging ( http://arxiv.org/abs/2309.16975v1 )

ライセンス: Link先を確認
Imran Mehmood, Xinye Shi, M. Usman Khan and Ming Ronnier Luo(参考訳) トーンマッピングにおける重要な課題の1つは、高ダイナミックレンジ(HDR)画像を標準ダイナミックレンジ(SDR)ディスプレイにマッピングする際の知覚品質を維持することである。 従来のトーンマッピング演算子(TMO)は、周囲と表示条件を考慮せずにHDR画像の輝度を圧縮する。 現在の研究では、知覚的な色彩特性を取り入れることでこの問題に対処している。 本研究では,CIECAM16の知覚特性,すなわち明るさ,彩度,色調を利用するTMO(TMOz)を提案する。 TMOzは、より最適なカラフルネス再現を実現するために、サラウンドと表示条件の両方の影響を考慮に入れている。 知覚輝度は圧縮され、知覚色スケール、すなわち色度と色調はCIECAM16色適応方程式を用いてHDR画像から導出される。 輝度圧縮パラメータを自動化する心理物理学実験を行った。 このモデルは完全自動かつ適応的なアプローチを採用し、手動パラメータ選択の要求を回避している。 TMOzはコントラスト,カラフルさ,画像品質の面で評価された。 客観的および主観的評価により,提案モデルが最先端tmosよりも優れていた。

One of the key challenges in tone mapping is to preserve the perceptual quality of high dynamic range (HDR) images when mapping them to standard dynamic range (SDR) displays. Traditional tone mapping operators (TMOs) compress the luminance of HDR images without considering the surround and display conditions emanating into suboptimal results. Current research addresses this challenge by incorporating perceptual color appearance attributes. In this work, we propose a TMO (TMOz) that leverages CIECAM16 perceptual attributes, i.e., brightness, colorfulness, and hue. TMOz accounts for the effects of both the surround and the display conditions to achieve more optimal colorfulness reproduction. The perceptual brightness is compressed, and the perceptual color scales, i.e., colorfulness and hue are derived from HDR images by employing CIECAM16 color adaptation equations. A psychophysical experiment was conducted to automate the brightness compression parameter. The model employs fully automatic and adaptive approach, obviating the requirement for manual parameter selection. TMOz was evaluated in terms of contrast, colorfulness and overall image quality. The objective and subjective evaluation methods revealed that the proposed model outperformed the state-of-the-art TMOs.
翻訳日:2023-10-02 15:25:49 公開日:2023-09-29
# 不確かさと滑らかさによるオフライン・オンライン強化学習のロバスト化に向けて

Towards Robust Offline-to-Online Reinforcement Learning via Uncertainty and Smoothness ( http://arxiv.org/abs/2309.16973v1 )

ライセンス: Link先を確認
Xiaoyu Wen, Xudong Yu, Rui Yang, Chenjia Bai, Zhen Wang(参考訳) 強化学習(rl)における相互作用が少なく、最適に近い方針を得るには、オフラインデータセットを利用してサンプル効率を向上させるオフラインrlと、環境とのインタラクションによる情報的遷移を探索するオンラインrlの組み合わせが有望である。 Offline-to-Online (O2O) RLは、限られたオンラインインタラクション内でオフライントレーニングエージェントを改善するためのパラダイムを提供する。 しかし、オンラインエクスペリエンスとオフラインデータ間の大きな分散シフトのため、ほとんどのオフラインRLアルゴリズムはパフォーマンス低下に悩まされ、O2O適応の安定したポリシー改善を達成できなかった。 この問題に対処するため,不確実性と平滑性によるオフラインポリシの強化と,オンライン適応におけるパフォーマンス低下を軽減するために,Robost Offline-to-Online (RO2O)アルゴリズムを提案する。 具体的には、ro2oは不確実性ペナルティのためのq-ensembleと、ポリシーと価値の円滑さのための逆のサンプルを組み込んでおり、学習目標に特別な変更を加えることなく、オンライン適応における一貫した学習手順を維持することができる。 線形MDPの理論的解析は、不確かさと滑らかさが分布シフトに対するO2Oの厳密な最適性をもたらすことを示した。 実験結果から,ro2oはオフラインからオンラインへの安定した学習を容易にし,オンラインインタラクションの制限により大幅な改善を実現する。

To obtain a near-optimal policy with fewer interactions in Reinforcement Learning (RL), a promising approach involves the combination of offline RL, which enhances sample efficiency by leveraging offline datasets, and online RL, which explores informative transitions by interacting with the environment. Offline-to-Online (O2O) RL provides a paradigm for improving an offline trained agent within limited online interactions. However, due to the significant distribution shift between online experiences and offline data, most offline RL algorithms suffer from performance drops and fail to achieve stable policy improvement in O2O adaptation. To address this problem, we propose the Robust Offline-to-Online (RO2O) algorithm, designed to enhance offline policies through uncertainty and smoothness, and to mitigate the performance drop in online adaptation. Specifically, RO2O incorporates Q-ensemble for uncertainty penalty and adversarial samples for policy and value smoothness, which enable RO2O to maintain a consistent learning procedure in online adaptation without requiring special changes to the learning objective. Theoretical analyses in linear MDPs demonstrate that the uncertainty and smoothness lead to a tighter optimality bound in O2O against distribution shift. Experimental results illustrate the superiority of RO2O in facilitating stable offline-to-online learning and achieving significant improvement with limited online interactions.
翻訳日:2023-10-02 15:25:29 公開日:2023-09-29
# 差分駆動強化学習に基づく量子状態生成法

A Quantum States Preparation Method Based on Difference-Driven Reinforcement Learning ( http://arxiv.org/abs/2309.16972v1 )

ライセンス: Link先を確認
Wenjie Liu, Jing Xu and Bosi Wang(参考訳) 2量子ビット系の大きな状態空間と、既存の量子状態生成法におけるラダー報酬関数の採用により、収束速度は遅くなり、限られた条件下で高い忠実度で所望の量子状態を作成することが困難となる。 上記の問題を解決するため、2量子ビット系の量子状態生成のための差分駆動強化学習(RL)アルゴリズムを提案し、報酬関数と行動選択戦略を改善した。 第一に、量子ゲートのタイプと量子状態進化の時間に制限のある2量子ビット系の量子状態を準備する問題のためにモデルが構築される。 合成プロセスにおいて、アルゴリズムが期待される最大累積報酬を迅速に得られるように、重み付き微分力学報酬関数を設計する。 そして、探索と利用のバランスをある程度達成し、最終量子状態の忠実性を向上させるために適応型e-greedyアクション選択戦略を採用する。 シミュレーションの結果,提案アルゴリズムは限られた条件下で高忠実度で量子状態を作成することができることがわかった。 他のアルゴリズムと比較して、収束速度と最終的な量子状態の忠実度は異なる。

Due to the large state space of the two-qubit system, and the adoption of ladder reward function in the existing quantum state preparation methods, the convergence speed is slow and it is difficult to prepare the desired target quantum state with high fidelity under limited conditions. To solve the above problems, a difference-driven reinforcement learning (RL) algorithm for quantum state preparation of two-qubit system is proposed by improving the reward function and action selection strategy. Firstly, a model is constructed for the problem of preparing quantum states of a two-qubit system, with restrictions on the type of quantum gates and the time for quantum state evolution. In the preparation process, a weighted differential dynamic reward function is designed to assist the algorithm quickly obtain the maximum expected cumulative reward. Then, an adaptive e-greedy action selection strategy is adopted to achieve a balance between exploration and utilization to a certain extent, thereby improving the fidelity of the final quantum state. The simulation results show that the proposed algorithm can prepare quantum state with high fidelity under limited conditions. Compared with other algorithms, it has different degrees of improvement in convergence speed and fidelity of the final quantum state.
翻訳日:2023-10-02 15:25:02 公開日:2023-09-29
# フーリエニューラル演算子の多解能動的学習

Multi-Resolution Active Learning of Fourier Neural Operators ( http://arxiv.org/abs/2309.16971v1 )

ライセンス: Link先を確認
Shibo Li, Xin Yu, Wei Xing, Mike Kirby, Akil Narayan, Shandian Zhe(参考訳) Fourier Neural Operator (FNO) は、多くのタスクで最先端のパフォーマンスを達成するだけでなく、トレーニングや予測において非常に効率的である、人気のある演算子学習フレームワークである。 しかし、fnoのトレーニングデータの収集は、しばしば高価な物理シミュレーションを必要とするため、実際にはコストのかかるボトルネックである。 この問題を解決するために,FNO(MRA-FNO)の多解能動学習(MRA-FNO)を提案する。 具体的には,確率的マルチレゾリューションfnoを提案し,アンサンブルモンテカルロを用いて効果的な後進推定アルゴリズムを開発した。 アクティブラーニングを行うには, 活用コスト比を最大化し, それぞれのステップで新しい例と解答を得る。 モーメントマッチングと行列決定式補題を用いて,効率的な計算を可能にする。 さらに,早期に高分解能クエリを過大にペナルティ化するのを避けるためのコストアニーリングフレームワークを開発した。 過度なペナルティ化は、解像度の差が重要で、低解像度のクエリや劣ったパフォーマンスでしばしば立ち往生するアクティブラーニングを実現する場合、深刻である。 本手法はこの問題を克服し,汎用多要素能動学習および最適化問題に適用する。 ベンチマーク演算子学習タスクにおいて,本手法の利点を示した。

Fourier Neural Operator (FNO) is a popular operator learning framework, which not only achieves the state-of-the-art performance in many tasks, but also is highly efficient in training and prediction. However, collecting training data for the FNO is a costly bottleneck in practice, because it often demands expensive physical simulations. To overcome this problem, we propose Multi-Resolution Active learning of FNO (MRA-FNO), which can dynamically select the input functions and resolutions to lower the data cost as much as possible while optimizing the learning efficiency. Specifically, we propose a probabilistic multi-resolution FNO and use ensemble Monte-Carlo to develop an effective posterior inference algorithm. To conduct active learning, we maximize a utility-cost ratio as the acquisition function to acquire new examples and resolutions at each step. We use moment matching and the matrix determinant lemma to enable tractable, efficient utility computation. Furthermore, we develop a cost annealing framework to avoid over-penalizing high-resolution queries at the early stage. The over-penalization is severe when the cost difference is significant between the resolutions, which renders active learning often stuck at low-resolution queries and inferior performance. Our method overcomes this problem and applies to general multi-fidelity active learning and optimization problems. We have shown the advantage of our method in several benchmark operator learning tasks.
翻訳日:2023-10-02 15:24:42 公開日:2023-09-29
# 一般化付加効用ネットワークを用いた離散コリンスモデル

Discrete-Choice Model with Generalized Additive Utility Network ( http://arxiv.org/abs/2309.16970v1 )

ライセンス: Link先を確認
Tomoki Nishi and Yusuke Hara(参考訳) 離散選択モデルは意思決定行動を分析するための強力なフレームワークであり、政策立案者やビジネスに貴重な洞察を提供する。 線形ユーティリティ関数を持つマルチノードロジットモデル (MNL) は, 使いやすく, 解釈しやすいため, 実際に用いられている。 近年、ニューラルネットワークを持つMNL(例えばASU-DNN)が開発され、従来のMNLよりも行動選択の精度が高くなった。 しかし、これらのモデルは複雑な構造のために解釈可能性に欠ける。 GAUNet(Generalized Additive utility network)と呼ばれる一般付加型モデルに基づくニューラルネットワークアーキテクチャを用いて,離散選択モデルのためのユーティリティ関数を開発した。 本研究では,東京で収集した旅行調査データを用いて,GAUNetを用いたMNLの性能評価を行った。 我々のモデルは精度はASU-DNNに匹敵し,従来のモデルと比較して解釈性が向上した。

Discrete-choice models are a powerful framework for analyzing decision-making behavior to provide valuable insights for policymakers and businesses. Multinomial logit models (MNLs) with linear utility functions have been used in practice because they are ease to use and interpretable. Recently, MNLs with neural networks (e.g., ASU-DNN) have been developed, and they have achieved higher prediction accuracy in behavior choice than classical MNLs. However, these models lack interpretability owing to complex structures. We developed utility functions with a novel neural-network architecture based on generalized additive models, named generalized additive utility network ( GAUNet), for discrete-choice models. We evaluated the performance of the MNL with GAUNet using the trip survey data collected in Tokyo. Our models were comparable to ASU-DNN in accuracy and exhibited improved interpretability compared to previous models.
翻訳日:2023-10-02 15:24:19 公開日:2023-09-29
# 3次元データのトポロジ解析のための合成データ生成と深層学習

Synthetic Data Generation and Deep Learning for the Topological Analysis of 3D Data ( http://arxiv.org/abs/2309.16968v1 )

ライセンス: Link先を確認
Dylan Peek, Matt P. Skerritt, Stephan Chalup(参考訳) 本研究は,3次元の細い非秩序の点雲シーンで表される多様体のトポロジーを,ディープラーニングを用いて推定する。 新しいラベル付きデータセットが合成され、ニューラルネットワークを訓練し、これらの多様体の属を推定する能力を評価した。 このデータは、視覚トポロジカルな特徴の学習を促すためにランダムな同相変形を用いた。 ディープラーニングモデルはこれらの特徴を抽出し、永続的ホモロジーに基づく既存のトポロジ的データ解析ツールに対するいくつかの利点を議論する。 意味的セグメンテーションは、トポロジカルラベルと共に追加の幾何学的情報を提供するために用いられた。 共通点雲多層パーセプトロンと変圧器ネットワークはどちらもこれらの手法の生存可能性を比較するために使われた。 この実験結果は、洗練された合成データ生成の助けを借りて、ニューラルネットワークがセグメンテーションに基づくトポロジ的データ解析を行うことができるという仮説を支持する。 本研究はシミュレーションデータに焦点をあてるが, 精度は将来, 実データを用いた応用の可能性を示している。

This research uses deep learning to estimate the topology of manifolds represented by sparse, unordered point cloud scenes in 3D. A new labelled dataset was synthesised to train neural networks and evaluate their ability to estimate the genus of these manifolds. This data used random homeomorphic deformations to provoke the learning of visual topological features. We demonstrate that deep learning models could extract these features and discuss some advantages over existing topological data analysis tools that are based on persistent homology. Semantic segmentation was used to provide additional geometric information in conjunction with topological labels. Common point cloud multi-layer perceptron and transformer networks were both used to compare the viability of these methods. The experimental results of this pilot study support the hypothesis that, with the aid of sophisticated synthetic data generation, neural networks can perform segmentation-based topological data analysis. While our study focused on simulated data, the accuracy achieved suggests a potential for future applications using real data.
翻訳日:2023-10-02 15:24:04 公開日:2023-09-29
# nnSAM: nnUNetのパフォーマンスを改善するプラグインとプレイのセグメンテーションモデル

nnSAM: Plug-and-play Segment Anything Model Improves nnUNet Performance ( http://arxiv.org/abs/2309.16967v1 )

ライセンス: Link先を確認
Yunxiang Li, Bowen Jing, Xiang Feng, Zihan Li, Yongbo He, Jing Wang, You Zhang(参考訳) 最近のコンピュータビジョンの基礎モデル、特にsegment anything model(sam)の開発により、スケーラブルでドメインに依存しない画像セグメンテーションが汎用セグメンテーションツールとして機能する。 並行して、医療画像セグメンテーションの分野は、ドメイン固有のデータセットに基づいてトレーニングされ、特定のセグメンテーション課題に合わせて自動的にネットワークを設定するnnUNetのような特殊なニューラルネットワークから大きな恩恵を受けている。 基礎モデルとドメイン固有モデルの利点を組み合わせるために, SAMモデルをnnUNetモデルと相乗的に統合し, より正確で堅牢な医用画像セグメンテーションを実現するnnSAMを提案する。 nnSAMモデルは、SAMの強力で堅牢な特徴抽出機能を活用すると同時に、nnUNetの自動設定機能を活用して、データセットに適した学習を促進する。 トレーニングサンプルの大きさの異なるnnSAMモデルを総合的に評価した結果,高品質で注釈付きデータが少ない医療画像のセグメンテーションに高い関連性を持つ少数ショット学習が可能であることが示唆された。 両方の前任者の強みを融合させることで、nnSAMは医療画像セグメンテーションの新しいベンチマークとして自らを位置づけ、幅広い応用性と特殊な効率性を組み合わせたツールを提供する。 コードはhttps://github.com/Kent0n-Li/Medical-Image-Segmentationで公開されている。

The recent developments of foundation models in computer vision, especially the Segment Anything Model (SAM), allow scalable and domain-agnostic image segmentation to serve as a general-purpose segmentation tool. In parallel, the field of medical image segmentation has benefited significantly from specialized neural networks like the nnUNet, which is trained on domain-specific datasets and can automatically configure the network to tailor to specific segmentation challenges. To combine the advantages of foundation models and domain-specific models, we present nnSAM, which synergistically integrates the SAM model with the nnUNet model to achieve more accurate and robust medical image segmentation. The nnSAM model leverages the powerful and robust feature extraction capabilities of SAM, while harnessing the automatic configuration capabilities of nnUNet to promote dataset-tailored learning. Our comprehensive evaluation of nnSAM model on different sizes of training samples shows that it allows few-shot learning, which is highly relevant for medical image segmentation where high-quality, annotated data can be scarce and costly to obtain. By melding the strengths of both its predecessors, nnSAM positions itself as a potential new benchmark in medical image segmentation, offering a tool that combines broad applicability with specialized efficiency. The code is available at https://github.com/Kent0n-Li/Medical-Image-Segmentation.
翻訳日:2023-10-02 15:23:50 公開日:2023-09-29
# 対話型自動変換による特徴認識の促進

Feature Cognition Enhancement via Interaction-Aware Automated Transformation ( http://arxiv.org/abs/2309.17011v1 )

ライセンス: Link先を確認
Ehtesamul Azim, Dongjie Wang, Kunpeng Liu, Wei Zhang, Yanjie Fu(参考訳) 効果的な表現空間を作ることは、次元の呪いを緩和し、モデルの一般化を促進し、データの疎さに対処し、古典モデルをより効果的に活用するために重要である。 自動特徴工学(AutoFE)の最近の進歩は、表現学習に関連する様々な課題、集中労働や経験的経験への重度依存、説明可能な明示性の欠如、下流タスクに埋め込まれた柔軟な特徴空間再構築といった課題に対処する上で大きな進歩を遂げている。 しかし、これらのアプローチは以下のように制限されている。 1) 専門家レベルの認知過程の無視から生じる、潜在的に不可知で非論理的な特徴空間の生成 2) 系統探索の欠如により, モデル収束が遅くなり, 最適特徴空間の同定が可能となった。 これらの問題に対処するために,対話対応型強化生成の視点を導入する。 特徴空間の再構築を,意味のある特徴を作成し,選択によって特徴集合のサイズを制御するネスト化プロセスとして再定義する。 特徴選択や操作選択の自動化や特徴横断の自動化を目的として,マルコフ決定過程をカスケードした階層的強化学習構造を開発した。 統計的尺度を組み込むことにより,選択した特徴間の相互作用強度に基づいてエージェントを報酬し,人間の意思決定をエミュレートする特徴空間をインテリジェントかつ効率的に探索する。 提案手法を検証するために広範な実験を行った。

Creating an effective representation space is crucial for mitigating the curse of dimensionality, enhancing model generalization, addressing data sparsity, and leveraging classical models more effectively. Recent advancements in automated feature engineering (AutoFE) have made significant progress in addressing various challenges associated with representation learning, issues such as heavy reliance on intensive labor and empirical experiences, lack of explainable explicitness, and inflexible feature space reconstruction embedded into downstream tasks. However, these approaches are constrained by: 1) generation of potentially unintelligible and illogical reconstructed feature spaces, stemming from the neglect of expert-level cognitive processes; 2) lack of systematic exploration, which subsequently results in slower model convergence for identification of optimal feature space. To address these, we introduce an interaction-aware reinforced generation perspective. We redefine feature space reconstruction as a nested process of creating meaningful features and controlling feature set size through selection. We develop a hierarchical reinforcement learning structure with cascading Markov Decision Processes to automate feature and operation selection, as well as feature crossing. By incorporating statistical measures, we reward agents based on the interaction strength between selected features, resulting in intelligent and efficient exploration of the feature space that emulates human decision-making. Extensive experiments are conducted to validate our proposed approach.
翻訳日:2023-10-02 15:17:52 公開日:2023-09-29
# 連続時間領域における時間事象集合の予測のための深部表現学習

Deep Representation Learning for Prediction of Temporal Event Sets in the Continuous Time Domain ( http://arxiv.org/abs/2309.17009v1 )

ライセンス: Link先を確認
Parag Dutta, Kawin Mayilvaghanan, Pratyaksha Sinha, Ambedkar Dukkipati(参考訳) 時間的ポイントプロセス(tpp)は事象の予測や予測において重要な役割を果たす。 これらの問題は広く研究されているが、同時に発生する複数の事象を予測することは困難である。 例えば、多くの場合、患者は一度に複数の状態の病院に入院する。 同様に、人々は複数の株を買い、同時に複数のニュースが生まれます。 さらに、これらのイベントは離散時間間隔で発生せず、連続時間領域におけるイベントセットの予測は未解決の問題である。 この問題を解決するために既存のTPPモデルを拡張するためのナイーブなアプローチは、指数関数的に多くのイベントを扱うか、イベント間のセット依存を無視します。 本研究では,この問題を解決するため,TPPに基づくスケーラブルで効率的な手法を提案する。 提案手法では,文脈的イベント埋め込み,時間的情報,ドメイン機能を統合し,時間的イベント集合をモデル化する。 提案手法の有効性を,複数のデータセットに対する広範な実験により実証し,予測指標や計算効率の観点から既存手法より優れていることを示す。 我々の知る限りでは、TPPを用いて連続時間領域におけるイベントセット強度を予測するという問題を解決する最初の研究である。

Temporal Point Processes (TPP) play an important role in predicting or forecasting events. Although these problems have been studied extensively, predicting multiple simultaneously occurring events can be challenging. For instance, more often than not, a patient gets admitted to a hospital with multiple conditions at a time. Similarly people buy more than one stock and multiple news breaks out at the same time. Moreover, these events do not occur at discrete time intervals, and forecasting event sets in the continuous time domain remains an open problem. Naive approaches for extending the existing TPP models for solving this problem lead to dealing with an exponentially large number of events or ignoring set dependencies among events. In this work, we propose a scalable and efficient approach based on TPPs to solve this problem. Our proposed approach incorporates contextual event embeddings, temporal information, and domain features to model the temporal event sets. We demonstrate the effectiveness of our approach through extensive experiments on multiple datasets, showing that our model outperforms existing methods in terms of prediction metrics and computational efficiency. To the best of our knowledge, this is the first work that solves the problem of predicting event set intensities in the continuous time domain by using TPPs.
翻訳日:2023-10-02 15:17:29 公開日:2023-09-29
# 医療基盤モデルは、標的とする誤情報攻撃の影響を受けやすい

Medical Foundation Models are Susceptible to Targeted Misinformation Attacks ( http://arxiv.org/abs/2309.17007v1 )

ライセンス: Link先を確認
Tianyu Han, Sven Nebelung, Firas Khader, Tianci Wang, Gustav Mueller-Franzes, Christiane Kuhl, Sebastian F\"orsch, Jens Kleesiek, Christoph Haarburger, Keno K. Bressem, Jakob Nikolas Kather, Daniel Truhn(参考訳) 大規模言語モデル(LLM)は幅広い医療知識を持ち、多くの領域にわたる医療情報を推論し、近い将来、多様な医療応用の可能性を秘めている。 本研究では医学におけるLSMの脆弱性について述べる。 モデル重量のわずか1.1%を標的に操作することで、故意に誤った生体医学的事実を注入することができる。 誤った情報はモデルの出力に伝達されるが、他の生物医学的なタスクでの性能はそのままである。 我々は1038件の生物医学的事実を検証した。 この特異な感受性は、医療環境におけるLSMの適用に対する深刻なセキュリティと信頼性の懸念を引き起こす。 堅牢な保護措置、徹底した検証機構、これらのモデルへのアクセスの厳密な管理の必要性を強調し、医療における信頼性と安全性を確保する。

Large language models (LLMs) have broad medical knowledge and can reason about medical information across many domains, holding promising potential for diverse medical applications in the near future. In this study, we demonstrate a concerning vulnerability of LLMs in medicine. Through targeted manipulation of just 1.1% of the model's weights, we can deliberately inject an incorrect biomedical fact. The erroneous information is then propagated in the model's output, whilst its performance on other biomedical tasks remains intact. We validate our findings in a set of 1,038 incorrect biomedical facts. This peculiar susceptibility raises serious security and trustworthiness concerns for the application of LLMs in healthcare settings. It accentuates the need for robust protective measures, thorough verification mechanisms, and stringent management of access to these models, ensuring their reliable and safe use in medical practice.
翻訳日:2023-10-02 15:17:10 公開日:2023-09-29
# 統計物理学、ベイズ推論と神経情報処理

Statistical physics, Bayesian inference and neural information processing ( http://arxiv.org/abs/2309.17006v1 )

ライセンス: Link先を確認
Erin Grant and Sandra Nestler and Berfin \c{S}im\c{s}ek and Sara Solla(参考訳) Les HouchesサマースクールのSara A. Solla教授が「機械学習の統計物理学」で講義を行った。 このノートは統計物理学のレンズによる神経情報処理について論じている。 内容には、ベイズ推論とその学習と一般化のギブス記述との関連、時間的バックプロパゲーションの制御代替としての一般化線形モデル、次元減少のための線形および非線形手法が含まれる。

Lecture notes from the course given by Professor Sara A. Solla at the Les Houches summer school on "Statistical physics of Machine Learning". The notes discuss neural information processing through the lens of Statistical Physics. Contents include Bayesian inference and its connection to a Gibbs description of learning and generalization, Generalized Linear Models as a controlled alternative to backpropagation through time, and linear and non-linear techniques for dimensionality reduction.
翻訳日:2023-10-02 15:16:57 公開日:2023-09-29
# 下流課題の事前学習におけるラベルノイズの理解と緩和

Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks ( http://arxiv.org/abs/2309.17002v1 )

ライセンス: Link先を確認
Hao Chen, Jindong Wang, Ankit Shah, Ran Tao, Hongxin Wei, Xing Xie, Masashi Sugiyama, Bhiksha Raj(参考訳) 大規模データセットの事前トレーニングと下流タスクの微調整は、ディープラーニングの標準的なプラクティスとなっている。 しかし、事前学習データは、しばしばモデルの一般化に悪影響を及ぼす可能性のあるラベルノイズを含む。 本稿では,データセットの事前学習におけるノイズの性質を理解し,そのダウンストリームタスクへの影響を緩和することを目的とする。 より具体的には、合成ノイズの多いimagenet-1kとyfcc15mデータセットにおける教師付き事前トレーニングモデルの広範な実験を通じて、事前トレーニング中のわずかなノイズがドメイン内(id)転送性能に寄与するが、トレーニングとテストのデータは同じ分布を共有しているため、トレーニングとテストデータ分布が異なる、ドメイン外(ood)パフォーマンスは常に低下する。 事前学習中のノイズが特徴空間の形状を異にする理由を実験的に検証する。 そこで我々は,ノイズの悪影響を軽減し,IDタスクとOODタスクの一般化を改善するために,特徴空間に適応する軽量なブラックボックスチューニング手法(NMTune)を提案する。 提案手法の評価のために,騒音データに事前学習したポピュラービジョンと言語モデルに関する実践実験を行う。 本研究は,ノイズモデル学習(Noisy Model Learning)とよばれる,興味深く,新しい研究方向の重要性を示唆するものである。

Pre-training on large-scale datasets and then fine-tuning on downstream tasks have become a standard practice in deep learning. However, pre-training data often contain label noise that may adversely affect the generalization of the model. This paper aims to understand the nature of noise in pre-training datasets and to mitigate its impact on downstream tasks. More specifically, through extensive experiments of supervised pre-training models on synthetic noisy ImageNet-1K and YFCC15M datasets, we demonstrate that while slight noise in pre-training can benefit in-domain (ID) transfer performance, where the training and testing data share the same distribution, it always deteriorates out-of-domain (OOD) performance, where training and testing data distribution are different. We empirically verify that the reason behind is noise in pre-training shapes the feature space differently. We then propose a lightweight black-box tuning method (NMTune) to affine the feature space to mitigate the malignant effect of noise and improve generalization on both ID and OOD tasks, considering one may not be able to fully fine-tune or even access the pre-trained models. We conduct practical experiments on popular vision and language models that are pre-trained on noisy data for evaluation of our approach. Our analysis and results show the importance of this interesting and novel research direction, which we term Noisy Model Learning.
翻訳日:2023-10-02 15:16:50 公開日:2023-09-29
# 耐障害分類アプローチの綿密な考察

A Closer Look at Bearing Fault Classification Approaches ( http://arxiv.org/abs/2309.17001v1 )

ライセンス: Link先を確認
Harika Abburi, Tanya Chaudhary, Haider Ilyas, Lakshmi Manne, Deepak Mittal, Don Williams, Derek Snaidauf, Edward Bowen, Balaji Veeramani(参考訳) 転がり軸受の故障診断は、様々な産業における回転機械の存在や、効率的な運転への需要の高まりにより近年注目を集めている。 ベアリング障害の迅速な検出と正確な予測は、予期せぬマシンダウンタイムの可能性を低減し、メンテナンススケジュールを強化し、生産性の低下を回避できる。 最近の技術進歩により、さまざまなセンサーを使用して、これらの資産の健康状態の監視や、ディープラーニングアーキテクチャを含む現代の機械学習(ml)アプローチによる障害の予測が可能になった。 振動データは、回転速度、軸受への負荷、軸受故障の種類、データ取得頻度といった様々な操作条件下で、過負荷軸受の加速走行から故障への応答、または軸受に既知の故障を導入することで収集されている。 しかしながら、振動データを用いた軸受故障分類モデルの開発では、モデル評価に使用されるメトリクス、モデル評価に使用されるデータパーティション、ラン・トゥ・フェール実験で障害ラベルを生成する方法のコンセンサスが不足している。 これらの選択の影響を理解することは、モデルを確実に開発し、実践的な設定でデプロイすることが重要である。 本研究では,これらの選択が一般に利用可能な振動データセットを用いたモデルの性能に与える影響を実証し,実世界のシナリオに対するモデル開発の考察を提案する。 実験結果から、トレーニングと評価の分割によって与えられた軸受から振動データを割り当てることにより、過最適化性能の推定が得られ、PCAベースのアプローチは、実世界の故障データとバランスの取れていないモデルを評価する上で、より洞察力のある結果が得られた。

Rolling bearing fault diagnosis has garnered increased attention in recent years owing to its presence in rotating machinery across various industries, and an ever increasing demand for efficient operations. Prompt detection and accurate prediction of bearing failures can help reduce the likelihood of unexpected machine downtime and enhance maintenance schedules, averting lost productivity. Recent technological advances have enabled monitoring the health of these assets at scale using a variety of sensors, and predicting the failures using modern Machine Learning (ML) approaches including deep learning architectures. Vibration data has been collected using accelerated run-to-failure of overloaded bearings, or by introducing known failure in bearings, under a variety of operating conditions such as rotating speed, load on the bearing, type of bearing fault, and data acquisition frequency. However, in the development of bearing failure classification models using vibration data there is a lack of consensus in the metrics used to evaluate the models, data partitions used to evaluate models, and methods used to generate failure labels in run-to-failure experiments. An understanding of the impact of these choices is important to reliably develop models, and deploy them in practical settings. In this work, we demonstrate the significance of these choices on the performance of the models using publicly-available vibration datasets, and suggest model development considerations for real world scenarios. Our experimental findings demonstrate that assigning vibration data from a given bearing across training and evaluation splits leads to over-optimistic performance estimates, PCA-based approach is able to robustly generate labels for failure classification in run-to-failure experiments, and $F$ scores are more insightful to evaluate the models with unbalanced real-world failure data.
翻訳日:2023-10-02 15:16:26 公開日:2023-09-29
# segment anything modelは、ローカル機能学習のよい教師である

Segment Anything Model is a Good Teacher for Local Feature Learning ( http://arxiv.org/abs/2309.16992v1 )

ライセンス: Link先を確認
Jingqian Wu, Rongtao Xu, Zach Wood-Doughty, Changwei Wang(参考訳) 局所的な特徴の検出と記述は多くのコンピュータビジョンタスクにおいて重要な役割を果たす。 データ駆動型局所特徴学習手法は、大規模取得が困難である訓練においてピクセルレベルの対応に頼る必要があるため、さらなるパフォーマンス向上を妨げる。 本稿では, SAMFeatを提案する。SAM(segment any model)は, 1100万の画像に基づいて訓練された基本モデルであり, 局所的な特徴学習を指導し, 限られたデータセット上でのより高い性能を刺激する教師である。 まず,SAMエンコーダが学習したカテゴリに依存しないセマンティックな意味情報を局所的な特徴学習ネットワークに蒸留し,意味的識別を用いて局所的な特徴記述を改善するための,Pixel Semantic Relational Distillation (PSRD) の補助タスクを構築する。 次に, SAMから派生したセマンティックグルーピングを弱教師付き信号として利用し, 局所記述子の距離空間を最適化する, Weakly Supervised Contrastive Learning Based on Semantic Grouping (WSC) という手法を開発した。 第3に,ネットワークにSAMにより誘導されるエッジ領域に注意を向けるよう促すことにより,ローカル特徴の検出と記述の精度をさらに向上するエッジ注意誘導(EAG)を設計する。 HPatchのイメージマッチングやAachen Day-Nightの長期的な視覚的ローカライゼーションなど、さまざまなタスクにおけるSAMFeatのパフォーマンスは、以前のローカル機能よりも優れていることを示している。 リリースコードはhttps://github.com/vignywang/samfeatで入手できる。

Local feature detection and description play an important role in many computer vision tasks, which are designed to detect and describe keypoints in "any scene" and "any downstream task". Data-driven local feature learning methods need to rely on pixel-level correspondence for training, which is challenging to acquire at scale, thus hindering further improvements in performance. In this paper, we propose SAMFeat to introduce SAM (segment anything model), a fundamental model trained on 11 million images, as a teacher to guide local feature learning and thus inspire higher performance on limited datasets. To do so, first, we construct an auxiliary task of Pixel Semantic Relational Distillation (PSRD), which distillates feature relations with category-agnostic semantic information learned by the SAM encoder into a local feature learning network, to improve local feature description using semantic discrimination. Second, we develop a technique called Weakly Supervised Contrastive Learning Based on Semantic Grouping (WSC), which utilizes semantic groupings derived from SAM as weakly supervised signals, to optimize the metric space of local descriptors. Third, we design an Edge Attention Guidance (EAG) to further improve the accuracy of local feature detection and description by prompting the network to pay more attention to the edge region guided by SAM. SAMFeat's performance on various tasks such as image matching on HPatches, and long-term visual localization on Aachen Day-Night showcases its superiority over previous local features. The release code is available at https://github.com/vignywang/SAMFeat.
翻訳日:2023-10-02 15:15:55 公開日:2023-09-29
# SpikeMOT: スパースモーション機能を備えたイベントベースのマルチオブジェクトトラッキング

SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features ( http://arxiv.org/abs/2309.16987v1 )

ライセンス: Link先を確認
Song Wang, Zhu Wang, Can Li, Xiaojuan Qi, Hayden Kwok-Hay So(参考訳) 従来のRGBカメラと比較して、イベントカメラの時間分解能が優れているため、フレーム間のリッチな情報をキャプチャでき、オブジェクト追跡の候補となる。 しかし実際には、理論上の利点にもかかわらず、イベントベースのマルチオブジェクトトラッキング(mot)の開発は、特に複雑な背景やカメラの動きによるイベントが本当のターゲットの動きを分かりにくくする現実の環境では、まだ初期段階にある。 本稿では、これらの課題に対処するために、spikemotと呼ばれるイベントベースのマルチオブジェクトトラッカが提示される。 spikemotはスパイクニューラルネットワークを利用して、オブジェクトに関連するイベントストリームからスパース時空的特徴を抽出する。 得られたスパイクトレイン表現は、オブジェクトの動きを高周波で追跡するために使用され、同時にオブジェクト検出器は、これらのオブジェクトの空間情報を同等のフレームレートで更新する。 SpikeMOTの有効性を評価するため,大規模なイベントベースMOTベンチマークであるDSEC-MOTを導入する。 DSEC-MOTとFE240hzという別のイベントベースのデータセットを使用した大規模な実験は、現実のシナリオに挑戦する中で高いトラッキング精度を達成するSpikeMOTの能力を実証し、イベントベースのマルチオブジェクトトラッキングにおける最先端の進歩を示す。

In comparison to conventional RGB cameras, the superior temporal resolution of event cameras allows them to capture rich information between frames, making them prime candidates for object tracking. Yet in practice, despite their theoretical advantages, the body of work on event-based multi-object tracking (MOT) remains in its infancy, especially in real-world settings where events from complex background and camera motion can easily obscure the true target motion. In this work, an event-based multi-object tracker, called SpikeMOT, is presented to address these challenges. SpikeMOT leverages spiking neural networks to extract sparse spatiotemporal features from event streams associated with objects. The resulting spike train representations are used to track the object movement at high frequency, while a simultaneous object detector provides updated spatial information of these objects at an equivalent frame rate. To evaluate the effectiveness of SpikeMOT, we introduce DSEC-MOT, the first large-scale event-based MOT benchmark incorporating fine-grained annotations for objects experiencing severe occlusions, frequent trajectory intersections, and long-term re-identification in real-world contexts. Extensive experiments employing DSEC-MOT and another event-based dataset, named FE240hz, demonstrate SpikeMOT's capability to achieve high tracking accuracy amidst challenging real-world scenarios, advancing the state-of-the-art in event-based multi-object tracking.
翻訳日:2023-10-02 15:15:24 公開日:2023-09-29
# 強化学習のための豊かで効率的な政策クラスとしての一貫性モデル

Consistency Models as a Rich and Efficient Policy Class for Reinforcement Learning ( http://arxiv.org/abs/2309.16984v1 )

ライセンス: Link先を確認
Zihan Ding, Chi Jin(参考訳) 拡散モデルのようなスコアベース生成モデルは、画像生成から強化学習(RL)までのマルチモーダルデータのモデリングに有効であることが証明された。 しかし、拡散モデルの推論過程は遅くなり、反復的なサンプリングでRLでの使用が妨げられる。 本稿では, オフライン, オフライン-オンライン, オンラインの3つの典型的なRL設定に対して, アクター批判型アルゴリズムを用いて, 一貫性モデルを効率的かつ表現力のあるポリシー表現として適用することを提案する。 オフラインRLでは,マルチモーダルデータからのポリシーとして生成モデルの表現性を示す。 オフライン-オンラインrlでは、一貫性ポリシーは拡散ポリシーよりも計算効率が高く、同等の性能を持つ。 オンラインrlでは、一貫性ポリシーは拡散ポリシーよりも大幅なスピードアップとさらに高い平均パフォーマンスを示している。

Score-based generative models like the diffusion model have been testified to be effective in modeling multi-modal data from image generation to reinforcement learning (RL). However, the inference process of diffusion model can be slow, which hinders its usage in RL with iterative sampling. We propose to apply the consistency model as an efficient yet expressive policy representation, namely consistency policy, with an actor-critic style algorithm for three typical RL settings: offline, offline-to-online and online. For offline RL, we demonstrate the expressiveness of generative models as policies from multi-modal data. For offline-to-online RL, the consistency policy is shown to be more computational efficient than diffusion policy, with a comparable performance. For online RL, the consistency policy demonstrates significant speedup and even higher average performances than the diffusion policy.
翻訳日:2023-10-02 15:14:55 公開日:2023-09-29
# 散逸環Rydberg環におけるチューニング励起輸送

Tuning excitation transport in a dissipative Rydberg ring ( http://arxiv.org/abs/2309.16983v1 )

ライセンス: Link先を確認
Yiwen Han and Wei Yi(参考訳) 制御された散逸と相互作用誘起合成フラックスの相互作用下で、リドバーグ原子の励起輸送の柔軟な波長性を示す。 最小の4サイト設定 -- 追加の出力部位を持つ三角形の構成 -- を考えると、構造を通して三角形の頂点に注入された単一の励起の輸送を研究する。 リドベルク原子間の長距離双極子-双極子相互作用は励起のホッピング振幅において幾何依存のピエルス相をもたらすが、さらに三角形の頂点にオンサイト散逸を導入する。 その結果、輸送のキラリティーと目的地の両方をフラックスと散逸を通じて操作することができる。 特に、このrydberg-ring構造が、注入された励起を出力サイトへ輸送するスイッチとして機能するパラメータレジームを示す。 基礎となるメカニズムは、励起のキラル軌道と時間依存散逸の研究によって解析される。

We demonstrate the flexible tunability of excitation transport in Rydberg atoms, under the interplay of controlled dissipation and interaction-induced synthetic flux. Considering a minimum four-site setup -- a triangular configuration with an additional output site -- we study the transport of a single excitation, injected into a vertex of the triangle, through the structure. While the long-range dipole-dipole interactions between the Rydberg atoms lead to geometry-dependent Peierls phases in the hopping amplitudes of excitations, we further introduce on-site dissipation to a vertex of the triangle. As a result, both the chirality and destination of the transport can be manipulated through the flux and dissipation. In particular, we illustrate a parameter regime where our Rydberg-ring structure may serve as a switch for transporting the injected excitation through to the output site. The underlying mechanism is then analyzed by studying the chiral trajectory of the excitation and the time-dependent dissipation.
翻訳日:2023-10-02 15:14:40 公開日:2023-09-29
# 検索拡張大言語モデルを用いた解釈可能な長期法的問合せ

Interpretable Long-Form Legal Question Answering with Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2309.17050v1 )

ライセンス: Link先を確認
Antoine Louis, Gijs van Dijck, Gerasimos Spanakis(参考訳) 多くの個人は、人生のある時点で法的紛争に直面する可能性が高いが、これらの複雑な問題をいかにナビゲートするかの理解の欠如は、しばしばそれらを脆弱にする。 自然言語処理の進歩は、法的リテラシーのギャップを埋めるための新しい道を開いた。 しかしながら、既存の法的質問応答 (LQA) アプローチは、特定の法的領域に限定されるか、簡潔で非形式的な応答に限られている、狭い範囲に悩まされることが多い。 そこで本研究では,あらゆる法定問題に対する長文回答を生成するために,「再読解」パイプラインを用いたエンドツーエンド手法を提案する。 このアプローチを支援するために,フランス語で1,868人の専門家が注釈付けした法的質問を含むLong-form Legal Question Answering (LLeQA)データセットを導入,リリースする。 実験の結果, 自動評価指標で有望な性能を示すが, 定性解析により改良すべき領域が明らかにされる。 LLeQAは、専門分野のNLPモデルを評価するための厳密なベンチマークとして機能するだけでなく、重要な現実世界の問題を解決するための研究を加速する可能性を持っている。 私たちはコード、データ、モデルを公開します。

Many individuals are likely to face a legal dispute at some point in their lives, but their lack of understanding of how to navigate these complex issues often renders them vulnerable. The advancement of natural language processing opens new avenues for bridging this legal literacy gap through the development of automated legal aid systems. However, existing legal question answering (LQA) approaches often suffer from a narrow scope, being either confined to specific legal domains or limited to brief, uninformative responses. In this work, we propose an end-to-end methodology designed to generate long-form answers to any statutory law questions, utilizing a "retrieve-then-read" pipeline. To support this approach, we introduce and release the Long-form Legal Question Answering (LLeQA) dataset, comprising 1,868 expert-annotated legal questions in the French language, complete with detailed answers rooted in pertinent legal provisions. Our experimental results demonstrate promising performance on automatic evaluation metrics, but a qualitative analysis uncovers areas for refinement. As one of the only comprehensive, expert-annotated long-form LQA dataset, LLeQA has the potential to not only accelerate research towards resolving a significant real-world issue, but also act as a rigorous benchmark for evaluating NLP models in specialized domains. We publicly release our code, data, and models.
翻訳日:2023-10-02 15:07:32 公開日:2023-09-29
# ロバストと正確な分類器の連続性について

On Continuity of Robust and Accurate Classifiers ( http://arxiv.org/abs/2309.17048v1 )

ライセンス: Link先を確認
Ramin Barati, Reza Safabakhsh, Mohammad Rahmati(参考訳) 学習モデルの信頼性は、さまざまなアプリケーションにおける機械学習のデプロイの成功の鍵となる。 強靭なモデル、特に敵の攻撃の影響を受けないモデルを作成するには、敵の事例現象を包括的に理解する必要がある。 しかし,機械学習の問題の複雑な性質から,この現象を説明することは困難である。 敵対的訓練は仮説の強固さを改善することが示されている。 しかし、この改良は天然試料の性能低下によるものである。 したがって、仮説の堅牢性と正確性は互いに相反していることが示唆されている。 本稿では,その頑健性と正確性に相容れない仮説の連続性である,という代替案を提示する。 言い換えると、連続関数は最適ロバスト仮説を効果的に学習することはできない。 この目的のために、学習理論用語における調和仮説と正則仮説の厳密な研究の枠組みを導入し、連続仮説がいくつかの一般的な機械学習タスクにおいて不連続仮説と同様に機能しないという実証的な証拠を提供する。 実践的な観点からは、ロバストで正確な学習規則がドメインの異なる領域に対して異なる連続仮説を学習することを提案する。 理論的観点から、我々の分析は、逆例現象を関数列の連続性と不連続関数への一様収束の間の矛盾として説明する。

The reliability of a learning model is key to the successful deployment of machine learning in various applications. Creating a robust model, particularly one unaffected by adversarial attacks, requires a comprehensive understanding of the adversarial examples phenomenon. However, it is difficult to describe the phenomenon due to the complicated nature of the problems in machine learning. It has been shown that adversarial training can improve the robustness of the hypothesis. However, this improvement comes at the cost of decreased performance on natural samples. Hence, it has been suggested that robustness and accuracy of a hypothesis are at odds with each other. In this paper, we put forth the alternative proposal that it is the continuity of a hypothesis that is incompatible with its robustness and accuracy. In other words, a continuous function cannot effectively learn the optimal robust hypothesis. To this end, we will introduce a framework for a rigorous study of harmonic and holomorphic hypothesis in learning theory terms and provide empirical evidence that continuous hypotheses does not perform as well as discontinuous hypotheses in some common machine learning tasks. From a practical point of view, our results suggests that a robust and accurate learning rule would train different continuous hypotheses for different regions of the domain. From a theoretical perspective, our analysis explains the adversarial examples phenomenon as a conflict between the continuity of a sequence of functions and its uniform convergence to a discontinuous function.
翻訳日:2023-10-02 15:07:06 公開日:2023-09-29
# UniQuadric: 未知の剛体オブジェクトトラッキングと軽量モデリングのためのSLAMバックエンド

UniQuadric: A SLAM Backend for Unknown Rigid Object 3D Tracking and Light-Weight Modeling ( http://arxiv.org/abs/2309.17036v1 )

ライセンス: Link先を確認
Linghao Yang, Yanmin Wu, Yu Deng, Rui Tian, Xinggang Hu, Tiefeng Ma(参考訳) 環境における未知の剛体物体の追跡とモデリングは、自律的な無人システムや仮想現実のインタラクティブアプリケーションにおいて重要な役割を果たす。 しかし、多くの既存のSLAMMOTメソッドは、特定のオブジェクトのポーズを推定することに集中しており、オブジェクトのスケールを推定できないため、未知のオブジェクトを効果的に追跡できない。 本稿では,エゴモーショントラッキング,剛体物体の動き追跡,および共同最適化フレームワーク内でのモデリングを統一する新しいSLAMバックエンドを提案する。 認識部では,Segment Anything Model (SAM) とDeAOTに基づく画素レベルの非同期オブジェクトトラッカー (AOT) を設計した。 モデリング部では、静的および動的オブジェクトの初期化と最適化の両方を統一する、新しいオブジェクト中心二次パラメータ化を提案する。 次に,オブジェクト状態推定の一環として,ハイブリッド制約を統合推定のための新しいデュアルスライディングウィンドウ最適化フレームワークに組み込んだ,オブジェクトポーズとスケール推定のための密結合最適化モデルを提案する。 私たちの知る限りでは、quadricを使って動的オブジェクトと静的オブジェクトの軽量モデリングと、オブジェクトのポーズトラッキングを密結合した最初の例です。 シミュレーションデータセットと実世界のデータセットの質的、定量的な実験を行い、動き推定とモデリングにおける最先端のロバスト性と正確性を示す。 本システムは,複雑な動的シーンにおける物体知覚の潜在的応用を示す。

Tracking and modeling unknown rigid objects in the environment play a crucial role in autonomous unmanned systems and virtual-real interactive applications. However, many existing Simultaneous Localization, Mapping and Moving Object Tracking (SLAMMOT) methods focus solely on estimating specific object poses and lack estimation of object scales and are unable to effectively track unknown objects. In this paper, we propose a novel SLAM backend that unifies ego-motion tracking, rigid object motion tracking, and modeling within a joint optimization framework. In the perception part, we designed a pixel-level asynchronous object tracker (AOT) based on the Segment Anything Model (SAM) and DeAOT, enabling the tracker to effectively track target unknown objects guided by various predefined tasks and prompts. In the modeling part, we present a novel object-centric quadric parameterization to unify both static and dynamic object initialization and optimization. Subsequently, in the part of object state estimation, we propose a tightly coupled optimization model for object pose and scale estimation, incorporating hybrids constraints into a novel dual sliding window optimization framework for joint estimation. To our knowledge, we are the first to tightly couple object pose tracking with light-weight modeling of dynamic and static objects using quadric. We conduct qualitative and quantitative experiments on simulation datasets and real-world datasets, demonstrating the state-of-the-art robustness and accuracy in motion estimation and modeling. Our system showcases the potential application of object perception in complex dynamic scenes.
翻訳日:2023-10-02 15:06:44 公開日:2023-09-29
# テキストのデジタル処理に影響を及ぼす言語資源の文脈化

Contextualising Levels of Language Resourcedness affecting Digital Processing of Text ( http://arxiv.org/abs/2309.17035v1 )

ライセンス: Link先を確認
C. Maria Keet and Langa Khumalo(参考訳) デジタルヒューマニティやチャットボットのようなアプリケーションドメインは、ハードコピーのデジタル化から音声生成まで、何らかの形で自然言語を処理する。 コンテンツ言語は典型的には、低リソース言語(LRL)または高リソース言語(HRL)として特徴づけられる。 アフリカの言語は資源に乏しい言語(Bosch et al. 2007; Pretorius & Bosch 2003; Keet & Khumalo 2014)として特徴付けられており、英語は最も豊富な資源を持つ言語である。 空き言語資源は、これらの言語のためのソフトウェアシステムの開発に使われ、幅広いタスクをこなす。 本稿では,全言語に対する直交型論 LRL と HRL が問題となることを論じる。 社会における言語資源の明確な理解を通じて、言語をVery LRL, LRL, RL, HRL, Very HRLとして特徴付けるマトリックスを開発する。 キャラクタリゼーションは、ツールをカウントするのではなく、各カテゴリのコンテキスト特徴のタイプロジに基づいており、各特徴と各特徴に対するモチベーションが提供される。 この論文では、アフリカの言語に焦点をあてた資源化の文脈化と、プロジェクトで使われている言語がどこにあるのかについての理解を深めることで、研究や実装プロジェクトの計画の改善を支援することができる。 そこで,本稿では,特定の規模内における言語資源のキャラクタリゼーションは,特に低リソース言語の文脈において欠かせない要素であると主張する。

Application domains such as digital humanities and tool like chatbots involve some form of processing natural language, from digitising hardcopies to speech generation. The language of the content is typically characterised as either a low resource language (LRL) or high resource language (HRL), also known as resource-scarce and well-resourced languages, respectively. African languages have been characterized as resource-scarce languages (Bosch et al. 2007; Pretorius & Bosch 2003; Keet & Khumalo 2014) and English is by far the most well-resourced language. Varied language resources are used to develop software systems for these languages to accomplish a wide range of tasks. In this paper we argue that the dichotomous typology LRL and HRL for all languages is problematic. Through a clear understanding of language resources situated in a society, a matrix is developed that characterizes languages as Very LRL, LRL, RL, HRL and Very HRL. The characterization is based on the typology of contextual features for each category, rather than counting tools, and motivation is provided for each feature and each characterization. The contextualisation of resourcedness, with a focus on African languages in this paper, and an increased understanding of where on the scale the language used in a project is, may assist in, among others, better planning of research and implementation projects. We thus argue in this paper that the characterization of language resources within a given scale in a project is an indispensable component particularly in the context of low-resourced languages.
翻訳日:2023-10-02 15:06:16 公開日:2023-09-29
# YOLOv5レイアウト検出による文書構造の展開

Unveiling Document Structures with YOLOv5 Layout Detection ( http://arxiv.org/abs/2309.17033v1 )

ライセンス: Link先を確認
Herman Sugiharto, Yorissa Silviana, Yani Siti Nurpazrin(参考訳) 現在のデジタル環境は、金融、医療、教育といった分野において多くの問題を引き起こすデータ、特に非構造化データの存在が特徴である。 データ抽出の従来の技術は、非構造化データの固有の多様性と複雑さを扱うのに困難に直面するため、より効率的な方法論を採用する必要がある。 本研究では,文書レイアウトの迅速同定と非構造化データの抽出を目的とした,最先端コンピュータビジョンモデルYOLOv5の利用について検討する。 本研究は、文書に関する「対象」の概念を記述するための概念枠組みを確立し、段落、表、写真、その他の構成要素といった様々な要素を取り入れた。 主な目的は、文書レイアウトを効果的に認識し、構造化されていないデータを抽出し、データ抽出の有効性を向上させる自律システムを作ることである。 以上の結果から,yolov5モデルは,精度0.91,リコール値0.971,f1スコア0.939,受信者動作特性曲線(auc-roc)0.975の領域において,文書レイアウト識別タスクにおいて顕著な有効性を示した。 本システムの性能は文書画像からテキストおよび表データを抽出する処理を最適化する。 その有望な応用は文書分析に限らず、オーディオデータのような多様なソースからの非構造化データを包含することができる。 本研究は, 多様な非構造化データ管理におけるYOLOv5の適用性に関する今後の研究の基盤を定め, 複数領域にわたる新しい応用の可能性を提供する。

The current digital environment is characterized by the widespread presence of data, particularly unstructured data, which poses many issues in sectors including finance, healthcare, and education. Conventional techniques for data extraction encounter difficulties in dealing with the inherent variety and complexity of unstructured data, hence requiring the adoption of more efficient methodologies. This research investigates the utilization of YOLOv5, a cutting-edge computer vision model, for the purpose of rapidly identifying document layouts and extracting unstructured data. The present study establishes a conceptual framework for delineating the notion of "objects" as they pertain to documents, incorporating various elements such as paragraphs, tables, photos, and other constituent parts. The main objective is to create an autonomous system that can effectively recognize document layouts and extract unstructured data, hence improving the effectiveness of data extraction. In the conducted examination, the YOLOv5 model exhibits notable effectiveness in the task of document layout identification, attaining a high accuracy rate along with a precision value of 0.91, a recall value of 0.971, an F1-score of 0.939, and an area under the receiver operating characteristic curve (AUC-ROC) of 0.975. The remarkable performance of this system optimizes the process of extracting textual and tabular data from document images. Its prospective applications are not limited to document analysis but can encompass unstructured data from diverse sources, such as audio data. This study lays the foundation for future investigations into the wider applicability of YOLOv5 in managing various types of unstructured data, offering potential for novel applications across multiple domains.
翻訳日:2023-10-02 15:05:47 公開日:2023-09-29
# アナログ, 進化, 確率的リカレントニューラルネットワークの精製コルモゴロフ複素性

Refined Kolmogorov Complexity of Analog, Evolving and Stochastic Recurrent Neural Networks ( http://arxiv.org/abs/2309.17032v1 )

ライセンス: Link先を確認
J\'er\'emie Cabessa, Yann Strozecki(参考訳) 本稿では,実重み,重み,実確率のコルモゴロフ複雑性に基づく,アナログ,進化,確率的ニューラルネットワークの超チューリング計算能力の洗練された特性について述べる。 まず、基礎となる実重みのコルモゴロフ複雑性の観点から定義されるアナログネットワークのクラスの無限階層を取得する。 この階層は複雑性クラス $\mathbf{P}$ と $\mathbf{P/poly}$ の間に位置する。 そして、この結果を進化するネットワークのケースに一般化する。 進化するネットワークのコロモゴロフベースの複雑性クラスの類似した階層が得られた。 この階層はまた、$\mathbf{P}$と$\mathbf{P/poly}$の間にある。 最後に,実確率をランダム性源とする確率ネットワークの場合には,これらの結果を拡張する。 したがって、その確率のコルモゴロフ複雑性に基づく確率ネットワークの無限階層が達成される。 この場合、階層構造は$\mathbf{bpp}$と$\mathbf{bpp/log^*}$の間のギャップを橋渡しする。 このような階層の存在の証明と実例を提供する以外に、複雑性を増大させる関数のクラスに基づいてそれらを構築する一般的な方法を記述する。 明確にするために、この研究はエコー状態ネットワークの枠組みの中で定式化されている。 本研究の目的は, アナログ, 進化, 確率的ニューラルネットワークの洗練された能力に関する統一的な視点を提供することである。

We provide a refined characterization of the super-Turing computational power of analog, evolving, and stochastic neural networks based on the Kolmogorov complexity of their real weights, evolving weights, and real probabilities, respectively. First, we retrieve an infinite hierarchy of classes of analog networks defined in terms of the Kolmogorov complexity of their underlying real weights. This hierarchy is located between the complexity classes $\mathbf{P}$ and $\mathbf{P/poly}$. Then, we generalize this result to the case of evolving networks. A similar hierarchy of Kolomogorov-based complexity classes of evolving networks is obtained. This hierarchy also lies between $\mathbf{P}$ and $\mathbf{P/poly}$. Finally, we extend these results to the case of stochastic networks employing real probabilities as source of randomness. An infinite hierarchy of stochastic networks based on the Kolmogorov complexity of their probabilities is therefore achieved. In this case, the hierarchy bridges the gap between $\mathbf{BPP}$ and $\mathbf{BPP/log^*}$. Beyond proving the existence and providing examples of such hierarchies, we describe a generic way of constructing them based on classes of functions of increasing complexity. For the sake of clarity, this study is formulated within the framework of echo state networks. Overall, this paper intends to fill the missing results and provide a unified view about the refined capabilities of analog, evolving and stochastic neural networks.
翻訳日:2023-10-02 15:05:21 公開日:2023-09-29
# 確率的変化過程のシミュレーションによるスケーラブルなマルチテンポラルリモートセンシング変化データ生成

Scalable Multi-Temporal Remote Sensing Change Data Generation via Simulating Stochastic Change Process ( http://arxiv.org/abs/2309.17031v1 )

ライセンス: Link先を確認
Zhuo Zheng, Shiqi Tian, Ailong Ma, Liangpei Zhang, Yanfei Zhong(参考訳) 地球表面の時間的ダイナミクスを理解することは、多時間リモートセンシング画像解析のミッションであり、燃料を含む深部視覚モデルによって著しく促進されている。 しかし、多時間リモートセンシング画像を大規模に収集、前処理、注釈することは、高価で知識に富むため自明ではない。 本稿では、低コストで自動的な生成モデルを用いて、スケーラブルなマルチ時間リモートセンシングデータ生成装置を提案する。 私たちの主なアイデアは、時間とともに確率的変化のプロセスをシミュレートすることです。 確率的変化過程を確率的意味的状態遷移、すなわち生成的確率的変化モデル(gpcm)と捉え、複雑なシミュレーション問題をより追跡可能な2つの部分問題、 \ie, change event simulation と semantic change synthesis に分解する。 これら2つの問題を解決するため、GANベースのGPCMである変更生成器(Changen)を提案し、カスタマイズ可能なオブジェクトプロパティや変更イベントを含む、制御可能なオブジェクト変更データ生成を可能にする。 広範な実験により,changenは優れた生成能力を有し,changen事前学習を伴う変更検出装置は実世界の変更データセットへの転送性に優れることが示唆された。

Understanding the temporal dynamics of Earth's surface is a mission of multi-temporal remote sensing image analysis, significantly promoted by deep vision models with its fuel -- labeled multi-temporal images. However, collecting, preprocessing, and annotating multi-temporal remote sensing images at scale is non-trivial since it is expensive and knowledge-intensive. In this paper, we present a scalable multi-temporal remote sensing change data generator via generative modeling, which is cheap and automatic, alleviating these problems. Our main idea is to simulate a stochastic change process over time. We consider the stochastic change process as a probabilistic semantic state transition, namely generative probabilistic change model (GPCM), which decouples the complex simulation problem into two more trackable sub-problems, \ie, change event simulation and semantic change synthesis. To solve these two problems, we present the change generator (Changen), a GAN-based GPCM, enabling controllable object change data generation, including customizable object property, and change event. The extensive experiments suggest that our Changen has superior generation capability, and the change detectors with Changen pre-training exhibit excellent transferability to real-world change datasets.
翻訳日:2023-10-02 15:05:02 公開日:2023-09-29
# HoloAssist: 現実世界の対話型AIアシスタントのためのエゴセントリックなヒューマンインタラクションデータセット

HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI Assistants in the Real World ( http://arxiv.org/abs/2309.17024v1 )

ライセンス: Link先を確認
Xin Wang, Taein Kwon, Mahdi Rad, Bowen Pan, Ishani Chakraborty, Sean Andrist, Dan Bohus, Ashley Feniello, Bugra Tekin, Felipe Vieira Frujeri, Neel Joshi, Marc Pollefeys(参考訳) 現実世界で人間と認識し、理性を持ち、協力できる対話型AIアシスタントを構築することは、AIコミュニティにおける長年の追求だった。 この研究は、物理的な世界でのタスクを実行することで人間を対話的に導くインテリジェントエージェントを開発するための、より広範な研究の一環である。 この方向への第一歩として、大規模なエゴセントリックなヒューマンインタラクションデータセットであるHoloAssistを紹介します。 タスクパフォーマーは、7つの同期データストリームをキャプチャする混合現実ヘッドセットを着用してタスクを実行する。 タスクインストラクターは、パフォーマーのエゴセントリックビデオをリアルタイムで視聴し、それらを口頭でガイドします。 行動や会話のアノテーションでデータを増強し、様々な参加者の豊かな振る舞いを観察することで、ヒューマンアシスタントがミスを正し、タスク完了手順に介入し、環境に指示を下す方法について重要な洞察を提供する。 holoassistは、350のユニークなインストラクターとperformerペアが捕獲した166時間のデータにまたがる。 さらに,誤り検出,介入型予測,手話予測に関するベンチマークを構築し,詳細な分析を行った。 holoassistは、現実世界の人間とスムーズにコラボレーションできるaiアシスタントを構築するための重要なリソースを提供するだろう。 データはhttps://holoassist.github.io/でダウンロードできる。

Building an interactive AI assistant that can perceive, reason, and collaborate with humans in the real world has been a long-standing pursuit in the AI community. This work is part of a broader research effort to develop intelligent agents that can interactively guide humans through performing tasks in the physical world. As a first step in this direction, we introduce HoloAssist, a large-scale egocentric human interaction dataset, where two people collaboratively complete physical manipulation tasks. The task performer executes the task while wearing a mixed-reality headset that captures seven synchronized data streams. The task instructor watches the performer's egocentric video in real time and guides them verbally. By augmenting the data with action and conversational annotations and observing the rich behaviors of various participants, we present key insights into how human assistants correct mistakes, intervene in the task completion procedure, and ground their instructions to the environment. HoloAssist spans 166 hours of data captured by 350 unique instructor-performer pairs. Furthermore, we construct and present benchmarks on mistake detection, intervention type prediction, and hand forecasting, along with detailed analysis. We expect HoloAssist will provide an important resource for building AI assistants that can fluidly collaborate with humans in the real world. Data can be downloaded at https://holoassist.github.io/.
翻訳日:2023-10-02 15:04:38 公開日:2023-09-29
# 平均平滑度をもつ効率的無依存学習

Efficient Agnostic Learning with Average Smoothness ( http://arxiv.org/abs/2309.17016v1 )

ライセンス: Link先を確認
Steve Hanneke, Aryeh Kontorovich, Guy Kornowski(参考訳) ashlagi et al. (2021) によって始められた平均平滑性の概念に従い, 任意の未知の分布に対する関数の「効果的な」平滑性を測定する分布自由非パラメトリック回帰について検討した。 Hanneke et al. (2023) の最近の研究は、現実化可能なケースにおける平均滑らかな関数に対する厳密な一様収束境界を確立し、計算効率の良い実化可能な学習アルゴリズムを提供したが、これらの結果はどちらも一般的な無依存(すなわち雑音)の場合のアナログを欠いている。 この作業では、これらのギャップを完全に埋めます。 まず, 分布を伴わない一様収束を, 平均-smoothness クラスに限定して提供する。 第2に,抽出したサンプル複雑性を,計算効率のよい非依存学習アルゴリズムとマッチングする。 この結果は,データの内部幾何学的に記述され,任意の全有界距離空間を包含するものであるが,最近得られた平均スムース関数の学習を不可知な設定に移すための保証が示されている。 証明の核心では、関数クラスの一様収束率は、その括弧エントロピー(独立興味を持つかもしれない)の観点から定まる。

We study distribution-free nonparametric regression following a notion of average smoothness initiated by Ashlagi et al. (2021), which measures the "effective" smoothness of a function with respect to an arbitrary unknown underlying distribution. While the recent work of Hanneke et al. (2023) established tight uniform convergence bounds for average-smooth functions in the realizable case and provided a computationally efficient realizable learning algorithm, both of these results currently lack analogs in the general agnostic (i.e. noisy) case. In this work, we fully close these gaps. First, we provide a distribution-free uniform convergence bound for average-smoothness classes in the agnostic setting. Second, we match the derived sample complexity with a computationally efficient agnostic learning algorithm. Our results, which are stated in terms of the intrinsic geometry of the data and hold over any totally bounded metric space, show that the guarantees recently obtained for realizable learning of average-smooth functions transfer to the agnostic setting. At the heart of our proof, we establish the uniform convergence rate of a function class in terms of its bracketing entropy, which may be of independent interest.
翻訳日:2023-10-02 15:04:14 公開日:2023-09-29
# 大規模言語モデルにおける認知バイアスの指標化

Benchmarking Cognitive Biases in Large Language Models as Evaluators ( http://arxiv.org/abs/2309.17012v1 )

ライセンス: Link先を確認
Ryan Koo, Minhwa Lee, Vipul Raheja, Jong Inn Park, Zae Myung Kim, Dongyeop Kang(参考訳) 大規模言語モデル(llm)は最近、単純なプロンプトとインコンテキスト学習を備えた自動評価器として有効であることが示されている。 本研究では,4つの異なるサイズ範囲の15 llmを組み立て,システム・スターがシステム・スクエアより優れているように,他のllmからの選好ランキングによる出力応答の評価を行った。 次に,llmに対する認知バイアスベンチマーク(cobbler)を導入した評価結果の質を評価する。これは,モデルが評価において高いランク付けを好む自己中心バイアスなど,llm評価アウトプットにおける6つの異なる認知バイアスを測定するベンチマークである。 LLMはテキスト品質評価器であり、評価器としての頑健性に疑問を呈する評価のそれぞれにおいて、バイアスベンチマーク(すべてのモデルで比較される平均40%)に強い指標を示す。 さらに,人間と機械の選好の相関を調べ,平均ランクバイアス重なり(rbo)スコアを49.6%と算出し,機械選好が人間と不一致であることを示す。 我々の研究によれば、LLMは人間の好みに沿った自動アノテーションには利用できない可能性がある。 プロジェクトページはhttps://minnesotanlp.github.io/cobbler.com/。

Large Language Models (LLMs) have recently been shown to be effective as automatic evaluators with simple prompting and in-context learning. In this work, we assemble 15 LLMs of four different size ranges and evaluate their output responses by preference ranking from the other LLMs as evaluators, such as System Star is better than System Square. We then evaluate the quality of ranking outputs introducing the Cognitive Bias Benchmark for LLMs as Evaluators (CoBBLEr), a benchmark to measure six different cognitive biases in LLM evaluation outputs, such as the Egocentric bias where a model prefers to rank its own outputs highly in evaluation. We find that LLMs are biased text quality evaluators, exhibiting strong indications on our bias benchmark (average of 40% of comparisons across all models) within each of their evaluations that question their robustness as evaluators. Furthermore, we examine the correlation between human and machine preferences and calculate the average Rank-Biased Overlap (RBO) score to be 49.6%, indicating that machine preferences are misaligned with humans. According to our findings, LLMs may still be unable to be utilized for automatic annotation aligned with human preferences. Our project page is at: https://minnesotanlp.github.io/cobbler.
翻訳日:2023-10-02 15:03:51 公開日:2023-09-29
# 生体医用3次元メッシュセグメンテーションにおけるミラーウェイト対称性の利点

Benefits of mirror weight symmetry for 3D mesh segmentation in biomedical applications ( http://arxiv.org/abs/2309.17076v1 )

ライセンス: Link先を確認
Vladislav Dordiuk, Maksim Dzhigil, Konstantin Ushenin(参考訳) 3Dメッシュセグメンテーションは多くのバイオメディカル応用において重要な課題である。 人体は左右対称であり、臓器の位置も様々である。 これにより,生体医学的セグメンテーションを行う畳み込みニューラルネットワークにおいて,回転および反転不変層の正の効果を期待できる。 本研究では,3次元メッシュセグメンテーションを行うニューラルネットワークにおける重み対称性の影響を示す。 病理血管構造(aneurysms)と従来の解剖学的構造(心室の心内膜と心外膜)に対する3次元メッシュセグメンテーションの問題を分析した。 局所幾何学的特徴は符号付き距離関数からのサンプリングとして符号化され、ニューラルネットワークは各メッシュノードの予測を行う。 ニューラルネットワークが3層以上の畳み込み層を持つ場合、重みの対称性は1〜3%向上し、学習可能なパラメータの数を8倍に減らすことができることを示した。 これは非常に小さなトレーニングセットでも有効です。

3D mesh segmentation is an important task with many biomedical applications. The human body has bilateral symmetry and some variations in organ positions. It allows us to expect a positive effect of rotation and inversion invariant layers in convolutional neural networks that perform biomedical segmentations. In this study, we show the impact of weight symmetry in neural networks that perform 3D mesh segmentation. We analyze the problem of 3D mesh segmentation for pathological vessel structures (aneurysms) and conventional anatomical structures (endocardium and epicardium of ventricles). Local geometrical features are encoded as sampling from the signed distance function, and the neural network performs prediction for each mesh node. We show that weight symmetry gains from 1 to 3% of additional accuracy and allows decreasing the number of trainable parameters up to 8 times without suffering the performance loss if neural networks have at least three convolutional layers. This also works for very small training sets.
翻訳日:2023-10-02 14:58:24 公開日:2023-09-29
# DeeDiff: 高速拡散モデル生成のための動的不確実性認識早期実行

DeeDiff: Dynamic Uncertainty-Aware Early Exiting for Accelerating Diffusion Model Generation ( http://arxiv.org/abs/2309.17074v1 )

ライセンス: Link先を確認
Shengkun Tang, Yaqing Wang, Caiwen Ding, Yi Liang, Yao Li, Dongkuan Xu(参考訳) 拡散モデルは多様で高忠実な画像を生成することに成功している。 パフォーマンス改善は、画像ごとの生成速度が低くなることで、リアルタイムシナリオでのアプリケーションの拡散モデルを妨げる。 いくつかの特定の予測は、各サンプルイテレーションにおけるモデルの完全な計算の恩恵を受けるが、全てのイテレーションが同じ量の計算を必要とするわけではない。 本研究では,拡散モデルの生成効率を向上させるために,各サンプリングステップで計算資源を適応的に割り当てる早期終了フレームワークであるDeeDiffを提案する。 具体的には,各中間層に付加した拡散モデルに対する時間ステップ認識不確かさ推定モジュール(uem)を導入し,各層の予測不確かさを推定する。 不確実性は推論が終了するかどうかを決定する信号と見なされる。 さらに,完全モデルと初期出力モデルの性能ギャップを埋めるために,不確実性を考慮した層間損失を提案する。 このような損失戦略により,本モデルは全層モデルと同等の結果を得ることができる。 いくつかのデータセットにおけるクラス条件,無条件,およびテキスト誘導生成の大規模な実験により,本手法は拡散モデルにおける既存の早期終了法と比較して,最先端の性能と効率のトレードオフを達成することが示された。 さらに重要なこととして,本手法はベースラインモデルにさらなるメリットをもたらし,CIFAR-10とCeleb-Aデータセットの性能向上を実現している。 完全なコードとモデルは複製のためにリリースされます。

Diffusion models achieve great success in generating diverse and high-fidelity images. The performance improvements come with low generation speed per image, which hinders the application diffusion models in real-time scenarios. While some certain predictions benefit from the full computation of the model in each sample iteration, not every iteration requires the same amount of computation, potentially leading to computation waste. In this work, we propose DeeDiff, an early exiting framework that adaptively allocates computation resources in each sampling step to improve the generation efficiency of diffusion models. Specifically, we introduce a timestep-aware uncertainty estimation module (UEM) for diffusion models which is attached to each intermediate layer to estimate the prediction uncertainty of each layer. The uncertainty is regarded as the signal to decide if the inference terminates. Moreover, we propose uncertainty-aware layer-wise loss to fill the performance gap between full models and early-exited models. With such loss strategy, our model is able to obtain comparable results as full-layer models. Extensive experiments of class-conditional, unconditional, and text-guided generation on several datasets show that our method achieves state-of-the-art performance and efficiency trade-off compared with existing early exiting methods on diffusion models. More importantly, our method even brings extra benefits to baseline models and obtains better performance on CIFAR-10 and Celeb-A datasets. Full code and model are released for reproduction.
翻訳日:2023-10-02 14:58:07 公開日:2023-09-29
# メモリ効果を有する光ファイバーとその量子通信容量

Optical fibres with memory effects and their quantum communication capacities ( http://arxiv.org/abs/2309.17066v1 )

ライセンス: Link先を確認
Francesco Anna Mele, Giacomo De Palma, Marco Fanizza, Vittorio Giovannetti, Ludovico Lami(参考訳) 量子リピータの開発は、コストとメンテナンスの観点から大きな課題をもたらし、長距離量子通信を実現するための代替手法の探求を促した。 量子リピータの欠如とメモリレス(iid)近似の下では、光ファイバーの透過率が既知の臨界値を下回ると、いくつかの基本的な量子通信タスクは不可能であることが確立され、量子通信の達成可能な距離に厳しい制約が生じる。 しかし、メモリレス仮定が成立しない場合(例えば入力信号が十分に短い時間間隔で分離された場合)、この制限の有効性が疑問視される。 本稿では,長い伝送線路のメモリ効果を記述できる光ファイバーのモデルを提案する。 そして、量子容量、双方向量子容量、秘密鍵容量を正確に解きます。 送信信号間のメモリクロストークにより、従来不可能と考えられていたノイズの多い状態であっても、信頼性の高い量子通信が実現可能であることを示す。 解決策の一部として、量子通信、双方向の絡み合い分布、および量子鍵分布が達成可能な後続信号間の臨界時間間隔を求める。

The development of quantum repeaters poses significant challenges in terms of cost and maintenance, prompting the exploration of alternative approaches for achieving long-distance quantum communication. In the absence of quantum repeaters and under the memoryless (iid) approximation, it has been established that some fundamental quantum communication tasks are impossible if the transmissivity of an optical fibre falls below a known critical value, resulting in a severe constraint on the achievable distance for quantum communication. However, if the memoryless assumption does not hold -- e.g. when input signals are separated by a sufficiently short time interval -- the validity of this limitation is put into question. In this paper we introduce a model of optical fibre that can describe memory effects for long transmission lines. We then solve its quantum capacity, two-way quantum capacity, and secret-key capacity exactly. By doing so, we show that -- due to the memory cross-talk between the transmitted signals -- reliable quantum communication is attainable even for highly noisy regimes where it was previously considered impossible. As part of our solution, we find the critical time interval between subsequent signals below which quantum communication, two-way entanglement distribution, and quantum key distribution become achievable.
翻訳日:2023-10-02 14:57:41 公開日:2023-09-29
# スケール:非対称言語翻訳エンジンの協調協調

SCALE: Synergized Collaboration of Asymmetric Language Translation Engines ( http://arxiv.org/abs/2309.17061v1 )

ライセンス: Link先を確認
Xin Cheng and Xun Wang and Tao Ge and Si-Qing Chen and Furu Wei and Dongyan Zhao and Rui Yan(参考訳) 本稿では,コンパクトな特殊翻訳モデル(STM)と汎用大言語モデル(LLM)を1つの統合翻訳エンジンとして結合する協調フレームワークであるSCALEを紹介する。 これにより、STMの言語バイアスとSTMの並列データバイアスを軽減し、汎用性を犠牲にすることなくLSMの特殊性を向上し、高価なLSMの微調整なしに連続的な学習を容易にする。 包括的実験により、SCALEは低リソース設定に挑戦する際、少数ショットLLM(GPT-4)と特殊モデル(NLLB)の両方を著しく上回ります。 さらに、Xhosaから英語への翻訳では、SCALEはLLMをチューニングせずに4 BLEURTスコアで一貫した改善を経験し、わずか600万のパラメータからなるコンパクトモデルを備えると、2.5 COMETスコアと3.8 BLEURTスコアで数ショットのGPT-4を超える。 SCALEはまた、英語中心のSTMを任意の言語ペア間の翻訳のピボットとして使用することで、LLMの既存の言語バイアスを効果的に活用することができ、8つの翻訳方向で平均6 COMETポイントを達成できた。 さらに,SCALEの堅牢性,翻訳特性,遅延コストを詳細に解析し,LCMとより専門的なタスク固有モデル間のシナジーの可能性を探究する将来の研究の基盤を提供する。

In this paper, we introduce SCALE, a collaborative framework that connects compact Specialized Translation Models (STMs) and general-purpose Large Language Models (LLMs) as one unified translation engine. By introducing translation from STM into the triplet in-context demonstrations, SCALE unlocks refinement and pivoting ability of LLM, thus mitigating language bias of LLM and parallel data bias of STM, enhancing LLM speciality without sacrificing generality, and facilitating continual learning without expensive LLM fine-tuning. Our comprehensive experiments show that SCALE significantly outperforms both few-shot LLMs (GPT-4) and specialized models (NLLB) in challenging low-resource settings. Moreover, in Xhosa to English translation, SCALE experiences consistent improvement by a 4 BLEURT score without tuning LLM and surpasses few-shot GPT-4 by 2.5 COMET score and 3.8 BLEURT score when equipped with a compact model consisting of merely 600M parameters. SCALE could also effectively exploit the existing language bias of LLMs by using an English-centric STM as a pivot for translation between any language pairs, outperforming few-shot GPT-4 by an average of 6 COMET points across eight translation directions. Furthermore we provide an in-depth analysis of SCALE's robustness, translation characteristics, and latency costs, providing solid foundation for future studies exploring the potential synergy between LLMs and more specialized, task-specific models.
翻訳日:2023-10-02 14:57:23 公開日:2023-09-29
# GSDC変換器:単眼多フレーム深度推定のための効率的かつ効果的なキュー融合

GSDC Transformer: An Efficient and Effective Cue Fusion for Monocular Multi-Frame Depth Estimation ( http://arxiv.org/abs/2309.17059v1 )

ライセンス: Link先を確認
Naiyu Fang, Lemiao Qiu, Shuyou Zhang, Zili Wang, Zheyuan Zhou, Kerui Hu(参考訳) 深度推定は、自動運転で3d情報を知覚するための代替アプローチを提供する。 単眼深度推定は、単一フレームまたは複数フレームの入力であっても、様々な種類のキューを学習し、静的または動的シーンに特化することで大きな成功を収めている。 近年、これらの手がかり融合は魅力的な話題となり、両方の場面で組み合わせの手がかりがうまく機能することを目指している。 しかし、適応キュー融合は2次複雑性がキュー表現の粒度を制限する注意機構に依存する。 さらに、明示的な手がかりの融合は正確なセグメンテーションに依存するため、マスク予測に重荷がかかる。 この問題に対処するために,単眼多フレーム深度推定におけるcue融合の効率的かつ効果的な成分であるgsdcトランスを提案する。 微妙なスケールで手がかり関係を学ぶために変形可能な注意を活用し,粒度が増加すると計算要件が小さくなる。 動的シーンの精度低下を補うために,シーン特性を高精度な形状に頼ることなく,スーパートークンの形で表現する。 動的シーンによって引き起こされるそれぞれのスーパートークンの中で、関連する手がかりを収集し、局所的な密接な関係を学び、手がかりの融合を促進する。 本手法は,KITTIデータセット上での高速核融合速度で最先端の性能を実現する。

Depth estimation provides an alternative approach for perceiving 3D information in autonomous driving. Monocular depth estimation, whether with single-frame or multi-frame inputs, has achieved significant success by learning various types of cues and specializing in either static or dynamic scenes. Recently, these cues fusion becomes an attractive topic, aiming to enable the combined cues to perform well in both types of scenes. However, adaptive cue fusion relies on attention mechanisms, where the quadratic complexity limits the granularity of cue representation. Additionally, explicit cue fusion depends on precise segmentation, which imposes a heavy burden on mask prediction. To address these issues, we propose the GSDC Transformer, an efficient and effective component for cue fusion in monocular multi-frame depth estimation. We utilize deformable attention to learn cue relationships at a fine scale, while sparse attention reduces computational requirements when granularity increases. To compensate for the precision drop in dynamic scenes, we represent scene attributes in the form of super tokens without relying on precise shapes. Within each super token attributed to dynamic scenes, we gather its relevant cues and learn local dense relationships to enhance cue fusion. Our method achieves state-of-the-art performance on the KITTI dataset with efficient fusion speed.
翻訳日:2023-10-02 14:56:52 公開日:2023-09-29
# 合成繊維ロープの条件モニタリングのための画像データセット

Imagery Dataset for Condition Monitoring of Synthetic Fibre Ropes ( http://arxiv.org/abs/2309.17058v1 )

ライセンス: Link先を確認
Anju Rani, Daniel O. Arroyo, Petar Durdevic(参考訳) 合成繊維ロープ(sfrs)の自動視覚検査は, 沖合, 風力タービンなどの分野において困難な課題である。 SFRに欠陥があることは、その構造的整合性を損なう可能性があり、重大な安全性のリスクを引き起こす。 これらのロープの大きさと重量のため、しばしば切り離して検査するのは実用的ではない。 そのため, 有効寿命(RUL)を評価するために, 効率的な欠陥検出手法を開発する必要がある。 この課題に対処するために、通常のSFRと欠陥のあるSFRの両方を表す合計6,942の生画像からなる包括的なデータセットが作成された。 データセットは、さまざまな障害シナリオを包含しており、その運用期間を通じて発生する可能性があり、欠陥の平滑化、切断ストランド、チャフィング、圧縮、コアアウト、正常化などに限定されない。 このデータセットは、SFRの欠陥を検出し分析することを目的とした、オブジェクト検出、分類、セグメンテーションを含むコンピュータビジョンアプリケーションをサポートするリソースとして機能する。 このデータセットの可用性は、堅牢な欠陥検出アルゴリズムの開発と評価を容易にする。 このデータセットを生成する目的は、従来の視覚検査方法よりも優れた自動欠陥検出システムの開発を支援することであり、これにより、広範囲のアプリケーションでより安全で効率的なSFRの利用が可能になる。

Automatic visual inspection of synthetic fibre ropes (SFRs) is a challenging task in the field of offshore, wind turbine industries, etc. The presence of any defect in SFRs can compromise their structural integrity and pose significant safety risks. Due to the large size and weight of these ropes, it is often impractical to detach and inspect them frequently. Therefore, there is a critical need to develop efficient defect detection methods to assess their remaining useful life (RUL). To address this challenge, a comprehensive dataset has been generated, comprising a total of 6,942 raw images representing both normal and defective SFRs. The dataset encompasses a wide array of defect scenarios which may occur throughout their operational lifespan, including but not limited to placking defects, cut strands, chafings, compressions, core outs and normal. This dataset serves as a resource to support computer vision applications, including object detection, classification, and segmentation, aimed at detecting and analyzing defects in SFRs. The availability of this dataset will facilitate the development and evaluation of robust defect detection algorithms. The aim of generating this dataset is to assist in the development of automated defect detection systems that outperform traditional visual inspection methods, thereby paving the way for safer and more efficient utilization of SFRs across a wide range of applications.
翻訳日:2023-10-02 14:56:31 公開日:2023-09-29
# 物語を語れ! 大規模言語モデルによるナラティブ駆動xai

Tell Me a Story! Narrative-Driven XAI with Large Language Models ( http://arxiv.org/abs/2309.17057v1 )

ライセンス: Link先を確認
David Martens, Camille Dams, James Hinns, and Mark Vergouwen(参考訳) 今日の重要なドメインでは、ブラックボックス機械学習モデルの優位性は、説明可能なAI(XAI)の需要を増幅する。 広く使われているshap値は、特徴の重要性を定量化しながらも、複雑すぎることが多く、人間にやさしい説明が欠けている。 さらに、counterfactual (cf) の説明は "what ifs" を示すが、ユーザは 'why' を扱い続ける。 このギャップを埋めるために、XAIstoriesを導入します。 SHAPstoriesは予測スコアを説明するためにSHAP説明に基づいて、CFstoriesは決定を説明するためにCF説明を行う。 調査対象者の90%以上が、SHAPstoriesによる物語を説得力のあるものにしている。 データサイエンティストの92%は、AI予測を理解する上で、非専門主義者の容易さと信頼性に寄与すると示唆している。 さらに、データサイエンティストの83%は、この目的のためにshapstoriesを使用する可能性が高いことを示唆している。 画像分類において、CFstoriesは、ユーザーが制作したストーリーを75%以上所有しているため、多かれ等に説得力があると考えられている。 CFstoriesはまた、物語の作成において10倍のスピード向上をもたらし、手作業で作成した物語と比較して精度を20%以上向上させる。 その結果、XAIstoriesはAI予測を真に説明し理解する上で欠落したリンクを提供する可能性があることが示唆された。

In today's critical domains, the predominance of black-box machine learning models amplifies the demand for Explainable AI (XAI). The widely used SHAP values, while quantifying feature importance, are often too intricate and lack human-friendly explanations. Furthermore, counterfactual (CF) explanations present `what ifs' but leave users grappling with the 'why'. To bridge this gap, we introduce XAIstories. Leveraging Large Language Models, XAIstories provide narratives that shed light on AI predictions: SHAPstories do so based on SHAP explanations to explain a prediction score, while CFstories do so for CF explanations to explain a decision. Our results are striking: over 90% of the surveyed general audience finds the narrative generated by SHAPstories convincing. Data scientists primarily see the value of SHAPstories in communicating explanations to a general audience, with 92% of data scientists indicating that it will contribute to the ease and confidence of nonspecialists in understanding AI predictions. Additionally, 83% of data scientists indicate they are likely to use SHAPstories for this purpose. In image classification, CFstories are considered more or equally convincing as users own crafted stories by over 75% of lay user participants. CFstories also bring a tenfold speed gain in creating a narrative, and improves accuracy by over 20% compared to manually created narratives. The results thereby suggest that XAIstories may provide the missing link in truly explaining and understanding AI predictions.
翻訳日:2023-10-02 14:56:12 公開日:2023-09-29
# イベントカメラ相対運動推定のための5点最小解法

A 5-Point Minimal Solver for Event Camera Relative Motion Estimation ( http://arxiv.org/abs/2309.17054v1 )

ライセンス: Link先を確認
Ling Gao and Hang Su and Daniel Gehrig and Marco Cannici and Davide Scaramuzza and Laurent Kneip(参考訳) イベントベースのカメラは、主にシーンの端に反応するため、ラインベースのモーション推定に最適である。 しかし、イベントに基づいてカメラの変位を正確に判定することは未解決の問題である。 これは、イベントカメラを使用する場合、ラインの特徴抽出とダイナミックス推定が密結合されているためであり、イベントの時空間体積におけるラインによって生成された複雑な構造を記述するための正確なモデルが現在存在しないためである。 このような多様体の正則な非線形パラメトリゼーションの導出によりこの問題を解決し、慣性測定ユニットからの既知の回転を伴う事象ベース線形運動推定への応用を実証する。 このパラメトリゼーションを用いて,直線パラメータと線形カメラ速度の投射を同時に推定し,複数の直線を考慮した場合の1つの平均線形速度に融合できる新しい最小5点解法を導入する。 本研究では, 時空間平面に基づくクラスタリングよりも, より安定な相対運動推定値を生成することを, 合成データと実データの両方で実証する。 特に,既存の閉形式解法が 23% から 70% 程度しか達成できない線形速度の推定において, 線形速度を100% の成功率で連続的に達成する。 提案手法は時空間的イベント生成ジオメトリの理解を深めるものであり,今後のイベントベースモーション推定アルゴリズムの中核的構成要素となると考えられる。

Event-based cameras are ideal for line-based motion estimation, since they predominantly respond to edges in the scene. However, accurately determining the camera displacement based on events continues to be an open problem. This is because line feature extraction and dynamics estimation are tightly coupled when using event cameras, and no precise model is currently available for describing the complex structures generated by lines in the space-time volume of events. We solve this problem by deriving the correct non-linear parametrization of such manifolds, which we term eventails, and demonstrate its application to event-based linear motion estimation, with known rotation from an Inertial Measurement Unit. Using this parametrization, we introduce a novel minimal 5-point solver that jointly estimates line parameters and linear camera velocity projections, which can be fused into a single, averaged linear velocity when considering multiple lines. We demonstrate on both synthetic and real data that our solver generates more stable relative motion estimates than other methods while capturing more inliers than clustering based on spatio-temporal planes. In particular, our method consistently achieves a 100% success rate in estimating linear velocity where existing closed-form solvers only achieve between 23% and 70%. The proposed eventails contribute to a better understanding of spatio-temporal event-generated geometries and we thus believe it will become a core building block of future event-based motion estimation algorithms.
翻訳日:2023-10-02 14:55:48 公開日:2023-09-29
# グラフモチーフパラメータに対するWeisfeiler-Lemanテストのパワーについて

On the Power of the Weisfeiler-Leman Test for Graph Motif Parameters ( http://arxiv.org/abs/2309.17053v1 )

ライセンス: Link先を確認
Pablo Barcel\'o, Matthias Lanzinger(参考訳) グラフニューラルネットワーク(GNN)の分野におけるセミナル研究は、GNNの表現能力と、グラフ同型を検証する広く認められた方法である$k$-dimensional Weisfeiler-Leman(k$WL)テストとの直接的な対応を明らかにした。 この関係は、$k$WL テストによって識別可能な特定のグラフ特性の解釈に再び興味を抱いている。 この分野での研究の中心は、最小次元$k$を決定することであり、$k$WLはパターングラフ$P$の異なる回数のグラフを識別することができる。 我々は、このパターンカウント問題のWL次元として、少なくとも$k$を参照する。 この調査は伝統的に、サブグラフのカウントとサブグラフのカウントというパターンに関連する2つの異なるカウント問題に分解する。 興味深いことに、一見異なるアプローチの別の課題として最初に現れたにもかかわらず、これらの問題は、より包括的な問題である「グラフモチーフパラメーター」の相互接続されたコンポーネントである。 本稿では,ラベル付きグラフモチーフパラメータのWL次元を正確に評価する。 この結果の具体例として,ラベル付きパターン $p$ に対して,サブグラフカウントの wl 次元とサブグラフカウントの問題の特性を求める。 さらに、$k$wl テストが$p$ パターンの出現頻度が異なるグラフを区別する場合、$p$ の正確な発生回数は、対応する gnn の最後の層のローカル情報のみを使用して一様に計算できることを実証する。 最終的に、様々なグラフパラメータのWL次元を認識するという課題を掘り下げる。 与えられたパターン$P$に対する部分グラフカウント問題のWL次元を決定する多項式時間アルゴリズムを,以前の研究からオープンな質問に答える。

Seminal research in the field of graph neural networks (GNNs) has revealed a direct correspondence between the expressive capabilities of GNNs and the $k$-dimensional Weisfeiler-Leman ($k$WL) test, a widely-recognized method for verifying graph isomorphism. This connection has reignited interest in comprehending the specific graph properties effectively distinguishable by the $k$WL test. A central focus of research in this field revolves around determining the least dimensionality $k$, for which $k$WL can discern graphs with different number of occurrences of a pattern graph $P$. We refer to such a least $k$ as the WL-dimension of this pattern counting problem. This inquiry traditionally delves into two distinct counting problems related to patterns: subgraph counting and induced subgraph counting. Intriguingly, despite their initial appearance as separate challenges with seemingly divergent approaches, both of these problems are interconnected components of a more comprehensive problem: "graph motif parameters". In this paper, we provide a precise characterization of the WL-dimension of labeled graph motif parameters. As specific instances of this result, we obtain characterizations of the WL-dimension of the subgraph counting and induced subgraph counting problem for every labeled pattern $P$. We additionally demonstrate that in cases where the $k$WL test distinguishes between graphs with varying occurrences of a pattern $P$, the exact number of occurrences of $P$ can be computed uniformly using only local information of the last layer of a corresponding GNN. We finally delve into the challenge of recognizing the WL-dimension of various graph parameters. We give a polynomial time algorithm for determining the WL-dimension of the subgraph counting problem for given pattern $P$, answering an open question from previous work.
翻訳日:2023-10-02 14:55:24 公開日:2023-09-29
# 学習画像圧縮のための一様スカラー量子化について

On Uniform Scalar Quantization for Learned Image Compression ( http://arxiv.org/abs/2309.17051v1 )

ライセンス: Link先を確認
Haotian Zhang, Li Li, Dong Liu(参考訳) 学習画像圧縮は、ネットワークの勾配に基づくトレーニングに非微分可能量子化を組み込む際、ユニークな課題を持つ。 量子化サロゲートがいくつか提案されているが、理論的な観点から体系的に正当化されていない。 このギャップを埋めるために、最も広く使われているカテゴリである一様スカラー量子化と、最も単純なケースである丸み付けと、そのトレーニングサロゲートを対比する。 原則として,サロゲートとラウンドリングの相違が列車のミスマッチにつながること,サロゲートによる勾配推定リスクは勾配推定のバイアスとばらつきから成り立っていること,の2つの要因が重要である。 我々の分析とシミュレーションは,列車テストミスマッチと勾配推定リスクとの間にはトレードオフがあり,そのトレードオフはネットワーク構造によって異なることを示している。 そこで本研究では, 温度係数を調整可能な確率的均一焼鈍法を用いて, トレードオフを制御する手法を提案する。 さらに,推定量子化潜在分布の分散パラメータに対して適切な下限を設定し,列車テストミスマッチを効果的に低減し,一方は部分停止勾配を伴うゼロ中心量子化を用いることで,勾配推定のばらつきを低減し,トレーニングを安定させるという,微妙な手技を提示する。 提案手法は,様々な画像圧縮ネットワーク上での量子化サロゲートの既存手法を上回るように検証されている。

Learned image compression possesses a unique challenge when incorporating non-differentiable quantization into the gradient-based training of the networks. Several quantization surrogates have been proposed to fulfill the training, but they were not systematically justified from a theoretical perspective. We fill this gap by contrasting uniform scalar quantization, the most widely used category with rounding being its simplest case, and its training surrogates. In principle, we find two factors crucial: one is the discrepancy between the surrogate and rounding, leading to train-test mismatch; the other is gradient estimation risk due to the surrogate, which consists of bias and variance of the gradient estimation. Our analyses and simulations imply that there is a tradeoff between the train-test mismatch and the gradient estimation risk, and the tradeoff varies across different network structures. Motivated by these analyses, we present a method based on stochastic uniform annealing, which has an adjustable temperature coefficient to control the tradeoff. Moreover, our analyses enlighten us as to two subtle tricks: one is to set an appropriate lower bound for the variance parameter of the estimated quantized latent distribution, which effectively reduces the train-test mismatch; the other is to use zero-center quantization with partial stop-gradient, which reduces the gradient estimation variance and thus stabilize the training. Our method with the tricks is verified to outperform the existing practices of quantization surrogates on a variety of representative image compression networks.
翻訳日:2023-10-02 14:54:51 公開日:2023-09-29
# マルチモーダル大言語モデルによる命令に基づく画像編集の指導

Guiding Instruction-based Image Editing via Multimodal Large Language Models ( http://arxiv.org/abs/2309.17102v1 )

ライセンス: Link先を確認
Tsu-Jui Fu and Wenze Hu and Xianzhi Du and William Yang Wang and Yinfei Yang, Zhe Gan(参考訳) インストラクションベースの画像編集は、詳細な説明や地域マスクのない自然なコマンドによる画像操作の制御性と柔軟性を向上させる。 しかし、現在の方法では、人間の指示があまりにも簡潔すぎることがある。 MLLM(Multimodal large language model)は,マルチモーダル理解と視覚応答生成において有望な能力を示す。 MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。 MGIEは表現的な指示を導き、明確なガイダンスを提供する。 編集モデルは、この視覚的想像力を共同で捉え、エンドツーエンドのトレーニングを通じて操作を行う。 photoshopスタイルの修正,グローバル写真最適化,ローカル編集のさまざまな側面を評価した。 広範な実験結果から,表現的指示は命令に基づく画像編集に不可欠であることが示され,mgieは競争的推論効率を維持しつつ,自動計測や人間評価において顕著な改善をもたらす可能性がある。

Instruction-based image editing improves the controllability and flexibility of image manipulation via natural commands without elaborate descriptions or regional masks. However, human instructions are sometimes too brief for current methods to capture and follow. Multimodal large language models (MLLMs) show promising capabilities in cross-modal understanding and visual-aware response generation via LMs. We investigate how MLLMs facilitate edit instructions and present MLLM-Guided Image Editing (MGIE). MGIE learns to derive expressive instructions and provides explicit guidance. The editing model jointly captures this visual imagination and performs manipulation through end-to-end training. We evaluate various aspects of Photoshop-style modification, global photo optimization, and local editing. Extensive experimental results demonstrate that expressive instructions are crucial to instruction-based image editing, and our MGIE can lead to a notable improvement in automatic metrics and human evaluation while maintaining competitive inference efficiency.
翻訳日:2023-10-02 14:47:15 公開日:2023-09-29
# 動的不安定性制御による超固体形成時間短縮と励起低減

Supersolid formation time shortcut and excitation reduction by manipulating the dynamical instability ( http://arxiv.org/abs/2309.17098v1 )

ライセンス: Link先を確認
Aitor Ala\~na(参考訳) 超固体は超流動性と結晶の典型的な周期密度変調の両方を示す物質の相である。 超流動から量子相転移によって形成されるとき、密度パターンが発達する前に形成時間を必要とする。 本稿では,超固体形成過程とそれに伴う形成時間において,ロートン不安定が果たす役割について,より初期の記述に基づいて,実験的応用のためのプロトコル・スキームを提案する。 特に、Parachutejumpスキームは相転移を横切る際に生じる励起を減らそうとしており、Bang-Bang法は生成時間を短縮しようとした。 実験を行う際の相転移に機械式揺らぎ(ノイズ)が与える影響を事例研究として,遷移前の機械式キックの影響についても検討した。 提案手法は, 拡張グロス・ピタエフスキー理論の枠組みにおいて, 生成過程の短縮と励起の低減の両方が達成され, 目的を達成することができる。

Supersolids are a phase of matter exhibiting both superfluidity and a periodic density modulation typical of crystals. When formed via quantum phase transition from a superfluid, they require a formation time before their density pattern develops. Along this paper some protocols/schemes are proposed for experimental applications, building on earlier descriptions of the role roton instability plays in the supersolid formation process and the associated formation time. In particular, the Parachutejump scheme sought to lessen the excitation produced when crossing the phase transition, and the Bang-Bang method sought to shorten the formation time. As a case study of the impact that mechanical fluctuations (noise) can have on the phase transition when conducting an experiment, the impact of a mechanical kick before the transition is also investigated. The proposed schemes are able to fulfill their objectives successfully as both the shortening of the formation process and the reduction of excitation are achieved within the framework of extended Gross Pitaevskii theory.
翻訳日:2023-10-02 14:47:02 公開日:2023-09-29
# 前立腺分割のための協調学習手法のベンチマーク

Benchmarking Collaborative Learning Methods Cost-Effectiveness for Prostate Segmentation ( http://arxiv.org/abs/2309.17097v1 )

ライセンス: Link先を確認
Lucia Innocenti, Michela Antonelli, Francesco Cremonesi, Kenaan Sarhan, Alejandro Granados, Vicky Goh, Sebastien Ourselin, Marco Lorenzi(参考訳) 医療データは、しばしば複数の病院にまたがる中小規模のコレクションに分割され、プライバシー規制によってアクセスされる。 これは、機械学習とディープラーニングモデルの開発にそれらを使うのに困難をもたらします。 この制限を克服する1つの方法は、病院がローカルデータを明示的に共有することなく、共同で作業してタスクを解決できるコラボレーティブラーニング(CL)手法を使用することである。 本稿では,統合学習(FL)とコンセンサスベース手法(CBM)の2つの異なるアプローチを比較することで,MRIによる前立腺分節問題に対処する。 私たちの知る限りでは、これはラベル融合技術のようなcbmが協調学習の問題を解決するために使われる最初の仕事です。 この設定では、CBMは局所的に訓練されたモデルからの予測を組み合わせて、理想的に堅牢性と予測分散性を向上した連邦化された強学習者を得る。 実験の結果, 実用シナリオでは, cbm は fl と同等かそれ以上の結果をもたらすが, コスト効率は高い。 以上の結果から,コンセンサスパラダイムは医用画像の典型的な訓練タスクにおけるflの有効な代替案である可能性が示唆された。

Healthcare data is often split into medium/small-sized collections across multiple hospitals and access to it is encumbered by privacy regulations. This brings difficulties to use them for the development of machine learning and deep learning models, which are known to be data-hungry. One way to overcome this limitation is to use collaborative learning (CL) methods, which allow hospitals to work collaboratively to solve a task, without the need to explicitly share local data. In this paper, we address a prostate segmentation problem from MRI in a collaborative scenario by comparing two different approaches: federated learning (FL) and consensus-based methods (CBM). To the best of our knowledge, this is the first work in which CBM, such as label fusion techniques, are used to solve a problem of collaborative learning. In this setting, CBM combine predictions from locally trained models to obtain a federated strong learner with ideally improved robustness and predictive variance properties. Our experiments show that, in the considered practical scenario, CBMs provide equal or better results than FL, while being highly cost-effective. Our results demonstrate that the consensus paradigm may represent a valid alternative to FL for typical training tasks in medical imaging.
翻訳日:2023-10-02 14:46:46 公開日:2023-09-29
# 決定規則によるモデル比較の動的解釈可能性

Dynamic Interpretability for Model Comparison via Decision Rules ( http://arxiv.org/abs/2309.17095v1 )

ライセンス: Link先を確認
Adam Rida, Marie-Jeanne Lesot, Xavier Renard, and Christophe Marsala(参考訳) 説明可能なAI(XAI)メソッドは、主に単一の機械学習モデルに光を当てて調査するために構築されており、複数のモデルの違いを効果的に捉え説明するために設計されていない。 本稿では,実世界のアプリケーションにおいてモデル選択,監視,ライフサイクル管理に不可欠である機械学習モデル間の差異の理解と説明の課題について述べる。 2つのバイナリ分類器の違いを説明するルールベース説明を生成するためのモデル非依存手法であるdeltaxplainerを提案する。 DeltaXplainerの有効性を評価するため、さまざまな種類のコンセプトドリフトを含む様々なモデル比較シナリオを網羅し、合成および実世界のデータセットの実験を行った。

Explainable AI (XAI) methods have mostly been built to investigate and shed light on single machine learning models and are not designed to capture and explain differences between multiple models effectively. This paper addresses the challenge of understanding and explaining differences between machine learning models, which is crucial for model selection, monitoring and lifecycle management in real-world applications. We propose DeltaXplainer, a model-agnostic method for generating rule-based explanations describing the differences between two binary classifiers. To assess the effectiveness of DeltaXplainer, we conduct experiments on synthetic and real-world datasets, covering various model comparison scenarios involving different types of concept drift.
翻訳日:2023-10-02 14:46:24 公開日:2023-09-29
# クロスモーダル検索のためのプロトタイプベースアレエータ不確かさ定量化

Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval ( http://arxiv.org/abs/2309.17093v1 )

ライセンス: Link先を確認
Hao Li, Jingkuan Song, Lianli Gao, Xiaosu Zhu, Heng Tao Shen(参考訳) クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。 しかし、この予測は、腐敗した画像、速いペースの動画、未詳のテキストなど、低品質のデータによって引き起こされるアリータティックな不確実性によって、しばしば信頼性が低下する。 本稿では,不確実性から生じる不確かさを定量化することにより,信頼性の高い予測を実現するための新しいプロトタイプベースアレエータ型不確実性定量化(pau)フレームワークを提案する。 具体的には、セマンティクス部分空間全体を表現するために、まず様々な学習可能なプロトタイプを各モダリティ向けに構築する。 次に、デンプスター・シェーファー理論と主観論理理論を用いて、証拠とディリクレ分布パラメータを関連付けた実証的理論的枠組みを構築する。 PAUモデルは、クロスモーダル検索のための正確な不確実性と信頼性のある予測を誘導する。 MSR-VTT, MSVD, DiDeMo, MS-COCOの4つの主要なベンチマークデータセットを用いて実験を行い, 本手法の有効性を実証した。 コードはhttps://github.com/leolee99/PAUでアクセスできる。

Cross-modal Retrieval methods build similarity relations between vision and language modalities by jointly learning a common representation space. However, the predictions are often unreliable due to the Aleatoric uncertainty, which is induced by low-quality data, e.g., corrupt images, fast-paced videos, and non-detailed texts. In this paper, we propose a novel Prototype-based Aleatoric Uncertainty Quantification (PAU) framework to provide trustworthy predictions by quantifying the uncertainty arisen from the inherent data ambiguity. Concretely, we first construct a set of various learnable prototypes for each modality to represent the entire semantics subspace. Then Dempster-Shafer Theory and Subjective Logic Theory are utilized to build an evidential theoretical framework by associating evidence with Dirichlet Distribution parameters. The PAU model induces accurate uncertainty and reliable predictions for cross-modal retrieval. Extensive experiments are performed on four major benchmark datasets of MSR-VTT, MSVD, DiDeMo, and MS-COCO, demonstrating the effectiveness of our method. The code is accessible at https://github.com/leolee99/PAU.
翻訳日:2023-10-02 14:46:04 公開日:2023-09-29
# 大きすぎるから 失敗するの? --大規模ルーティング問題を解決するニューラルネットワーク構築手法の実現

Too Big, so Fail? -- Enabling Neural Construction Methods to Solve Large-Scale Routing Problems ( http://arxiv.org/abs/2309.17089v1 )

ライセンス: Link先を確認
Jonas K. Falkner and Lars Schmidt-Thieme(参考訳) 近年,組合せ最適化問題,特にnp-hard vehicle routing problem (vrp) に対する新しいディープラーニング手法が提案されている。 これらの手法の最も大きな影響は、通常強化学習によって訓練される逐次的神経構築アプローチである。 これらのモデルの高いトレーニングコストのため、通常、限られたインスタンスサイズ(例えば100の顧客にサービスを提供する)で訓練され、後に非常に大きなインスタンスサイズ(例えば2000の顧客)に適用される。 系統的なスケールアップ研究により、最先端のニューラルネットワーク構築手法でさえ単純なヒューリスティックスによって性能が向上し、より大きな問題インスタンスに一般化できないことを示した。 我々は, 溶液の局所化部分を完全に破壊し, 改良版を再現する代わりに, 破壊再生成原理を用いることを提案する。 このように、POMOのようなニューラルな構築法は、グローバルな問題に適用されることはないが、再構築の段階では、元のトレーニングインスタンスにはるかに近い部分的な問題のみを含む。 異なる分布とモダリティの4つのデータセットを徹底的に実験した結果,本手法はサンプリングやビーム探索などの構築方法を改善する代替形態よりも優れており,いくつかの実験では局所探索手法も進歩していることが示された。

In recent years new deep learning approaches to solve combinatorial optimization problems, in particular NP-hard Vehicle Routing Problems (VRP), have been proposed. The most impactful of these methods are sequential neural construction approaches which are usually trained via reinforcement learning. Due to the high training costs of these models, they usually are trained on limited instance sizes (e.g. serving 100 customers) and later applied to vastly larger instance size (e.g. 2000 customers). By means of a systematic scale-up study we show that even state-of-the-art neural construction methods are outperformed by simple heuristics, failing to generalize to larger problem instances. We propose to use the ruin recreate principle that alternates between completely destroying a localized part of the solution and then recreating an improved variant. In this way, neural construction methods like POMO are never applied to the global problem but just in the reconstruction step, which only involves partial problems much closer in size to their original training instances. In thorough experiments on four datasets of varying distributions and modalities we show that our neural ruin recreate approach outperforms alternative forms of improving construction methods such as sampling and beam search and in several experiments also advanced local search approaches.
翻訳日:2023-10-02 14:45:32 公開日:2023-09-29
# 実証測定から拡張データ率へ:サイドリンク通信におけるMCS適応のための機械学習アプローチ

From Empirical Measurements to Augmented Data Rates: A Machine Learning Approach for MCS Adaptation in Sidelink Communication ( http://arxiv.org/abs/2309.17086v1 )

ライセンス: Link先を確認
Asif Abdullah Rokoni, Daniel Sch\"aufele, Martin Kasparick, S{\l}awomir Sta\'nczak(参考訳) C-V2Xサイドリンクにフィードバックチャネルがないため、適切な変調および符号化スキーム(MCS)を見つけることが難しい。 しかし,近年の車両間通信(V2X)におけるデータレートの要求が高い場合,MSSの選択を適応的に行う必要がある。 本稿では,適切なMCSレベルを予測する機械学習手法を提案する。 さらに,MCSレベルを最大達成可能なデータレートで予測するタスクに対して,量子予測の利用を提案し,異なるアルゴリズムと組み合わせて評価する。 その結果,従来のMCSレベル選択法に比べ,大幅な改善が見られた。 しかし、機械学習のアプローチを使うには、現在研究のために公開されているものよりも大きな現実世界のデータセットが必要である。 そこで本稿では,広範囲なドライブテストで得られたデータセットを公開して公開する。

Due to the lack of a feedback channel in the C-V2X sidelink, finding a suitable modulation and coding scheme (MCS) is a difficult task. However, recent use cases for vehicle-to-everything (V2X) communication with higher demands on data rate necessitate choosing the MCS adaptively. In this paper, we propose a machine learning approach to predict suitable MCS levels. Additionally, we propose the use of quantile prediction and evaluate it in combination with different algorithms for the task of predicting the MCS level with the highest achievable data rate. Thereby, we show significant improvements over conventional methods of choosing the MCS level. Using a machine learning approach, however, requires larger real-world data sets than are currently publicly available for research. For this reason, this paper presents a data set that was acquired in extensive drive tests, and that we make publicly available.
翻訳日:2023-10-02 14:44:40 公開日:2023-09-29
# SegRCDB: フォーミュラ駆動監視学習によるセマンティックセグメンテーション

SegRCDB: Semantic Segmentation via Formula-Driven Supervised Learning ( http://arxiv.org/abs/2309.17083v1 )

ライセンス: Link先を確認
Risa Shinoda, Ryo Hayamizu, Kodai Nakashima, Nakamasa Inoue, Rio Yokota, Hirokatsu Kataoka(参考訳) 事前学習は、限られたラベル付き画像で視覚モデルを効率的に訓練するための強力な戦略である。 セマンティックセグメンテーションでは,アノテーションマスクの作成には多大な労力と時間を要するため,意味ラベル付き大規模事前学習データセットの構築は非常に困難である。 また,セマンティクスセグメンテーションの事前学習における重要事項は十分に検討されていない。 本稿では,segrcdb (segrcdb) について,意味セグメンテーションのための公式駆動教師付き学習を初めて適用した。 SegRCDBは、実際のイメージや手動のセマンティックラベルなしでセマンティックセグメンテーションの事前トレーニングを可能にする。 SegRCDBはセマンティックセグメンテーションの事前トレーニングで何が重要かという洞察に基づいており、効率的な事前トレーニングを可能にする。 SegRCDBによる事前トレーニングは、ADE-20kとCityscapesで同じ数のトレーニング画像で微調整を行うCOCO-Stuffでの事前トレーニングよりも、mIoUが向上した。 SegRCDBは、手動のアノテーションなしで大規模なデータセットの作成を可能にすることで、セマンティックセグメンテーションの事前トレーニングと調査に貢献する可能性が高い。 SegRCDBデータセットは、研究と商用使用を可能にするライセンス下でリリースされる予定である。 コードは、https://github.com/dahlian00/SegRCDBで入手できる。

Pre-training is a strong strategy for enhancing visual models to efficiently train them with a limited number of labeled images. In semantic segmentation, creating annotation masks requires an intensive amount of labor and time, and therefore, a large-scale pre-training dataset with semantic labels is quite difficult to construct. Moreover, what matters in semantic segmentation pre-training has not been fully investigated. In this paper, we propose the Segmentation Radial Contour DataBase (SegRCDB), which for the first time applies formula-driven supervised learning for semantic segmentation. SegRCDB enables pre-training for semantic segmentation without real images or any manual semantic labels. SegRCDB is based on insights about what is important in pre-training for semantic segmentation and allows efficient pre-training. Pre-training with SegRCDB achieved higher mIoU than the pre-training with COCO-Stuff for fine-tuning on ADE-20k and Cityscapes with the same number of training images. SegRCDB has a high potential to contribute to semantic segmentation pre-training and investigation by enabling the creation of large datasets without manual annotation. The SegRCDB dataset will be released under a license that allows research and commercial use. Code is available at: https://github.com/dahlian00/SegRCDB
翻訳日:2023-10-02 14:44:22 公開日:2023-09-29
# 格子場理論における確率量子化としての拡散モデル

Diffusion Models as Stochastic Quantization in Lattice Field Theory ( http://arxiv.org/abs/2309.17082v1 )

ライセンス: Link先を確認
Lingxiao Wang, Gert Aarts and Kai Zhou(参考訳) 本研究では、生成拡散モデル(DM)と確率量子化(SQ)の直接接続を確立する。 ランジュバン方程式によって指示される確率過程の反転を近似し、事前分布からサンプルを生成して目標分布を効果的に模倣することによりdmを実現する。 数値シミュレーションを用いて,dm は2次元 $\phi^4$ 理論において量子格子場構成を生成する大域的サンプリング器として機能できることを実証する。 特に,標準マルコフ連鎖モンテカルロ (MCMC) アルゴリズムが臨界減速を経験する臨界領域において,DMはマルコフ連鎖における自己相関時間を顕著に減少させることができることを示す。 この発見は、特に大きなアンサンブルを生成するのにコストがかかる場合に、格子場理論シミュレーションのさらなる進歩を引き起こす可能性がある。

In this work, we establish a direct connection between generative diffusion models (DMs) and stochastic quantization (SQ). The DM is realized by approximating the reversal of a stochastic process dictated by the Langevin equation, generating samples from a prior distribution to effectively mimic the target distribution. Using numerical simulations, we demonstrate that the DM can serve as a global sampler for generating quantum lattice field configurations in two-dimensional $\phi^4$ theory. We demonstrate that DMs can notably reduce autocorrelation times in the Markov chain, especially in the critical region where standard Markov Chain Monte-Carlo (MCMC) algorithms experience critical slowing down. The findings can potentially inspire further advancements in lattice field theory simulations, in particular in cases where it is expensive to generate large ensembles.
翻訳日:2023-10-02 14:43:47 公開日:2023-09-29
# GAIA-1:自律運転のための生成的世界モデル

GAIA-1: A Generative World Model for Autonomous Driving ( http://arxiv.org/abs/2309.17080v1 )

ライセンス: Link先を確認
Anthony Hu and Lloyd Russell and Hudson Yeo and Zak Murez and George Fedoseev and Alex Kendall and Jamie Shotton and Gianluca Corrado(参考訳) 自動運転は交通の変革的改善を約束するが、現実のシナリオの非構造的な複雑さを安全にナビゲートできるシステムを構築することは依然として難しい。 重要な問題は、世界が進化するにつれて車両の行動に反応して生じる様々な潜在的な結果を効果的に予測することにある。 この課題に対処するために、GAIA-1(Generative AI for Autonomy)は、ビデオ、テキスト、アクション入力を活用して現実的な運転シナリオを生成する。 提案手法では,入力を離散トークンにマッピングし,シーケンス内の次のトークンを予測することで,世界モデリングを教師なしシーケンスモデリング問題として捉えている。 我々のモデルからの創発的特性には、高レベルの構造やシーンダイナミクス、文脈認識、一般化、幾何学の理解などが含まれる。 将来の出来事の期待を捉えたgaia-1の学習表現の力は、現実的なサンプルを生成する能力と相まって、自律性の分野でのイノベーションの新たな可能性をもたらし、自動運転技術の強化と促進を可能にする。

Autonomous driving promises transformative improvements to transportation, but building systems capable of safely navigating the unstructured complexity of real-world scenarios remains challenging. A critical problem lies in effectively predicting the various potential outcomes that may emerge in response to the vehicle's actions as the world evolves. To address this challenge, we introduce GAIA-1 ('Generative AI for Autonomy'), a generative world model that leverages video, text, and action inputs to generate realistic driving scenarios while offering fine-grained control over ego-vehicle behavior and scene features. Our approach casts world modeling as an unsupervised sequence modeling problem by mapping the inputs to discrete tokens, and predicting the next token in the sequence. Emerging properties from our model include learning high-level structures and scene dynamics, contextual awareness, generalization, and understanding of geometry. The power of GAIA-1's learned representation that captures expectations of future events, combined with its ability to generate realistic samples, provides new possibilities for innovation in the field of autonomy, enabling enhanced and accelerated training of autonomous driving technology.
翻訳日:2023-10-02 14:43:32 公開日:2023-09-29
# havatar: face model conditioned neural radiance fieldによる高忠実な頭部アバター

HAvatar: High-fidelity Head Avatar via Facial Model Conditioned Neural Radiance Field ( http://arxiv.org/abs/2309.17128v1 )

ライセンス: Link先を確認
Xiaochen Zhao, Lizhen Wang, Jingxiang Sun, Hongwen Zhang, Jinli Suo, Yebin Liu(参考訳) 軽量設定下での3次元頭部アバターのモデル化は重要な課題であるが,まだ十分に解決されていない。 既存の3d表現は、ポートレート画像合成のリアリズムや表現制御の精度でうまく機能するが、両方ではない。 そこで我々は,NeRFの表現性とパラメトリックテンプレートからの事前情報を統合した,新しいハイブリッドな3D表現,顔モデル条件付きニューラルラジアンス場を提案する。 我々の表現の核となるのは、パラメトリックモデルからの事前情報をそのトポロジ的柔軟性を制約することなく暗黙の場に融合させる合成レンダリングに基づく条件法である。 また,このハイブリッド表現に基づき,既存手法における不整合形状問題を適切に克服し,アニメーションの安定性を向上する。 さらに,画像から画像への変換ネットワークを用いたGANアーキテクチャを採用することにより,動的頭部外観の高分解能,現実的,かつ一貫した合成を実現する。 実験により,従来の手法と比較して3次元頭部アバターアニメーションの最先端性能が得られた。

The problem of modeling an animatable 3D human head avatar under light-weight setups is of significant importance but has not been well solved. Existing 3D representations either perform well in the realism of portrait images synthesis or the accuracy of expression control, but not both. To address the problem, we introduce a novel hybrid explicit-implicit 3D representation, Facial Model Conditioned Neural Radiance Field, which integrates the expressiveness of NeRF and the prior information from the parametric template. At the core of our representation, a synthetic-renderings-based condition method is proposed to fuse the prior information from the parametric model into the implicit field without constraining its topological flexibility. Besides, based on the hybrid representation, we properly overcome the inconsistent shape issue presented in existing methods and improve the animation stability. Moreover, by adopting an overall GAN-based architecture using an image-to-image translation network, we achieve high-resolution, realistic and view-consistent synthesis of dynamic head appearance. Experiments demonstrate that our method can achieve state-of-the-art performance for 3D head avatar animation compared with previous methods.
翻訳日:2023-10-02 14:37:32 公開日:2023-09-29
# 非コヒーレント放射による多レベル量子系における集団振動とユビキタスコヒーレンス

Population Oscillations and Ubiquitous Coherences in multilevel quantum systems driven by incoherent radiation ( http://arxiv.org/abs/2309.17126v1 )

ライセンス: Link先を確認
Amro Dodin, Timur V. Tscherbul and Paul Brumer(参考訳) マルチレベル量子系の非コヒーレント励起(例えば、複数のビブロン状態の分子)を考える。 1) 物質場結合作用素の幾何学的制約により、4つ以上のエネルギー固有状態を持つ全ての系においてノイズ誘起コヒーレンスが発生し、2つのノイズ誘起コヒーレンスが基底状態と励起多様体内の2つの状態間のコヒーレンス移動による量子干渉による集団振動を引き起こすことが保証される。 複素量子系におけるノイズ誘起コヒーレントダイナミクスの実験的検出を容易にする。

We consider incoherent excitation of multilevel quantum systems, e.g. molecules with multiple vibronic states. We show that (1) the geometric constraints of the matter-field coupling operator guarantee that noise-induced coherences will be generated in all systems with four or more energy eigenstates and (2) noise-induced coherences can lead to population oscillations due to quantum interference via coherence transfer between pairs of states in the ground and excited manifolds. Our findings facilitate the experimental detection of noise-induced coherent dynamics in complex quantum systems.
翻訳日:2023-10-02 14:37:12 公開日:2023-09-29
# 非微分型オーディオ効果のためのスタイル転送

Style Transfer for Non-differentiable Audio Effects ( http://arxiv.org/abs/2309.17125v1 )

ライセンス: Link先を確認
Kieran Grant(参考訳) デジタルオーディオ効果は、オーディオエンジニアがオーディオデータの音響的・時間的性質を変えるために広く使われている。 しかし、これらの効果には多くのパラメータがあり、初心者の学習を困難にし、プロの創造性を阻害することができる。 近年、入力と参照トラック間の目的関数を最小化し、オーディオ効果の低レベルパラメータ構成を取得するために、ディープラーニングの進歩を利用する取り組みが数多く行われている。 しかし、現在のアプローチでは、柔軟性のないブラックボックス技術を使うか、あるいは考慮中の効果を自動微分フレームワークで実装する必要がある。 本研究では、最も広く使われているフレームワークのいくつかで実装されたエフェクトと併用可能な、オーディオ生産スタイルマッチングに対するディープラーニングアプローチを提案する。 さらに,様々な効果クラスに対するスタイルマッチングも含むが,その多くが微分可能関数を用いて近似することは困難か不可能である。 音声埋め込み手法は,複数の下流タスクに使用可能な,音節情報の論理的エンコーディングを生成する。 さらに,本手法がマルチバンド圧縮機効果に適合できることを示すリスニングテストを実施した。

Digital audio effects are widely used by audio engineers to alter the acoustic and temporal qualities of audio data. However, these effects can have a large number of parameters which can make them difficult to learn for beginners and hamper creativity for professionals. Recently, there have been a number of efforts to employ progress in deep learning to acquire the low-level parameter configurations of audio effects by minimising an objective function between an input and reference track, commonly referred to as style transfer. However, current approaches use inflexible black-box techniques or require that the effects under consideration are implemented in an auto-differentiation framework. In this work, we propose a deep learning approach to audio production style matching which can be used with effects implemented in some of the most widely used frameworks, requiring only that the parameters under consideration have a continuous domain. Further, our method includes style matching for various classes of effects, many of which are difficult or impossible to be approximated closely using differentiable functions. We show that our audio embedding approach creates logical encodings of timbral information, which can be used for a number of downstream tasks. Further, we perform a listening test which demonstrates that our approach is able to convincingly style match a multi-band compressor effect.
翻訳日:2023-10-02 14:36:59 公開日:2023-09-29
# 生成前訓練を用いたaiに基づく放射線画像解釈における患者固有の共同創設者の再構築

Reconstruction of Patient-Specific Confounders in AI-based Radiologic Image Interpretation using Generative Pretraining ( http://arxiv.org/abs/2309.17123v1 )

ライセンス: Link先を確認
Tianyu Han, Laura \v{Z}igutyt\.e, Luisa Huck, Marc Huppertz, Robert Siepmann, Yossi Gandelsman, Christian Bl\"uthgen, Firas Khader, Christiane Kuhl, Sven Nebelung, Jakob Kather, Daniel Truhn(参考訳) 人工知能などの自動診断支援システムにおける誤解を招くパターンの検出は、特に医療において信頼性を確保するために重要である。 ディープラーニングモデルを評価するための現在の技術は、診断レベルでの相反する要因を可視化できない。 本稿では,米国と欧州の複数の医療センターから194,956人の患者の胸部x線写真515,704のデータセットを用いて,diffchestと呼ばれる自己条件拡散モデルを提案する。 diffchest氏は、患者固有のレベルでの分類を説明し、モデルに誤解をもたらす要因を視覚化する。 diffchestが治療関連の共同創設者を同定する能力を評価する際,読者間の合意度が高く,fleissのkappa値は0.8以上であった。 共同設立者は11.1%から100%の割合で正確に捕獲された。 さらに,プリトレーニングプロセスでは,入力ラジオグラフから最も関連性の高い情報をキャプチャするためにモデルを最適化した。 DiffChestは胸水や心不全などの胸部11の病態を診断する際, 診断精度が良好で, 残存例の診断精度も良好であった。 本研究は,医療画像分類における拡散モデルに基づく事前学習の可能性,特に統合要因とモデルのロバスト性に関する洞察を提供することを強調する。

Detecting misleading patterns in automated diagnostic assistance systems, such as those powered by Artificial Intelligence, is critical to ensuring their reliability, particularly in healthcare. Current techniques for evaluating deep learning models cannot visualize confounding factors at a diagnostic level. Here, we propose a self-conditioned diffusion model termed DiffChest and train it on a dataset of 515,704 chest radiographs from 194,956 patients from multiple healthcare centers in the United States and Europe. DiffChest explains classifications on a patient-specific level and visualizes the confounding factors that may mislead the model. We found high inter-reader agreement when evaluating DiffChest's capability to identify treatment-related confounders, with Fleiss' Kappa values of 0.8 or higher across most imaging findings. Confounders were accurately captured with 11.1% to 100% prevalence rates. Furthermore, our pretraining process optimized the model to capture the most relevant information from the input radiographs. DiffChest achieved excellent diagnostic accuracy when diagnosing 11 chest conditions, such as pleural effusion and cardiac insufficiency, and at least sufficient diagnostic accuracy for the remaining conditions. Our findings highlight the potential of pretraining based on diffusion models in medical image classification, specifically in providing insights into confounding factors and model robustness.
翻訳日:2023-10-02 14:36:39 公開日:2023-09-29
# RDF知識グラフ作成と理解のための大規模言語モデルの能力のベンチマーク:LLM はどのぐらい成熟しているか?

Benchmarking the Abilities of Large Language Models for RDF Knowledge Graph Creation and Comprehension: How Well Do LLMs Speak Turtle? ( http://arxiv.org/abs/2309.17122v1 )

ライセンス: Link先を確認
Johannes Frey and Lars-Peter Meyer and Natanael Arndt and Felix Brei and Kirill Bulert(参考訳) 大きな言語モデル(LLM)は、自然言語処理とコーディングタスクにおいて大幅に改善され、急速に進歩している。 しかし、知識グラフ工学の領域でデータを表す形式言語を扱う能力は、まだ解明されていない。 様々なLSMの習熟度を評価するために,Turtle構文で直列化された知識グラフを解析,理解,分析,作成する5つのタスクのセットを作成した。 これらのタスクは、それぞれ異なる複雑性の度合いを具現化し、問題の大きさに合わせてスケールできるもので、我々の自動評価システムであるLLM-KG-Benchに統合されている。 GPT-3.5、GPT-4、Claude 1.3、Claude 2.0の4つの商用LLMと、GPT4All VicunaとGPT4All Falcon 13Bの2つのオフラインモデルが含まれていた。 この分析は、タートル表現を利用したrdf知識グラフ工学ワークフローにおけるllmの応用に関する強みと欠点を深く理解する。 以上の結果から,最新の商用モデルが亀語能力の面では先駆者を上回ることが示されたが,その弱点も明らかである。 これらのモデルは、この文脈において重要な要件である出力フォーマット制約に厳密に準拠することに関して、不足している。

Large Language Models (LLMs) are advancing at a rapid pace, with significant improvements at natural language processing and coding tasks. Yet, their ability to work with formal languages representing data, specifically within the realm of knowledge graph engineering, remains under-investigated. To evaluate the proficiency of various LLMs, we created a set of five tasks that probe their ability to parse, understand, analyze, and create knowledge graphs serialized in Turtle syntax. These tasks, each embodying distinct degrees of complexity and being able to scale with the size of the problem, have been integrated into our automated evaluation system, the LLM-KG-Bench. The evaluation encompassed four commercially available LLMs - GPT-3.5, GPT-4, Claude 1.3, and Claude 2.0, as well as two freely accessible offline models, GPT4All Vicuna and GPT4All Falcon 13B. This analysis offers an in-depth understanding of the strengths and shortcomings of LLMs in relation to their application within RDF knowledge graph engineering workflows utilizing Turtle representation. While our findings show that the latest commercial models outperform their forerunners in terms of proficiency with the Turtle language, they also reveal an apparent weakness. These models fall short when it comes to adhering strictly to the output formatting constraints, a crucial requirement in this context.
翻訳日:2023-10-02 14:36:14 公開日:2023-09-29
# シーフハイパーグラフネットワーク

Sheaf Hypergraph Networks ( http://arxiv.org/abs/2309.17116v1 )

ライセンス: Link先を確認
Iulia Duta, Giulia Cassar\`a, Fabrizio Silvestri, Pietro Li\`o(参考訳) 高次関係は自然界に広まっており、単純な対関係を超えて広がる複雑な相互作用を含む多くの現象がある。 その結果、高次処理の進歩は、構造化データを必要とする様々な分野の成長を加速することができる。 現在のアプローチは通常、ハイパーグラフを使ってこれらの相互作用を表現する。 局所的,高次接続性を維持しつつ,従来のハイパーグラフに余分な構造を加える数学的構造であるハイパーグラフ用のセルシーブを導入することで,この表現を強化する。 文献中の既存のラプラシアンから着想を得て,層ハイパーグラフラプラシアンを線形と非線形の2つのユニークな定式化した。 我々の理論解析は, シーブをハイパーグラフに組み込むことで, 通常のハイパーグラフ拡散よりも表現力に富んだ帰納バイアスが得られることを示した。 我々は、これらの層ハイパーグラフラプラシアンを用いて、層ハイパーグラフニューラルネットワークと層ハイパーグラフ畳み込みネットワークという2つのモデルを設計する。 これらのモデルは古典的なハイパーグラフネットワークを一般化する。 広汎な実験により,この一般化により性能が大幅に向上し,ハイパーグラフノード分類のための複数のベンチマークデータセットの上位結果が得られた。

Higher-order relations are widespread in nature, with numerous phenomena involving complex interactions that extend beyond simple pairwise connections. As a result, advancements in higher-order processing can accelerate the growth of various fields requiring structured data. Current approaches typically represent these interactions using hypergraphs. We enhance this representation by introducing cellular sheaves for hypergraphs, a mathematical construction that adds extra structure to the conventional hypergraph while maintaining their local, higherorder connectivity. Drawing inspiration from existing Laplacians in the literature, we develop two unique formulations of sheaf hypergraph Laplacians: linear and non-linear. Our theoretical analysis demonstrates that incorporating sheaves into the hypergraph Laplacian provides a more expressive inductive bias than standard hypergraph diffusion, creating a powerful instrument for effectively modelling complex data structures. We employ these sheaf hypergraph Laplacians to design two categories of models: Sheaf Hypergraph Neural Networks and Sheaf Hypergraph Convolutional Networks. These models generalize classical Hypergraph Networks often found in the literature. Through extensive experimentation, we show that this generalization significantly improves performance, achieving top results on multiple benchmark datasets for hypergraph node classification.
翻訳日:2023-10-02 14:35:48 公開日:2023-09-29
# マルチリレーショナルグラフニューラルネットワークのためのメタパス学習

Meta-Path Learning for Multi-relational Graph Neural Networks ( http://arxiv.org/abs/2309.17113v1 )

ライセンス: Link先を確認
Francesco Ferrini, Antonio Longa, Andrea Passerini, Manfred Jaeger(参考訳) 既存のマルチリレーショナルグラフニューラルネットワークは、情報的関係を特定するための2つの戦略の1つを使っている。 しかし、前者のアプローチは多くの関係(例えば知識グラフ)の存在下での課題に直面し、後者は関連するメタパスを特定するためにかなりのドメインの専門知識を必要とする。 本研究では,少数の情報的メタパスに基づいて,高精度なメタパスとメタパスGNNの学習手法を提案する。 提案手法の鍵となる要素は,メタパスの漸進的構築における関係の潜在的情報性を測定するスコアリング機能である。 実験結果から,本手法は多数の関係を持つ場合でも適切なメタパスを同定でき,合成および実世界実験において既存のマルチリレーショナルgnnを実質的に上回っていることが示された。

Existing multi-relational graph neural networks use one of two strategies for identifying informative relations: either they reduce this problem to low-level weight learning, or they rely on handcrafted chains of relational dependencies, called meta-paths. However, the former approach faces challenges in the presence of many relations (e.g., knowledge graphs), while the latter requires substantial domain expertise to identify relevant meta-paths. In this work we propose a novel approach to learn meta-paths and meta-path GNNs that are highly accurate based on a small number of informative meta-paths. Key element of our approach is a scoring function for measuring the potential informativeness of a relation in the incremental construction of the meta-path. Our experimental evaluation shows that the approach manages to correctly identify relevant meta-paths even with a large number of relations, and substantially outperforms existing multi-relational GNNs on synthetic and real-world experiments.
翻訳日:2023-10-02 14:35:29 公開日:2023-09-29
# 重み付きU(1)純ゲージ理論における破れ対称性とフラックス弦

Broken Symmetry and Fractionalized Flux Strings in a Staggered U(1) Pure Gauge Theory ( http://arxiv.org/abs/2309.17109v1 )

ライセンス: Link先を確認
A. Banerjee, D. Banerjee, G. Kanwar, A. Mariani, T. Rindlisbacher, U.-J. Wiese(参考訳) ハミルトニアン形式主義における電場作用素の自己随伴拡大に着想を得て、通常のウィルソン理論が$\alpha=0$に対応する角度$\alpha$でパラメータ化された修正作用を導入することで、アベリア格子ゲージ理論のウィルソン的枠組みを拡張する。 代わりに$\alpha=\pi$("saggered"の場合)を選ぶと、顕微鏡レベルで元のモデルの対称性を全て保存する家族の中で唯一の理論が得られる。 3d$$$$\mathrm{u}(1)$ pure gauge theoryの場合について検討し、双対定式化においてこのモデルの頑丈な場合を数値的にシミュレーションした。 通常の理論とは対照的に、自然に破れた$\mathbb{Z}_2$シングルサイト翻訳対称性を持つ連続極限の証拠を見つける。 さらに、連結弦は、分裂対称性の異なる基底状態の空間領域を分離する複数のストランドに分別する。

Inspired by self-adjoint extensions of the electric field operator in the Hamiltonian formalism, we extend the Wilsonian framework of Abelian lattice gauge theory by introducing a modified action parameterized by an angle $\alpha$, where the ordinary Wilson theory corresponds to $\alpha=0$. Choosing instead $\alpha=\pi$ (the "staggered" case) gives the only other theory in the family which preserves all symmetries of the original model at the microscopic level. We study the case of $3D$ $\mathrm{U}(1)$ pure gauge theory, simulating the staggered case of this model numerically in its dual formulation. We find evidence of a continuum limit with a spontaneously broken $\mathbb{Z}_2$ single-site translational symmetry, in contrast to the ordinary theory. Moreover, the confining string fractionalizes into multiple strands which separate spatial regions in distinct ground states of the broken symmetry.
翻訳日:2023-10-02 14:35:13 公開日:2023-09-29
# タスク一貫性スコア識別特徴分布モデリングによる連続行動評価

Continual Action Assessment via Task-Consistent Score-Discriminative Feature Distribution Modeling ( http://arxiv.org/abs/2309.17105v1 )

ライセンス: Link先を確認
Yuan-Ming Li, Ling-An Zeng, Jing-Ke Meng and Wei-Shi Zheng(参考訳) アクション品質アセスメント(AQA)は、アクションがどれだけうまく実行されるかに答えようとするタスクである。 AQAの既存の研究は、すべてのトレーニングデータが一度にトレーニングのために見えるが、新しい技術行動を評価するための継続的な学習はできないと仮定している。 本研究では,AQA(Continual-AQA)の継続学習問題に対処し,AQAタスクを忘れずに逐次学習するよう統一モデルに促す。 連続AQAのモデル化の考え方は,タスクや動作の種類に関わらず,潜在特徴がスコアラベルと強い相関関係を示すタスク一貫性のあるスコア識別特徴分布を逐次学習することである。 この観点から、継続AQAにおける忘れを2つの側面から緩和することを目指している。 まず,新しいデータと過去のデータの特徴を識別的分布に融合させるため,メモリサイズが制限された前のタスクからのデータを保存・再利用する新しい特徴スコア相関認識リハーサルを提案する。 第二に、行動一般グラフ(Action General-Specific Graph)は、行動一般および行動特化知識を学習・分離し、タスク一貫性のスコア識別特徴をよりよく抽出できるようにする。 提案するコンポーネントの貢献度を評価するために,広範な実験を行った。 既存の連続学習手法との比較により,提案手法の有効性と汎用性が検証された。

Action Quality Assessment (AQA) is a task that tries to answer how well an action is carried out. While remarkable progress has been achieved, existing works on AQA assume that all the training data are visible for training in one time, but do not enable continual learning on assessing new technical actions. In this work, we address such a Continual Learning problem in AQA (Continual-AQA), which urges a unified model to learn AQA tasks sequentially without forgetting. Our idea for modeling Continual-AQA is to sequentially learn a task-consistent score-discriminative feature distribution, in which the latent features express a strong correlation with the score labels regardless of the task or action types. From this perspective, we aim to mitigate the forgetting in Continual-AQA from two aspects. Firstly, to fuse the features of new and previous data into a score-discriminative distribution, a novel Feature-Score Correlation-Aware Rehearsal is proposed to store and reuse data from previous tasks with limited memory size. Secondly, an Action General-Specific Graph is developed to learn and decouple the action-general and action-specific knowledge so that the task-consistent score-discriminative features can be better extracted across various tasks. Extensive experiments are conducted to evaluate the contributions of proposed components. The comparisons with the existing continual learning methods additionally verify the effectiveness and versatility of our approach.
翻訳日:2023-10-02 14:34:52 公開日:2023-09-29
# 不完全テキストに基づく人物識別のためのプロトタイプ誘導型クロスモーダル補完とアライメント

Prototype-guided Cross-modal Completion and Alignment for Incomplete Text-based Person Re-identification ( http://arxiv.org/abs/2309.17104v1 )

ライセンス: Link先を確認
Tiantian Gong, Guodong Du, Junsheng Wang, Yongkang Ding, Liyan Zhang(参考訳) 従来のテキストベースの人物識別(ReID)技術は、理想的なシナリオである完全一致するマルチモーダルデータに大きく依存している。 しかしながら、クロスモーダルデータの収集と処理の間、避けられないデータの欠落と腐敗のため、不完全なデータ問題は、通常現実世界のアプリケーションで発生する。 そこで本研究では,不完全テキストベースreidタスクと呼ばれる,人物画像とテキスト記述が完全に一致せず,部分的に欠落したモダリティデータを含む,より実用的なタスクを考える。 そこで本稿では,不完全なテキストベースReIDの問題を処理するための新しいPCCA(Prototype-guided Cross-modal Completion and Alignment)フレームワークを提案する。 具体的には、欠落したモダリティデータに基づくテキストクエリに基づいて人物画像を直接検索することはできない。 そこで本研究では、既存の画像とテキストの相互類似性を計算し、欠落した画像の特徴を完遂するための重要なガイダンスを提供するクロスモーダル近傍構築戦略を提案する。 さらに, 欠落したモーダル特徴を効率的に補完するために, 上記欠落モーダルデータの隣接部分集合と対応するプロトタイプとの関連グラフを構築し, 生成された欠落モーダル特徴をさらに強化する。 さらに,画像とテキストの細粒度アライメントをより密にするため,共用空間における細粒度アライメントを改善するために,モダリティの不均一性ギャップを効果的に低減できるプロトタイプアライメント損失を発生させる。 異なる比率の異なる複数のベンチマークによる実験結果から,本手法が最先端のテキスト画像ReID手法より一貫して優れていることが示された。

Traditional text-based person re-identification (ReID) techniques heavily rely on fully matched multi-modal data, which is an ideal scenario. However, due to inevitable data missing and corruption during the collection and processing of cross-modal data, the incomplete data issue is usually met in real-world applications. Therefore, we consider a more practical task termed the incomplete text-based ReID task, where person images and text descriptions are not completely matched and contain partially missing modality data. To this end, we propose a novel Prototype-guided Cross-modal Completion and Alignment (PCCA) framework to handle the aforementioned issues for incomplete text-based ReID. Specifically, we cannot directly retrieve person images based on a text query on missing modality data. Therefore, we propose the cross-modal nearest neighbor construction strategy for missing data by computing the cross-modal similarity between existing images and texts, which provides key guidance for the completion of missing modal features. Furthermore, to efficiently complete the missing modal features, we construct the relation graphs with the aforementioned cross-modal nearest neighbor sets of missing modal data and the corresponding prototypes, which can further enhance the generated missing modal features. Additionally, for tighter fine-grained alignment between images and texts, we raise a prototype-aware cross-modal alignment loss that can effectively reduce the modality heterogeneity gap for better fine-grained alignment in common space. Extensive experimental results on several benchmarks with different missing ratios amply demonstrate that our method can consistently outperform state-of-the-art text-image ReID approaches.
翻訳日:2023-10-02 14:34:27 公開日:2023-09-29
# 自由手書き指標による年齢集団識別

Age Group Discrimination via Free Handwriting Indicators ( http://arxiv.org/abs/2309.17156v1 )

ライセンス: Link先を確認
Eugenio Lomurno, Simone Toffoli, Davide Di Febbo, Matteo Matteucci, Francesca Lunardini, Simona Ferrante(参考訳) 世界的に高齢化が進むと弱体化が進み、医療システムにとって大きな課題となっている。 加齢に伴う症候群であるfrailtyは、進行的な健康の低下、ストレスに対する脆弱性の増加、死亡リスクの増加によって特徴付けられる。 これは公衆衛生の重大な負担であり、影響を受ける人々の生活の質を低下させる。 欠陥を評価する方法が普遍的に受け入れられていないことと、標準化された定義が重要な研究ギャップを浮き彫りにしている。 この不足と早期予防の重要性から,本研究は,器用インクペンを用いて,年齢集団分類のための手書きの生態学的評価を行う革新的な手法を提案する。 異なる年齢群 (20-40, 41-60, 61-70, 70+) の健常者80名を対象に, 無内容手書きデータを分析した。 14のジェスチャーおよび震度関連指標を生データから算出し,5つの分類課題に用いた。 これらのタスクには、Cataboost と Logistic Regression の分類器を用いた隣接年齢と非隣接年齢の識別が含まれていた。 その結果、精度は82.5%から97.5%、精度は81.8%から100%、リコール率は75%から100%、roc-aucは92.2%から100%であった。 モデル解析はSHAP解析によって促進され, 経時的および振動関連手書き特徴の年齢依存感度が明らかにされた。 本分類法は, 遠隔地モニタリングなどの非制御環境における老化異常の早期発見の可能性を提供し, 虚弱検出の重要な課題に対処し, 高齢者のケア改善に寄与する。

The growing global elderly population is expected to increase the prevalence of frailty, posing significant challenges to healthcare systems. Frailty, a syndrome associated with ageing, is characterised by progressive health decline, increased vulnerability to stressors and increased risk of mortality. It represents a significant burden on public health and reduces the quality of life of those affected. The lack of a universally accepted method to assess frailty and a standardised definition highlights a critical research gap. Given this lack and the importance of early prevention, this study presents an innovative approach using an instrumented ink pen to ecologically assess handwriting for age group classification. Content-free handwriting data from 80 healthy participants in different age groups (20-40, 41-60, 61-70 and 70+) were analysed. Fourteen gesture- and tremor-related indicators were computed from the raw data and used in five classification tasks. These tasks included discriminating between adjacent and non-adjacent age groups using Catboost and Logistic Regression classifiers. Results indicate exceptional classifier performance, with accuracy ranging from 82.5% to 97.5%, precision from 81.8% to 100%, recall from 75% to 100% and ROC-AUC from 92.2% to 100%. Model interpretability, facilitated by SHAP analysis, revealed age-dependent sensitivity of temporal and tremor-related handwriting features. Importantly, this classification method offers potential for early detection of abnormal signs of ageing in uncontrolled settings such as remote home monitoring, thereby addressing the critical issue of frailty detection and contributing to improved care for older adults.
翻訳日:2023-10-02 14:25:47 公開日:2023-09-29
# 没入図8 annuli と強同型予想

Immersed figure-8 annuli and a strong isomorphism conjecture ( http://arxiv.org/abs/2309.17155v1 )

ライセンス: Link先を確認
Bowen Shi(参考訳) イマージョン(即ち局所埋め込み)は、絡み合いブートストラップによる位相秩序相の物理学に関係している。 annulus はディスクや球面に ``graphic-8" として浸漬することができ、それが埋め込まれた annulus にスムーズに変形することができない。 図8の環にアベリア状態が存在するかという単純な問題について検討する。 2つの同相没入射領域は、たとえそれらが背景物理系で滑らかに互いに変形することができないとしても、同型な情報凸集合を持つ必要がある。 我々は、なぜ強同型を気にするかを説明し、アベリアン・エノン理論の文脈で証明を与える。 さらに, 浸漬アンヌリとアノン輸送との関係について, 位相的欠陥の存在下で検討する。 付録では、より広い文脈で関連する問題を論じる。

Immersion (i.e., local embedding) is relevant to the physics of topologically ordered phases through entanglement bootstrap. An annulus can immerse in a disk or a sphere as a ``figure-8", which cannot be smoothly deformed to an embedded annulus. We investigate a simple problem: is there an Abelian state on the figure-8 annulus? We show that if the answer is affirmative, a strong sense of isomorphism must hold: two homeomorphic immersed regions must have isomorphic information convex sets, even if they cannot smoothly deform to each other on the background physical system. We explain why to care about strong isomorphism and give proof in the context of Abelian anyon theory. We further discuss a connection between immersed annuli and anyon transportation in the presence of topological defects. In appendices, we discuss related problems in broader contexts.
翻訳日:2023-10-02 14:25:21 公開日:2023-09-29
# 多重時系列の効率よく解釈可能な非線形モデリング

Efficient Interpretable Nonlinear Modeling for Multiple Time Series ( http://arxiv.org/abs/2309.17154v1 )

ライセンス: Link先を確認
Kevin Roy, Luis Miguel Lopez-Ramos and Baltasar Beferull-Lozano(参考訳) カーネルマシンやディープニューラルネットワークに基づく予測線形および非線形モデルを用いて時系列間の依存関係を検出する。 本稿では,線形ベクトル自己回帰(var)モデルに匹敵する複雑性を持ちながら,異なる時系列変数間の非線形相互作用を取り入れつつ,多重時系列に対する効率的な非線形モデリング手法を提案する。 モデル化の前提は、時系列のセットは2つのステップで生成される、すなわち、1つは潜在空間における線形varプロセス、もう2つは、センサごとに適用される可逆およびリプシッツ連続非線形マッピングの集合、すなわち、各潜在変数から測定空間内の変数へのコンポーネントワイズマッピングである。 VAR係数の識別は、上記の変数間の依存関係のトポロジー表現を提供する。 提案手法は, 可逆ニューラルネットワークを用いて各成分の非線形性をモデル化し, var係数にスパーシティを課し, 実アプリケーションでよく見られる従属関係を反映する。 定式化された最適化問題を効率的に解くために, 近似勾配降下, 確率的原始双対更新, およびプロジェクションを組み合わせて, 対応する制約を強制する独自のアルゴリズムを考案した。 合成データと実データの両方を用いた実験結果から,提案アルゴリズムは,現在の最先端手法と比較して,時系列予測を改善しつつ,相似的にVAR係数の支持度を向上することが示された。

Predictive linear and nonlinear models based on kernel machines or deep neural networks have been used to discover dependencies among time series. This paper proposes an efficient nonlinear modeling approach for multiple time series, with a complexity comparable to linear vector autoregressive (VAR) models while still incorporating nonlinear interactions among different time-series variables. The modeling assumption is that the set of time series is generated in two steps: first, a linear VAR process in a latent space, and second, a set of invertible and Lipschitz continuous nonlinear mappings that are applied per sensor, that is, a component-wise mapping from each latent variable to a variable in the measurement space. The VAR coefficient identification provides a topology representation of the dependencies among the aforementioned variables. The proposed approach models each component-wise nonlinearity using an invertible neural network and imposes sparsity on the VAR coefficients to reflect the parsimonious dependencies usually found in real applications. To efficiently solve the formulated optimization problems, a custom algorithm is devised combining proximal gradient descent, stochastic primal-dual updates, and projection to enforce the corresponding constraints. Experimental results on both synthetic and real data sets show that the proposed algorithm improves the identification of the support of the VAR coefficients in a parsimonious manner while also improving the time-series prediction, as compared to the current state-of-the-art methods.
翻訳日:2023-10-02 14:25:09 公開日:2023-09-29
# 質的分析に大規模言語モデルを使うことは深刻なバイアスをもたらす

Using Large Language Models for Qualitative Analysis can Introduce Serious Bias ( http://arxiv.org/abs/2309.17147v1 )

ライセンス: Link先を確認
Julian Ashwin, Aditya Chhabra and Vijayendra Rao(参考訳) 大規模言語モデル(llm)は急速に普及しているが、社会科学研究の意義はまだよく分かっていない。 本稿では, バングラデシュのコックス・バザールにおけるロヒンギャ難民へのインタビューの書き起こしを応用して, オープンエンドインタビューから大規模Nの質的データを分析できるかどうかを問う。 LLMを使ってテキストに注釈を付けるには、誤解を招く可能性のあるバイアスを導入するリスクがあるため、非常に注意が必要である。 ここでは,LLMが注釈付インタビューの書き起こしで犯す誤りが,インタビュー対象の特性に関してランダムではない,という技術的意味の偏りを述べる。 フレキシブルコーディングによる高品質なヒューマンアノテーションの教師付きモデルのトレーニングは、LLMアノテーションよりも測定エラーやバイアスが少なくなる。 したがって、LLMがバイアスを生じさせるかどうかを評価するためには、いくつかの高品質なアノテーションが必要であることを考慮し、アノテーションにLLMを使用するよりも、これらのアノテーションでbespokeモデルをトレーニングすることが望ましいと論じる。

Large Language Models (LLMs) are quickly becoming ubiquitous, but the implications for social science research are not yet well understood. This paper asks whether LLMs can help us analyse large-N qualitative data from open-ended interviews, with an application to transcripts of interviews with Rohingya refugees in Cox's Bazaar, Bangladesh. We find that a great deal of caution is needed in using LLMs to annotate text as there is a risk of introducing biases that can lead to misleading inferences. We here mean bias in the technical sense, that the errors that LLMs make in annotating interview transcripts are not random with respect to the characteristics of the interview subjects. Training simpler supervised models on high-quality human annotations with flexible coding leads to less measurement error and bias than LLM annotations. Therefore, given that some high quality annotations are necessary in order to asses whether an LLM introduces bias, we argue that it is probably preferable to train a bespoke model on these annotations than it is to use an LLM for annotation.
翻訳日:2023-10-02 14:24:43 公開日:2023-09-29
# プロトタイプ生成:データ独立解釈のためのロバストな特徴可視化

Prototype Generation: Robust Feature Visualisation for Data Independent Interpretability ( http://arxiv.org/abs/2309.17144v1 )

ライセンス: Link先を確認
Arush Tagade, Jessica Rumbelow(参考訳) 画像分類モデルのモデル非依存でデータ非依存な解釈のための、より厳格でより堅牢な特徴視覚化形式であるプロトタイプ生成を導入する。 我々は、不自然な内部活性化のため、特徴可視化アルゴリズムが信頼できないという以前の主張に対抗して、自然な活性化経路をもたらす入力を生成する能力を示す。 生成したプロトタイプと自然画像の内部アクティベーションの類似性を定量的に測定することで,これらの主張を裏付ける。 また,テストセットよりも定量的な手法では識別できないモデルによって学習される散発的相関とバイアスに着目し,生成されたプロトタイプの解釈が重要な洞察をもたらすことを示す。

We introduce Prototype Generation, a stricter and more robust form of feature visualisation for model-agnostic, data-independent interpretability of image classification models. We demonstrate its ability to generate inputs that result in natural activation paths, countering previous claims that feature visualisation algorithms are untrustworthy due to the unnatural internal activations. We substantiate these claims by quantitatively measuring similarity between the internal activations of our generated prototypes and natural images. We also demonstrate how the interpretation of generated prototypes yields important insights, highlighting spurious correlations and biases learned by models which quantitative methods over test-sets cannot identify.
翻訳日:2023-10-02 14:24:24 公開日:2023-09-29
# 軽量超解像頭を用いた人文推定の観点からのケパロメトリランドマーク検出の再検討

Revisiting Cephalometric Landmark Detection from the view of Human Pose Estimation with Lightweight Super-Resolution Head ( http://arxiv.org/abs/2309.17143v1 )

ライセンス: Link先を確認
Qian Wu and Si Yong Yeo and Yufei Chen and Jun Liu(参考訳) 正確な脳波ランドマークの定位は、キーポイントラベリングの自動化の可能性から、矯正学や矯正学の分野で非常に重要である。 ランドマーク検出、特に脳波学の文脈では、既存の手法には標準化されたパイプラインやよく設計されたバイアス低減プロセスが欠如していることが観察されている。 本稿では,脳波ランドマーク検出(CLD)と多くの類似点を持つヒューマンポーズ推定(HPE)の課題を再考し,後者の利点を活かすため,前者フィールドからの技術移転の可能性を強調した。 この知見に触発されて、我々はMMPoseとして知られるよく確立されたHPEコードベースに基づく堅牢で適応可能なベンチマークを開発した。 このベンチマークは、例外的なCLDパフォーマンスを達成するための信頼性の高いベースラインとして機能する。 さらに,フレームワーク内にアップスケーリング設計を導入し,パフォーマンスをさらに向上する。 この強化には軽量で効率的な超解像モジュールが組み込まれ、高分解能特性のヒートマップ予測を発生させ、量子化バイアスを減らす能力によってさらなる性能改善をもたらす。 miccai cldetection2023チャレンジでは、3つの指標でランキング1位、残りで3位となった。 このメソッドのコードはhttps://github.com/5k5000/cldetection2023で入手できる。

Accurate localization of cephalometric landmarks holds great importance in the fields of orthodontics and orthognathics due to its potential for automating key point labeling. In the context of landmark detection, particularly in cephalometrics, it has been observed that existing methods often lack standardized pipelines and well-designed bias reduction processes, which significantly impact their performance. In this paper, we revisit a related task, human pose estimation (HPE), which shares numerous similarities with cephalometric landmark detection (CLD), and emphasize the potential for transferring techniques from the former field to benefit the latter. Motivated by this insight, we have developed a robust and adaptable benchmark based on the well-established HPE codebase known as MMPose. This benchmark can serve as a dependable baseline for achieving exceptional CLD performance. Furthermore, we introduce an upscaling design within the framework to further enhance performance. This enhancement involves the incorporation of a lightweight and efficient super-resolution module, which generates heatmap predictions on high-resolution features and leads to further performance refinement, benefiting from its ability to reduce quantization bias. In the MICCAI CLDetection2023 challenge, our method achieves 1st place ranking on three metrics and 3rd place on the remaining one. The code for our method is available at https://github.com/5k5000/CLdetection2023.
翻訳日:2023-10-02 14:24:12 公開日:2023-09-29
# イメージング技術資源としてのスペックルスペックルフィールド

Speckled-speckle field as a resource for imaging techniques ( http://arxiv.org/abs/2309.17138v1 )

ライセンス: Link先を確認
Silvia Cassina, Gabriele Cenedese, Alessia Allevi and Maria Bondani(参考訳) 光の相関状態、古典的および量子的状態は、ゴーストイメージングやディファレンシャルゴーストイメージングのようないくつかのイメージング技術の実装において有用である。 古典的相関状態のうち、レーザービームを拡散器に通すことによって生じる擬熱状態が標準的な選択である。 相関度の高い光状態を生成するために、2つ以上の拡散器の配列を用いることができる。 本研究では,2つの拡散器を用いて得られた超熱的状態について,数値シミュレーションと実験による評価を行った。 擬熱光に対する超熱光のイメージングプロトコルの利点を定量化するために,画像化すべき2値オブジェクトのサイズとプロトコルに必要な画像数の関数として,コントラストと信号対雑音比といういくつかのメリットの振る舞いを解析した。 得られた結果は、擬似熱力学の代替として有効な超熱光を応用するための有望なステップである。

Correlated states of light, both classical and quantum, can find useful applications in the implementation of several imaging techniques, such as ghost imaging and differential ghost imaging. Among the classically-correlated states, pseudo-thermal states, generated by passing a laser beam through a diffuser, represent the standard choice. To produce light states with a higher level of correlation, a sequence of two or more diffusers can be used. In this work we describe and characterize the super-thermal states obtained with two diffusers using both a numerical simulation and an experimental implementation. In order to quantify the possible advantages in imaging protocols of super-thermal light over pseudo-thermal one, we analyze the behavior of some figures of merit, namely contrast and signal-to-noise ratio, as functions of the size of a binary object to be imaged and the number of images required by the protocol. The obtained results are a promising step towards the exploitation of super-thermal light as a valid alternative to pseudo-thermal one.
翻訳日:2023-10-02 14:23:50 公開日:2023-09-29
# 自己知識蒸留による諸シナリオにおける一般言語間質問応答の促進

Promoting Generalized Cross-lingual Question Answering in Few-resource Scenarios via Self-knowledge Distillation ( http://arxiv.org/abs/2309.17134v1 )

ライセンス: Link先を確認
Casimiro Pio Carrino, Carlos Escolano, Jos\'e A. R. Fonollosa(参考訳) 多言語抽出質問応答(QA)の大幅な進歩にもかかわらず、特に限られたリソースを持つ言語では、言語間で高い、均一に分散されたパフォーマンスを持つモデルは依然として困難である。 本稿では,言語間の言語間移動を主に,言語間の言語間移動(G-XLT)の課題に焦点をあてる。 提案手法は,大規模データセット上で学習した高性能な多言語モデルを用いて,言語間のQA転送を改善することを目的としている。 提案手法は, 言語横断的サンプリングと先進的自己蒸留訓練を組み合わせたものである。 特に, 教師のモデル知識を動的に制御し, バランスよく効果的な知識伝達を行うための, 微細チューン自己知識蒸留損失に対する新しいmAP@k係数を導入する。 抽出QAにおけるXLTとG-XLTの機能評価のアプローチを広く評価した。 その結果, 自己知識蒸留法は, 標準的なクロスエントロピー微調整法よりも有意差で優れていることがわかった。 重要なのは,大量の機械翻訳データを活用する強力なベースラインと比較すると,ゼロショットシナリオであっても,リソース制約された設定内で運用するという大きな課題にもかかわらず,競合的な結果が得られることだ。 パフォーマンス改善以外にも、包括的な分析とアブレーション研究を通じて貴重な洞察を提供し、このアプローチのメリットと制約をさらに強調します。 本質的には、少数のデータリソースを効率的に活用することで、言語間QA転送を改善するための実用的なソリューションを提案する。

Despite substantial progress in multilingual extractive Question Answering (QA), models with high and uniformly distributed performance across languages remain challenging, especially for languages with limited resources. We study cross-lingual transfer mainly focusing on the Generalized Cross-Lingual Transfer (G-XLT) task, where the question language differs from the context language - a challenge that has received limited attention thus far. Our approach seeks to enhance cross-lingual QA transfer using a high-performing multilingual model trained on a large-scale dataset, complemented by a few thousand aligned QA examples across languages. Our proposed strategy combines cross-lingual sampling and advanced self-distillation training in generations to tackle the previous challenge. Notably, we introduce the novel mAP@k coefficients to fine-tune self-knowledge distillation loss, dynamically regulating the teacher's model knowledge to perform a balanced and effective knowledge transfer. We extensively evaluate our approach to assess XLT and G-XLT capabilities in extractive QA. Results reveal that our self-knowledge distillation approach outperforms standard cross-entropy fine-tuning by a significant margin. Importantly, when compared to a strong baseline that leverages a sizeable volume of machine-translated data, our approach shows competitive results despite the considerable challenge of operating within resource-constrained settings, even in zero-shot scenarios. Beyond performance improvements, we offer valuable insights through comprehensive analyses and an ablation study, further substantiating the benefits and constraints of our approach. In essence, we propose a practical solution to improve cross-lingual QA transfer by leveraging a few data resources in an efficient way.
翻訳日:2023-10-02 14:23:34 公開日:2023-09-29
# 拡張視覚質問応答検索のための細粒度遅延対話型マルチモーダル検索

Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering ( http://arxiv.org/abs/2309.17133v1 )

ライセンス: Link先を確認
Weizhe Lin, Jinghong Chen, Jingbiao Mei, Alexandru Coca, Bill Byrne(参考訳) 知識に基づくビジュアル質問回答 (KB-VQA) は、既存の知識ベースからの知識を活用して、視覚的に座屈した質問に答えるためにVQAシステムを必要とする。 KB-VQAに取り組む強力なフレームワークであるRetrieval-Augmented Visual Question Answering (RA-VQA)は、まずDense Passage Retrieval (DPR)で関連ドキュメントを取得し、その後、それらを使用して質問に答える。 本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。 1)画像からテキストへの変換によって得られた画像表現は不完全で不正確であり、(2)クエリとドキュメント間の関連スコアは1次元の埋め込みで計算され、よりきめ細かな関連性には敏感である。 FLMRは、画像からテキストへの変換を補完する画像表現を、単純なアライメントネットワークを通じて既存のテキストベースレトリバーと整列した視覚モデルを用いて取得することで、これらの制限を克服する。 flmrはまた、多次元埋め込みを使って画像や質問をエンコードし、クエリとドキュメント間のきめ細かい関連性を捉える。 FLMRはRA-VQAレトリバーのPRRecall@5を約8倍改善する。 最後に、RA-VQAと最先端の2つの大規模マルチモーダル/言語モデルを用いて、OK-VQAデータセットで$\sim61\%$VQAスコアを得る。

Knowledge-based Visual Question Answering (KB-VQA) requires VQA systems to utilize knowledge from existing knowledge bases to answer visually-grounded questions. Retrieval-Augmented Visual Question Answering (RA-VQA), a strong framework to tackle KB-VQA, first retrieves related documents with Dense Passage Retrieval (DPR) and then uses them to answer questions. This paper proposes Fine-grained Late-interaction Multi-modal Retrieval (FLMR) which significantly improves knowledge retrieval in RA-VQA. FLMR addresses two major limitations in RA-VQA's retriever: (1) the image representations obtained via image-to-text transforms can be incomplete and inaccurate and (2) relevance scores between queries and documents are computed with one-dimensional embeddings, which can be insensitive to finer-grained relevance. FLMR overcomes these limitations by obtaining image representations that complement those from the image-to-text transforms using a vision model aligned with an existing text-based retriever through a simple alignment network. FLMR also encodes images and questions using multi-dimensional embeddings to capture finer-grained relevance between queries and documents. FLMR significantly improves the original RA-VQA retriever's PRRecall@5 by approximately 8\%. Finally, we equipped RA-VQA with two state-of-the-art large multi-modal/language models to achieve $\sim61\%$ VQA score in the OK-VQA dataset.
翻訳日:2023-10-02 14:23:06 公開日:2023-09-29
# GRANDE: 勾配ベースの決定木アンサンブル

GRANDE: Gradient-Based Decision Tree Ensembles ( http://arxiv.org/abs/2309.17130v1 )

ライセンス: Link先を確認
Sascha Marton, Stefan L\"udtke, Christian Bartelt, Heiner Stuckenschmidt(参考訳) テキストや画像データに対するディープラーニングの成功にもかかわらず、ツリーベースのアンサンブルモデルは、不均一な表データを用いた機械学習の最先端である。 しかし,その柔軟性から,表特異的な勾配に基づく手法が必要となる。 本稿では,エンド・ツー・エンドの勾配降下を用いて,軸に整列した決定木を学習するための新しいアプローチである,$\text{grande}$,$\text{gra}$die$\text{n}$t-based$\text{d}$ecision tree $\text{e}$nsemblesを提案する。 GRANDEはツリーアンサンブルの密度の高い表現に基づいており、すべてのモデルパラメータを協調的に最適化するために、ストレートスルー演算子とバックプロパゲーションを使用することができる。 本手法は,表データに対して有用なインダクティブバイアスである軸方向分割と,勾配に基づく最適化の柔軟性を組み合わせたものである。 さらに、単一モデル内での単純かつ複雑な関係の学習表現を容易にする高度なインスタンスワイド重み付けを導入する。 19の分類データセットを用いた事前定義されたベンチマークを広範囲に評価し,提案手法が既存の勾配ブースティングおよびディープラーニングフレームワークよりも優れていることを示す。

Despite the success of deep learning for text and image data, tree-based ensemble models are still state-of-the-art for machine learning with heterogeneous tabular data. However, there is a significant need for tabular-specific gradient-based methods due to their high flexibility. In this paper, we propose $\text{GRANDE}$, $\text{GRA}$die$\text{N}$t-Based $\text{D}$ecision Tree $\text{E}$nsembles, a novel approach for learning hard, axis-aligned decision tree ensembles using end-to-end gradient descent. GRANDE is based on a dense representation of tree ensembles, which affords to use backpropagation with a straight-through operator to jointly optimize all model parameters. Our method combines axis-aligned splits, which is a useful inductive bias for tabular data, with the flexibility of gradient-based optimization. Furthermore, we introduce an advanced instance-wise weighting that facilitates learning representations for both, simple and complex relations, within a single model. We conducted an extensive evaluation on a predefined benchmark with 19 classification datasets and demonstrate that our method outperforms existing gradient-boosting and deep learning frameworks on most datasets.
翻訳日:2023-10-02 14:22:37 公開日:2023-09-29
# 乱雑な環境下での収穫トマトを移植する視覚誘導型ロボットシステム

A Vision-Guided Robotic System for Grasping Harvested Tomato Trusses in Cluttered Environments ( http://arxiv.org/abs/2309.17170v1 )

ライセンス: Link先を確認
Luuk van den Bent, Tom\'as Coleman, Robert Babuska(参考訳) 現在、トマトの重量と包装にはかなりの手作業が必要である。 自動化の主な障害は、すでに収穫されたトラスのための信頼できるロボット把持システムを開発することの難しさにある。 本研究では, 雑草を多く含む木枠に積み重ねたトラスを把握し, 収穫後の貯蔵, 輸送を行う方法を提案する。 この方法は、学習に基づく視覚システムからなり、まずクレート内の個々のトラスを識別し、茎上の適切な把握位置を決定する。 この目的のために,オンライン学習機能を備えた把持ポーズランキングアルゴリズムを導入した。 最も有望な把持姿勢を選択した後、ロボットはタッチセンサーや幾何学モデルを必要としないピンチ把持を実行する。 rgb-dカメラを搭載したロボットマニピュレータによる実験では、すべてのトラスを山から拾う作業で100%クリアランス率を示した。 93%のトラスが最初の試練に成功し、残りの7%がそれ以上の試練を必要とした。

Currently, truss tomato weighing and packaging require significant manual work. The main obstacle to automation lies in the difficulty of developing a reliable robotic grasping system for already harvested trusses. We propose a method to grasp trusses that are stacked in a crate with considerable clutter, which is how they are commonly stored and transported after harvest. The method consists of a deep learning-based vision system to first identify the individual trusses in the crate and then determine a suitable grasping location on the stem. To this end, we have introduced a grasp pose ranking algorithm with online learning capabilities. After selecting the most promising grasp pose, the robot executes a pinch grasp without needing touch sensors or geometric models. Lab experiments with a robotic manipulator equipped with an eye-in-hand RGB-D camera showed a 100% clearance rate when tasked to pick all trusses from a pile. 93% of the trusses were successfully grasped on the first try, while the remaining 7% required more attempts.
翻訳日:2023-10-02 14:16:29 公開日:2023-09-29
# 表現型概念認識のためのGPTモデルの評価

An evaluation of GPT models for phenotype concept recognition ( http://arxiv.org/abs/2309.17169v1 )

ライセンス: Link先を確認
Tudor Groza, Harry Caufield, Dylan Gration, Gareth Baynam, Melissa A Haendel, Peter N Robinson, Chris J Mungall and Justin T Reese(参考訳) 目的: 臨床的深部表現型は, 稀な疾患の診断とケアコーディネートプランの構築において重要な役割を担っている。 このプロセスは、通常人間の表現型オントロジーに由来するオントロジーの概念を用いて、患者のプロファイルのモデリングとキュレーションに依存している。 この表現型概念認識タスクをサポートするために機械学習手法が広く採用されている。 また,ほとんどのNLPタスクに大規模言語モデル(LLM)を用いることで,ChatGPTを基盤とした最新のGPT(Generative Pre-trained Transformer)モデルの性能を臨床的深層表現法で検討した。 材料と方法: 実験装置は7種類の特異性のプロンプトと2つのGPTモデル(gpt-3.5とgpt-4.0)と、表現型認識のための確立された金標準を含んでいた。 結果: この結果から, 現状では, これらのモデルがまだ達成されていないことが明らかとなった。 ベストランは数発の学習で0.41F1を達成し、クラスツールでは0.62F1を達成した。 結論: 結果の非決定論的性質と同一のプロンプトとインプットを用いて異なる実行間の一致の欠如により, 臨床環境におけるこれらのLCMの使用が問題となる。

Objective: Clinical deep phenotyping plays a critical role in both the diagnosis of patients with rare disorders as well as in building care coordination plans. The process relies on modelling and curating patient profiles using ontology concepts, usually from the Human Phenotype Ontology. Machine learning methods have been widely adopted to support this phenotype concept recognition task. With the significant shift in the use of large language models (LLMs) for most NLP tasks, herewithin, we examine the performance of the latest Generative Pre-trained Transformer (GPT) models underpinning ChatGPT in clinical deep phenotyping. Materials and Methods: The experimental setup of the study included seven prompts of various levels of specificity, two GPT models (gpt-3.5 and gpt-4.0) and an established gold standard for phenotype recognition. Results: Our results show that, currently, these models have not yet achieved state of the art performance. The best run, using few-shots learning, achieved 0.41 F1 score, compared to a 0.62 F1 score achieved by the current best in class tool. Conclusion: The non-deterministic nature of the outcomes and the lack of concordance between different runs using the same prompt and input makes the use of these LLMs in clinical settings problematic.
翻訳日:2023-10-02 14:16:13 公開日:2023-09-29
# 電荷パリティスイッチング効果とトランスモン量子ビット設計パラメータの最適化

Charge-parity switching effects and optimisation of transmon-qubit design parameters ( http://arxiv.org/abs/2309.17168v1 )

ライセンス: Link先を確認
Miha Papi\v{c}, Jani Tuorila, Adrian Auer, In\'es de Vega, Amin Hosseinkhani(参考訳) ノイズの多い量子プロセッサの性能向上には、エラーメカニズムの理解と克服方法の改善が必要です。 正確な誤差モデルによって導かれる量子ビット設計パラメータの偏見的な選択は、量子プロセッサの性能向上に重要な役割を果たす。 本研究では,包括的雑音モデルに基づく量子ビット設計パラメータの最適範囲を同定する。 この目的のために, 準粒子による電荷パリティスイッチによるディアバティックな2量子ビットゲートの摂動が可能な, 従来未検討の誤差機構を解析し始める。 これらの電荷パリティスイッチングは、2つのキュービット間の制御zゲートにおいて支配的な準粒子関連エラー源となり得る。 さらに、制御不能な電荷パリティスイッチを生じる準粒子のダイナミクスが、チューナブルカップラー回路におけるキュービット間の残留長周期相互作用を誘導することを示した。 最適設計パラメータの解析は、回路内の単一および2量子ビットゲートの出現の忠実性と周波数を考慮に入れた量子回路実行性能指標に基づいている。 この性能指標と詳細なノイズモデルにより、量子ビット設計パラメータの最適範囲を求めることができる。 数値シミュレーションにより, 量子チップを最適パラメータ範囲内に構築することで, 性能指標を増大させるだけでなく, 個々の量子ビットコヒーレンス特性の強化による改良を継続できることを確認した。 逆に、最適パラメータ範囲からの傾きは、性能指標の飽和につながる可能性がある。 我々の系統分析は洞察を与え、次世代のトランスモンベースの量子プロセッサの開発のための指針となる。

Enhancing the performance of noisy quantum processors requires improving our understanding of error mechanisms and the ways to overcome them. A judicious selection of qubit design parameters, guided by an accurate error model, plays a pivotal role in improving the performance of quantum processors. In this study, we identify optimal ranges for qubit design parameters, grounded in comprehensive noise modeling. To this end, we commence by analyzing a previously unexplored error mechanism that can perturb diabatic two-qubit gates due to charge-parity switches caused by quasiparticles. We show that such charge-parity switching can be the dominant quasiparticle-related error source in a controlled-Z gate between two qubits. Moreover, we also demonstrate that quasiparticle dynamics, resulting in uncontrolled charge-parity switches, induce a residual longitudinal interaction between qubits in a tunable-coupler circuit. Our analysis of optimal design parameters is based on a performance metric for quantum circuit execution that takes into account the fidelity and frequencies of the appearance of both single and two-qubit gates in the circuit. This performance metric together with a detailed noise model enables us to find an optimal range for the qubit design parameters. Substantiating our findings through exact numerical simulations, we establish that fabricating quantum chips within this optimal parameter range not only augments the performance metric but also ensures its continued improvement with the enhancement of individual qubit coherence properties. Conversely, straying from the optimal parameter range can lead to the saturation of the performance metric. Our systematic analysis offers insights and serves as a guiding framework for the development of the next generation of transmon-based quantum processors.
翻訳日:2023-10-02 14:15:49 公開日:2023-09-29
# DyVal: 大規模言語モデルのグラフインフォームド動的評価

DyVal: Graph-informed Dynamic Evaluation of Large Language Models ( http://arxiv.org/abs/2309.17167v1 )

ライセンス: Link先を確認
Kaijie Zhu, Jiaao Chen, Jindong Wang, Neil Zhenqiang Gong, Diyi Yang, Xing Xie(参考訳) 大規模言語モデル (LLM) は様々な評価ベンチマークで顕著な性能を達成した。 しかし、その性能に関する懸念は、膨大な量のトレーニングコーパスにおける潜在的なデータ汚染に起因している。 さらに、現在のベンチマークの静的な性質と固定された複雑さは、LLMの進行能力を不適切に評価することができる。 本稿では,LLMの動的評価のための新しい,汎用的で柔軟な評価プロトコルであるDyValを紹介する。 提案する動的評価フレームワークに基づき,有向非巡回グラフの構造的利点を利用して,制御可能な複雑度を有する評価サンプルを動的に生成する。 DyValは、数学、論理的推論、アルゴリズム問題を含む推論タスクに関する挑戦的な評価セットを生成する。 Flan-T5-large から ChatGPT , GPT4 まで様々な LLM の評価を行った。 実験により, 複雑度が異なるDyVal生成評価試料では, LLMが悪化し, 動的評価の重要性が強調された。 また,異なるプロンプト手法の故障事例と結果についても分析した。 さらに、DyValの生成したサンプルは評価セットだけではなく、既存のベンチマーク上でのLCMの性能向上のための微調整に役立つデータでもある。 我々はDyValが将来のLCMの評価研究に光を当てられることを願っている。

Large language models (LLMs) have achieved remarkable performance in various evaluation benchmarks. However, concerns about their performance are raised on potential data contamination in their considerable volume of training corpus. Moreover, the static nature and fixed complexity of current benchmarks may inadequately gauge the advancing capabilities of LLMs. In this paper, we introduce DyVal, a novel, general, and flexible evaluation protocol for dynamic evaluation of LLMs. Based on our proposed dynamic evaluation framework, we build graph-informed DyVal by leveraging the structural advantage of directed acyclic graphs to dynamically generate evaluation samples with controllable complexities. DyVal generates challenging evaluation sets on reasoning tasks including mathematics, logical reasoning, and algorithm problems. We evaluate various LLMs ranging from Flan-T5-large to ChatGPT and GPT4. Experiments demonstrate that LLMs perform worse in DyVal-generated evaluation samples with different complexities, emphasizing the significance of dynamic evaluation. We also analyze the failure cases and results of different prompting methods. Moreover, DyVal-generated samples are not only evaluation sets, but also helpful data for fine-tuning to improve the performance of LLMs on existing benchmarks. We hope that DyVal can shed light on the future evaluation research of LLMs.
翻訳日:2023-10-02 14:15:24 公開日:2023-09-29
# 高密度インスタンスセグメンテーションによる腎臓生検構造評価の進歩

Advances in Kidney Biopsy Structural Assessment through Dense Instance Segmentation ( http://arxiv.org/abs/2309.17166v1 )

ライセンス: Link先を確認
Zhan Xiong, Junling He, Pieter Valkema, Tri Q. Nguyen, Maarten Naesens, Jesper Kers, and Fons J. Verbeek(参考訳) 腎臓生検は腎臓疾患の診断における金の基準である。 専門家の腎病理学者による病変スコアは半定量的であり、オブザーバー間変動が高い。 したがって、セグメント化された解剖学的対象ごとの統計を自動的に取得すると、労力とサーバ間の変動を減少させる大きなメリットをもたらす。 しかし、生検のインスタンスセグメンテーションは、難しい問題であった。 (a)解剖学的構造に密着した平均的な数(約300~1000) (b)複数のクラス(少なくとも3)と (c)大きさや形状が異なる。 現在使われているインスタンスセグメンテーションモデルは、効率的だが汎用的な方法でこれらの課題を同時に処理することはできない。 本稿では,拡散モデル,変圧器モジュール,RCNN(地域畳み込みニューラルネットワーク)を組み合わせた,最初のアンカーフリーインスタンスセグメンテーションモデルを提案する。 私たちのモデルは1つのNVIDIA GeForce RTX 3090 GPUでトレーニングされていますが、腎生検で一般的な3つの解剖学的対象クラスを持つ500以上のオブジェクトを効率的に認識することができます。 本データセットは, トレーニングに249個のパッチを使用し, 評価に54個のパッチを使用した148個のJonesの腎全スライド画像(WSI)から抽出した303個のパッチからなる。 さらに、調整や再トレーニングがなければ、モデルはドメインを直接転送して、passtained wsisから適切なインスタンスセグメンテーション結果を生成することができる。 重要なことに、他のベースラインモデルよりも優れており、新しい最先端技術としてAP 51.7%に達する。

The kidney biopsy is the gold standard for the diagnosis of kidney diseases. Lesion scores made by expert renal pathologists are semi-quantitative and suffer from high inter-observer variability. Automatically obtaining statistics per segmented anatomical object, therefore, can bring significant benefits in reducing labor and this inter-observer variability. Instance segmentation for a biopsy, however, has been a challenging problem due to (a) the on average large number (around 300 to 1000) of densely touching anatomical structures, (b) with multiple classes (at least 3) and (c) in different sizes and shapes. The currently used instance segmentation models cannot simultaneously deal with these challenges in an efficient yet generic manner. In this paper, we propose the first anchor-free instance segmentation model that combines diffusion models, transformer modules, and RCNNs (regional convolution neural networks). Our model is trained on just one NVIDIA GeForce RTX 3090 GPU, but can efficiently recognize more than 500 objects with 3 common anatomical object classes in renal biopsies, i.e., glomeruli, tubuli, and arteries. Our data set consisted of 303 patches extracted from 148 Jones' silver-stained renal whole slide images (WSIs), where 249 patches were used for training and 54 patches for evaluation. In addition, without adjustment or retraining, the model can directly transfer its domain to generate decent instance segmentation results from PAS-stained WSIs. Importantly, it outperforms other baseline models and reaches an AP 51.7% in detection as the new state-of-the-art.
翻訳日:2023-10-02 14:15:07 公開日:2023-09-29
# Retail-786k:ビジュアルエンティティマッチングのための大規模データセット

Retail-786k: a Large-Scale Dataset for Visual Entity Matching ( http://arxiv.org/abs/2309.17164v1 )

ライセンス: Link先を確認
Bianca Lamm (1 and 2), Janis Keuper (1) ((1) IMLA, Offenburg University, (2) Markant Services International GmbH)(参考訳) エンティティマッチング(em)は、例のグループ(=エンティティ)から未認識データへ意味概念を転送することで、オブジェクトをグループ化する学習のタスクを定義する。 多くのEM-problemの文脈で画像データが一般に利用可能であるにもかかわらず、現在利用可能なEM-algorithmは(テキスト)メタデータのみに依存している。 本稿では,小売ドメインにおける生産レベルのユースケースに基づいた,視覚的実体マッチングのための最初の大規模データセットについて紹介する。 欧州の異なる小売業者から数年にわたって収集されたスキャン済みの広告リーフレットを用いて、約786kの注釈付き高解像度の製品イメージを、約18kの個々の小売商品を含む約3kのエンティティにまとめて提供します。 これらの製品エンティティのアノテーションは、各エンティティが同等の製品の同値クラスを形成する価格比較タスクに基づいている。 最初のベースライン評価に従えば,提案した「視覚的実体マッチング」が,標準画像に基づく分類と検索アルゴリズムでは十分解決できない,新しい学習課題を構成することを示す。 代わりに、提案する問題に対処するために、サンプルベースの視覚的等価クラスを新しいデータに転送できる新しいアプローチが必要となる。 本論文の目的は,そのようなアルゴリズムのベンチマークを提供することである。 データセット、評価コード、ダウンロード手順に関する情報はhttps://www.retail-786k.org/で提供される。

Entity Matching (EM) defines the task of learning to group objects by transferring semantic concepts from example groups (=entities) to unseen data. Despite the general availability of image data in the context of many EM-problems, most currently available EM-algorithms solely rely on (textual) meta data. In this paper, we introduce the first publicly available large-scale dataset for "visual entity matching", based on a production level use case in the retail domain. Using scanned advertisement leaflets, collected over several years from different European retailers, we provide a total of ~786k manually annotated, high resolution product images containing ~18k different individual retail products which are grouped into ~3k entities. The annotation of these product entities is based on a price comparison task, where each entity forms an equivalence class of comparable products. Following on a first baseline evaluation, we show that the proposed "visual entity matching" constitutes a novel learning problem which can not sufficiently be solved using standard image based classification and retrieval algorithms. Instead, novel approaches which allow to transfer example based visual equivalent classes to new data are needed to address the proposed problem. The aim of this paper is to provide a benchmark for such algorithms. Information about the dataset, evaluation code and download instructions are provided under https://www.retail-786k.org/.
翻訳日:2023-10-02 14:14:41 公開日:2023-09-29
# APNet:空中画像と点雲の都市レベルのシーンセグメンテーション

APNet: Urban-level Scene Segmentation of Aerial Images and Point Clouds ( http://arxiv.org/abs/2309.17162v1 )

ライセンス: Link先を確認
Weijie Wei and Martin R. Oswald and Fatemeh Karimi Nejadasl and Theo Gevers(参考訳) 本稿では,都市景観の点雲に対する意味セグメンテーション手法に着目した。 私たちの基本的な概念は、異なるコンテキスト情報やネットワークアーキテクチャの恩恵を受けるために、多様なシーン表現を協調的に活用することです。 この目的のために、提案されたネットワークアーキテクチャはapnetと呼ばれ、ポイントクラウドブランチとポイントクラウドから入力される空中イメージブランチの2つのブランチに分割される。 各ブランチの異なる特性を活用するために,各ブランチの結果を組み合わせるために学習した幾何認識融合モジュールを用いる。 各ブランチに対する別の損失は、ひとつのブランチが結果を支配することを避け、各ブランチの最高のパフォーマンスを個別に保証し、データフュージョンのみを実行することを保証する融合ネットワークの入力ドメインを明示的に定義する。 実験の結果, 融合出力は個々のネットワーク分岐より一貫して優れており, センサットUrbanデータセット上でのAPNetによる65.2 mIoUの最先端性能を実現していることがわかった。 受け入れると、ソースコードがアクセスできるようになる。

In this paper, we focus on semantic segmentation method for point clouds of urban scenes. Our fundamental concept revolves around the collaborative utilization of diverse scene representations to benefit from different context information and network architectures. To this end, the proposed network architecture, called APNet, is split into two branches: a point cloud branch and an aerial image branch which input is generated from a point cloud. To leverage the different properties of each branch, we employ a geometry-aware fusion module that is learned to combine the results of each branch. Additional separate losses for each branch avoid that one branch dominates the results, ensure the best performance for each branch individually and explicitly define the input domain of the fusion network assuring it only performs data fusion. Our experiments demonstrate that the fusion output consistently outperforms the individual network branches and that APNet achieves state-of-the-art performance of 65.2 mIoU on the SensatUrban dataset. Upon acceptance, the source code will be made accessible.
翻訳日:2023-10-02 14:14:17 公開日:2023-09-29
# 3D-LUTを用いたHDR/WCGディスプレイの逆トーンマッピングにおける精度と内容の再分配

Redistributing the Precision and Content in 3D-LUT-based Inverse Tone-mapping for HDR/WCG Display ( http://arxiv.org/abs/2309.17160v1 )

ライセンス: Link先を確認
Cheng Guo and Leidong Fan and Qian Zhang and Hanyuan Liu and Kanglin Liu and Xiuhua Jiang(参考訳) itm(inverse tone-mapping)はsdr(standard dynamic range)映像をhdr/wcg(high dynamic range /wide color gamut)に変換する。 フロントエンドのコンテンツプロバイダでレガシなSDR映像をリマスターするだけでなく、ユーザエンドのHDRディスプレイにオンデマンドのSDRサービスを適用する場合にも発生する。 後者はより効率が良いため、事前計算されたLUT(ルックアップテーブル)が一般的な解となっている。 しかし、従来の固定LUTには適応性がないため、研究コミュニティから学び、AIと組み合わせることができます。 一方、高ビット深度HDR/WCGはSDRよりもLUTが大きいため、従来のIMTを参考にして効率と性能のトレードオフを行う。 この場合、それぞれの結果が自身の範囲でのみエラーが少ないため、最終的な結果に最適な部分を組み合わせるためにコントリビューションマップを使用します。 このマップのガイダンスにより、3つのUTTの要素(コンテンツ)もトレーニング中に再配布される。 方法の有効性を検証するためにアブレーション研究を行い,その実践性を示すための主観的および客観的実験を行った。 コードは、https://github.com/AndreGuo/ITMLUT.comで入手できる。

ITM(inverse tone-mapping) converts SDR (standard dynamic range) footage to HDR/WCG (high dynamic range /wide color gamut) for media production. It happens not only when remastering legacy SDR footage in front-end content provider, but also adapting on-theair SDR service on user-end HDR display. The latter requires more efficiency, thus the pre-calculated LUT (look-up table) has become a popular solution. Yet, conventional fixed LUT lacks adaptability, so we learn from research community and combine it with AI. Meanwhile, higher-bit-depth HDR/WCG requires larger LUT than SDR, so we consult traditional ITM for an efficiency-performance trade-off: We use 3 smaller LUTs, each has a non-uniform packing (precision) respectively denser in dark, middle and bright luma range. In this case, their results will have less error only in their own range, so we use a contribution map to combine their best parts to final result. With the guidance of this map, the elements (content) of 3 LUTs will also be redistributed during training. We conduct ablation studies to verify method's effectiveness, and subjective and objective experiments to show its practicability. Code is available at: https://github.com/AndreGuo/ITMLUT.
翻訳日:2023-10-02 14:13:58 公開日:2023-09-29
# 多国間交渉における妥協と人工知能のグローバル規制

Compromise in Multilateral Negotiations and the Global Regulation of Artificial Intelligence ( http://arxiv.org/abs/2309.17158v1 )

ライセンス: Link先を確認
Michal Natorski(参考訳) 人工知能(AI)技術が世界中に普及するにつれ、国際的議論は民主主義、人権、基本的自由、安全保障、経済・社会発展への影響にますます焦点を当てている。 この文脈で、2021年11月に採用されたユネスコの人工知能倫理勧告は、AI開発とデプロイメントのための最初のグローバルな規範的フレームワークとして登場した。 文書のあらゆる詳細に関する激しい交渉はユネスコ加盟国の間で多くの論争を引き起こした。 本稿では,ユネスコ加盟国の多様な自由主義的・主権主義的選好を代表する立場が多様であるにもかかわらず,ai規制における世界的妥協の達成について述べる。 ボルタンスキーのプラグマティックな社会学に基づいて、多角的交渉の実践を概念化し、多角的妥協を構造規範的ハイブリッド性(structure normative hybridity)と配置的規範的曖昧性( location normative ambiguity)の2つの組み込み機構に分類する。

As artificial intelligence (AI) technologies spread worldwide, international discussions have increasingly focused on their consequences for democracy, human rights, fundamental freedoms, security, and economic and social development. In this context, UNESCO's Recommendation on the Ethics of Artificial Intelligence, adopted in November 2021, has emerged as the first global normative framework for AI development and deployment. The intense negotiations of every detail of the document brought forth numerous controversies among UNESCO member states. Drawing on a unique set of primary sources, including written positions and recorded deliberations, this paper explains the achievement of global compromise on AI regulation despite the multiplicity of UNESCO member-state positions representing a variety of liberal and sovereignist preferences. Building upon Boltanski's pragmatic sociology, it conceptualises the practice of multilateral negotiations and attributes the multilateral compromise to two embedded therein mechanisms: Structural normative hybridity and situated normative ambiguity allowed to accomplish a compromise by linking macro-normative structures with situated debates of multilateral negotiations.
翻訳日:2023-10-02 14:13:34 公開日:2023-09-29
# latticegen: クラウド上のプライバシアウェア生成のための格子に生成されたテキストを隠す協調フレームワーク

LatticeGen: A Cooperative Framework which Hides Generated Text in a Lattice for Privacy-Aware Generation on Cloud ( http://arxiv.org/abs/2309.17157v1 )

ライセンス: Link先を確認
Mengke Zhang, Tianxing He, Tianle Wang, Fatemehsadat Mireshghallah, Binyi Chen, Hao Wang, Yulia Tsvetkov(参考訳) クラウド上の大規模言語モデル(LLM)で生成を誘導する現在のユーザサーバインタラクションパラダイムでは、サーバが生成プロセスを完全に制御し、生成したテキストを自分自身に保持したいユーザのための選択肢がゼロになる。 我々は,ユーザがサンプリング操作を制御する間,サーバが依然としてほとんどの計算処理を行う協調的なフレームワークであるLatticeGenを提案する。 鍵となる考え方は、真の生成シーケンスがユーザによるノイズトークンと混在し、ノイズ格子に隠されていることである。 疑似悪意のあるサーバからの攻撃の可能性と、ユーザがそれに対して防御できる方法を考慮し、繰り返しビーム探索攻撃と混合ノイズスキームを提案する。 実験では、LatticeGenを使ってプロンプトとジェネレーションの両方を保護します。 ノイズ格子は生成品質を劣化させるが、LatticeGenは強力な攻撃の下で真の世代を顕著に保護する(BERTScoreが測定したようにセマンティックの50%以上が隠されている)。

In the current user-server interaction paradigm of prompted generation with large language models (LLM) on cloud, the server fully controls the generation process, which leaves zero options for users who want to keep the generated text to themselves. We propose LatticeGen, a cooperative framework in which the server still handles most of the computation while the user controls the sampling operation. The key idea is that the true generated sequence is mixed with noise tokens by the user and hidden in a noised lattice. Considering potential attacks from a hypothetically malicious server and how the user can defend against it, we propose the repeated beam-search attack and the mixing noise scheme. In our experiments we apply LatticeGen to protect both prompt and generation. It is shown that while the noised lattice degrades generation quality, LatticeGen successfully protects the true generation to a remarkable degree under strong attacks (more than 50% of the semantic remains hidden as measured by BERTScore).
翻訳日:2023-10-02 14:13:12 公開日:2023-09-29
# PARF: 室内シーンの新規合成のためのプリミティブ・アウェア・ラジアンス・フュージョン

PARF: Primitive-Aware Radiance Fusion for Indoor Scene Novel View Synthesis ( http://arxiv.org/abs/2309.17190v1 )

ライセンス: Link先を確認
Haiyang Ying and Baowei Jiang and Jinzhi Zhang and Di Xu and Tao Yu and Qionghai Dai and Lu Fang(参考訳) 本稿では,高精巧なビュー合成性能と便利なシーン編集機能を備えた高速シーンレイディアンスフィールド再構成手法を提案する。 鍵となる考え方は、セマンティック解析とプリミティブ抽出を完全活用して、放射場再構成プロセスの制約と高速化である。 この目標を達成するために、ボリュームレンダリングとプリミティブレンダリングの両方の利点を享受するために、プリミティブなハイブリッドレンダリング戦略が提案された。 さらに、各入力フレームに対して、プリミティブ解析およびラディアンスフィールド学習を反復的に実施し、セマンティック、プリミティブ、およびラディアンス情報を単一のフレームワークに融合させる。 広範な評価により,高速な復元性能,高いレンダリング品質,簡便な編集機能を示す。

This paper proposes a method for fast scene radiance field reconstruction with strong novel view synthesis performance and convenient scene editing functionality. The key idea is to fully utilize semantic parsing and primitive extraction for constraining and accelerating the radiance field reconstruction process. To fulfill this goal, a primitive-aware hybrid rendering strategy was proposed to enjoy the best of both volumetric and primitive rendering. We further contribute a reconstruction pipeline conducts primitive parsing and radiance field learning iteratively for each input frame which successfully fuses semantic, primitive, and radiance information into a single framework. Extensive evaluations demonstrate the fast reconstruction ability, high rendering quality, and convenient editing functionality of our method.
翻訳日:2023-10-02 14:04:53 公開日:2023-09-29
# RTFS-Net:効率的な音声・視覚音声分離のための繰り返し時間周波数モデリング

RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual speech separation ( http://arxiv.org/abs/2309.17189v1 )

ライセンス: Link先を確認
Samuel Pegg, Kai Li, Xiaolin Hu(参考訳) 音声-視覚的音声分離手法は,高品質な分離音声を生成するために,異なるモードを統合することを目的としている。 既存のSOTA(State-of-the-art)モデルは時間領域で動作する。 しかし、音響特性をモデル化するための過度に単純化されたアプローチは、SOTAの性能を達成するために、より大きくより計算集約的なモデルを必要とすることが多い。 本稿では、短時間フーリエ変換によって得られる複雑な時間周波数ビンに対して、そのアルゴリズムを適用したRTFS-Net(Recurrent Time-Frequency Separation Network)を提案する。 我々は、各次元に沿って多層RNNを用いて、オーディオの時間と周波数の次元を独立にモデル化し、キャプチャする。 さらに,音声と視覚情報の効率的な統合のためのユニークな注意に基づく融合手法と,より明瞭な分離のために音響特徴の固有スペクトル特性を利用した新しいマスク分離手法を提案する。 RTFS-Netは、パラメータの10%とMACの18%しか使用せず、以前のSOTA法より優れている。 これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。

Audio-visual speech separation methods aim to integrate different modalities to generate high-quality separated speech, thereby enhancing the performance of downstream tasks such as speech recognition. Most existing state-of-the-art (SOTA) models operate in the time domain. However, their overly simplistic approach to modeling acoustic features often necessitates larger and more computationally intensive models in order to achieve SOTA performance. In this paper, we present a novel time-frequency domain audio-visual speech separation method: Recurrent Time-Frequency Separation Network (RTFS-Net), which applies its algorithms on the complex time-frequency bins yielded by the Short-Time Fourier Transform. We model and capture the time and frequency dimensions of the audio independently using a multi-layered RNN along each dimension. Furthermore, we introduce a unique attention-based fusion technique for the efficient integration of audio and visual information, and a new mask separation approach that takes advantage of the intrinsic spectral nature of the acoustic features for a clearer separation. RTFS-Net outperforms the previous SOTA method using only 10% of the parameters and 18% of the MACs. This is the first time-frequency domain audio-visual speech separation method to outperform all contemporary time-domain counterparts.
翻訳日:2023-10-02 14:04:37 公開日:2023-09-29
# tbd歩行者データ収集 : リッチ・ポータブル・大規模自然歩行者データを目指して

TBD Pedestrian Data Collection: Towards Rich, Portable, and Large-Scale Natural Pedestrian Data ( http://arxiv.org/abs/2309.17187v1 )

ライセンス: Link先を確認
Allan Wang, Daisuke Sato, Yasser Corzo, Sonya Simkin, Aaron Steinfeld(参考訳) ソーシャルナビゲーションと歩行者行動研究は、機械学習に基づく手法へとシフトし、ペデストリアン間の相互作用と歩行者とロボットの相互作用のモデリングの話題に収束した。 そのためには、豊富な情報を含む大規模データセットが必要である。 本稿では,半自動ラベリングパイプラインと組み合わせた携帯型データ収集システムについて述べる。 パイプラインの一部として、自動歩行者追跡結果の人間による検証を容易にするラベル補正ウェブアプリを設計した。 本システムでは,多様な環境における大規模データ収集と高速軌道ラベル生成を実現する。 既存の歩行者データ収集手法と比較して,本システムは,トップダウン視点とエゴ中心視点の組み合わせ,社会的に適切な「ロボット」の存在下での自然な人間の行動,計量空間に接する人間検証ラベルの3つの構成要素を含む。 私たちの知る限りでは、以前のデータ収集システムには3つのコンポーネントが組み合わさっていません。 TBD Pedestrian Dataset(TBD Pedestrian Dataset)は、収集したデータが大規模で、人間が検証したラベルを持つ以前のデータセットと比較して豊富な情報を含んでいることを示し、新しい研究機会をサポートする。

Social navigation and pedestrian behavior research has shifted towards machine learning-based methods and converged on the topic of modeling inter-pedestrian interactions and pedestrian-robot interactions. For this, large-scale datasets that contain rich information are needed. We describe a portable data collection system, coupled with a semi-autonomous labeling pipeline. As part of the pipeline, we designed a label correction web app that facilitates human verification of automated pedestrian tracking outcomes. Our system enables large-scale data collection in diverse environments and fast trajectory label production. Compared with existing pedestrian data collection methods, our system contains three components: a combination of top-down and ego-centric views, natural human behavior in the presence of a socially appropriate "robot", and human-verified labels grounded in the metric space. To the best of our knowledge, no prior data collection system has a combination of all three components. We further introduce our ever-expanding dataset from the ongoing data collection effort -- the TBD Pedestrian Dataset and show that our collected data is larger in scale, contains richer information when compared to prior datasets with human-verified labels, and supports new research opportunities.
翻訳日:2023-10-02 14:04:16 公開日:2023-09-29
# ReCOMBINER:ベイズ暗黙的ニューラル表現によるロバスト・圧縮の強化

RECOMBINER: Robust and Enhanced Compression with Bayesian Implicit Neural Representations ( http://arxiv.org/abs/2309.17182v1 )

ライセンス: Link先を確認
Jiajun He, Gergely Flamich, Zongyu Guo, Jos\'e Miguel Hern\'andez-Lobato(参考訳) Bayesian Implicit NEural Representation (COMBINER) による圧縮は、従来の Inlicit Neural Representation (INR) ベースのアプローチの重要な非効率性に対処する、最近のデータ圧縮手法である。 しかし、COMBINERには大きな制限がある。 1) 柔軟性に欠ける因子化事前及び後部近似を用いる。 2) データのグローバルなパターンからの局所的なずれに効果的に対応できない。 3) その性能は, モデル選択や変分パラメータの初期化の影響を受けやすい。 提案手法であるRobust and Enhanced COMBINER (RECOMBINER) はこれらの問題に対処する。 1)INR重みの線形再パラメータ化により計算コストを維持しつつ変動近似を充実させる。 2)局所的な細部への適応を可能にする学習可能な位置エンコーディングによる inrs の強化 3) 高解像度データをパッチに分割し、堅牢性を高め、表現力のある階層的事前を利用してパッチ間の依存関係をキャプチャする。 我々は、複数のデータモダリティにわたる広範な実験を行い、RECOMBINERが最高のINRベースの手法で競合する結果を得ることを示した。

COMpression with Bayesian Implicit NEural Representations (COMBINER) is a recent data compression method that addresses a key inefficiency of previous Implicit Neural Representation (INR)-based approaches: it avoids quantization and enables direct optimization of the rate-distortion performance. However, COMBINER still has significant limitations: 1) it uses factorized priors and posterior approximations that lack flexibility; 2) it cannot effectively adapt to local deviations from global patterns in the data; and 3) its performance can be susceptible to modeling choices and the variational parameters' initializations. Our proposed method, Robust and Enhanced COMBINER (RECOMBINER), addresses these issues by 1) enriching the variational approximation while maintaining its computational cost via a linear reparameterization of the INR weights, 2) augmenting our INRs with learnable positional encodings that enable them to adapt to local details and 3) splitting high-resolution data into patches to increase robustness and utilizing expressive hierarchical priors to capture dependency across patches. We conduct extensive experiments across several data modalities, showcasing that RECOMBINER achieves competitive results with the best INR-based methods and even outperforms autoencoder-based codecs on low-resolution images at low bitrates.
翻訳日:2023-10-02 14:03:56 公開日:2023-09-29
# alphazeroライクなツリー検索は、大きな言語モデルのデコードとトレーニングをガイドする

Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training ( http://arxiv.org/abs/2309.17179v1 )

ライセンス: Link先を確認
Xidong Feng, Ziyu Wan, Muning Wen, Ying Wen, Weinan Zhang, Jun Wang(参考訳) 大規模言語モデル (LLM) は通常サンプリングやビームサーチを採用し、推論と復号能力を高めるためにChain-of-Thought (CoT) などのプロンプトを伴っている。 The recent work of Tree-of-Thought (ToT) and Reasoning via Planning (RAP)は、木探索アルゴリズムを用いて多段階推論を導くことで、LLMの推論能力を高めることを目的としている。 これらの手法は主に推論中のLLMの推論能力に重点を置いており、汎用性とスケーラビリティに欠ける値関数としてLLMを活性化するための人間設計のプロンプトに強く依存している。 これらの制約に対処するために、学習値関数を用いた木探索がLLMの復号能力をいかに導くかを体系的に示すAlphaZero-like tree-search framework for LLMs (termed TS-LLM)を提案する。 TS-LLMは,(1)学習値関数の活用,(RLHFアライメントなどの)推論以外のタスクに適用可能なアプローチ,および,任意のサイズのLSMに対して,高度な大規模モデルを促すことなく適用可能なアプローチである。 2) LLM の推論と学習における復号化を導くことができる。 推理,計画,RLHFアライメントタスクにおける実証的評価は,深さ64。

Large language models (LLMs) typically employ sampling or beam search, accompanied by prompts such as Chain-of-Thought (CoT), to boost reasoning and decoding ability. Recent work like Tree-of-Thought (ToT) and Reasoning via Planning (RAP) aim to augment the reasoning capabilities of LLMs by utilizing tree-search algorithms to guide multi-step reasoning. These methods mainly focus on LLMs' reasoning ability during inference and heavily rely on human-designed prompts to activate LLM as a value function, which lacks general applicability and scalability. To address these limitations, we present an AlphaZero-like tree-search framework for LLMs (termed TS-LLM), systematically illustrating how tree-search with a learned value function can guide LLMs' decoding ability. TS-LLM distinguishes itself in two key ways: (1) Leveraging a learned value function, our approach can be generally applied to different tasks beyond reasoning (such as RLHF alignment), and LLMs of any size, without prompting advanced, large-scale models. (2) It can guide LLM's decoding during both inference and training. Empirical evaluations across reasoning, planning, and RLHF alignment tasks validate the effectiveness of TS-LLM, even on trees with a depth of 64.
翻訳日:2023-10-02 14:03:33 公開日:2023-09-29
# RLAdapter: オープンワールドにおける強化学習のための大規模言語モデルのブリッジ

RLAdapter: Bridging Large Language Models to Reinforcement Learning in Open Worlds ( http://arxiv.org/abs/2309.17176v1 )

ライセンス: Link先を確認
Wanpeng Zhang, Zongqing Lu(参考訳) 強化学習 (RL) は意思決定問題において顕著な成功を収めるが, 環境との相互作用が頻繁に必要であり, スパース・リワード環境においては, 意味のある政策を学ぶことは困難である。 大きな言語モデル(LLM)は、学習ポリシーにおけるエージェントに貴重なガイダンスを提供する可能性があるため、そのような環境でのRLアルゴリズムの性能を向上させることができる。 しかし、LLMは下流のタスクを理解するのにしばしば困難に直面するため、これらのタスクにおいてエージェントを最適に支援する能力が妨げられる。 この問題を緩和するための一般的なアプローチは、LLMをタスク関連のデータで微調整し、RLエージェントに有用なガイダンスを提供することである。 しかし、このアプローチは、到達不可能なモデルウェイトや重要な計算資源の必要性など、いくつかの困難に直面する。 本稿では,アダプタモデルの導入により,rlアルゴリズムとllmの接続性を向上させるためのフレームワークであるrladapterを紹介する。 RLAdapterフレームワーク内では、RLエージェントのトレーニングプロセス中に生成された情報を軽量言語モデルに微調整することで、下流タスクに適応するLLMを著しく支援し、RLエージェントのより良いガイダンスを提供する。 クラフト環境におけるRLAdapterの評価実験を行い, RLAdapterがSOTAベースラインを超えることを示す。 さらに,本フレームワークのエージェントは,ベースラインモデルにない共通感覚行動を示す。

While reinforcement learning (RL) shows remarkable success in decision-making problems, it often requires a lot of interactions with the environment, and in sparse-reward environments, it is challenging to learn meaningful policies. Large Language Models (LLMs) can potentially provide valuable guidance to agents in learning policies, thereby enhancing the performance of RL algorithms in such environments. However, LLMs often encounter difficulties in understanding downstream tasks, which hinders their ability to optimally assist agents in these tasks. A common approach to mitigating this issue is to fine-tune the LLMs with task-related data, enabling them to offer useful guidance for RL agents. However, this approach encounters several difficulties, such as inaccessible model weights or the need for significant computational resources, making it impractical. In this work, we introduce RLAdapter, a framework that builds a better connection between RL algorithms and LLMs by incorporating an adapter model. Within the RLAdapter framework, fine-tuning a lightweight language model with information generated during the training process of RL agents significantly aids LLMs in adapting to downstream tasks, thereby providing better guidance for RL agents. We conducted experiments to evaluate RLAdapter in the Crafter environment, and the results show that RLAdapter surpasses the SOTA baselines. Furthermore, agents under our framework exhibit common-sense behaviors that are absent in baseline models.
翻訳日:2023-10-02 14:03:07 公開日:2023-09-29
# textfield3d: オープンボキャブラリー3d生成の雑音テキストフィールドによる拡張に向けて

TextField3D: Towards Enhancing Open-Vocabulary 3D Generation with Noisy Text Fields ( http://arxiv.org/abs/2309.17175v1 )

ライセンス: Link先を確認
Tianyu Huang, Yihan Zeng, Bowen Dong, Hang Xu, Songcen Xu, Rynson W.H. Lau, Wangmeng Zuo(参考訳) 最近の研究は、テキスト3d指導の下で明示的に3d表現を学ぶ。 しかし、テキスト3Dデータは世代ごとの語彙スケールとテキストコントロールを制限する。 ジェネレータは特定のテキストプロンプトのステレオタイプ概念に容易に陥り、オープン語彙生成能力を失う。 本稿では,条件付き3次元生成モデルであるtextfield3dを提案する。 具体的には、テキストプロンプトを直接入力として使用するのではなく、与えられたテキストプロンプトの潜在空間、すなわちノイズテキストフィールド(NTF)に動的ノイズを注入することを提案する。 このようにして、NTFによって拡張されるテキスト潜在空間の適切な範囲に、限られた3Dデータをマッピングすることができる。 この目的のために、NTFGenモジュールはノイズ場における一般的なテキスト潜在コードをモデル化するために提案される。 一方、NTFBindモジュールは、ビュー不変の遅延符号をノイズ場に整列させ、さらに画像条件3D生成をサポートする。 テクスチャとテクスチャの両面で条件生成を導くため、テキスト3D判別器とテキスト2.5D判別器でマルチモーダル識別を構築する。 以前の方法と比較して、TextField3Dには3つのメリットがある。 1)大語彙 2)テキストの一貫性,および 3)低レイテンシ。 広汎な実験により,本手法が開語彙3次元生成能力を実現することを示す。

Recent works learn 3D representation explicitly under text-3D guidance. However, limited text-3D data restricts the vocabulary scale and text control of generations. Generators may easily fall into a stereotype concept for certain text prompts, thus losing open-vocabulary generation ability. To tackle this issue, we introduce a conditional 3D generative model, namely TextField3D. Specifically, rather than using the text prompts as input directly, we suggest to inject dynamic noise into the latent space of given text prompts, i.e., Noisy Text Fields (NTFs). In this way, limited 3D data can be mapped to the appropriate range of textual latent space that is expanded by NTFs. To this end, an NTFGen module is proposed to model general text latent code in noisy fields. Meanwhile, an NTFBind module is proposed to align view-invariant image latent code to noisy fields, further supporting image-conditional 3D generation. To guide the conditional generation in both geometry and texture, multi-modal discrimination is constructed with a text-3D discriminator and a text-2.5D discriminator. Compared to previous methods, TextField3D includes three merits: 1) large vocabulary, 2) text consistency, and 3) low latency. Extensive experiments demonstrate that our method achieves a potential open-vocabulary 3D generation capability.
翻訳日:2023-10-02 14:02:41 公開日:2023-09-29
# FedZeN:インクリメンタルヘッセン推定による超線形ゼロ次連邦学習を目指して

FedZeN: Towards superlinear zeroth-order federated learning via incremental Hessian estimation ( http://arxiv.org/abs/2309.17174v1 )

ライセンス: Link先を確認
Alessio Maritan, Subhrakanti Dey, Luca Schenato(参考訳) フェデレーション学習(federated learning)は、クライアントのセットが、生のデータサンプルを共有することなく、中央サーバのオーケストレーションの下で協調的にモデルをトレーニングできる分散学習フレームワークである。 多くの実用的なシナリオでは、目的関数の導関数は利用できないが、予算のかかる点評価を通じてのみ関数にアクセス可能な、フェデレーションされたゼロ次設定を考えるのはごくわずかである。 本研究では,超線形収束を達成するために,凸最適化に着目し,大域目標の曲率を推定する最初の連立ゼロ次アルゴリズムを設計する。 誤差ノルムが線形に収束する漸進的ヘッセン推定器を取り、フェデレーションされたゼロ次設定に適応し、スティフェル多様体からランダム探索方向をサンプリングし、性能を向上させる。 特に、勾配とヘッセン推定器は、同期擬似ランダム数生成器を利用することで、通信効率とプライバシー保護の両面で中央サーバに構築される。 我々はFedZeNというアルゴリズムの理論的解析を行い、確率の高い局所二次収束と、ゼロ階精度までの大域線型収束を証明した。 数値シミュレーションにより超線形収束率を確認し,本手法が文献で利用可能な0階法より優れていることを示す。

Federated learning is a distributed learning framework that allows a set of clients to collaboratively train a model under the orchestration of a central server, without sharing raw data samples. Although in many practical scenarios the derivatives of the objective function are not available, only few works have considered the federated zeroth-order setting, in which functions can only be accessed through a budgeted number of point evaluations. In this work we focus on convex optimization and design the first federated zeroth-order algorithm to estimate the curvature of the global objective, with the purpose of achieving superlinear convergence. We take an incremental Hessian estimator whose error norm converges linearly, and we adapt it to the federated zeroth-order setting, sampling the random search directions from the Stiefel manifold for improved performance. In particular, both the gradient and Hessian estimators are built at the central server in a communication-efficient and privacy-preserving way by leveraging synchronized pseudo-random number generators. We provide a theoretical analysis of our algorithm, named FedZeN, proving local quadratic convergence with high probability and global linear convergence up to zeroth-order precision. Numerical simulations confirm the superlinear convergence rate and show that our algorithm outperforms the federated zeroth-order methods available in the literature.
翻訳日:2023-10-02 14:02:19 公開日:2023-09-29
# ドメイン適応学習:ロス関数結合の改善による組織像の教師なし適応

Domain-Adaptive Learning: Unsupervised Adaptation for Histology Images with Improved Loss Function Combination ( http://arxiv.org/abs/2309.17172v1 )

ライセンス: Link先を確認
Ravi Kant Gupta, Shounak Das, Amit Sethi(参考訳) 本稿では,h&e染色組織像を対象としたunsupervised domain adaptation (uda) の新しいアプローチを提案する。 既存の逆領域適応法は、分類問題に関連するマルチモーダル分布の異なる領域を効果的に整列することができない。 目的はドメインのアライメントを強化し、ドメイン間のドメインシフトを減らすことである。 本研究では, 組織像に特有の課題に対処するために, 注意深く選択した損失関数とともに, 新たな損失関数を提案する。 この損失の組み合わせは、モデルを正確かつ堅牢にするだけでなく、トレーニング収束の観点からも高速にする。 特に組織構造や細胞形態などの組織学的特徴を活用して組織学領域の適応性を高めることに焦点を当てた。 提案手法は, 精度, ロバスト性, 一般化の面で広く評価され, 組織像の最先端技術に匹敵する。 fhistデータセットを広範囲に実験した結果,提案手法であるドメイン適応学習 (dal) は,vit法とcnn法をそれぞれ1.41%,6.56%上回った。

This paper presents a novel approach for unsupervised domain adaptation (UDA) targeting H&E stained histology images. Existing adversarial domain adaptation methods may not effectively align different domains of multimodal distributions associated with classification problems. The objective is to enhance domain alignment and reduce domain shifts between these domains by leveraging their unique characteristics. Our approach proposes a novel loss function along with carefully selected existing loss functions tailored to address the challenges specific to histology images. This loss combination not only makes the model accurate and robust but also faster in terms of training convergence. We specifically focus on leveraging histology-specific features, such as tissue structure and cell morphology, to enhance adaptation performance in the histology domain. The proposed method is extensively evaluated in accuracy, robustness, and generalization, surpassing state-of-the-art techniques for histology images. We conducted extensive experiments on the FHIST dataset and the results show that our proposed method - Domain Adaptive Learning (DAL) significantly surpasses the ViT-based and CNN-based SoTA methods by 1.41% and 6.56% respectively.
翻訳日:2023-10-02 14:01:54 公開日:2023-09-29
# ダンジョンズ・ドラゴンズ領域における名前付き実体認識の比較解析

Comparative Analysis of Named Entity Recognition in the Dungeons and Dragons Domain ( http://arxiv.org/abs/2309.17171v1 )

ライセンス: Link先を確認
Gayashan Weerasundara, Nisansa de Silva(参考訳) 多くのNLPタスクは一般英語でよく解決されているが、ファンタジー文学のような特定の分野において課題に直面している。 これは、テキスト内のエンティティを検出し分類する名前付きエンティティ認識(NER)で明らかである。 ドメイン固有のパフォーマンスを評価するため,ダンジョンズ・アンド・ドラゴンズ(D&D)アドベンチャーブックの10種類のNERモデルを解析した。 オープンソースのLarge Language Modelsを用いて、これらの本に名前付きエンティティをアノテートし、各モデルの精度を評価した。 以上の結果から,Frair,Trankit,SpacyはD&Dコンテキストにおける名前の特定において他者よりも優れていた。

Many NLP tasks, although well-resolved for general English, face challenges in specific domains like fantasy literature. This is evident in Named Entity Recognition (NER), which detects and categorizes entities in text. We analyzed 10 NER models on 7 Dungeons and Dragons (D&D) adventure books to assess domain-specific performance. Using open-source Large Language Models, we annotated named entities in these books and evaluated each model's precision. Our findings indicate that, without modifications, Flair, Trankit, and Spacy outperform others in identifying named entities in the D&D context.
翻訳日:2023-10-02 14:01:35 公開日:2023-09-29
# RSAM:リーマンシャープネスを考慮した多様体の学習

RSAM: Learning on manifolds with Riemannian Sharpness-aware Minimization ( http://arxiv.org/abs/2309.17215v1 )

ライセンス: Link先を確認
Tuan Truong, Hoang-Phi Nguyen, Tung Pham, Minh-Tuan Tran, Mehrtash Harandi, Dinh Phung, Trung Le(参考訳) 現在、損失景観の幾何学を理解することは、モデルの一般化能力を高めることに有望である。 本研究では,最適化に幾何学的原理を適用し,制約付き最適化問題に対するロバストネスと一般化能力を改善するための新しいアプローチを提案する。 実際、本論文はシャープネス・アウェア最小化(SAM)最適化をリーマン多様体に一般化することを目的としている。 その際、まずシャープネスの概念を拡張し、多様体上のシャープネスという新しい概念を導入する。 このシャープネスの概念を支持するために、多様体のシャープネスに関して一般化能力を特徴づける理論解析を行い、一般化ギャップに強く縛られていることを示す。 この分析により,RSAM (Riemannian Sharpness-Aware Minimization) というアルゴリズムを導入した。 一般化能力を高めるRSAMの能力を実証するため,CIFAR100,CIFAR10,FGVCAircraftなど,さまざまなデータセットを対象とした画像分類やコントラスト学習など,幅広い問題に対して,アルゴリズムの評価と対比を行った。 我々のコードは \url{https://t.ly/RiemannianSAM} で公開されている。

Nowadays, understanding the geometry of the loss landscape shows promise in enhancing a model's generalization ability. In this work, we draw upon prior works that apply geometric principles to optimization and present a novel approach to improve robustness and generalization ability for constrained optimization problems. Indeed, this paper aims to generalize the Sharpness-Aware Minimization (SAM) optimizer to Riemannian manifolds. In doing so, we first extend the concept of sharpness and introduce a novel notion of sharpness on manifolds. To support this notion of sharpness, we present a theoretical analysis characterizing generalization capabilities with respect to manifold sharpness, which demonstrates a tighter bound on the generalization gap, a result not known before. Motivated by this analysis, we introduce our algorithm, Riemannian Sharpness-Aware Minimization (RSAM). To demonstrate RSAM's ability to enhance generalization ability, we evaluate and contrast our algorithm on a broad set of problems, such as image classification and contrastive learning across different datasets, including CIFAR100, CIFAR10, and FGVCAircraft. Our code is publicly available at \url{https://t.ly/RiemannianSAM}.
翻訳日:2023-10-02 13:57:07 公開日:2023-09-29
# 局所感性ハッシュを用いたCNNのインスタント複雑度低減

Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing ( http://arxiv.org/abs/2309.17211v1 )

ライセンス: Link先を確認
Lukas Meiner, Jens Mehnert, Alexandru Paul Condurache(参考訳) 資源制約されたデバイスで使用する畳み込みニューラルネットワーク(CNN)の計算コストを削減するため、構造化プルーニング手法は有望な結果を示し、精度を大幅に低下させることなく浮動小数点演算(FLOP)を大幅に削減した。 しかし、最近の手法では、FLOPの精度と縮小の間の適切なトレードオフを達成するために、微調整や特定の訓練手順が必要である。 これにより、計算オーバーヘッドという形で追加コストが発生し、トレーニングデータが利用可能になる必要がある。 そこで我々は,通常の畳み込みモジュールのプラグアンドプレイの代替として機能するパラメータフリーでデータフリーなモジュールであるhashing for tractable efficiencyを提案する。 これにより、トレーニングや微調整を必要とせずに、ネットワークのテスト時間推論コストを即座に削減できる。 チャネル次元の冗長性を検出するためにLSH(Locality-sensitive hashing)を用いることにより,遅延特徴写像を高精度に圧縮することができる。 同様のチャネルを集約して入力とフィルタの深さを同時に減らし、より安価な畳み込みを可能にする。 我々は,CIFAR-10 と ImageNet のビジョンベンチマークに対するアプローチを実証する。 特に、hasteモジュールのresnet34 on cifar-10で畳み込みモジュールを交換するだけで、フロップの46.72%を即座に落とすことができるが、1.25%の精度は失われる。

To reduce the computational cost of convolutional neural networks (CNNs) for usage on resource-constrained devices, structured pruning approaches have shown promising results, drastically reducing floating-point operations (FLOPs) without substantial drops in accuracy. However, most recent methods require fine-tuning or specific training procedures to achieve a reasonable trade-off between retained accuracy and reduction in FLOPs. This introduces additional cost in the form of computational overhead and requires training data to be available. To this end, we propose HASTE (Hashing for Tractable Efficiency), a parameter-free and data-free module that acts as a plug-and-play replacement for any regular convolution module. It instantly reduces the network's test-time inference cost without requiring any training or fine-tuning. We are able to drastically compress latent feature maps without sacrificing much accuracy by using locality-sensitive hashing (LSH) to detect redundancies in the channel dimension. Similar channels are aggregated to reduce the input and filter depth simultaneously, allowing for cheaper convolutions. We demonstrate our approach on the popular vision benchmarks CIFAR-10 and ImageNet. In particular, we are able to instantly drop 46.72% of FLOPs while only losing 1.25% accuracy by just swapping the convolution modules in a ResNet34 on CIFAR-10 for our HASTE module.
翻訳日:2023-10-02 13:56:47 公開日:2023-09-29
# 見えるロボット:人間のポーズを軌道予測に活用

Robots That Can See: Leveraging Human Pose for Trajectory Prediction ( http://arxiv.org/abs/2309.17209v1 )

ライセンス: Link先を確認
Tim Salzmann, Lewis Chiang, Markus Ryll, Dorsa Sadigh, Carolina Parada and Alex Bewley(参考訳) 安全で効果的なロボットナビゲーションを実現するためには、家やオフィスなどの動的環境におけるすべての人間の動きを予想することが重要である。 このような空間は、人間が厳格な運動規則に従わず、突然の遭遇の機会を生み出すコーナーやドアなど、複数の閉塞されたエントリーポイントが存在するため、依然として困難である。 本研究では,人間の位置,頭部方向,3次元骨格キーポイントなどの入力特徴から人中心環境における人間の将来の軌跡を予測するためのトランスフォーマーベースのアーキテクチャを提案する。 得られたモデルは、将来の人間の軌道予測に固有の不確かさを捉え、予測タスクに適応した移動ロボットから取得した共通予測ベンチマークおよび人間追跡データセットにおいて、最先端のパフォーマンスを達成する。 さらに, 限られた履歴データを持つ新しいエージェントを誤りの主な要因として同定し, 予測誤差の低減に寄与する3次元骨格の相補性を示す。

Anticipating the motion of all humans in dynamic environments such as homes and offices is critical to enable safe and effective robot navigation. Such spaces remain challenging as humans do not follow strict rules of motion and there are often multiple occluded entry points such as corners and doors that create opportunities for sudden encounters. In this work, we present a Transformer based architecture to predict human future trajectories in human-centric environments from input features including human positions, head orientations, and 3D skeletal keypoints from onboard in-the-wild sensory information. The resulting model captures the inherent uncertainty for future human trajectory prediction and achieves state-of-the-art performance on common prediction benchmarks and a human tracking dataset captured from a mobile robot adapted for the prediction task. Furthermore, we identify new agents with limited historical data as a major contributor to error and demonstrate the complementary nature of 3D skeletal poses in reducing prediction error in such challenging scenarios.
翻訳日:2023-10-02 13:56:20 公開日:2023-09-29
# memory gym: エンドレスエピソードにおけるメモリベースのエージェントの部分的に観察可能な課題

Memory Gym: Partially Observable Challenges to Memory-Based Agents in Endless Episodes ( http://arxiv.org/abs/2309.17207v1 )

ライセンス: Link先を確認
Marco Pleines and Matthias Pallasch and Frank Zimmer and Mike Preuss(参考訳) Memory Gymは、特にGRU(Gated Recurrent Unit)とTransformer-XL(TrXL)を比較し、長いシーケンスを記憶し、ノイズに耐え、一般化する機能について、Deep Reinforcement Learningエージェントをテストするために設計されたユニークなベンチマークを導入した。 部分的に観測可能な2D環境、すなわちモルタル・メイヘム、ミステリー・パス、シーリング・スポットライトが特徴である。 もともとの有限環境は、自動カリキュラムとして機能する新しい無限のタスクに外挿され、カーゲーム『'I pack my bag 』からインスピレーションを得ている。 これらの無限のタスクは効率を評価するのに有用であるだけでなく、メモリベースのエージェントにおけるアプローチの有効性を評価するのにも興味深い。 一般に利用可能なメモリベースラインが不足していることを踏まえ,TrXL と Proximal Policy Optimization による実装に貢献する。 この実装は、スライドウィンドウアプローチを用いてTrXLをエピソードメモリとして利用する。 有限環境における実験では, TrXLはミステリーパスやモルタル・メイヘムにおいて, 優れた試料効率を示す。 しかし、GRUはSeaning Spotlightsよりも効率的である。 最も注目すべきは、すべての無限のタスクにおいて、GRUは顕著な復活を行い、TrXLを著しく上回っていることである。

Memory Gym introduces a unique benchmark designed to test Deep Reinforcement Learning agents, specifically comparing Gated Recurrent Unit (GRU) against Transformer-XL (TrXL), on their ability to memorize long sequences, withstand noise, and generalize. It features partially observable 2D environments with discrete controls, namely Mortar Mayhem, Mystery Path, and Searing Spotlights. These originally finite environments are extrapolated to novel endless tasks that act as an automatic curriculum, drawing inspiration from the car game ``I packed my bag". These endless tasks are not only beneficial for evaluating efficiency but also intriguingly valuable for assessing the effectiveness of approaches in memory-based agents. Given the scarcity of publicly available memory baselines, we contribute an implementation driven by TrXL and Proximal Policy Optimization. This implementation leverages TrXL as episodic memory using a sliding window approach. In our experiments on the finite environments, TrXL demonstrates superior sample efficiency in Mystery Path and outperforms in Mortar Mayhem. However, GRU is more efficient on Searing Spotlights. Most notably, in all endless tasks, GRU makes a remarkable resurgence, consistently outperforming TrXL by significant margins.
翻訳日:2023-10-02 13:56:02 公開日:2023-09-29
# 画像セグメンテーションの複雑問合せに向けて:新しいベンチマーク

Towards Complex-query Referring Image Segmentation: A Novel Benchmark ( http://arxiv.org/abs/2309.17205v1 )

ライセンス: Link先を確認
Wei Ji, Li Li, Hao Fei, Xiangyan Liu, Xun Yang, Juncheng Li, Roger Zimmermann(参考訳) Referring Image Understanding (RIS)は、過去10年間に広く研究され、高度なアルゴリズムの開発に繋がった。 しかしながら、既存のアルゴリズムが複雑な言語クエリでどのようにベンチマークされるべきかを調査する研究が不足しており、周囲のオブジェクトや背景のより情報的な記述を含んでいる("\eg \textit{"the black car."} vs. \textit{"the black car is parking on the road and beside the bus")。 大規模な事前学習モデルのセマンティック理解能力の大幅な向上を考えると、現実世界のアプリケーションに似た複雑な言語を組み込むことで、RISをさらに前進させることが重要である。 このギャップを埋めるために、既存のRefCOCOデータセットとVisual Genomeデータセットに基づいて、複雑なクエリを持つ新しいRISベンチマーク、すなわち \textbf{RIS-CQ}を提案する。 RIS-CQデータセットは高品質で大規模であり、リッチで具体的で情報的なクエリによって既存のRISに挑戦し、RIS研究のより現実的なシナリオを実現する。 さらに、RIS-CQ の処理を改善するニッチターゲティング手法として、一連の RIS 法より優れた双対モダリティグラフアライメントモデル(\textbf{\textsc{DuMoGa}})を提案する。

Referring Image Understanding (RIS) has been extensively studied over the past decade, leading to the development of advanced algorithms. However, there has been a lack of research investigating how existing algorithms should be benchmarked with complex language queries, which include more informative descriptions of surrounding objects and backgrounds (\eg \textit{"the black car."} vs. \textit{"the black car is parking on the road and beside the bus."}). Given the significant improvement in the semantic understanding capability of large pre-trained models, it is crucial to take a step further in RIS by incorporating complex language that resembles real-world applications. To close this gap, building upon the existing RefCOCO and Visual Genome datasets, we propose a new RIS benchmark with complex queries, namely \textbf{RIS-CQ}. The RIS-CQ dataset is of high quality and large scale, which challenges the existing RIS with enriched, specific and informative queries, and enables a more realistic scenario of RIS research. Besides, we present a nichetargeting method to better task the RIS-CQ, called dual-modality graph alignment model (\textbf{\textsc{DuMoGa}}), which outperforms a series of RIS methods.
翻訳日:2023-10-02 13:55:40 公開日:2023-09-29
# ComSD:教師なしスキル発見における行動品質と多様性のバランス

ComSD: Balancing Behavioral Quality and Diversity in Unsupervised Skill Discovery ( http://arxiv.org/abs/2309.17203v1 )

ライセンス: Link先を確認
Xin Liu, Yaran Chen, Dongbin Zhao(参考訳) 監視なしで利用と適応のために多様で適格な行動を学ぶことは、知的生物の重要な能力である。 理想的な教師なしのスキル発見手法は、外因的な報酬がなければ多種多様なスキルを生み出すことができ、発見されたスキルセットは下流のタスクに様々な方法で効率的に適応することができる。 技術と訪問国間の相互情報(MI)の最大化は、理論上理想的なスキル条件の行動蒸留を実現することができる。 しかし,近年の手法では,厳密な本質的な報酬設計による不合理なMI推定に起因して,行動品質(探索)と多様性(探索)のバランスをとることは困難である。 本稿では,より合理的なMI推定と動的に重み付けされた本質的な報酬により,発見行動の品質と多様性の対立を軽減するためのコントラスト多目的スキル発見(ComSD)を提案する。 ComSDは、MI分解におけるスキル条件付きエントロピーをより合理的に推定するために、コントラスト学習を採用することを提案する。 さらに,異なるエントロピー(mi分解)推定を,新たな多目的固有報酬に動的にバランスさせ,スキルの多様性と品質を向上させる新しい重み付け機構を提案する。 挑戦的なロボット行動発見のために、ComSDは様々な活動レベルにおける多様な行動からなる資格あるスキルセットを生成することができる。 数値評価において、comsdは最先端の適応性能を示し、スキルの組み合わせタスクやほとんどのスキルの微調整タスクにおいて、最近の高度なスキル発見手法を著しく上回っている。 コードはhttps://github.com/liuxin0824/ComSDでリリースされる。

Learning diverse and qualified behaviors for utilization and adaptation without supervision is a key ability of intelligent creatures. Ideal unsupervised skill discovery methods are able to produce diverse and qualified skills in the absence of extrinsic reward, while the discovered skill set can efficiently adapt to downstream tasks in various ways. Maximizing the Mutual Information (MI) between skills and visited states can achieve ideal skill-conditioned behavior distillation in theory. However, it's difficult for recent advanced methods to well balance behavioral quality (exploration) and diversity (exploitation) in practice, which may be attributed to the unreasonable MI estimation by their rigid intrinsic reward design. In this paper, we propose Contrastive multi-objectives Skill Discovery (ComSD) which tries to mitigate the quality-versus-diversity conflict of discovered behaviors through a more reasonable MI estimation and a dynamically weighted intrinsic reward. ComSD proposes to employ contrastive learning for a more reasonable estimation of skill-conditioned entropy in MI decomposition. In addition, a novel weighting mechanism is proposed to dynamically balance different entropy (in MI decomposition) estimations into a novel multi-objective intrinsic reward, to improve both skill diversity and quality. For challenging robot behavior discovery, ComSD can produce a qualified skill set consisting of diverse behaviors at different activity levels, which recent advanced methods cannot. On numerical evaluations, ComSD exhibits state-of-the-art adaptation performance, significantly outperforming recent advanced skill discovery methods across all skill combination tasks and most skill finetuning tasks. Codes will be released at https://github.com/liuxin0824/ComSD.
翻訳日:2023-10-02 13:55:11 公開日:2023-09-29
# DCE-MRI誘導放射能特性に基づくランダム森林モデルにおけるレースバイアスの調査

An Investigation Into Race Bias in Random Forest Models Based on Breast DCE-MRI Derived Radiomics Features ( http://arxiv.org/abs/2309.17197v1 )

ライセンス: Link先を確認
Mohamed Huti, Tiarna Lee, Elinor Sawyer, Andrew P. King(参考訳) 近年の研究では、人工知能(AI)モデルが、保護属性によって不均衡なデータを用いてトレーニングされた場合、性能のバイアスを示すことが示されている。 これまでの研究のほとんどはディープラーニングモデルに重点を置いてきたが、手作りの機能を利用する古典的なAI技術も、そのようなバイアスの影響を受けやすい。 本稿では,放射能特性を用いたランダム森林(RF)モデルにおけるレースバイアスの可能性について検討する。 乳癌患者における dynamic contrast enhanced magnetic resonance imaging (dce-mri) による腫瘍分子サブタイプの予測について検討した。 以上の結果から,DCE-MRIデータから得られた放射能特徴には人種識別情報が含まれており,RFモデルを用いて60~70%の精度でホワイトレースとブラックレースを予測することができることがわかった。 さらに、人種不均衡データを用いて腫瘍分子サブタイプを予測するために訓練されたRFモデルは、バイアスのある振る舞いを生じさせ、訓練されたレースのデータに対してより良い性能を示す。

Recent research has shown that artificial intelligence (AI) models can exhibit bias in performance when trained using data that are imbalanced by protected attribute(s). Most work to date has focused on deep learning models, but classical AI techniques that make use of hand-crafted features may also be susceptible to such bias. In this paper we investigate the potential for race bias in random forest (RF) models trained using radiomics features. Our application is prediction of tumour molecular subtype from dynamic contrast enhanced magnetic resonance imaging (DCE-MRI) of breast cancer patients. Our results show that radiomics features derived from DCE-MRI data do contain race-identifiable information, and that RF models can be trained to predict White and Black race from these data with 60-70% accuracy, depending on the subset of features used. Furthermore, RF models trained to predict tumour molecular subtype using race-imbalanced data seem to produce biased behaviour, exhibiting better performance on test data from the race on which they were trained.
翻訳日:2023-10-02 13:54:20 公開日:2023-09-29
# ResBit: カテゴリ値のための残留ビットベクトル

ResBit: Residual Bit Vector for Categorical Values ( http://arxiv.org/abs/2309.17196v1 )

ライセンス: Link先を確認
Masane Fuchi, Amar Zanashir, Hiroto Minami, Tomohiro Takagi(参考訳) ワンホットベクトルは、離散データを表現する単純で汎用的な方法として機械学習で広く使われている。 しかし、この手法は、表現すべきカテゴリデータと線形に次元数を増加させるため、大量のデータを必要とする深層学習における空間計算の複雑さの観点から問題となる。 近年,拡散モデルの高表現性に基づいて,離散データをビット列として表現する方法であるAnalog Bitsが提案されている。 しかし、生成タスクで表現されるカテゴリタイプの数は必ずしも2の力であるとは限らないので、アナログビットが表現できる範囲とカテゴリデータとして表現される範囲との間には差がある。 そのような値が生成されると、問題は元のカテゴリ値が復元できないことである。 この問題に対処するために,階層的なビット表現であるResidual Bit Vector(ResBit)を提案する。 汎用表現法であるが,本稿では数値データとして扱うとともに,表型データ生成法であるTabDDPMに組み込まれたTab Residual Bit Diffusion (TRBD) を用いてアナログビットの拡張として使用できることを示す。 TRBDはTabDDPMよりも高速に多様なカテゴリ値を含むテーブルデータに,小規模のテーブルデータから多種多様な高品質のデータを生成することができることを確認した。 さらに,画像分類において,ResBitを条件付けやラベル表現に利用することにより,ResBitはワンホットベクトルの代替として機能することを示す。

The one-hot vector has long been widely used in machine learning as a simple and generic method for representing discrete data. However, this method increases the number of dimensions linearly with the categorical data to be represented, which is problematic from the viewpoint of spatial computational complexity in deep learning, which requires a large amount of data. Recently, Analog Bits, a method for representing discrete data as a sequence of bits, was proposed on the basis of the high expressiveness of diffusion models. However, since the number of category types to be represented in a generation task is not necessarily at a power of two, there is a discrepancy between the range that Analog Bits can represent and the range represented as category data. If such a value is generated, the problem is that the original category value cannot be restored. To address this issue, we propose Residual Bit Vector (ResBit), which is a hierarchical bit representation. Although it is a general-purpose representation method, in this paper, we treat it as numerical data and show that it can be used as an extension of Analog Bits using Table Residual Bit Diffusion (TRBD), which is incorporated into TabDDPM, a tabular data generation method. We experimentally confirmed that TRBD can generate diverse and high-quality data from small-scale table data to table data containing diverse category values faster than TabDDPM. Furthermore, we show that ResBit can also serve as an alternative to the one-hot vector by utilizing ResBit for conditioning in GANs and as a label expression in image classification.
翻訳日:2023-10-02 13:53:51 公開日:2023-09-29
# 多変量射影による一般化活性化

Generalized Activation via Multivariate Projection ( http://arxiv.org/abs/2309.17194v1 )

ライセンス: Link先を確認
Jiayun Li, Yuxiao Cheng, Zhuofan Xia, Yilin Mo, Gao Huang(参考訳) 活性化関数はニューラルネットワークに非線形性を導入するために必須であり、Rectified Linear Unit (ReLU)はその単純さと有効性に好まれる。 浅層フィードフォワードニューラルネットワーク(fnn)とプロジェクション勾配降下(pgd)アルゴリズムの1回の反復との構造的類似性に動機づけられ,制約付き最適化問題を解く標準的なアプローチとして,reluをrから非負のハーフラインr+への投影と考える。 この解釈に基づいて、一般化された投影演算子を2次錐投影(SOC)のような凸錐に置換することによりReLUを拡張し、複数の入力と複数の出力を持つ活性化関数である多変量投影ユニット(MPU)に自然に拡張する。 さらに、SOCプロジェクションによって活性化されるFNNが、表現力の観点からReLUを利用するものよりも優れていることを示す数学的証明を提供する。 広く採用されているアーキテクチャの実験的評価により、MPUの有効性はより広範囲の既存のアクティベーション関数と相関する。

Activation functions are essential to introduce nonlinearity into neural networks, with the Rectified Linear Unit (ReLU) often favored for its simplicity and effectiveness. Motivated by the structural similarity between a shallow Feedforward Neural Network (FNN) and a single iteration of the Projected Gradient Descent (PGD) algorithm, a standard approach for solving constrained optimization problems, we consider ReLU as a projection from R onto the nonnegative half-line R+. Building on this interpretation, we extend ReLU by substituting it with a generalized projection operator onto a convex cone, such as the Second-Order Cone (SOC) projection, thereby naturally extending it to a Multivariate Projection Unit (MPU), an activation function with multiple inputs and multiple outputs. We further provide a mathematical proof establishing that FNNs activated by SOC projections outperform those utilizing ReLU in terms of expressive power. Experimental evaluations on widely-adopted architectures further corroborate MPU's effectiveness against a broader range of existing activation functions.
翻訳日:2023-10-02 13:53:21 公開日:2023-09-29
# インクリメンタルトランスファー学習に関する調査:ピアツーピアフェデレーションラーニングとドメインインクリメンタルラーニングを組み合わせた多施設共同学習

A Survey of Incremental Transfer Learning: Combining Peer-to-Peer Federated Learning and Domain Incremental Learning for Multicenter Collaboration ( http://arxiv.org/abs/2309.17192v1 )

ライセンス: Link先を確認
Yixing Huang, Christoph Bert, Ahmed Gomaa, Rainer Fietkau, Andreas Maier, Florian Putz(参考訳) データプライバシの制約により、複数の臨床センター間でのデータ共有が制限されるため、マルチセンターコラボレーションによる高性能なディープラーニングモデルの開発が阻害される。 Naive weight Transferメソッドは、生データなしで中間モデルウェイトを共有するため、データのプライバシー制限を回避できる。 しかしながら、モデルが1つの中心から次の中心へ移動する際には、通常、性能低下が観測される。 ピアツーピアのフェデレーション学習とドメインインクリメンタル学習を組み合わせたインクリメンタルトランスファー学習は、データのプライバシ問題を克服し、一方で連続的な学習技術を用いてモデルパフォーマンスを維持することができる。 本研究では、インクリメンタル転送学習に従来のドメイン/タスクインクリメンタル学習フレームワークを適用する。 多施設連携における異なる正規化型連続学習手法の有効性に関する総合的な調査を行った。 データの不均一性,分類器ヘッド設定,ネットワークオプティマイザ,モデル初期化,センタ順序,重み伝達型の影響について検討した。 私たちのフレームワークは、さらなる開発のために研究コミュニティに公開アクセス可能です。

Due to data privacy constraints, data sharing among multiple clinical centers is restricted, which impedes the development of high performance deep learning models from multicenter collaboration. Naive weight transfer methods share intermediate model weights without raw data and hence can bypass data privacy restrictions. However, performance drops are typically observed when the model is transferred from one center to the next because of the forgetting problem. Incremental transfer learning, which combines peer-to-peer federated learning and domain incremental learning, can overcome the data privacy issue and meanwhile preserve model performance by using continual learning techniques. In this work, a conventional domain/task incremental learning framework is adapted for incremental transfer learning. A comprehensive survey on the efficacy of different regularization-based continual learning methods for multicenter collaboration is performed. The influences of data heterogeneity, classifier head setting, network optimizer, model initialization, center order, and weight transfer type have been investigated thoroughly. Our framework is publicly accessible to the research community for further development.
翻訳日:2023-10-02 13:52:47 公開日:2023-09-29
# Batch Calibration: In-Context LearningとPrompt Engineeringの校正を再考する

Batch Calibration: Rethinking Calibration for In-Context Learning and Prompt Engineering ( http://arxiv.org/abs/2309.17249v1 )

ライセンス: Link先を確認
Han Zhou, Xingchen Wan, Lev Proleev, Diana Mincu, Jilin Chen, Katherine Heller, Subhrajit Roy(参考訳) プロンプティングとインコンテキスト学習(ICL)は、大規模言語モデル(LLM)の効率的な学習パラダイムとなっている。 しかし、LSMはプロンプトの脆さや様々なバイアス要因に悩まされ、形式化、選択動詞化、ICLの例などに限定されない。 予期せぬ性能劣化をもたらすこの問題に対処するため,LLM性能を回復させながら,これらのバイアスの影響を軽減するキャリブレーション法を開発した。 本研究では,まず,既存のキャリブレーション手法を体系的に分析し,統一的な視点を提供し,故障事例を明らかにする。 これらの分析から着想を得たバッチキャリブレーション(bc)は、バッチ入力から文脈バイアスを制御し、様々な先行手法を統一し、上記課題を効果的に解決するシンプルで直感的な手法である。 BCはゼロショットであり、推論のみであり、追加コストは無視できない。 少数ショットのセットアップでは、bcを拡張してラベル付きデータからコンテキストバイアスを学習できるようにします。 我々は,PaLM 2-(S, M, L)およびCLIPモデルによるBCの有効性を検証するとともに,10以上の自然言語理解および画像分類タスクにおいて,以前の校正基準に対する最先端性能を示す。

Prompting and in-context learning (ICL) have become efficient learning paradigms for large language models (LLMs). However, LLMs suffer from prompt brittleness and various bias factors in the prompt, including but not limited to the formatting, the choice verbalizers, and the ICL examples. To address this problem that results in unexpected performance degradation, calibration methods have been developed to mitigate the effects of these biases while recovering LLM performance. In this work, we first conduct a systematic analysis of the existing calibration methods, where we both provide a unified view and reveal the failure cases. Inspired by these analyses, we propose Batch Calibration (BC), a simple yet intuitive method that controls the contextual bias from the batched input, unifies various prior approaches, and effectively addresses the aforementioned issues. BC is zero-shot, inference-only, and incurs negligible additional costs. In the few-shot setup, we further extend BC to allow it to learn the contextual bias from labeled data. We validate the effectiveness of BC with PaLM 2-(S, M, L) and CLIP models and demonstrate state-of-the-art performance over previous calibration baselines across more than 10 natural language understanding and image classification tasks.
翻訳日:2023-10-02 13:44:24 公開日:2023-09-29
# インターフェイスゾーンを持つ拡張物理インフォームニューラルネットワークによるデータ駆動局在波と大規模チューリングモデルのパラメータ発見

Data-driven localized waves and parameter discovery in the massive Thirring model via extended physics-informed neural networks with interface zones ( http://arxiv.org/abs/2309.17240v1 )

ライセンス: Link先を確認
Junchao Chen, Jin Song, Zijian Zhou, Zhenya Yan(参考訳) 本稿では,物理インフォーメーションニューラルネットワーク(pinns)アルゴリズムの枠組みにおける深層学習を通して,mtモデルにおけるデータ駆動型局所化解とパラメータ発見について検討する。 明暗型ソリトン, 呼吸波, ローグ波などの異常なデータ駆動解を, 相対誤差, 絶対誤差に対して正確にシミュレートし, 解析する。 高次局所波解には拡張PINN(XPINN)とドメイン分解を用いてソリトン衝突、呼吸振動、ローグ波重畳などの動的挙動の完全な画像を取得する。 特に、XPINNのドメイン分解におけるインターフェースラインを小さなインターフェイスゾーンに修正し、個々のニューラルネットワークに隣接したインタフェース条件として擬似初期、残留、勾配条件を導入する。 そして、この修正されたアプローチは、明るい発光ソリトン、暗い暗黒ソリトン、暗暗黒ソリトン、一般的な呼吸器、クズネツォフ・マの呼吸器、二階ローグ波など、様々な溶液にうまく適用される。 実験により, この改良版XPINNは, より高速な収束率で計算の複雑さを低減し, よりスムーズな縫合性能で学習した解の質を保った。 逆問題に対しては、古典的なPINNアルゴリズムを用いて、MTモデルにおける線形項および非線形項の未知の係数パラメータをノイズなしで正確に同定する。

In this paper, we study data-driven localized wave solutions and parameter discovery in the massive Thirring (MT) model via the deep learning in the framework of physics-informed neural networks (PINNs) algorithm. Abundant data-driven solutions including soliton of bright/dark type, breather and rogue wave are simulated accurately and analyzed contrastively with relative and absolute errors. For higher-order localized wave solutions, we employ the extended PINNs (XPINNs) with domain decomposition to capture the complete pictures of dynamic behaviors such as soliton collisions, breather oscillations and rogue-wave superposition. In particular, we modify the interface line in domain decomposition of XPINNs into a small interface zone and introduce the pseudo initial, residual and gradient conditions as interface conditions linked adjacently with individual neural networks. Then this modified approach is applied successfully to various solutions ranging from bright-bright soliton, dark-dark soliton, dark-antidark soliton, general breather, Kuznetsov-Ma breather and second-order rogue wave. Experimental results show that this improved version of XPINNs reduce the complexity of computation with faster convergence rate and keep the quality of learned solutions with smoother stitching performance as well. For the inverse problems, the unknown coefficient parameters of linear and nonlinear terms in the MT model are identified accurately with and without noise by using the classical PINNs algorithm.
翻訳日:2023-10-02 13:43:59 公開日:2023-09-29
# EGVD:イベントガイド付きビデオレイニング

EGVD: Event-Guided Video Deraining ( http://arxiv.org/abs/2309.17239v1 )

ライセンス: Link先を確認
Yueyi Zhang, Jin Wang, Wenming Weng, Xiaoyan Sun, Zhiwei Xiong(参考訳) ディープラーニングの急速な発展により、ビデオデラリニングは大きな進歩を遂げた。 しかし, 複雑な時空間分布の降雨層を有するシーンでは, 既存のビデオデラリニングパイプラインは満足のいく性能を達成できない。 本稿では,イベントカメラを用いて映像のデライニングにアプローチする。 ニューロモルフィックセンサーとして、イベントカメラは不均一な動きと動的光条件のシーンに適合する。 そこで本稿では,イベントカメラの可能性を解き明かすために,エンド・ツー・エンドの学習ベースネットワークを提案する。 まず,イベントアウェアマスクを用いたマルチフレーム動作コンテキストを適応的に集約するイベントアウェア動作検出モジュールを開発した。 第2に,マルチモーダル・コンテキスト化前処理を取り入れることで,背景層と雨層を確実に分離するピラミッド型適応選択モジュールを設計した。 さらに,雨のビデオと時間同期イベントストリームからなる実世界のデータセットを構築する。 本手法を総合的および自己収集型実世界データセットの広範な最先端手法と比較し,提案手法の明らかな優越性を示す。 コードとデータセットは \url{https://github.com/booker-max/egvd} で利用可能である。

With the rapid development of deep learning, video deraining has experienced significant progress. However, existing video deraining pipelines cannot achieve satisfying performance for scenes with rain layers of complex spatio-temporal distribution. In this paper, we approach video deraining by employing an event camera. As a neuromorphic sensor, the event camera suits scenes of non-uniform motion and dynamic light conditions. We propose an end-to-end learning-based network to unlock the potential of the event camera for video deraining. First, we devise an event-aware motion detection module to adaptively aggregate multi-frame motion contexts using event-aware masks. Second, we design a pyramidal adaptive selection module for reliably separating the background and rain layers by incorporating multi-modal contextualized priors. In addition, we build a real-world dataset consisting of rainy videos and temporally synchronized event streams. We compare our method with extensive state-of-the-art methods on synthetic and self-collected real-world datasets, demonstrating the clear superiority of our method. The code and dataset are available at \url{https://github.com/booker-max/EGVD}.
翻訳日:2023-10-02 13:43:31 公開日:2023-09-29
# LLM-Deliberation:対話型マルチエージェントネゴシエーションゲームを用いたLLMの評価

LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games ( http://arxiv.org/abs/2309.17234v1 )

ライセンス: Link先を確認
Sahar Abdelnabi, Amr Gomaa, Sarath Sivaprasad, Lea Sch\"onherr, Mario Fritz(参考訳) 複雑な状況の評価を必要とする現実的なタスクに取り組むエージェントとして,LLM(Large Language Models)の使用に対する関心が高まっている。 しかし、私たちはLSMの推論と意思決定能力について限定的な理解をしており、部分的には専用の評価ベンチマークの欠如から生じている。 日常的なコミュニケーションやコラボレーションにおいて,交渉や妥協が重要な側面であるので,LLMの新たな評価フレームワークとしてスコーラブルネゴシエーションゲームを提案する。 多様なテキストベース,マルチエージェント,マルチイシュー,セマンティックにリッチなネゴシエーションゲームによるテストベッドを,容易に調整可能な難易度で作成する。 この課題を解決するには、エージェントはシームレスに統合しながら、強力な算術、推論、探索、計画能力を持つ必要がある。 組織的なゼロショットの連鎖促進(CoT)によって、エージェントが交渉し、常に成功する取引に到達できることが示される。 複数のメトリクスで性能を定量化し、GPT-4とそれ以前のモデルの間の大きなギャップを観察する。 重要なのは、新しいゲームやセットアップへの一般化をテストすることです。 最後に、これらのゲームは、欲望と敵プレイヤーの存在下でのエージェント間の相互作用ダイナミクスなど、他の重要な側面を評価するのに役立ちます。

There is a growing interest in using Large Language Models (LLMs) as agents to tackle real-world tasks that may require assessing complex situations. Yet, we have a limited understanding of LLMs' reasoning and decision-making capabilities, partly stemming from a lack of dedicated evaluation benchmarks. As negotiating and compromising are key aspects of our everyday communication and collaboration, we propose using scorable negotiation games as a new evaluation framework for LLMs. We create a testbed of diverse text-based, multi-agent, multi-issue, semantically rich negotiation games, with easily tunable difficulty. To solve the challenge, agents need to have strong arithmetic, inference, exploration, and planning capabilities, while seamlessly integrating them. Via a systematic zero-shot Chain-of-Thought prompting (CoT), we show that agents can negotiate and consistently reach successful deals. We quantify the performance with multiple metrics and observe a large gap between GPT-4 and earlier models. Importantly, we test the generalization to new games and setups. Finally, we show that these games can help evaluate other critical aspects, such as the interaction dynamics between agents in the presence of greedy and adversarial players.
翻訳日:2023-10-02 13:43:15 公開日:2023-09-29
# Spurious Feature Diversificationは配布外一般化を改善する

Spurious Feature Diversification Improves Out-of-distribution Generalization ( http://arxiv.org/abs/2309.17230v1 )

ライセンス: Link先を確認
Yong Lin, Lu Tan, Yifan Hao, Honam Wong, Hanze Dong, Weizhong Zhang, Yujiu Yang, Tong Zhang(参考訳) out-of-distribution(ood)データへの一般化は、機械学習における重要な課題である。 モデルパラメータを補間する重み空間アンサンブルのようなアンサンブルに基づく手法は、優れたOOD性能を実現することが示されている。 しかし、その効果の根底にあるメカニズムは不明である。 本研究では,事前学習モデルと微調整モデルの間を補間する一般的な重量空間アンサンブル法であるWiSE-FTを詳しく検討する。 wise-ftは各モデルが不正確な予測を行う多くのケースをうまく修正し、それがoodの有効性に大きく寄与する予期せぬ現象を観察した。 さらなる知見を得るため、我々は多数の突発的な特徴を持つ多クラス設定で理論的解析を行う。 本解析では,上記の現象を予測し,さらに,アンサンブルに基づくモデルにより,より多様なスプリアス特徴を用いて,ood設定における予測誤差を低減できることを示す。 OOD性能を改善するために不変な特徴を学習することに焦点を当てた従来の知恵とは対照的に,多種多様な突発的特徴を取り入れることで個人の貢献が弱まり,OOD全体の一般化性能が向上することが示唆された。 実験により,MultiColorMNISTデータセットにおける多様な特徴の活用の有効性を実証し,実験結果と理論解析との整合性を示した。 アンサンブル法の有効性に関する新たな理論的知見に基づいて,OOD状況における微調整モデルの過度な信頼に起因するWiSE-FTの問題をさらに特定する。 この過信は、微調整されたモデルの誤った予測を拡大し、OODアンサンブル性能を低下させる。 この問題を解決するため, BAlaNced averaGing (BANG) と呼ばれる新しい手法を提案し, WiSE-FTのOOD性能を大幅に向上させる。

Generalization to out-of-distribution (OOD) data is a critical challenge in machine learning. Ensemble-based methods, like weight space ensembles that interpolate model parameters, have been shown to achieve superior OOD performance. However, the underlying mechanism for their effectiveness remains unclear. In this study, we closely examine WiSE-FT, a popular weight space ensemble method that interpolates between a pre-trained and a fine-tuned model. We observe an unexpected phenomenon, in which WiSE-FT successfully corrects many cases where each individual model makes incorrect predictions, which contributes significantly to its OOD effectiveness. To gain further insights, we conduct theoretical analysis in a multi-class setting with a large number of spurious features. Our analysis predicts the above phenomenon and it further shows that ensemble-based models reduce prediction errors in the OOD settings by utilizing a more diverse set of spurious features. Contrary to the conventional wisdom that focuses on learning invariant features for better OOD performance, our findings suggest that incorporating a large number of diverse spurious features weakens their individual contributions, leading to improved overall OOD generalization performance. Empirically we demonstrate the effectiveness of utilizing diverse spurious features on a MultiColorMNIST dataset, and our experimental results are consistent with the theoretical analysis. Building upon the new theoretical insights into the efficacy of ensemble methods, we further identify an issue of WiSE-FT caused by the overconfidence of fine-tuned models in OOD situations. This overconfidence magnifies the fine-tuned model's incorrect prediction, leading to deteriorated OOD ensemble performance. To remedy this problem, we propose a novel method called BAlaNced averaGing (BANG), which significantly enhances the OOD performance of WiSE-FT.
翻訳日:2023-10-02 13:42:53 公開日:2023-09-29
# 量子情報理論における不斉クローニング

Asymmetric cloning in quantum information theory ( http://arxiv.org/abs/2309.17229v1 )

ライセンス: Link先を確認
Denis Rochette(参考訳) この論文は、表現論のコア概念、特に対称群に関連する概念を用いて、量子クローニングと関連する量子絡み合い問題を研究する。 この研究は、量子システムの効率的な表現と操作を可能にするシュル=ワイル双対性とその拡張を探求し、量子情報理論の貴重なツールとして機能する。 シュル=ワイル双対性の主要な応用は量子クローニング問題であり、これは1 の 2$ とより一般的な 1 の N$ のケースの両方で研究され、非閉定理によって課される制約に対する新たな洞察を与える。 この研究は、完全グラフ上のより一般的な量子絡み合い問題にまで拡張される。

This thesis investigates quantum cloning and related quantum entanglement problems using core concepts of representation theory, in particular those associated with the symmetric group. The research explores Schur-Weyl duality and its extensions, which allow efficient representation and manipulation of quantum systems, serving as a valuable tool for quantum information theory. A primary application of Schur-Weyl duality is the quantum cloning problem, which is studied for both the $1 \to 2$ and the more general $1 \to N$ cases, providing new insights into the constraints imposed by the no-cloning theorem. The investigation extends to a more general quantum entanglement problem on a complete graph.
翻訳日:2023-10-02 13:42:22 公開日:2023-09-29
# MORPH: 微分ハードウェアモデルプロキシによる強化学習による設計最適化

MORPH: Design Co-optimization with Reinforcement Learning via a Differentiable Hardware Model Proxy ( http://arxiv.org/abs/2309.17227v1 )

ライセンス: Link先を確認
Zhanpeng He and Matei Ciocarlie(参考訳) 我々は、強化学習を用いたシミュレーションにおいて、ハードウェア設計パラメータと制御ポリシーを協調最適化する手法であるMORPHを紹介する。 ほとんどの共最適化法と同様に、MORPHは最適化されるハードウェアのモデルに依存し、通常は物理学の法則に基づいてシミュレートされる。 しかし、このようなモデルは効率的な最適化ルーチンに統合することはしばしば困難である。 そこで本研究では,常に差別化可能なプロキシハードウェアモデルを導入し,RLを用いた長期制御ポリシと並行して,効率的な協調最適化を実現する。 MORPHは、最適化されたハードウェアプロキシが、その現実的なプロキシと可能な限り近いままでありながら、タスクの完了を可能にするように設計されている。 シミュレーションによる2次元到達および3次元多指操作の手法を実証する。

We introduce MORPH, a method for co-optimization of hardware design parameters and control policies in simulation using reinforcement learning. Like most co-optimization methods, MORPH relies on a model of the hardware being optimized, usually simulated based on the laws of physics. However, such a model is often difficult to integrate into an effective optimization routine. To address this, we introduce a proxy hardware model, which is always differentiable and enables efficient co-optimization alongside a long-horizon control policy using RL. MORPH is designed to ensure that the optimized hardware proxy remains as close as possible to its realistic counterpart, while still enabling task completion. We demonstrate our approach on simulated 2D reaching and 3D multi-fingered manipulation tasks.
翻訳日:2023-10-02 13:42:11 公開日:2023-09-29
# 8ビット浮動小数点を用いた大規模言語モデルの訓練と推定

Training and inference of large language models using 8-bit floating point ( http://arxiv.org/abs/2309.17224v1 )

ライセンス: Link先を確認
Sergio P. Perez, Yan Zhang, James Briggs, Charlie Blake, Josh Levy-Kramer, Paul Balanca, Carlo Luschi, Stephen Barlow, Andrew William Fitzgibbon(参考訳) FP8フォーマットは、大規模なディープラーニングモデルのトレーニングと推論の計算効率を高めるために人気を集めている。 彼らの主な課題は、高い精度のフォーマットに比べてダイナミックレンジが小さくなることによる劣化を防ぐために、スケールの慎重に選択する必要があることである。 INTフォーマットでこのようなスケーリングを選択することについては、多くの文献があるが、この重要な側面はFP8では未解決である。 本稿では,重み,勾配,アクティベーションを動的に更新し,FP8線形層のスケーリングを選択する手法を提案する。 本稿では,111Mから70Bまでのモデルサイズに対して,FP8を用いたGPTとLlama 2の言語モデルの訓練と検証を行う。 fp8ダイナミクスの理解を容易にするために,トレーニングと推論の両方において,重み,アクティベーション,勾配に対するテンソルスケール分布のプロットを伴っている。

FP8 formats are gaining popularity to boost the computational efficiency for training and inference of large deep learning models. Their main challenge is that a careful choice of scaling is needed to prevent degradation due to the reduced dynamic range compared to higher-precision formats. Although there exists ample literature about selecting such scalings for INT formats, this critical aspect has yet to be addressed for FP8. This paper presents a methodology to select the scalings for FP8 linear layers, based on dynamically updating per-tensor scales for the weights, gradients and activations. We apply this methodology to train and validate large language models of the type of GPT and Llama 2 using FP8, for model sizes ranging from 111M to 70B. To facilitate the understanding of the FP8 dynamics, our results are accompanied by plots of the per-tensor scale distribution for weights, activations and gradients during both training and inference.
翻訳日:2023-10-02 13:41:59 公開日:2023-09-29
# 組織像からのグリオーマサブタイプ分類 : ドメイン内およびドメイン外移行学習を用いた実験的研究

Glioma subtype classification from histopathological images using in-domain and out-of-domain transfer learning: An experimental study ( http://arxiv.org/abs/2309.17223v1 )

ライセンス: Link先を確認
Vladimir Despotovic, Sang-Yoon Kim, Ann-Christin Hau, Aliaksandra Kakoichankava, Gilbert Georg Klamminger, Felix Bruno Kleine Borgmann, Katrin B. M. Frauenknecht, Michel Mittelbronnf, Petr V. Nazarov(参考訳) 本稿では,成人型びまん性グリオーマのコンピュータ支援分類のための各種伝達学習戦略と深層学習アーキテクチャを包括的に比較する。 組織像のターゲット領域に対する領域外画像ネット表現の一般化性を評価し, 組織像の中~大規模データセットを用いて, 自己教師付き多タスク学習アプローチを用いて, ドメイン内適応の影響について検討した。 さらに,全スライド画像(wsi)の無記名領域のラベルを予測するために,微調整モデルを用いた半教師付き学習手法も提案されている。 モデルはその後、前段で決定された接地ラベルと弱いラベルを使用して再訓練され、96.91%とf1-score 97.07%のバランスのとれた標準のドメイン内トランスファー学習と比較して優れた性能を提供し、病理学者のアノテーションに対する努力を最小化する。 最後に,腫瘍領域を強調するヒートマップを生成するwsiレベルで動作する可視化ツールを提供し,wsiの最も有用な部分に関する病理学者への洞察を提供する。

We provide in this paper a comprehensive comparison of various transfer learning strategies and deep learning architectures for computer-aided classification of adult-type diffuse gliomas. We evaluate the generalizability of out-of-domain ImageNet representations for a target domain of histopathological images, and study the impact of in-domain adaptation using self-supervised and multi-task learning approaches for pretraining the models using the medium-to-large scale datasets of histopathological images. A semi-supervised learning approach is furthermore proposed, where the fine-tuned models are utilized to predict the labels of unannotated regions of the whole slide images (WSI). The models are subsequently retrained using the ground-truth labels and weak labels determined in the previous step, providing superior performance in comparison to standard in-domain transfer learning with balanced accuracy of 96.91% and F1-score 97.07%, and minimizing the pathologist's efforts for annotation. Finally, we provide a visualization tool working at WSI level which generates heatmaps that highlight tumor areas; thus, providing insights to pathologists concerning the most informative parts of the WSI.
翻訳日:2023-10-02 13:41:42 公開日:2023-09-29
# マルチビューステレオにおける非局所演算子とのエピポーラ制約

When Epipolar Constraint Meets Non-local Operators in Multi-View Stereo ( http://arxiv.org/abs/2309.17218v1 )

ライセンス: Link先を確認
Tianqi Liu, Xinyi Ye, Weiyue Zhao, Zhiyu Pan, Min Shi, Zhiguo Cao(参考訳) 学習ベースマルチビューステレオ(MVS)法は特徴マッチングに大きく依存しており、特徴的かつ記述的表現を必要とする。 効果的な解決策は、非局所的な特徴集約、例えばTransformerを適用することである。 有用ではあるが、これらの技術はMVSに重い計算オーバーヘッドをもたらす。 各ピクセルは画像全体に密集している。 対照的に、各点が対応する一対のエピポーラ線にのみ従うという、一対の直線内での非局所的特徴増大を制限することを提案する。 我々のアイデアは古典的なエピポーラ幾何学から着想を得ており、異なる深さの仮説を持つ一点が他方の視点のエピポーラ直線に射影されることを示した。 この制約はステレオマッチングにおいて2次元探索空間をエピポーラ線に還元する。 同様に、MVSのマッチングは、同じ直線上にある一連の点を区別することを示唆している。 このポイント・ツー・ライン探索に触発されて、我々は直線から点への非局所的な拡張戦略を考案する。 まず,2次元特徴写像をエピポーラ線対に分割する最適化探索アルゴリズムを提案する。 そして、エピポーラ変換器(ET)は、エピポーララインペア間で非局所的特徴増強を行う。 ETを学習ベースのMVSベースライン、ET-MVSNetに組み込む。 ET-MVSNet は DTU と Tanks-and-Temples のベンチマークを高い効率で再現する。 コードはhttps://github.com/TQTQliu/ET-MVSNetで入手できる。

Learning-based multi-view stereo (MVS) method heavily relies on feature matching, which requires distinctive and descriptive representations. An effective solution is to apply non-local feature aggregation, e.g., Transformer. Albeit useful, these techniques introduce heavy computation overheads for MVS. Each pixel densely attends to the whole image. In contrast, we propose to constrain non-local feature augmentation within a pair of lines: each point only attends the corresponding pair of epipolar lines. Our idea takes inspiration from the classic epipolar geometry, which shows that one point with different depth hypotheses will be projected to the epipolar line on the other view. This constraint reduces the 2D search space into the epipolar line in stereo matching. Similarly, this suggests that the matching of MVS is to distinguish a series of points lying on the same line. Inspired by this point-to-line search, we devise a line-to-point non-local augmentation strategy. We first devise an optimized searching algorithm to split the 2D feature maps into epipolar line pairs. Then, an Epipolar Transformer (ET) performs non-local feature augmentation among epipolar line pairs. We incorporate the ET into a learning-based MVS baseline, named ET-MVSNet. ET-MVSNet achieves state-of-the-art reconstruction performance on both the DTU and Tanks-and-Temples benchmark with high efficiency. Code is available at https://github.com/TQTQliu/ET-MVSNet.
翻訳日:2023-10-02 13:41:18 公開日:2023-09-29
# Wiki-En-ASR-Adapt:英語ASRカスタマイズのための大規模合成データセット

Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR Customization ( http://arxiv.org/abs/2309.17267v1 )

ライセンス: Link先を確認
Alexandra Antonova(参考訳) 本稿では,音声認識(asr)の文脈的綴りチェックのための最初の大規模合成データセットを,固有名称や用語など,多様な希少かつ語彙外(oov)句に着目して紹介する。 提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。 さらに,訓練例のバイアスリストに対して2種類の‘hard negatives’を注入し,自動的にマイニングする手順について述べる。 提案するデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,強負のバイアスフレーズの注入がwar減少し,誤報の回数が減少することを示す。

We present a first large-scale public synthetic dataset for contextual spellchecking customization of automatic speech recognition (ASR) with focus on diverse rare and out-of-vocabulary (OOV) phrases, such as proper names or terms. The proposed approach allows creating millions of realistic examples of corrupted ASR hypotheses and simulate non-trivial biasing lists for the customization task. Furthermore, we propose injecting two types of ``hard negatives" to the simulated biasing lists in training examples and describe our procedures to automatically mine them. We report experiments with training an open-source customization model on the proposed dataset and show that the injection of hard negative biasing phrases decreases WER and the number of false alarms.
翻訳日:2023-10-02 13:35:23 公開日:2023-09-29
# 3次元位置決め精度と品質に及ぼす構造ベーストレーニングの影響

Effect of structure-based training on 3D localization precision and quality ( http://arxiv.org/abs/2309.17265v1 )

ライセンス: Link先を確認
Armin Abdehkakha, Craig Snoeyink(参考訳) 本研究では、単一分子局在化顕微鏡(SMLM)と3次元オブジェクト再構成におけるCNNアルゴリズムの構造に基づくトレーニング手法を提案する。 このアプローチを従来のランダムベーストレーニング手法と比較し,LUENNパッケージをAIパイプラインとして利用した。 定量的評価により, 検出率と位置推定精度は, 構造に基づくトレーニング手法, 特に信号-雑音比 (SNR) によって著しく向上した。 さらに、チェッカーボードのアーティファクトを効果的に除去し、より正確な3D再構成を実現する。 本研究は,超高分解能顕微鏡を応用し,ナノスケールでの複雑な生体システムの理解を深めるための構造ベーストレーニング手法の可能性を明らかにするものである。

This study introduces a structural-based training approach for CNN-based algorithms in single-molecule localization microscopy (SMLM) and 3D object reconstruction. We compare this approach with the traditional random-based training method, utilizing the LUENN package as our AI pipeline. The quantitative evaluation demonstrates significant improvements in detection rate and localization precision with the structural-based training approach, particularly in varying signal-to-noise ratios (SNRs). Moreover, the method effectively removes checkerboard artifacts, ensuring more accurate 3D reconstructions. Our findings highlight the potential of the structural-based training approach to advance super-resolution microscopy and deepen our understanding of complex biological systems at the nanoscale.
翻訳日:2023-10-02 13:35:07 公開日:2023-09-29
# 医用画像における一般移動物体分割の基礎モデル

A Foundation Model for General Moving Object Segmentation in Medical Images ( http://arxiv.org/abs/2309.17264v1 )

ライセンス: Link先を確認
Zhongnuo Yan, Tong Han, Yuhao Huang, Lian Liu, Han Zhou, Jiongquan Chen, Wenlong Shi, Yan Cao, Xin Yang, Dong Ni(参考訳) 医用画像分割は, 臨床診断において重要な役割を担い, 解剖学的, 病理学的構造を明らかにすることを目的としている。 高精度の深部セグメンテーションモデルを構築するためには,高品質なアノテートデータが多く重要である。 しかし、医療アノテーションは、特に医療ビデオや3Dボリュームでは、巨大なラベル付けスペースとフレーム間の一貫性の欠如のため、非常に面倒で時間を要する。 近年,移動物体分割(MOS)という基本課題が自然画像に大きく進展している。 その目的は、最小限のアノテーションしか必要とせず、画像シーケンス内の背景から動くオブジェクトをデラインすることである。 本稿では,医療画像におけるMOSのための基礎モデルiMOSを提案する。 大規模マルチモーダル医療データセットに関する広範な実験により、提案するimosの有効性が検証された。 具体的には、シーケンス内の少数の画像のみをアノテーションすることで、imosは双方向で、シーケンス全体にわたって動くオブジェクトの十分なトラッキングとセグメンテーション性能を実現することができる。 提案したiMOSが専門家のアノテーションのスピードを加速し、医療基盤モデルの開発を促進することを願っている。

Medical image segmentation aims to delineate the anatomical or pathological structures of interest, playing a crucial role in clinical diagnosis. A substantial amount of high-quality annotated data is crucial for constructing high-precision deep segmentation models. However, medical annotation is highly cumbersome and time-consuming, especially for medical videos or 3D volumes, due to the huge labeling space and poor inter-frame consistency. Recently, a fundamental task named Moving Object Segmentation (MOS) has made significant advancements in natural images. Its objective is to delineate moving objects from the background within image sequences, requiring only minimal annotations. In this paper, we propose the first foundation model, named iMOS, for MOS in medical images. Extensive experiments on a large multi-modal medical dataset validate the effectiveness of the proposed iMOS. Specifically, with the annotation of only a small number of images in the sequence, iMOS can achieve satisfactory tracking and segmentation performance of moving objects throughout the entire sequence in bi-directions. We hope that the proposed iMOS can help accelerate the annotation speed of experts, and boost the development of medical foundation models.
翻訳日:2023-10-02 13:34:54 公開日:2023-09-29
# マルチアクセスチャネルにおけるCビット上のクビット通信の利点

Advantage of Qubit Communication Over The C-bit in Multiple Access Channel ( http://arxiv.org/abs/2309.17263v1 )

ライセンス: Link先を確認
Ananya Chakraborty, Sahil Gopalkrishna Naik, Edwin Peter Lobo, Ram Krishna Patra, Samrat Sen, Mir Alimuddin, Amit Mukherjee, Manik Banik(参考訳) Holevoによる有名なno-go定理は、送信者と受信者の間で絡み合いが共有されない場合、個々の量子システムの情報容量を制限する。 Frenkel \& Weiner による最近拡張されたこの定理は、量子システムの通信ユーティリティにさらに厳密な制限を課している。 具体的には、ポイント・ツー・ポイント情報伝達のシナリオにおいて、nレベル量子システムと達成可能な入出力相関は、通信線が古典的相関のみを補助する n 状態の古典的オブジェクトでも達成可能であることを証明している。 本研究では、複数の独立した送信者が1つの受信機にメッセージを送信するという、MAC(Multiple Access Channel)を含むネットワーク通信のシナリオにおいて、そのようなNo-go結果が当てはまらないことを示す。 古典的チャネルが異なる構成で無限に共有されたランダム性で拡張されている場合でも、量子システム間の通信が古典的システムよりも有利であることが証明されるmacシミュレーションタスクの様々な例を示す。 また、ネットワーク通信シナリオにおける他の量子的利点の道を開いた量子アドバンテージの基礎となるリンチピンを同定する。

The celebrated no-go theorem by Holevo limits the information capacity of an individual quantum system when no entanglement is shared between the sender and receiver. A recently extended version of this theorem by Frenkel \& Weiner imposes even a stricter embargo on communication utilities of a quantum system. Specifically, in point-to-point information transmission scenario, it proves that any input-output correlation achievable with an n-level quantum system can also be achieved with an n-state classical object provided the communication lines are assisted with classical correlations only. In this work, we show that such a no-go result does not hold true in network communication scenario involving multiple access channel (MAC), where several independent senders aim to transmit messages to a single receiver. We present various instances of MAC simulation tasks wherein communicating quantum systems prove to be advantageous over their classical counterparts, even when classical channels are augmented with unlimited shared randomness across different configurations. We also identify the foundational linchpins underlying the quantum advantages, which paves the way for several other quantum benefits in network communication scenarios.
翻訳日:2023-10-02 13:34:36 公開日:2023-09-29
# 分布強化学習における推定と推論

Estimation and Inference in Distributional Reinforcement Learning ( http://arxiv.org/abs/2309.17262v1 )

ライセンス: Link先を確認
Liangyu Zhang, Yang Peng, Jiadong Liang, Wenhao Yang, Zhihua Zhang(参考訳) 本稿では,統計的効率の観点から分布強化学習について検討する。 本研究では,所定のポリシが達成したランダムリターンの完全な分布を推定することを目的として,分散政策評価について検討する。 生成モデルが利用可能であれば、確実同値法を用いて推定子$\hat\eta^\pi$を構築する。 この状況下では、$\widetilde O\left(\frac{|\mathcal{S}||\mathcal{A}|}{\epsilon^{2p}(1-\gamma)^{2p+2}}\right)$が$\hat\eta^\pi$と$\eta^\pi$の間の$p$-Wassersteinメートル法を保証するために、高い確率で$\epsilon$未満であることを示す。 これは、分布政策評価問題はサンプル効率で解くことができることを意味する。 また、異なる穏やかな仮定の下で、サイズのデータセット $\widetilde o\left(\frac{|\mathcal{s}||\mathcal{a}|}{\epsilon^{2}(1-\gamma)^{4}}\right)$ suffices は、$\hat\eta^\pi$ と $\eta^\pi$ の間のコルモゴロフ計量と総変動メトリックを高い確率で満たす。 さらに, $\hat\eta^\pi$ の漸近挙動について検討する。 数値的過程''$\sqrt{n}(\hat\eta^\pi-\eta^\pi)$がリプシッツ函数の有界汎函数の空間におけるガウス過程に弱収束することを示した。 $\ell^\infty(\mathcal{f}_{w_1})$、また指標函数の有界汎函数の空間においても、いくつかの穏やかな条件が成立すると、有界可測関数クラス $\ell^\infty(\mathcal{f}_{\mathrm{tv}})$ および有界可測関数クラス $\ell^\infty(\mathcal{f}_{\mathrm{tv}})$である。 以上の結果から,より広範な統計汎関数の統計的推測への統一的アプローチがもたらされた。

In this paper, we study distributional reinforcement learning from the perspective of statistical efficiency. We investigate distributional policy evaluation, aiming to estimate the complete distribution of the random return (denoted $\eta^\pi$) attained by a given policy $\pi$. We use the certainty-equivalence method to construct our estimator $\hat\eta^\pi$, given a generative model is available. We show that in this circumstance we need a dataset of size $\widetilde O\left(\frac{|\mathcal{S}||\mathcal{A}|}{\epsilon^{2p}(1-\gamma)^{2p+2}}\right)$ to guarantee a $p$-Wasserstein metric between $\hat\eta^\pi$ and $\eta^\pi$ is less than $\epsilon$ with high probability. This implies the distributional policy evaluation problem can be solved with sample efficiency. Also, we show that under different mild assumptions a dataset of size $\widetilde O\left(\frac{|\mathcal{S}||\mathcal{A}|}{\epsilon^{2}(1-\gamma)^{4}}\right)$ suffices to ensure the Kolmogorov metric and total variation metric between $\hat\eta^\pi$ and $\eta^\pi$ is below $\epsilon$ with high probability. Furthermore, we investigate the asymptotic behavior of $\hat\eta^\pi$. We demonstrate that the ``empirical process'' $\sqrt{n}(\hat\eta^\pi-\eta^\pi)$ converges weakly to a Gaussian process in the space of bounded functionals on Lipschitz function class $\ell^\infty(\mathcal{F}_{W_1})$, also in the space of bounded functionals on indicator function class $\ell^\infty(\mathcal{F}_{\mathrm{KS}})$ and bounded measurable function class $\ell^\infty(\mathcal{F}_{\mathrm{TV}})$ when some mild conditions hold. Our findings give rise to a unified approach to statistical inference of a wide class of statistical functionals of $\eta^\pi$.
翻訳日:2023-10-02 13:34:15 公開日:2023-09-29
# consistent123:case-aware diffusion priorsを用いた高一貫性3dアセットの1画像

Consistent123: One Image to Highly Consistent 3D Asset Using Case-Aware Diffusion Priors ( http://arxiv.org/abs/2309.17261v1 )

ライセンス: Link先を確認
Yukang Lin, Haonan Han, Chaoqun Gong, Zunnan Xu, Yachao Zhang, Xiu Li(参考訳) 事前訓練した拡散モデルで導かれた単一画像から3Dオブジェクトを再構成すると,有望な結果が得られた。 しかし, ケース非依存の厳密な戦略を活用することにより, 任意のケースへの一般化能力と再構築の3次元整合性はいまだに乏しい。 本研究では,2次元および3次元拡散先行画像から高度に一貫した3次元アセット再構成を行うケース認識型2段階手法であるConsistent123を提案する。 最初の段階では、consist123は十分な幾何学的エクスプロイトのために3d構造のみを使用しており、このプロセスにクリップベースのケースアウェア適応検出機構が組み込まれている。 第2段階では、2Dテクスチャ先行が導入され、3Dモデルの細部を微妙に彫刻し、支配的な指針となる。 Consistent123は、ガイダンス要件の進化傾向とより密接に一致し、適切な3次元幾何学的初期化と異なるオブジェクトに適した2次元テクスチャリファインメントを提供する。 consistent123は高度に3d一貫性のある再構成が可能で、様々なオブジェクトにまたがる強力な一般化能力を示す。 定性的および定量的実験により,本手法は最先端の画像-3D法より有意に優れていた。 生成された3dアセットをより包括的に調査するために、https:// consistent123.github.ioをご覧ください。

Reconstructing 3D objects from a single image guided by pretrained diffusion models has demonstrated promising outcomes. However, due to utilizing the case-agnostic rigid strategy, their generalization ability to arbitrary cases and the 3D consistency of reconstruction are still poor. In this work, we propose Consistent123, a case-aware two-stage method for highly consistent 3D asset reconstruction from one image with both 2D and 3D diffusion priors. In the first stage, Consistent123 utilizes only 3D structural priors for sufficient geometry exploitation, with a CLIP-based case-aware adaptive detection mechanism embedded within this process. In the second stage, 2D texture priors are introduced and progressively take on a dominant guiding role, delicately sculpting the details of the 3D model. Consistent123 aligns more closely with the evolving trends in guidance requirements, adaptively providing adequate 3D geometric initialization and suitable 2D texture refinement for different objects. Consistent123 can obtain highly 3D-consistent reconstruction and exhibits strong generalization ability across various objects. Qualitative and quantitative experiments show that our method significantly outperforms state-of-the-art image-to-3D methods. See https://Consistent123.github.io for a more comprehensive exploration of our generated 3D assets.
翻訳日:2023-10-02 13:33:18 公開日:2023-09-29
# PlaceNav: 位置認識によるトポロジカルナビゲーション

PlaceNav: Topological Navigation through Place Recognition ( http://arxiv.org/abs/2309.17260v1 )

ライセンス: Link先を確認
Lauri Suomela, Jussi Kalliola, Atakan Dag, Harry Edelman, Joni-Kristian K\"am\"ar\"ainen(参考訳) 近年,ロボット非依存およびロボット固有成分にトポロジカルナビゲーションを分割することで,ロボット非依存部分を異なるロボットタイプから収集したデータで訓練することにより,ナビゲーション性能が向上することが示唆された。 しかしながら、適切なトレーニングデータの不足により、ナビゲーション手法は依然として制限され、計算スケールの悪さに苦しめられている。 本研究では,ロボットに依存しない部分をナビゲーション固有の汎用コンピュータビジョンコンポーネントに分割する。 トポロジカルナビゲーションパイプラインのサブゴール選択に視覚的位置認識を利用する。 これにより、サブゴア選択の効率が向上し、非ロボットソースからの大規模データセットの活用が可能になり、トレーニングデータの可用性が向上する。 位置認識によって実現されるベイズフィルタリングは、サブゴールの時間的一貫性を高め、ナビゲーション性能をさらに向上させる。 実験の結果, 室内での成功率は76%, 屋外ナビゲーションで23%, 計算効率が高かった。

Recent results suggest that splitting topological navigation into robot-independent and robot-specific components improves navigation performance by enabling the robot-independent part to be trained with data collected by different robot types. However, the navigation methods are still limited by the scarcity of suitable training data and suffer from poor computational scaling. In this work, we present~\methodname, subdividing the robot-independent part into navigation-specific and generic computer vision components. We utilize visual place recognition for the subgoal selection of the topological navigation pipeline. This makes subgoal selection more efficient and enables leveraging large-scale datasets from non-robotics sources, increasing training data availability. Bayes filtering, enabled by place recognition, further improves navigation performance by increasing the temporal consistency of subgoals. Our experimental results verify the design and the new model obtains a 76% higher success rate in indoor and 23% higher in outdoor navigation tasks with higher computational efficiency.
翻訳日:2023-10-02 13:32:56 公開日:2023-09-29
# 行動予測のための深層学習技術に関する調査研究

A Survey on Deep Learning Techniques for Action Anticipation ( http://arxiv.org/abs/2309.17257v1 )

ライセンス: Link先を確認
Zeyun Zhong, Manuel Martin, Michael Voit, Juergen Gall, J\"urgen Beyerer(参考訳) 将来の人間の行動を予測する能力は、自律運転や人間とロボットの相互作用を含む幅広い応用に不可欠である。 その結果,近年,深層学習に基づくアプローチが特に普及し,行動予測のための手法が数多く導入されている。 本稿では,日々の生活シナリオに着目した行動予測アルゴリズムの最近の進歩を概観する。 さらに,これらの手法を主要な貢献度に応じて分類し,表形式で要約し,読者が一目で詳細を把握できるようにする。 さらに,行動予測に使用される共通評価指標とデータセットを考察し,今後の方向性について系統的な議論を行う。

The ability to anticipate possible future human actions is essential for a wide range of applications, including autonomous driving and human-robot interaction. Consequently, numerous methods have been introduced for action anticipation in recent years, with deep learning-based approaches being particularly popular. In this work, we review the recent advances of action anticipation algorithms with a particular focus on daily-living scenarios. Additionally, we classify these methods according to their primary contributions and summarize them in tabular form, allowing readers to grasp the details at a glance. Furthermore, we delve into the common evaluation metrics and datasets used for action anticipation and provide future directions with systematical discussions.
翻訳日:2023-10-02 13:32:38 公開日:2023-09-29
# 生命科学のための知識グラフ--最近の発展、挑戦、機会

Knowledge Graphs for the Life Sciences: Recent Developments, Challenges and Opportunities ( http://arxiv.org/abs/2309.17255v1 )

ライセンス: Link先を確認
Jiaoyan Chen, Hang Dong, Janna Hastings, Ernesto Jim\'enez-Ruiz, Vanessa Lopez, Pierre Monnin, Catia Pesquita, Petr \v{S}koda, Valentina Tamma(参考訳) 生命科学という用語は、生物と生命の過程を研究する分野であり、化学、生物学、医学、その他の関連する分野を含む。 生命科学の研究は、膨大な量の科学データを生産し消費するため、データ駆動であり、その多くが本質的に関係性があり、グラフ構造である。 データ量と科学的な概念と関係の複雑さは、データの管理と解釈に先進的な知識駆動技術の適用を促進し、科学的な発見を促進するための究極の目的である。 本稿では,生命科学におけるグラフ技術の利用の最近の進展と進歩について論じ,これらの技術が将来,これらの分野にどのように影響するかを展望する。 我々は、知識グラフ(KG)の構築と管理、新しい知識の発見におけるKGとその関連技術の使用、説明(説明可能なAI)をサポートする人工知能アプリケーションにおけるKGの使用の3つの幅広いトピックに焦点を当てる。 各トピックの例を挙げるユースケースをいくつか選択し、これらのトピックにおける課題とオープンリサーチの質問について議論し、今後の研究の指針として、包括的な課題とその潜在的な解決策をまとめる視点と展望をまとめます。

The term life sciences refers to the disciplines that study living organisms and life processes, and include chemistry, biology, medicine, and a range of other related disciplines. Research efforts in life sciences are heavily data-driven, as they produce and consume vast amounts of scientific data, much of which is intrinsically relational and graph-structured. The volume of data and the complexity of scientific concepts and relations referred to therein promote the application of advanced knowledge-driven technologies for managing and interpreting data, with the ultimate aim to advance scientific discovery. In this survey and position paper, we discuss recent developments and advances in the use of graph-based technologies in life sciences and set out a vision for how these technologies will impact these fields into the future. We focus on three broad topics: the construction and management of Knowledge Graphs (KGs), the use of KGs and associated technologies in the discovery of new knowledge, and the use of KGs in artificial intelligence applications to support explanations (explainable AI). We select a few exemplary use cases for each topic, discuss the challenges and open research questions within these topics, and conclude with a perspective and outlook that summarizes the overarching challenges and their potential solutions as a guide for future research.
翻訳日:2023-10-02 13:32:29 公開日:2023-09-29
# 森林混合:複数の探索木と共有精製プールがオントロジー学習に及ぼす影響について

Forest Mixing: investigating the impact of multiple search trees and a shared refinements pool on ontology learning ( http://arxiv.org/abs/2309.17252v1 )

ライセンス: Link先を確認
Marco Pop-Mihali and Adrian Groza(参考訳) 我々はホワイトボックス機械学習アルゴリズムの開発を目指している。 ここでは記述論理の公理を学ぶアルゴリズムに焦点を当てる。 DL-Learnerツールに含まれるCELOE(Class Expression Learning for Ontology Engineering)アルゴリズムを拡張した。 このアプローチでは、検索空間を小さな部分空間に分割するために、複数の検索ツリーと改良の共有プールを使用する。 各木から最高のクラス表現の結合操作を導入し、最も多くの情報を提供する結果を保持する。 その目的は、さまざまなスタートクラスからの探索を促進し、オントロジーでクラス式を見つけるプロセスを合理化することである。 %であり,特に大きな検索空間では顕著であった。 現在の実装と設定は、森林混合アプローチが従来のセロを上回らなかったことを示している。 これらの結果にもかかわらず、このアプローチがもたらす概念的提案は、オントロジーにおけるクラス表現発見の今後の改善を刺激する可能性がある。 %および影響した。 一般の検索スペースを横切る方法の1.%です。

We aim at development white-box machine learning algorithms. We focus here on algorithms for learning axioms in description logic. We extend the Class Expression Learning for Ontology Engineering (CELOE) algorithm contained in the DL-Learner tool. The approach uses multiple search trees and a shared pool of refinements in order to split the search space in smaller subspaces. We introduce the conjunction operation of best class expressions from each tree, keeping the results which give the most information. The aim is to foster exploration from a diverse set of starting classes and to streamline the process of finding class expressions in ontologies. %, particularly in large search spaces. The current implementation and settings indicated that the Forest Mixing approach did not outperform the traditional CELOE. Despite these results, the conceptual proposal brought forward by this approach may stimulate future improvements in class expression finding in ontologies. % and influence. % the way we traverse search spaces in general.
翻訳日:2023-10-02 13:32:07 公開日:2023-09-29
# 機械学習応用のための効率的な大規模医用画像データセットの作成

Efficient Large Scale Medical Image Dataset Preparation for Machine Learning Applications ( http://arxiv.org/abs/2309.17285v1 )

ライセンス: Link先を確認
Stefan Denner, Jonas Scherer, Klaus Kades, Dimitrios Bounias, Philipp Schader, Lisa Kausch, Markus Bujotzek, Andreas Michael Bucher, Tobias Penzkofer, Klaus Maier-Hein(参考訳) 急速に発展する医療画像の分野において、機械学習アルゴリズムは診断精度を高めるために不可欠である。 しかし、これらのアルゴリズムの有効性は、高品質な医用画像データセットの可用性と組織化に起因している。 従来のDigital Imaging and Communications in Medicine (DICOM) データ管理システムは、機械学習アルゴリズムで容易に行うために必要なデータのスケールと複雑さを扱うには不十分である。 本稿では,大規模医用画像データセットの組織,管理,処理の合理化を目的とした,Kaapanaオープンソースツールキットの一部として開発された革新的なデータキュレーションツールを紹介する。 このツールは、放射線学者や機械学習研究者のニーズに合わせたものだ。 高度な検索、自動アノテーション、データキュレーションの改善のための効率的なタグ付け機能を備えている。 さらに、このツールは品質管理とレビューを容易にするため、研究者は大規模なデータセットで画像とセグメンテーションの品質を検証できる。 また、堅牢な機械学習モデルを開発する上で不可欠なメタデータの集約と視覚化によって、データセットの潜在的なバイアスを明らかにする上でも重要な役割を果たす。 さらに、カパナは、ドイツの全大学クリニックにおける放射線データの集約、送信、統合のための総合的な国家インフラの構築を目的とした先駆的イニシアチブであるRadiological Cooperative Network(RACOON)に組み込まれている。 ツールの機能を示す補足ビデオはhttps://bit.ly/MICCAI-DEMI2023で見ることができる。

In the rapidly evolving field of medical imaging, machine learning algorithms have become indispensable for enhancing diagnostic accuracy. However, the effectiveness of these algorithms is contingent upon the availability and organization of high-quality medical imaging datasets. Traditional Digital Imaging and Communications in Medicine (DICOM) data management systems are inadequate for handling the scale and complexity of data required to be facilitated in machine learning algorithms. This paper introduces an innovative data curation tool, developed as part of the Kaapana open-source toolkit, aimed at streamlining the organization, management, and processing of large-scale medical imaging datasets. The tool is specifically tailored to meet the needs of radiologists and machine learning researchers. It incorporates advanced search, auto-annotation and efficient tagging functionalities for improved data curation. Additionally, the tool facilitates quality control and review, enabling researchers to validate image and segmentation quality in large datasets. It also plays a critical role in uncovering potential biases in datasets by aggregating and visualizing metadata, which is essential for developing robust machine learning models. Furthermore, Kaapana is integrated within the Radiological Cooperative Network (RACOON), a pioneering initiative aimed at creating a comprehensive national infrastructure for the aggregation, transmission, and consolidation of radiological data across all university clinics throughout Germany. A supplementary video showcasing the tool's functionalities can be accessed at https://bit.ly/MICCAI-DEMI2023.
翻訳日:2023-10-02 13:24:19 公開日:2023-09-29
# 治療効果評価における複数治療法の祝福と成果

The Blessings of Multiple Treatments and Outcomes in Treatment Effect Estimation ( http://arxiv.org/abs/2309.17283v1 )

ライセンス: Link先を確認
Yong Wu, Mingzhou Liu, Jing Yan, Yanwei Fu, Shouyan Wang, Yizhou Wang, Xinwei Sun(参考訳) 観測されていないコンバウンディングの存在による因果効果を評価することは難しい問題である。 既存の研究ではプロキシ変数や複数の治療を利用してバイアスを調整している。 特に後者のアプローチは、単一の結果に対する影響を複数の治療に起因し、境界制御のための潜伏変数を推定できる。 それにもかかわらず、これらの手法は主に一つの結果に焦点をあてるが、多くの現実のシナリオでは、複数の結果に対する影響の研究に大きな関心がある。 さらに、これらの結果はしばしば複数の治療と結合される。 例えば集中治療室(icu)では、医療提供者が複数の健康指標に対する治療の有効性を評価する。 これらのシナリオに対応するために、複数の治療法と複数の結果と呼ばれる新しい設定を検討する。 この設定に関係した複数の結果の並列研究は、それぞれの治療効果のプロキシとして他の治療法や成果を活用できるという意味で、因果同定において互いに助け合うことが示される。 因果推定のために,このようなプロキシを効果的に識別できる因果発見法を提案する。 本法の有用性は, 合成データと敗血症疾患において実証された。

Assessing causal effects in the presence of unobserved confounding is a challenging problem. Existing studies leveraged proxy variables or multiple treatments to adjust for the confounding bias. In particular, the latter approach attributes the impact on a single outcome to multiple treatments, allowing estimating latent variables for confounding control. Nevertheless, these methods primarily focus on a single outcome, whereas in many real-world scenarios, there is greater interest in studying the effects on multiple outcomes. Besides, these outcomes are often coupled with multiple treatments. Examples include the intensive care unit (ICU), where health providers evaluate the effectiveness of therapies on multiple health indicators. To accommodate these scenarios, we consider a new setting dubbed as multiple treatments and multiple outcomes. We then show that parallel studies of multiple outcomes involved in this setting can assist each other in causal identification, in the sense that we can exploit other treatments and outcomes as proxies for each treatment effect under study. We proceed with a causal discovery method that can effectively identify such proxies for causal estimation. The utility of our method is demonstrated in synthetic data and sepsis disease.
翻訳日:2023-10-02 13:23:56 公開日:2023-09-29
# 自己指導型学習における情報の流れ

Information Flow in Self-Supervised Learning ( http://arxiv.org/abs/2309.17281v1 )

ライセンス: Link先を確認
Zhiquan Tan, Jingqin Yang, Weiran Huang, Yang Yuan, Yifan Zhang(参考訳) 本稿では,行列情報理論のレンズを用いて,自己教師付き学習法(SSL)の理解と拡張を行う包括的ツールボックスを提案する。 具体的には,マトリクス相互情報とジョイントエントロピーの原理を生かして,コントラスト法と特徴非相関法の両方について統一的な解析を行う。 さらに,行列情報理論に基づくM-MAE法をマスク画像モデリングの強化として提案する。 経験的評価は,リニアプローブvit-baseの3.9%,imagenetの微調整vit-largeの1%改善など,最先端手法と比較して,m-maeの有効性を強調する。

In this paper, we provide a comprehensive toolbox for understanding and enhancing self-supervised learning (SSL) methods through the lens of matrix information theory. Specifically, by leveraging the principles of matrix mutual information and joint entropy, we offer a unified analysis for both contrastive and feature decorrelation based methods. Furthermore, we propose the matrix variational masked auto-encoder (M-MAE) method, grounded in matrix information theory, as an enhancement to masked image modeling. The empirical evaluations underscore the effectiveness of M-MAE compared with the state-of-the-art methods, including a 3.9% improvement in linear probing ViT-Base, and a 1% improvement in fine-tuning ViT-Large, both on ImageNet.
翻訳日:2023-10-02 13:23:39 公開日:2023-09-29
# STRONG -- Structure Controllable Legal Opinion Summary Generation

STRONG -- Structure Controllable Legal Opinion Summary Generation ( http://arxiv.org/abs/2309.17280v1 )

ライセンス: Link先を確認
Yang Zhong and Diane Litman(参考訳) 本稿では,文書の議論構造を考慮した長大な法的意見の要約構造に対するアプローチを提案する。 提案手法では,提案する構造パターンに従うコヒーレントな要約を生成する際に,予測した引数の役割情報を用いてモデルを導出する。 法的な意見のデータセットによるアプローチの有効性を実証し,ROUGE,BERTScore,構造的類似性に関して,いくつかの強いベースラインを上回っていることを示す。

We propose an approach for the structure controllable summarization of long legal opinions that considers the argument structure of the document. Our approach involves using predicted argument role information to guide the model in generating coherent summaries that follow a provided structure pattern. We demonstrate the effectiveness of our approach on a dataset of legal opinions and show that it outperforms several strong baselines with respect to ROUGE, BERTScore, and structure similarity.
翻訳日:2023-10-02 13:23:25 公開日:2023-09-29
# リアルタイムウイルス防御によるロバスト勧告に向けて

Toward Robust Recommendation via Real-time Vicinal Defense ( http://arxiv.org/abs/2309.17278v1 )

ライセンス: Link先を確認
Yichang Xu, Chenwang Wu and Defu Lian(参考訳) レコメンダシステムは、悪意のあるデータがデータセットに注入され、レコメンダシステムがバイアスのあるレコメンデーションを提供する、中毒攻撃に対して脆弱であることが示されている。 このような攻撃から守るため、様々な堅牢な学習方法が提案されている。 しかし、ほとんどの手法はモデル固有または攻撃特異的であり、汎用性に欠けるが、敵の訓練のような他の手法は回避攻撃を指向しており、毒殺攻撃における防御力は弱い。 本稿では,ユーザ毎のレコメンデーションを行う前に,隣接するトレーニングデータを利用してモデルを微調整する,リアルタイムビクタナルディフェンス(real-time vicinal defense, rvd)を提案する。 RVDは推論フェーズで動作し、特定のサンプルの堅牢性をリアルタイムで保証するので、モデル構造やトレーニングプロセスを変更する必要はなく、より実用的なものになります。 大規模な実験により、RVDは精度を犠牲にすることなく、様々なモデルにわたる標的毒殺攻撃を効果的に軽減することが示された。 さらに,本手法を他の戦略と組み合わせた場合,防御効果をさらに増幅することができる。

Recommender systems have been shown to be vulnerable to poisoning attacks, where malicious data is injected into the dataset to cause the recommender system to provide biased recommendations. To defend against such attacks, various robust learning methods have been proposed. However, most methods are model-specific or attack-specific, making them lack generality, while other methods, such as adversarial training, are oriented towards evasion attacks and thus have a weak defense strength in poisoning attacks. In this paper, we propose a general method, Real-time Vicinal Defense (RVD), which leverages neighboring training data to fine-tune the model before making a recommendation for each user. RVD works in the inference phase to ensure the robustness of the specific sample in real-time, so there is no need to change the model structure and training process, making it more practical. Extensive experimental results demonstrate that RVD effectively mitigates targeted poisoning attacks across various models without sacrificing accuracy. Moreover, the defensive effect can be further amplified when our method is combined with other strategies.
翻訳日:2023-10-02 13:23:17 公開日:2023-09-29
# 疑似エージェント:心を意識したGPT4で不完全な情報ゲームをプレイする

Suspicion-Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT4 ( http://arxiv.org/abs/2309.17277v1 )

ライセンス: Link先を確認
Jiaxian Guo, Bo Yang, Paul Yoo, Yuchen Lin, Yusuke Iwasawa, Yutaka Matsuo(参考訳) すべての要素が全てのプレイヤーに知られている完全情報ゲームとは異なり、不完全な情報ゲームは不確実または不完全な情報の下で意思決定の現実的な複雑さをエミュレートする。 GPT-4は、大規模受動的データに基づいて訓練された最近の大規模言語モデル(LLM)のブレークスルーであり、その知識検索と推論能力で有名である。 本稿では,不完全な情報ゲームに対するGPT-4の学習知識の適用性について述べる。 そこで本稿では,不完全な情報ゲームにおける GPT-4 の機能を活用する革新的なエージェントである \textbf{Suspicion-Agent} を紹介する。 GPT-4に基づくSuspicion-Agentは、適切なプロンプトエンジニアリングにより、様々な不完全な情報カードゲームに顕著な適応性を示す。 重要なことは、GPT-4は強い高次心論(ToM)能力を示し、それは他人を理解し、故意に他人の行動に影響を与えることを意味する。 そこで,本研究では,gpt-4を他の対戦相手と対戦し,ゲームプレイスタイルを必要に応じて適応させながら,ゲームルールと観察記述のみを入力として行う計画戦略を考案する。 実験では、3つの異なる情報ゲームにまたがる疑わしいエージェントの能力を定性的に示し、それをleduc hold'emで定量的に評価した。 その結果、疑わしいエージェントは、特別なトレーニングや例なしで、不完全な情報ゲーム用に設計された従来のアルゴリズムよりも優れている可能性があることが示された。 コミュニティ内の深い洞察を奨励し、促進するために、ゲーム関連のデータを公開しています。

Unlike perfect information games, where all elements are known to every player, imperfect information games emulate the real-world complexities of decision-making under uncertain or incomplete information. GPT-4, the recent breakthrough in large language models (LLMs) trained on massive passive data, is notable for its knowledge retrieval and reasoning abilities. This paper delves into the applicability of GPT-4's learned knowledge for imperfect information games. To achieve this, we introduce \textbf{Suspicion-Agent}, an innovative agent that leverages GPT-4's capabilities for performing in imperfect information games. With proper prompt engineering to achieve different functions, Suspicion-Agent based on GPT-4 demonstrates remarkable adaptability across a range of imperfect information card games. Importantly, GPT-4 displays a strong high-order theory of mind (ToM) capacity, meaning it can understand others and intentionally impact others' behavior. Leveraging this, we design a planning strategy that enables GPT-4 to competently play against different opponents, adapting its gameplay style as needed, while requiring only the game rules and descriptions of observations as input. In the experiments, we qualitatively showcase the capabilities of Suspicion-Agent across three different imperfect information games and then quantitatively evaluate it in Leduc Hold'em. The results show that Suspicion-Agent can potentially outperform traditional algorithms designed for imperfect information games, without any specialized training or examples. In order to encourage and foster deeper insights within the community, we make our game-related data publicly available.
翻訳日:2023-10-02 13:22:58 公開日:2023-09-29
# ベイズ心の理論を用いた効用に基づく適応的指導戦略

Utility-based Adaptive Teaching Strategies using Bayesian Theory of Mind ( http://arxiv.org/abs/2309.17275v1 )

ライセンス: Link先を確認
Cl\'emence Grislain, Hugo Caselles-Dupr\'e, Olivier Sigaud, Mohamed Chetouani(参考訳) よい教師はいつもその説明を学習者に合わせる。 認知科学者はこの過程を合理性原理でモデル化し、教師は教育費を最小化しながら学習者の実用性を最大化しようとする。 この目的のために、人間の教師は学習者の内的状態、すなわち「心の理論」(ToM)と呼ばれる能力の精神モデルを構築しているようである。 認知科学にインスパイアされた私たちは、Bayesian ToMメカニズムを利用して、人間のような教師エージェントを設計し、学習者の指導戦略を調整します。 観察から学習者の内的状態のモデルを構築し,学習者の報酬を最大化しつつ,教育コストを最小化するデモを選定する。 シミュレーション環境における実験により,学習者が学習者非依存の方法で学習者よりも効率的に学習できることが示された。 この効果は、教師の学習者のモデルが実際の学習者の状態とよりよく一致し、より正確な事前または学習者の行動の観察を蓄積した後に使用すると強くなる。 この作業は、私たちとお互いに教えるソーシャルマシンへの第一歩です。 https://teacher-with-tom.github.io.comを参照してください。

Good teachers always tailor their explanations to the learners. Cognitive scientists model this process under the rationality principle: teachers try to maximise the learner's utility while minimising teaching costs. To this end, human teachers seem to build mental models of the learner's internal state, a capacity known as Theory of Mind (ToM). Inspired by cognitive science, we build on Bayesian ToM mechanisms to design teacher agents that, like humans, tailor their teaching strategies to the learners. Our ToM-equipped teachers construct models of learners' internal states from observations and leverage them to select demonstrations that maximise the learners' rewards while minimising teaching costs. Our experiments in simulated environments demonstrate that learners taught this way are more efficient than those taught in a learner-agnostic way. This effect gets stronger when the teacher's model of the learner better aligns with the actual learner's state, either using a more accurate prior or after accumulating observations of the learner's behaviour. This work is a first step towards social machines that teach us and each other, see https://teacher-with-tom.github.io.
翻訳日:2023-10-02 13:22:30 公開日:2023-09-29
# InAs2次元電子ガスベースゲートモン量子ビットの損失特性

Characterizing losses in InAs two-dimensional electron gas-based gatemon qubits ( http://arxiv.org/abs/2309.17273v1 )

ライセンス: Link先を確認
William M. Strickland, Jaewoo Lee, Lukas Baker, Krishna Dindial, Bassel Heiba Elfeky, Mehdi Hatefipour, Peng Yu, Ido Levy, Vladimir E. Manucharyan, Javad Shabani(参考訳) ジョセフソン接合(jj)を横切るクーパー対のトンネルにより、超伝導量子ビット、増幅器、その他様々な量子回路を構成するのに必要な非線形インダクタンスが得られる。 ハイブリッド超伝導体-半導体JJを用いた別のアプローチは、完全な電界制御を備えた超伝導量子ビットアーキテクチャを実現することができる。 InAs 2DEGに基づくゲートモン量子ビットの連続波と時間領域特性を示す。 クビットは読み出し空洞と真空ラビ分裂し、クビット基底と第1励起状態の間のコヒーレントラビ振動を駆動することを示す。 我々は、1.5GHzのチューナブルバンド上で、キュービットコヒーレンス時間を$T_1 =$100 nsと測定する。 iii-vゲートモン回路には様々な損失機構が存在するが、このプラットフォーム上のqubitデバイスのコヒーレンス時間を改善するための今後の方向性を詳述する。

The tunnelling of cooper pairs across a Josephson junction (JJ) allow for the nonlinear inductance necessary to construct superconducting qubits, amplifiers, and various other quantum circuits. An alternative approach using hybrid superconductor-semiconductor JJs can enable a superconducting qubit architecture with full electric field control. Here we present continuous-wave and time-domain characterization of gatemon qubits based on an InAs 2DEG. We show that the qubit undergoes a vacuum Rabi splitting with a readout cavity and we drive coherent Rabi oscillations between the qubit ground and first excited states. We measure qubit coherence times to be $T_1 =$ 100 ns over a 1.5 GHz tunable band. While various loss mechanisms are present in III-V gatemon circuits we detail future directions in enhancing the coherence times of qubit devices on this platform.
翻訳日:2023-10-02 13:22:09 公開日:2023-09-29
# マルチパースペクティブ・セルフコンシスタンスによるコーディングにおける大規模言語モデルの拡張

Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency ( http://arxiv.org/abs/2309.17272v1 )

ライセンス: Link先を確認
Baizhou Huang, Shuai Lu, Weizhu Chen, Xiaojun Wan, Nan Duan(参考訳) 大規模言語モデル(LLM)はテキスト生成において顕著な能力を示した。 しかし、コード生成のような複雑な推論タスクでは、単一の試行で正しい答えを生成することはllmにとって大きな課題である。 これまでの研究では、複数のアウトプットを集約し、それらの一貫性を活用してソリューションを調査してきた。 しかし、どれも異なる観点からこの一貫性を包括的に捉えていない。 本稿では,複数視点からの出力間の整合性と単一視点での整合性の両方を組み込んだ,LLMの新たな復号戦略であるMPSCフレームワークを提案する。 具体的には、LLMに対して、与えられたクエリに対して様々な視点から複数の多様な出力をサンプリングし、それらに基づいて多部グラフを構築する。 2つの事前定義された一貫性尺度を用いて、一貫性情報と一貫性情報の両方をグラフに埋め込む。 最適な選択は、グラフの一貫性解析に基づいて決定される。 ソリューション,仕様,テストケースを3つの視点から導入し,コード生成タスクの包括的評価を行う。 コードインタプリタを利用して、一貫性を定量的に測定し、一貫性内測定関数を提案する。 当社のMPSCフレームワークは、ChatGPTから生成されたオリジナル出力と比較して、Pass@1のHumanEval(+17.60%)、HumanEval Plus(+17.61%)、MBPP(+6.50%)、CodeContests(+11.82%)など、さまざまな人気のあるベンチマークのパフォーマンスを大幅に向上させています。

Large language models (LLMs) have exhibited remarkable ability in textual generation. However, in complex reasoning tasks such as code generation, generating the correct answer in a single attempt remains a formidable challenge for LLMs. Previous research has explored solutions by aggregating multiple outputs, leveraging the consistency among them. However, none of them have comprehensively captured this consistency from different perspectives. In this paper, we propose the Multi-Perspective Self-Consistency (MPSC) framework, a novel decoding strategy for LLM that incorporates both inter-consistency across outputs from multiple perspectives and intra-consistency within a single perspective. Specifically, we ask LLMs to sample multiple diverse outputs from various perspectives for a given query and then construct a multipartite graph based on them. With two predefined measures of consistency, we embed both inter- and intra-consistency information into the graph. The optimal choice is then determined based on consistency analysis in the graph. We conduct comprehensive evaluation on the code generation task by introducing solution, specification and test case as three perspectives. We leverage a code interpreter to quantitatively measure the inter-consistency and propose several intra-consistency measure functions. Our MPSC framework significantly boosts the performance on various popular benchmarks, including HumanEval (+17.60%), HumanEval Plus (+17.61%), MBPP (+6.50%) and CodeContests (+11.82%) in Pass@1, when compared to original outputs generated from ChatGPT, and even surpassing GPT-4.
翻訳日:2023-10-02 13:21:54 公開日:2023-09-29
# 非対光コヒーレンス断層画像の周波数認識逆抵抗ganによる超解像

Unpaired Optical Coherence Tomography Angiography Image Super-Resolution via Frequency-Aware Inverse-Consistency GAN ( http://arxiv.org/abs/2309.17269v1 )

ライセンス: Link先を確認
Weiwen Zhang, Dawei Yang, Haoxuan Che, An Ran Ran, Carol Y. Cheung, and Hao Chen(参考訳) 光コヒーレンス・トモグラフィ・アンギオグラフィー(OCTA)画像では、限られた走査速度が視野(FOV)と画像分解能のトレードオフにつながる。 FOV画像は, より広範に異所性血管病変を呈するが, 分解能の低下により適用が著しく阻害される。 解像度を向上させるために、従来の研究はペア化されたデータを使ってトレーニングすることでのみ満足できる性能を実現したが、大規模なペア化された画像の収集という課題によって現実の応用は限られている。 したがって、不公平なアプローチが要求される。 GAN(Generative Adversarial Network)は、未成熟の環境で一般的に使用されているが、OCTAにとって重要なバイオマーカーである細粒度キャピラリーの詳細を正確に保存することは困難である。 本稿では,高頻度(\textbf{hf}$)と粗粒度を低頻度(\textbf{lf}$)と表現する周波数情報を活用して,これらの詳細を保存しようとする。 一般論として、OCTA画像のGANに基づく非ペア化超解像法を提案し、デュアルパスジェネレータによる$\textbf{hf}$ファインキャピラリーを例外的に強調する。 また、再構成画像の正確なスペクトル化を容易にするため、識別器の周波数認識対向損失を提案し、周波数認識焦点整合損失を導入してエンドツーエンドの最適化を行う。 実験により,本手法は定量的および視覚的に,他の最先端の非ペアリング手法よりも優れていることが示された。

For optical coherence tomography angiography (OCTA) images, a limited scanning rate leads to a trade-off between field-of-view (FOV) and imaging resolution. Although larger FOV images may reveal more parafoveal vascular lesions, their application is greatly hampered due to lower resolution. To increase the resolution, previous works only achieved satisfactory performance by using paired data for training, but real-world applications are limited by the challenge of collecting large-scale paired images. Thus, an unpaired approach is highly demanded. Generative Adversarial Network (GAN) has been commonly used in the unpaired setting, but it may struggle to accurately preserve fine-grained capillary details, which are critical biomarkers for OCTA. In this paper, our approach aspires to preserve these details by leveraging the frequency information, which represents details as high-frequencies ($\textbf{hf}$) and coarse-grained backgrounds as low-frequencies ($\textbf{lf}$). In general, we propose a GAN-based unpaired super-resolution method for OCTA images and exceptionally emphasize $\textbf{hf}$ fine capillaries through a dual-path generator. To facilitate a precise spectrum of the reconstructed image, we also propose a frequency-aware adversarial loss for the discriminator and introduce a frequency-aware focal consistency loss for end-to-end optimization. Experiments show that our method outperforms other state-of-the-art unpaired methods both quantitatively and visually.
翻訳日:2023-10-02 13:21:25 公開日:2023-09-29
# 非プロプライエタリ記述に対する電荷予測のためのマイトショット領域適応

Few-Shot Domain Adaptation for Charge Prediction on Unprofessional Descriptions ( http://arxiv.org/abs/2309.17313v1 )

ライセンス: Link先を確認
Jie Zhao, Ziyu Guan, Wei Zhao, Yue Jiang, Xiaofei He(参考訳) 近年,PLLS (Professional Law-Luistic style) テキストを考慮した研究が,電荷予測タスクにおいて有望な結果を示している。 しかし、プロでないユーザーもこうした予測サービスに対する需要が高まっている。 PLLSテキストと非PLLSテキストの間には明確なドメイン差があり、非PLLSテキスト上での現在のSOTAモデルの性能を劣化させる。 主要な課題は、ほとんどのチャージクラスにおける非PLLSデータの不足である。 本稿では, 電荷予測のための不連続法定コンテンツ (dlccp) という, 新規なfsda法を提案する。 Compared with existing FSDA works, which solely perform instance-level alignment without considering the negative impact of text style information existing in latent features, DLCCP (1) disentangles the content and style representations for better domain-invariant legal content learning with carefully designed optimization goals for content and style spaces and, (2) employs the constitutive elements knowledge of charges to extract and align element-level and instance-level content representations simultaneously. 我々は、非PLLSデータセットNCCPを初めて公開し、レイパーフレンドリーな電荷予測モデルを開発した。 NCCP実験は,本手法が競争基準よりも優れていることを示す。

Recent works considering professional legal-linguistic style (PLLS) texts have shown promising results on the charge prediction task. However, unprofessional users also show an increasing demand on such a prediction service. There is a clear domain discrepancy between PLLS texts and non-PLLS texts expressed by those laypersons, which degrades the current SOTA models' performance on non-PLLS texts. A key challenge is the scarcity of non-PLLS data for most charge classes. This paper proposes a novel few-shot domain adaptation (FSDA) method named Disentangled Legal Content for Charge Prediction (DLCCP). Compared with existing FSDA works, which solely perform instance-level alignment without considering the negative impact of text style information existing in latent features, DLCCP (1) disentangles the content and style representations for better domain-invariant legal content learning with carefully designed optimization goals for content and style spaces and, (2) employs the constitutive elements knowledge of charges to extract and align element-level and instance-level content representations simultaneously. We contribute the first publicly available non-PLLS dataset named NCCP for developing layperson-friendly charge prediction models. Experiments on NCCP show the superiority of our methods over competitive baselines.
翻訳日:2023-10-02 13:15:03 公開日:2023-09-29
# 機械学習におけるLeave-out Distinguishability

Leave-one-out Distinguishability in Machine Learning ( http://arxiv.org/abs/2309.17310v1 )

ライセンス: Link先を確認
Jiayuan Ye, Anastasia Borovykh, Soufiane Hayou, Reza Shokri(参考訳) 我々は、機械学習アルゴリズムの出力分布の変化を、トレーニングセットにいくつかのデータポイントを含めて定量化する新しい分析フレームワーク、LOOD(Left-out-out distinguishability)の概念を導入する。 この問題は、機械学習におけるデータ**記憶*と**情報リーク**と、モデル予測におけるトレーニングデータポイントの**インフルエンス**を測定する上で鍵となる。 本手法は,学習データに関連する記憶とプライバシーのリスクに関する既存の経験的尺度を拡張・洗練する方法を示す。 我々はガウス過程を用いて機械学習アルゴリズムのランダム性をモデル化し、メンバーシップ推論攻撃を用いた情報漏洩の広範な実証分析によりLOODを検証する。 我々の理論的枠組みは,情報漏洩の原因と漏洩が高い場所を調査することを可能にする。 例えば、アクティベーション関数がデータの記憶に与える影響を分析します。 さらに,本手法では,トレーニングデータに関する最も重要な情報を明らかにするクエリの最適化を行うことができる。 トレーニングデータの正確な ** 再構成** に最適なクエリが利用できることを示す。

We introduce a new analytical framework to quantify the changes in a machine learning algorithm's output distribution following the inclusion of a few data points in its training set, a notion we define as leave-one-out distinguishability (LOOD). This problem is key to measuring data **memorization** and **information leakage** in machine learning, and the **influence** of training data points on model predictions. We illustrate how our method broadens and refines existing empirical measures of memorization and privacy risks associated with training data. We use Gaussian processes to model the randomness of machine learning algorithms, and validate LOOD with extensive empirical analysis of information leakage using membership inference attacks. Our theoretical framework enables us to investigate the causes of information leakage and where the leakage is high. For example, we analyze the influence of activation functions, on data memorization. Additionally, our method allows us to optimize queries that disclose the most significant information about the training data in the leave-one-out setting. We illustrate how optimal queries can be used for accurate **reconstruction** of training data.
翻訳日:2023-10-02 13:14:46 公開日:2023-09-29
# 位相整合量子鍵分布のソース置換モデル

Source-Replacement Model for Phase-Matching Quantum Key Distribution ( http://arxiv.org/abs/2309.17304v1 )

ライセンス: Link先を確認
Yizhi Huang, Zhenyu Du, and Xiongfeng Ma(参考訳) 量子鍵分布はセキュアな通信ネットワークを構築するための有望なソリューションとして登場し、量子力学の原理によって保証される情報理論のセキュリティを提供する。 これまでで最も先進的な量子鍵分布プロトコルの1つは位相マッチングプロトコルである。 そのセキュリティは最初、対称性保護プライバシーと呼ばれる抽象的な方法を用いて確立された。 本研究では、直感的なソース置換モデルを用いて位相マッチングプロトコルのセキュリティを再評価し、元の証明と一致する結論に達した。 このモデルはプロトコルのセキュリティに対する新しい視点を提供する。 本手法の適用例として,ビーム分割攻撃方式を提案する。 ソースリプレースメントモデルを活用することで,この攻撃下での位相誤差率の上限を低くし,セキュリティ解析手法のロバスト性をさらに強調する。

Quantum key distribution has emerged as a promising solution for constructing secure communication networks, offering information-theoretic security guaranteed by the principles of quantum mechanics. One of the most advanced quantum key distribution protocols to date is the phase-matching protocol. Its security was initially established using an abstract method known as symmetry-protected privacy. In this study, we reevaluate the security of the phase-matching protocol using an intuitive source-replacement model, and we arrive at conclusions that align with the original proof. This model provides a fresh perspective on the protocol's security. As an application of this approach, we introduce a beam-splitting attack scheme. Leveraging the source-replacement model, we derive a lower bound on the phase error rate under this attack, further underscoring the robustness of our security analysis method.
翻訳日:2023-10-02 13:14:28 公開日:2023-09-29
# 電力系統における確率的手法の量子振幅推定

Quantum Amplitude Estimation for Probabilistic Methods in Power Systems ( http://arxiv.org/abs/2309.17299v1 )

ライセンス: Link先を確認
Emilie Jong, Brynjar S{\ae}varsson, Hj\"ortur J\'ohannsson, Spyros Chatzivasileiadis(参考訳) 本稿では,電力系統におけるモンテカルロシミュレーションの量子計算手法について紹介する。 モンテカルロシミュレーションは、平均値、標準偏差、リスク値といった未知の確率分布の鍵パラメータを推定するために電力系統で広く用いられている基本的な手法である。 しかし、非常に計算量が多い。 量子振幅推定に基づくアプローチは、同じ精度を達成するのに桁違いに少ないサンプル数を必要とする二次速度アップを提供することができる。 本稿では,従来のモンテカルロ法に代わる3つの量子振幅推定法,すなわち,Iterative Quantum Amplitude Estimation (IQAE),Maximum Likelihood Amplitude Estimation (MLAE),Faster Amplitude Estimation (FAE)について述べる。

This paper introduces quantum computing methods for Monte Carlo simulations in power systems which are expected to be exponentially faster than their classical computing counterparts. Monte Carlo simulations is a fundamental method, widely used in power systems to estimate key parameters of unknown probability distributions, such as the mean value, the standard deviation, or the value at risk. It is, however, very computationally intensive. Approaches based on Quantum Amplitude Estimation can offer a quadratic speedup, requiring orders of magnitude less samples to achieve the same accuracy. This paper explains three Quantum Amplitude Estimation methods to replace the Classical Monte Carlo method, namely the Iterative Quantum Amplitude Estimation (IQAE), Maximum Likelihood Amplitude Estimation (MLAE), and Faster Amplitude Estimation (FAE), and compares their performance for three different types of probability distributions for power systems.
翻訳日:2023-10-02 13:14:16 公開日:2023-09-29
# 等変拡散に基づくデ・ノボ3次元分子生成モデルの設計空間の探索

Navigating the Design Space of Equivariant Diffusion-Based Generative Models for De Novo 3D Molecule Generation ( http://arxiv.org/abs/2309.17296v1 )

ライセンス: Link先を確認
Tuan Le, Julian Cremer, Frank No\'e, Djork-Arn\'e Clevert, Kristof Sch\"utt(参考訳) 深部生成拡散モデル(deep generative diffusion model)は、物質科学と創薬におけるde novo 3d分子設計の有望な道である。 しかし、それらの実用性は、大きな分子構造と限られた訓練データを持つ最適以下の性能に制約されている。 このギャップに対処するため、前述した空白点に着目して、E(3)同変拡散モデルの設計空間を探索する。 我々は,連続状態空間と離散状態空間の相互作用を評価する。 本研究では,QM9 および GEOM-Drugs データセットにおける確立されたモデルの性能を常に上回る EQGAT-diff モデルを提案する。 比例的に、EQGAT-diffは、化学元素と結合タイプがカテゴリー的であり、トレーニング収束と生成サンプルの品質を著しく向上させる時間依存的な損失重み付けを用いる。 限られたトレーニングデータに対する拡散モデルの適用性をさらに高めるため,暗黙の水素を用いたPubChem3Dデータセット上でトレーニングされたEQGAT-diffの移動可能性について検討した。 数イテレーションの微調整EQGAT-diffは、データセット間の最先端のパフォーマンスをさらに押し上げる。 我々は、複雑な分子の小さなデータセットに対する生成モデルの精度が重要な構造に基づく薬物設計の応用を見出すことを期待している。

Deep generative diffusion models are a promising avenue for de novo 3D molecular design in material science and drug discovery. However, their utility is still constrained by suboptimal performance with large molecular structures and limited training data. Addressing this gap, we explore the design space of E(3) equivariant diffusion models, focusing on previously blank spots. Our extensive comparative analysis evaluates the interplay between continuous and discrete state spaces. Out of this investigation, we introduce the EQGAT-diff model, which consistently surpasses the performance of established models on the QM9 and GEOM-Drugs datasets by a large margin. Distinctively, EQGAT-diff takes continuous atomic positions while chemical elements and bond types are categorical and employ a time-dependent loss weighting that significantly increases training convergence and the quality of generated samples. To further strengthen the applicability of diffusion models to limited training data, we examine the transferability of EQGAT-diff trained on the large PubChem3D dataset with implicit hydrogens to target distributions with explicit hydrogens. Fine-tuning EQGAT-diff for a couple of iterations further pushes state-of-the-art performance across datasets. We envision that our findings will find applications in structure-based drug design, where the accuracy of generative models for small datasets of complex molecules is critical.
翻訳日:2023-10-02 13:13:57 公開日:2023-09-29
# 近隣規模における所得分離の時間ダイナミクス

Time dynamics of income segregation at neighborhood scale ( http://arxiv.org/abs/2309.17294v1 )

ライセンス: Link先を確認
Lavinia Rossi Mori, Vittorio Loreto and Riccardo Di Clemente(参考訳) 都市所得分離への伝統的なアプローチは静的な住宅パターンに焦点を合わせており、しばしば近隣のレベルでの社会混合の動的な性質を捉えられなかった。 携帯電話からの高解像度位置情報データを活用することで、日々のルーチンに基づいて3つの異なる収入グループ(ハイ、ミディアム、ロー)の相互作用を捉える。 本研究では,都市活動の時間的ダイナミクスに埋め込まれたソーシャルミキシングの3次元解析空間を提案する。 このフレームワークは、各地区の地理的特徴と密接に関連している、より詳細な社会的相互作用の視点を提供する。 住宅地は夜間に社会的な混合を奨励できないが、労働時間は包摂性を高め、市の中心部は交流のレベルが高まった。 夕方になると、公共交通機関や様々な関心ポイントなどの都市的特徴に応じて、レジャーエリアが社会的相互作用の促進要因として浮上する。 これらの特徴は、社会的混合に関わる社会層の大きさやタイプを著しく変化させ、また、ブリッジングや社会経済の分断拡大における都市デザインの重要性も強調する。

Traditional approaches to urban income segregation focus on static residential patterns, often failing to capture the dynamic nature of social mixing at the neighborhood level. Leveraging high-resolution location-based data from mobile phones, we capture the interplay of three different income groups (high, medium, low) based on their daily routines. We propose a three-dimensional space to analyze social mixing, which is embedded in the temporal dynamics of urban activities. This framework offers a more detailed perspective on social interactions, closely linked to the geographical features of each neighborhood. While residential areas fail to encourage social mixing in the nighttime, the working hours foster inclusion, with the city center showing a heightened level of interaction. As evening sets in, leisure areas emerge as potential facilitators for social interactions, depending on urban features such as public transport and a variety of Points Of Interest. These characteristics significantly modulate the magnitude and type of social stratification involved in social mixing, also underscoring the significance of urban design in either bridging or widening socio-economic divides.
翻訳日:2023-10-02 13:13:33 公開日:2023-09-29
# 位相符号化クエリに基づく量子プライバシー保全型2者円交叉プロトコル

Quantum Privacy-preserving Two-party Circle Intersection Protocol Based on Phase-encoded Query ( http://arxiv.org/abs/2309.17293v1 )

ライセンス: Link先を確認
Zi-Xian Li, Qi Yang, Bao Feng and Wen-Jie Liu(参考訳) プライバシ保存幾何交叉(PGI)はセキュアマルチパーティ計算(SMC)において重要な問題である。 既存の量子pgiプロトコルは主にグリッドコーディングに基づいており、多くの計算量を必要とする。 いくつかの量子smcプロトコルで使用されているフェーズエンコードクエリメソッドは、決定問題を解決するのに適しているが、高次元のoracle演算子を適用する必要がある。 本稿では,位相符号化クエリの原理を用いて,プライバシ保存型2者円交点という重要なpgi問題を解決する。 我々はoracle演算子の実装を詳細に研究し、それを量子算術演算に分解することで多項式計算の複雑性を達成する。 パフォーマンス分析の結果、我々のプロトコルは正確かつ効率的であり、すべての参加者のプライバシーを内部および外部からの攻撃から保護できることがわかった。

Privacy-preserving geometric intersection (PGI) is an important issue in Secure multiparty computation (SMC). The existing quantum PGI protocols are mainly based on grid coding, which requires a lot of computational complexity. The phase-encoded query method which has been used in some Quantum SMC protocols is suitable to solve the decision problem, but it needs to apply high dimensional Oracle operators. In this paper, we use the principle of phase-encoded query to solve an important PGI problem, namely privacy-preserving two-party circle intersection. We study the implementation of Oracle operator in detail, and achieve polynomial computational complexity by decompsing it into quantum arithmetic operations. Performance analysis shows that our protocol is correct and efficient, and can protect the privacy of all participants against internal and external attacks.
翻訳日:2023-10-02 13:13:14 公開日:2023-09-29
# 分散メモリ探索における生成拡散モデルは連想記憶ネットワークである

In search of dispersed memories: Generative diffusion models are associative memory networks ( http://arxiv.org/abs/2309.17290v1 )

ライセンス: Link先を確認
Luca Ambrogioni(参考訳) ホップフィールドネットワークは、生物学的連想記憶の理論モデルとして神経科学で広く使われている。 オリジナルのホプフィールドネットワークは、二元関係のパターンを符号化することで記憶を保存し、その結果、ヘビアン学習規則として知られるシナプス学習機構が生まれる。 現代のホップフィールドネットワークは、高非線形エネルギー関数を用いて指数的な容量スケーリングを実現することができる。 しかし、これらの新しいモデルのエネルギー関数は直接バイナリシナプス結合に圧縮されず、新しいシナプス学習規則を直接提供しない。 本研究では,生成拡散モデルをエネルギーベースモデルとして解釈し,離散的パターンで学習すると,それらのエネルギー関数は現代のホップフィールドネットワークと等価であることを示す。 この等価性により、深層ニューラルネットワークの重み構造における現代のホップフィールドネットワークの連想力学を符号化するシナプス学習プロセスとして拡散モデルの教師付きトレーニングを解釈することができる。 そこで本実験では,連続的なホップフィールドネットワークのストレージ容量が拡散モデルの容量と同一であることを示す。 本研究は,創造的生成と記憶記憶の想起を統一連続体の一部と見なすことのできる,記憶の再構成理論のための強力な計算基盤を提供する。

Hopfield networks are widely used in neuroscience as simplified theoretical models of biological associative memory. The original Hopfield networks store memories by encoding patterns of binary associations, which result in a synaptic learning mechanism known as Hebbian learning rule. Modern Hopfield networks can achieve exponential capacity scaling by using highly non-linear energy functions. However, the energy function of these newer models cannot be straightforwardly compressed into binary synaptic couplings and it does not directly provide new synaptic learning rules. In this work we show that generative diffusion models can be interpreted as energy-based models and that, when trained on discrete patterns, their energy function is equivalent to that of modern Hopfield networks. This equivalence allows us to interpret the supervised training of diffusion models as a synaptic learning process that encodes the associative dynamics of a modern Hopfield network in the weight structure of a deep neural network. Accordingly, in our experiments we show that the storage capacity of a continuous modern Hopfield network is identical to the capacity of a diffusion model. Our results establish a strong link between generative modeling and the theoretical neuroscience of memory, which provide a powerful computational foundation for the reconstructive theory of memory, where creative generation and memory recall can be seen as parts of a unified continuum.
翻訳日:2023-10-02 13:13:01 公開日:2023-09-29
# autoagents: エージェントの自動生成のためのフレームワーク

AutoAgents: A Framework for Automatic Agent Generation ( http://arxiv.org/abs/2309.17288v1 )

ライセンス: Link先を確認
Guangyao Chen, Siwei Dong, Yu Shu, Ge Zhang, Jaward Sesay, B\"orje F. Karlsson, Jie Fu, Yemin Shi(参考訳) 大規模言語モデル(llm)は、マルチエージェントシステムによるタスクの自動解決において著しく進歩した。 しかしながら、既存のllmベースのマルチエージェントアプローチのほとんどは、単純なタスクを処理するために事前定義されたエージェントに依存しており、マルチエージェントコラボレーションの異なるシナリオへの適応性を制限している。 そこで我々は,複数の専門エージェントを適応的に生成,コーディネートしてAIチームを構築する,革新的なフレームワークであるAutoAgentsを紹介した。 特にAutoAgentsは、タスクの内容に基づいて複数の必要なエージェントを動的に生成し、生成された専門家エージェントに基づいて現在のタスクを計画するソリューションを分割する。 複数の特殊エージェントが互いに協力してタスクを効率的に達成します。 同時に、指定された計画とエージェントの反応を反映し、それらを改善するために、オブザーバの役割がフレームワークに組み込まれる。 各種ベンチマーク実験により,AutoAgentsは既存のマルチエージェント手法よりも一貫性と正確な解を生成することが示された。 これは、異なるタスクとチーム協力に異なる役割を割り当てることの重要性を強調し、複雑なタスクに取り組むための新しい視点を提供する。 このプロジェクトのリポジトリはhttps://github.com/linksoul-ai/autoagentsで入手できる。

Large language models (LLMs) have enabled remarkable advances in automated task-solving with multi-agent systems. However, most existing LLM-based multi-agent approaches rely on predefined agents to handle simple tasks, limiting the adaptability of multi-agent collaboration to different scenarios. Therefore, we introduce AutoAgents, an innovative framework that adaptively generates and coordinates multiple specialized agents to build an AI team according to different tasks. Specifically, AutoAgents couples the relationship between tasks and roles by dynamically generating multiple required agents based on task content and planning solutions for the current task based on the generated expert agents. Multiple specialized agents collaborate with each other to efficiently accomplish tasks. Concurrently, an observer role is incorporated into the framework to reflect on the designated plans and agents' responses and improve upon them. Our experiments on various benchmarks demonstrate that AutoAgents generates more coherent and accurate solutions than the existing multi-agent methods. This underscores the significance of assigning different roles to different tasks and of team cooperation, offering new perspectives for tackling complex tasks. The repository of this project is available at https://github.com/LinkSoul-AI/AutoAgents.
翻訳日:2023-10-02 13:12:39 公開日:2023-09-29
# flux-pulse によるfluxonium qubitの読み出し

Flux-pulse-assisted Readout of a Fluxonium Qubit ( http://arxiv.org/abs/2309.17286v1 )

ライセンス: Link先を確認
Taryn V. Stefanski and Christian Kraglund Andersen(参考訳) 大規模な超伝導量子デバイスのためのトランスモンアーキテクチャに多くの注目が集まっているが、フラックスニウム量子ビットが後継として現れている。 ジョセフソン接合と平行なシャンティングインダクタにより、フラックスニウムは非調和性と誘電損失に対する強い保護を提供し、従来のトランスモン量子ビットよりも高いコヒーレンス時間をもたらす。 フラックスニウム量子ビットの誘導的エネルギーポテンシャルとジョセフソンエネルギーポテンシャルの相互作用は、外部フラックスをチューニングする際にリッチな分散的シフトランドスケープをもたらす。 ここでは,分散シフトの機能を活用し,量子ビット読み出しを改善することを提案する。 具体的には,分散シフトが大きい磁束バイアスポイントで読み出しを行い,読み出し時間と誤差率の改善を示す理論的シミュレーションについて報告する。 提案手法は,異なる誤差チャネルを含むように拡張され,200 ns統合後の信号対雑音比が5倍向上することを示す。 さらに, 準静的フラックスノイズと有限測定効率の存在下では, 性能改善が持続することを示す。 我々は,提案するフラックスパルスアシスト読み出し方式の実装を可能にするために,フラックスニウムアーキテクチャのエネルギーパラメータを提案する。

Much attention has focused on the transmon architecture for large-scale superconducting quantum devices, however, the fluxonium qubit has emerged as a possible successor. With a shunting inductor in parallel to a Josephson junction, the fluxonium offers larger anharmonicity and stronger protection against dielectric loss, leading to higher coherence times as compared to conventional transmon qubits. The interplay between the inductive and Josephson energy potentials of the fluxonium qubit leads to a rich dispersive shift landscape when tuning the external flux. Here we propose to exploit the features in the dispersive shift to improve qubit readout. Specifically, we report on theoretical simulations showing improved readout times and error rates by performing the readout at a flux bias point with large dispersive shift. We expand the scheme to include different error channels, and show that flux-pulse-assisted readout offers 5 times improvement in signal to noise ratio after 200 ns integration time. Moreover, we show that the performance improvement persists in the presence of finite measurement efficiency combined with quasi-static flux noise. We suggest energy parameters for the fluxonium architecture that will allow for the implementation of our proposed flux-pulse-assisted readout scheme.
翻訳日:2023-10-02 13:12:21 公開日:2023-09-29
# 非同期グラフジェネレータ

Asynchronous Graph Generators ( http://arxiv.org/abs/2309.17335v1 )

ライセンス: Link先を確認
Christopher P. Ley and Felipe Tobar(参考訳) 本稿では,動的グラフ上のノードとして観測をモデル化し,トランスダクティブノード生成によるデータインプテーションを実現する,マルチチャネル時系列のための新しいグラフニューラルネットワークアーキテクチャであるaggを提案する。 時間的規則性に関する仮定やコンポーネントの繰り返しから完全に解放されたAGGは、学習可能な埋め込みを通じてノード内の測定、タイムスタンプ、メタデータを直接表現し、関心のある変数間で表現的な関係を学ぶために注意を払っていく。 このようにして提案するアーキテクチャは,センサ計測の因果グラフ表現を暗黙的に学習し,未認識のタイムスタンプとメタデータで条件付けし,学習グラフの拡張によって新たな測定値を予測する。 提案する agg は,概念的にも経験的にも先行研究と比較され,データ拡張が agg の性能に与える影響についても簡単に考察した。 実験の結果,AGGは北京空気質,PhyloNet Challenge 2012,UCIローカライゼーションのベンチマークデータセットの時系列データ計算,分類,予測において,最先端の成果を得た。

We introduce the asynchronous graph generator (AGG), a novel graph neural network architecture for multi-channel time series which models observations as nodes on a dynamic graph and can thus perform data imputation by transductive node generation. Completely free from recurrent components or assumptions about temporal regularity, AGG represents measurements, timestamps and metadata directly in the nodes via learnable embeddings, to then leverage attention to learn expressive relationships across the variables of interest. This way, the proposed architecture implicitly learns a causal graph representation of sensor measurements which can be conditioned on unseen timestamps and metadata to predict new measurements by an expansion of the learnt graph. The proposed AGG is compared both conceptually and empirically to previous work, and the impact of data augmentation on the performance of AGG is also briefly discussed. Our experiments reveal that AGG achieved state-of-the-art results in time series data imputation, classification and prediction for the benchmark datasets Beijing Air Quality, PhysioNet Challenge 2012 and UCI localisation.
翻訳日:2023-10-02 13:05:19 公開日:2023-09-29
# 効率的な画像超解像のための多層分岐ネットワーク

Multi-Depth Branches Network for Efficient Image Super-Resolution ( http://arxiv.org/abs/2309.17334v1 )

ライセンス: Link先を確認
Huiyuan Tian, Li Zhang, Shijian Li, Min Yao, Gang Pan(参考訳) 超解像(SR)の分野では重要な進歩を遂げているが、多くの畳み込みニューラルネットワーク(CNN)ベースのSRモデルは、しばしば重要な低周波輪郭情報を見越して、主に高周波の詳細の復元に焦点を当てている。 トランスフォーマーベースのSR法は、グローバルな構造的詳細を取り入れつつ、パラメータの多さを伴い、高い計算オーバーヘッドをもたらす。 本稿では,マルチディープブランチネットワーク(mdbn)を導入することで,これらの課題を解決する。 このフレームワークは、イメージの重要な構造特性をキャプチャする追加のブランチを統合することで、resnetアーキテクチャを拡張する。 提案する多層分岐モジュール(MDBM)は,異なる分岐の深さで同一の大きさの畳み込みカーネルを積み重ねることを含む。 特徴写像の包括的解析を行うことにより,異なる深さの枝がそれぞれ輪郭や細部情報を抽出できることを観察する。 これらのブランチを統合することで、人間の視覚認知とより密接な関係を持つ高周波視覚要素の復元において、全体的なアーキテクチャは必須の低周波意味構造情報を保持することができる。 GoogLeNetのようなモデルと比較して、我々の基本的な多層分岐構造はパラメータが少なく、計算効率が高く、性能が向上している。 我々のモデルは推論時間が少なく、最先端(SOTA)軽量SR法より優れている。 私たちのコードはhttps://github.com/thy960112/MDBNで利用可能です。

Significant progress has been made in the field of super-resolution (SR), yet many convolutional neural networks (CNNs) based SR models primarily focus on restoring high-frequency details, often overlooking crucial low-frequency contour information. Transformer-based SR methods, while incorporating global structural details, frequently come with an abundance of parameters, leading to high computational overhead. In this paper, we address these challenges by introducing a Multi-Depth Branches Network (MDBN). This framework extends the ResNet architecture by integrating an additional branch that captures vital structural characteristics of images. Our proposed multi-depth branches module (MDBM) involves the stacking of convolutional kernels of identical size at varying depths within distinct branches. By conducting a comprehensive analysis of the feature maps, we observe that branches with differing depths can extract contour and detail information respectively. By integrating these branches, the overall architecture can preserve essential low-frequency semantic structural information during the restoration of high-frequency visual elements, which is more closely with human visual cognition. Compared to GoogLeNet-like models, our basic multi-depth branches structure has fewer parameters, higher computational efficiency, and improved performance. Our model outperforms state-of-the-art (SOTA) lightweight SR methods with less inference time. Our code is available at https://github.com/thy960112/MDBN
翻訳日:2023-10-02 13:04:59 公開日:2023-09-29
# バイオレイサム2023 バイオメディカル研究論文のレイサム化に関する共有課題の概要

Overview of the BioLaySumm 2023 Shared Task on Lay Summarization of Biomedical Research Articles ( http://arxiv.org/abs/2309.17332v1 )

ライセンス: Link先を確認
Tomsa Goldsack, Zheheng Luo, Qianqian Xie, Carolina Scarton, Matthew Shardlow, Sophia Ananiadou, Chenghua Lin(参考訳) 本稿では,ACL 2023のBioNLPワークショップで開催されているバイオメディカルリサーチ記事のレイ要約(BioLaySumm)における共有タスクの結果について述べる。 この共有タスクの目的は、制御可能かつ制御不能な設定の両方で「遅延要約」(すなわち、非技術的オーディエンスにとって理解しやすい要約)を生成することができる抽象的な要約モデルを開発することである。 サブタスクは2つあります。 1)レイ要約(Lay Summarisation)は,全記事テキスト及び対応する要約を入力として指定し,参加者がレイ要約生成のみのモデルを構築することを目標とする。 2) 可読性制御による要約は, 論文の主文を入力として, 参加者がモデルの訓練を行い, 技術的要約と台詞要約の両方を生成することを目的としている。 総合的な結果に加えて,BioLaySumm共有タスクのセットアップと洞察についても報告した。

This paper presents the results of the shared task on Lay Summarisation of Biomedical Research Articles (BioLaySumm), hosted at the BioNLP Workshop at ACL 2023. The goal of this shared task is to develop abstractive summarisation models capable of generating "lay summaries" (i.e., summaries that are comprehensible to non-technical audiences) in both a controllable and non-controllable setting. There are two subtasks: 1) Lay Summarisation, where the goal is for participants to build models for lay summary generation only, given the full article text and the corresponding abstract as input; and 2) Readability-controlled Summarisation, where the goal is for participants to train models to generate both the technical abstract and the lay summary, given an article's main text as input. In addition to overall results, we report on the setup and insights from the BioLaySumm shared task, which attracted a total of 20 participating teams across both subtasks.
翻訳日:2023-10-02 13:04:36 公開日:2023-09-29
# 暗黙的ポイントグラフネットワークによる肺木構造の効率的な解剖学的ラベリング

Efficient Anatomical labeling of Pulmonary Tree Structures via Implicit Point-Graph Networks ( http://arxiv.org/abs/2309.17329v1 )

ライセンス: Link先を確認
Kangxian Xie, Jiancheng Yang, Donglai Wei, Ziqiao Weng, Pascal Fua(参考訳) 肺疾患は世界中で死の主な原因となっている。 それらの治療には、気道、動脈、静脈など、肺系の複雑な3d木のような構造をよりよく理解する必要がある。 理論上は、高解像度のイメージスタックを使ってモデル化することができる。 残念ながら、高密度のボクセルグリッドで動作する標準CNNアプローチは、違法に高価である。 そこで本研究では,木骨格のグラフ接続を保ち,暗黙的表面表現を組み込んだポイントベースアプローチを提案する。 SOTAの精度を低い計算コストで提供し、結果として得られるモデルは使用可能な表面を持つ。 公開アクセス可能なデータが不足しているため、我々のアプローチを評価するために広範なデータセットをキュレートし、公開する予定です。

Pulmonary diseases rank prominently among the principal causes of death worldwide. Curing them will require, among other things, a better understanding of the many complex 3D tree-shaped structures within the pulmonary system, such as airways, arteries, and veins. In theory, they can be modeled using high-resolution image stacks. Unfortunately, standard CNN approaches operating on dense voxel grids are prohibitively expensive. To remedy this, we introduce a point-based approach that preserves graph connectivity of tree skeleton and incorporates an implicit surface representation. It delivers SOTA accuracy at a low computational cost and the resulting models have usable surfaces. Due to the scarcity of publicly accessible data, we have also curated an extensive dataset to evaluate our approach and will make it public.
翻訳日:2023-10-02 13:04:05 公開日:2023-09-29
# コモンセンスゼロショット行動認識のための物語の語り方

Telling Stories for Common Sense Zero-Shot Action Recognition ( http://arxiv.org/abs/2309.17327v1 )

ライセンス: Link先を確認
Shreyank N Gowda and Laura Sevilla-Lara(参考訳) ビデオ理解は長い間、大きなラベル付きデータセットに依存しており、ゼロショット学習の研究を動機付けてきた。 言語モデリングの最近の進歩は、ゼロショットビデオ解析の進歩をもたらすが、アクションクラスに関連する効果的な意味空間の構築は依然として困難である。 WikiHowの記事から抽出した多様なアクションクラスのためのリッチなテキスト記述を含む,新しいデータセットであるStoriesを導入することで,この問題に対処する。 各クラスについて,アクションを特徴付けるために必要なステップ,シーン,オブジェクト,動詞を詳述した多文物語を抽出する。 このコンテキストデータはアクション間のニュアンス関係のモデリングを可能にし、ゼロショット転送への道を開く。 また,Storiesを利用して特徴生成を改善し,ゼロショット分類を訓練する手法を提案する。 対象とするデータセットの微調整がなければ,複数のベンチマークで新たな最先端性を達成でき,トップ1の精度を最大6.1%向上させることができる。 私たちはストーリーは、ゼロショットアクション認識の進歩を触媒する貴重なリソースを提供すると信じています。 テキスト的な物語は、目に見えないクラスと見えないクラスの間のつながりを形作っており、このエキサイティングな領域の進歩を長い間妨げてきたラベル付きデータのボトルネックを克服している。 データは以下の通りである。

Video understanding has long suffered from reliance on large labeled datasets, motivating research into zero-shot learning. Recent progress in language modeling presents opportunities to advance zero-shot video analysis, but constructing an effective semantic space relating action classes remains challenging. We address this by introducing a novel dataset, Stories, which contains rich textual descriptions for diverse action classes extracted from WikiHow articles. For each class, we extract multi-sentence narratives detailing the necessary steps, scenes, objects, and verbs that characterize the action. This contextual data enables modeling of nuanced relationships between actions, paving the way for zero-shot transfer. We also propose an approach that harnesses Stories to improve feature generation for training zero-shot classification. Without any target dataset fine-tuning, our method achieves new state-of-the-art on multiple benchmarks, improving top-1 accuracy by up to 6.1%. We believe Stories provides a valuable resource that can catalyze progress in zero-shot action recognition. The textual narratives forge connections between seen and unseen classes, overcoming the bottleneck of labeled data that has long impeded advancements in this exciting domain. The data can be found here: https://github.com/kini5gowda/Stories .
翻訳日:2023-10-02 13:03:45 公開日:2023-09-29
# エバネッセント電子波スピン

Evanescent Electron Wave Spin ( http://arxiv.org/abs/2309.17325v1 )

ライセンス: Link先を確認
Ju Gao and Fang Shen(参考訳) 有限円柱量子井戸におけるディラック方程式を解いて、有限量子井戸の外側にエバネッセント波スピンが存在することを示す。 解析解析は無限量子井戸内の波動関数を検証するが、井戸の外側で非零エバネッセント波を回復する。 本研究では, スピン状態全体を破壊することなく, エバネッセント波による量子スピン情報の探索や盗聴が可能であることを提案する。 スピンベースの量子プロセスやデバイスは確率的ではなく決定論的であると主張する。

We demonstrate that an evanescent wave spin exists outside a finite quantum well by solving the Dirac equation in a finite cylindrical quantum well. The analytical analysis validates the wavefunction inside an infinite quantum well but recovers a non-zero evanescent wave outside the well. We propose that it is possible to probe or eavesdrop on quantum spin information through the evanescent wave spin without destroying the entire spin state. We argue that a spin-based quantum process or device is deterministic rather than probabilistic.
翻訳日:2023-10-02 13:02:47 公開日:2023-09-29
# GPT感度分析による株価リターン予測におけるルックアヘッドバイアスの評価

Assessing Look-Ahead Bias in Stock Return Predictions Generated By GPT Sentiment Analysis ( http://arxiv.org/abs/2309.17322v1 )

ライセンス: Link先を確認
Paul Glasserman, Caden Lin(参考訳) ChatGPTを含む大規模言語モデル(LLM)は、ニューステキストの感情から利益の出るトレーディングシグナルを抽出することができる。 しかし、LLMは長年のデータに基づいて訓練されており、トレーニングとバックテスト期間が重なると、バックテストの結果がバイアスとなるため、バックテストのような戦略が課題となる。 このバイアスは、LLMがニュース記事に続く株価のリターンについて特定の知識を持つことができるルック・ア・ヘッドバイアスと、社名を冠した企業の一般的な知識がテキストの感情の測定に干渉する気晴らし効果の2つの形態をとることができる。 金融ニュースの見出しの感情が引き起こすトレーディング戦略を通じて、これらのバイアス源を調査します。 我々は、元の見出しに基づく取引実績と、関連する企業の識別子をテキストから削除する非バイアス戦略を比較した。 インサンプル(LLMトレーニングウィンドウ内)では、匿名化された見出しの方が優れており、注意散らし効果がルックアヘッドバイアスよりも大きな影響があることがわかりました。 この傾向は大企業にとって特に強く、LLMがより一般的な知識を持つことを期待している。 サンプル外、ルック・ア・ヘッドバイアスは関心事ではないが、気晴らしは依然として可能である。 提案した匿名化手法は,非バイアスバックテストだけでなく,サンプル外実装にも有用である。

Large language models (LLMs), including ChatGPT, can extract profitable trading signals from the sentiment in news text. However, backtesting such strategies poses a challenge because LLMs are trained on many years of data, and backtesting produces biased results if the training and backtesting periods overlap. This bias can take two forms: a look-ahead bias, in which the LLM may have specific knowledge of the stock returns that followed a news article, and a distraction effect, in which general knowledge of the companies named interferes with the measurement of a text's sentiment. We investigate these sources of bias through trading strategies driven by the sentiment of financial news headlines. We compare trading performance based on the original headlines with de-biased strategies in which we remove the relevant company's identifiers from the text. In-sample (within the LLM training window), we find, surprisingly, that the anonymized headlines outperform, indicating that the distraction effect has a greater impact than look-ahead bias. This tendency is particularly strong for larger companies--companies about which we expect an LLM to have greater general knowledge. Out-of-sample, look-ahead bias is not a concern but distraction remains possible. Our proposed anonymization procedure is therefore potentially useful in out-of-sample implementation, as well as for de-biased backtesting.
翻訳日:2023-10-02 13:02:37 公開日:2023-09-29
# 脳CTにおける急性虚血性脳卒中病変の同定のための深層学習法の開発

Development of a Deep Learning Method to Identify Acute Ischemic Stroke Lesions on Brain CT ( http://arxiv.org/abs/2309.17320v1 )

ライセンス: Link先を確認
Alessandro Fontanella, Wenwen Li, Grant Mair, Antreas Antoniou, Eleanor Platt, Paul Armitage, Emanuele Trucco, Joanna Wardlaw, Amos Storkey(参考訳) CT(CT)は急性虚血性脳梗塞(AIS)患者を画像化するのに一般的に用いられるが、放射線医による解釈は時間がかかり、サーバ間変動が生じる。 ディープラーニング(DL)技術は、CT脳スキャンの自動評価を提供するが、通常は注釈付き画像を必要とする。 AIS患者からのラベル付きCT脳スキャンを用いたAIS用DL法の開発を目的として,厳密な研究プロトコルを用いて取得されていない第3回国際ストローク裁判(IST-3)のCT脳スキャンを用いた畳み込みニューラルネットワークを用いたDLアルゴリズムを設計した。 DLモデルは、AISの病変を検出し、脳の側面を分類することを目的としている。 AIS病変の特徴, 背景脳出現, タイミングがDL性能に及ぼす影響について検討した。 2347人のais患者(82歳中)のユニークなctスキャン5772例から、専門家のラベル付けにより54%のais病変が見られた。 DL法は病変の有無と側方で72%の精度が得られた。 より大きい病変(80%の精度)と複数病変(87%の精度、3以上100%の精度)が検出された。 フォローアップスキャンの精度は76%,ベースラインスキャンの精度は67%であった。 慢性脳疾患は、特に非ストローク病変と古い脳卒中病変(32%と31%)の精度を低下させた。 DL法は、大量の定期的なCT脳スキャンデータを用いて、CT上のAIS病変検出のために設計することができる。 最終的には、より堅牢で広く適用可能な方法につながるでしょう。

Computed Tomography (CT) is commonly used to image acute ischemic stroke (AIS) patients, but its interpretation by radiologists is time-consuming and subject to inter-observer variability. Deep learning (DL) techniques can provide automated CT brain scan assessment, but usually require annotated images. Aiming to develop a DL method for AIS using labelled but not annotated CT brain scans from patients with AIS, we designed a convolutional neural network-based DL algorithm using routinely-collected CT brain scans from the Third International Stroke Trial (IST-3), which were not acquired using strict research protocols. The DL model aimed to detect AIS lesions and classify the side of the brain affected. We explored the impact of AIS lesion features, background brain appearances, and timing on DL performance. From 5772 unique CT scans of 2347 AIS patients (median age 82), 54% had visible AIS lesions according to expert labelling. Our best-performing DL method achieved 72% accuracy for lesion presence and side. Lesions that were larger (80% accuracy) or multiple (87% accuracy for two lesions, 100% for three or more), were better detected. Follow-up scans had 76% accuracy, while baseline scans 67% accuracy. Chronic brain conditions reduced accuracy, particularly non-stroke lesions and old stroke lesions (32% and 31% error rates respectively). DL methods can be designed for AIS lesion detection on CT using the vast quantities of routinely-collected CT brain scan data. Ultimately, this should lead to more robust and widely-applicable methods.
翻訳日:2023-10-02 13:02:06 公開日:2023-09-29
# プライバシー保護とセキュアな地理空間人工知能基盤モデルの構築

Building Privacy-Preserving and Secure Geospatial Artificial Intelligence Foundation Models ( http://arxiv.org/abs/2309.17319v1 )

ライセンス: Link先を確認
Jinmeng Rao, Song Gao, Gengchen Mai, Krzysztof Janowicz(参考訳) 近年では、言語、視覚、マルチモーダルモデルなど、人工知能の基礎モデルが大幅に進歩しています。 近年の研究では、地理的質問応答、リモートセンシング画像理解、地図生成、位置情報ベースのサービスなど、地理空間人工知能(geoai foundation modelまたはgeo-foundation model)における基盤モデルの利用の可能性を強調している。 しかし、geoai foundationモデルの開発と応用は、現在まで十分に議論されていない、あるいは対処されていない重大なプライバシーとセキュリティのリスクをもたらす可能性がある。 本稿では,GeoAIファンデーションモデルのライフサイクルを通じての潜在的なプライバシとセキュリティリスクを紹介し,予防・制御戦略の総合的青写真を提案する。 本稿では,地理空間分野の研究者と政策立案者の注意を,ジオアイ財団モデルに内在するプライバシとセキュリティリスクに惹きつけ,プライバシ保護とセキュアなジオアイ財団モデルの開発を提唱する。

In recent years we have seen substantial advances in foundation models for artificial intelligence, including language, vision, and multimodal models. Recent studies have highlighted the potential of using foundation models in geospatial artificial intelligence, known as GeoAI Foundation Models or Geo-Foundation Models, for geographic question answering, remote sensing image understanding, map generation, and location-based services, among others. However, the development and application of GeoAI foundation models can pose serious privacy and security risks, which have not been fully discussed or addressed to date. This paper introduces the potential privacy and security risks throughout the lifecycle of GeoAI foundation models and proposes a comprehensive blueprint for preventative and control strategies. Through this vision paper, we hope to draw the attention of researchers and policymakers in geospatial domains to these privacy and security risks inherent in GeoAI foundation models and advocate for the development of privacy-preserving and secure GeoAI foundation models.
翻訳日:2023-10-02 13:01:39 公開日:2023-09-29
# 勾配量子クリッピングによるロバスト確率最適化

Robust Stochastic Optimization via Gradient Quantile Clipping ( http://arxiv.org/abs/2309.17316v1 )

ライセンス: Link先を確認
Ibrahim Merad and St\'ephane Ga\"iffas(参考訳) SGD(Stochastic Gradient Descent)のクリッピング戦略を導入し,クリッピング閾値として勾配ノルムの量子化を用いる。 この新しい戦略は、滑らかな目的(凸または非凸)に対するロバストで効率的な最適化アルゴリズムを提供し、重い尾を持つサンプル(無限分散を含む)とフーバー汚染に類似したデータストリームの外れ値のほんの一部を許容することを証明する。 我々の数学的解析は,ステップサイズsgdとマルコフ鎖の結合を利用して,クリップングによるバイアスを元の方法で処理する。 強凸目的に対しては、反復が集中分布に収束し、最終推定誤差に高い確率境界を導出することを証明する。 非凸の場合、極限分布は勾配の低い近傍に局所化されていることが証明される。 本稿では, 強靭性を有する高効率な最適化手法を実現するために, 転がり量子化法を応用した本アルゴリズムの実装について, 数値実験により確認した。

We introduce a clipping strategy for Stochastic Gradient Descent (SGD) which uses quantiles of the gradient norm as clipping thresholds. We prove that this new strategy provides a robust and efficient optimization algorithm for smooth objectives (convex or non-convex), that tolerates heavy-tailed samples (including infinite variance) and a fraction of outliers in the data stream akin to Huber contamination. Our mathematical analysis leverages the connection between constant step size SGD and Markov chains and handles the bias introduced by clipping in an original way. For strongly convex objectives, we prove that the iteration converges to a concentrated distribution and derive high probability bounds on the final estimation error. In the non-convex case, we prove that the limit distribution is localized on a neighborhood with low gradient. We propose an implementation of this algorithm using rolling quantiles which leads to a highly efficient optimization procedure with strong robustness properties, as confirmed by our numerical experiments.
翻訳日:2023-10-02 13:01:18 公開日:2023-09-29
# 効果的な生物プラズブル・アドバイサル・トレーニング

Efficient Biologically Plausible Adversarial Training ( http://arxiv.org/abs/2309.17348v1 )

ライセンス: Link先を確認
Matilde Tristany Farinha, Thomas Ortner, Giorgia Dellaferrera, Benjamin Grewe, Angeliki Pantazi(参考訳) バックプロパゲーション(BP)でトレーニングされた人工ニューラルネットワーク(ANN)は、驚くべきパフォーマンスを示し、日々のタスクの実行に頻繁に使用される。 しかし、ANNは敵攻撃に対して非常に脆弱であり、モデルの性能を劇的に破壊する小さな目標摂動で入力を変更する。 これらの攻撃に対してANNを堅牢にするための最も効果的な方法は、訓練データセットを模範的な対人サンプルで拡張する対人訓練である。 残念なことに、このアプローチは、対数サンプルの生成が非常に計算的に要求されるため、トレーニングの複雑さが増大する欠点がある。 ANNとは対照的に、人間は敵の攻撃を受けにくい。 そこで本研究では,生物工学的な学習アルゴリズムがBPよりも敵攻撃に対して堅牢であるかどうかを検討する。 特に,最近提案された生物学的に有望な学習アルゴリズムであるPEPITA(PEPITA)の様々なコンピュータビジョンタスクにおいて,BP と \textit{Present the Error to Perturb the Input To modulate Activity} の対向ロバスト性の比較分析を行った。 PEPITAは内向的対向性が高く, 対向的トレーニングでは, 同じ自然的アキュラシーに対して, PEPITAの対向的アキュラシーは平均0.26%減少し, BPは8.05%低下した。

Artificial Neural Networks (ANNs) trained with Backpropagation (BP) show astounding performance and are increasingly often used in performing our daily life tasks. However, ANNs are highly vulnerable to adversarial attacks, which alter inputs with small targeted perturbations that drastically disrupt the models' performance. The most effective method to make ANNs robust against these attacks is adversarial training, in which the training dataset is augmented with exemplary adversarial samples. Unfortunately, this approach has the drawback of increased training complexity since generating adversarial samples is very computationally demanding. In contrast to ANNs, humans are not susceptible to adversarial attacks. Therefore, in this work, we investigate whether biologically-plausible learning algorithms are more robust against adversarial attacks than BP. In particular, we present an extensive comparative analysis of the adversarial robustness of BP and \textit{Present the Error to Perturb the Input To modulate Activity} (PEPITA), a recently proposed biologically-plausible learning algorithm, on various computer vision tasks. We observe that PEPITA has higher intrinsic adversarial robustness and, with adversarial training, has a more favourable natural-vs-adversarial performance trade-off as, for the same natural accuracies, PEPITA's adversarial accuracies decrease in average by 0.26% and BP's by 8.05%.
翻訳日:2023-10-02 12:55:26 公開日:2023-09-29
# ニューラルリソグラフィ:'real2sim'学習フォトリソグラフィシミュレータによる計算光学における設計と製造のギャップを閉じる

Neural Lithography: Close the Design-to-Manufacturing Gap in Computational Optics with a 'Real2Sim' Learned Photolithography Simulator ( http://arxiv.org/abs/2309.17343v1 )

ライセンス: Link先を確認
Cheng Zheng, Guangyuan Zhao, Peter T.C. So(参考訳) 計算光学における「デザイン・ツー・マニュファクチャリング」のギャップに対処するための神経リソグラフィーを導入する。 大きな設計自由度を持つ計算光学は、従来の光学を超える高度な機能と性能を実現する。 しかし、既存の設計手法はしばしば製造工程の数値モデリングを見落としており、設計と製造光学の間に大きな性能差が生じる可能性がある。 このギャップを埋めるために、我々は初めて、事前訓練されたフォトリソグラフィーシミュレータをモデルベース光設計ループに統合する、完全に微分可能な設計フレームワークを提案する。 実験データを用いた物理インフォームドモデリングとデータ駆動トレーニングを併用したフォトリソグラフィーシミュレータは、リソグラフィープロセスで導入された構造的不一致を補償し、設計時の製作可能性の正則化を行う。 我々は,2光子リソグラフィシステムを用いてホログラフィック光学素子(HOE)と多レベル回折レンズ(MDL)を設計・作製し,タスク固有の計測値に対する光学性能の向上を示す,計算光学における2つの典型的なタスクによるアプローチの有効性を実証した。

We introduce neural lithography to address the 'design-to-manufacturing' gap in computational optics. Computational optics with large design degrees of freedom enable advanced functionalities and performance beyond traditional optics. However, the existing design approaches often overlook the numerical modeling of the manufacturing process, which can result in significant performance deviation between the design and the fabricated optics. To bridge this gap, we, for the first time, propose a fully differentiable design framework that integrates a pre-trained photolithography simulator into the model-based optical design loop. Leveraging a blend of physics-informed modeling and data-driven training using experimentally collected datasets, our photolithography simulator serves as a regularizer on fabrication feasibility during design, compensating for structure discrepancies introduced in the lithography process. We demonstrate the effectiveness of our approach through two typical tasks in computational optics, where we design and fabricate a holographic optical element (HOE) and a multi-level diffractive lens (MDL) using a two-photon lithography system, showcasing improved optical performance on the task-specific metrics.
翻訳日:2023-10-02 12:54:39 公開日:2023-09-29
# 汎用モデルによる自由データ選択に向けて

Towards Free Data Selection with General-Purpose Models ( http://arxiv.org/abs/2309.17342v1 )

ライセンス: Link先を確認
Yichen Xie, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan(参考訳) 望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。 しかし、アクティブな学習手法で表される現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータの選択を繰り返し繰り返す面倒なパイプラインに従う。 本稿では,既存の汎用モデルを用いて,追加のトレーニングや監督を必要とせずに,単一パス推論を用いて各種データセットからデータを選択する,独自のデータ選択パイプラインを設計することにより,この現状に挑戦する。 このパイプラインに続き、新しい自由データ選択法(FreeSel)が提案されている。 具体的には,汎用モデルの中間的特徴から抽出した意味的パターンを定義し,各画像内の微妙な局所情報をキャプチャする。 次に、細粒度のセマンティックパターンレベルで、距離に基づくサンプリングを通した単一パスにおける全データサンプルの選択を可能にする。 FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。 様々なコンピュータビジョンタスクにおけるfreeselの有効性を検証する広範な実験。 私たちのコードはhttps://github.com/yichen928/FreeSelで利用可能です。

A desirable data selection algorithm can efficiently choose the most informative samples to maximize the utility of limited annotation budgets. However, current approaches, represented by active learning methods, typically follow a cumbersome pipeline that iterates the time-consuming model training and batch data selection repeatedly. In this paper, we challenge this status quo by designing a distinct data selection pipeline that utilizes existing general-purpose models to select data from various datasets with a single-pass inference without the need for additional training or supervision. A novel free data selection (FreeSel) method is proposed following this new pipeline. Specifically, we define semantic patterns extracted from inter-mediate features of the general-purpose model to capture subtle local information in each image. We then enable the selection of all data samples in a single pass through distance-based sampling at the fine-grained semantic pattern level. FreeSel bypasses the heavy batch selection process, achieving a significant improvement in efficiency and being 530x faster than existing active learning methods. Extensive experiments verify the effectiveness of FreeSel on various computer vision tasks. Our code is available at https://github.com/yichen928/FreeSel.
翻訳日:2023-10-02 12:54:19 公開日:2023-09-29
# MixQuant: ビット幅最適化による混合精度量子化

MixQuant: Mixed Precision Quantization with a Bit-width Optimization Search ( http://arxiv.org/abs/2309.17341v1 )

ライセンス: Link先を確認
Eliska Kloberdanz and Wei Le(参考訳) 量子化は、f32浮動小数点精度よりも低いビット幅で計算を実行しテンソルを格納する効率的なディープニューラルネットワーク(DNN)を作成する技術である。 量子化はモデルサイズと推論遅延を低減し、DNNを制約された計算リソースとリアルタイムシステムを持つプラットフォームにデプロイすることを可能にする。 しかし、量子化はラウンドオフ誤差による数値不安定を招き、不正確な計算につながるため、量子化モデルの精度は低下する。 従来の研究と同様に、バイアスとアクティベーションの両方が量子化に敏感であり、完全精度で保たれたり、高いビット幅で量子化されたりすることが示されているが、いくつかの重みは量子化ビット幅に反映されるべき他のものよりも敏感であることを示す。 そこで我々は,ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案し,前処理最適化の形式として任意の量子化手法と組み合わせることができる。 我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。 さらに,mixquantとバニラ非対称量子化を組み合わせることにより,mixquantが任意の量子化手法の性能を最適化する可能性を示す。

Quantization is a technique for creating efficient Deep Neural Networks (DNNs), which involves performing computations and storing tensors at lower bit-widths than f32 floating point precision. Quantization reduces model size and inference latency, and therefore allows for DNNs to be deployed on platforms with constrained computational resources and real-time systems. However, quantization can lead to numerical instability caused by roundoff error which leads to inaccurate computations and therefore, a decrease in quantized model accuracy. Similarly to prior works, which have shown that both biases and activations are more sensitive to quantization and are best kept in full precision or quantized with higher bit-widths, we show that some weights are more sensitive than others which should be reflected on their quantization bit-width. To that end we propose MixQuant, a search algorithm that finds the optimal custom quantization bit-width for each layer weight based on roundoff error and can be combined with any quantization method as a form of pre-processing optimization. We show that combining MixQuant with BRECQ, a state-of-the-art quantization method, yields better quantized model accuracy than BRECQ alone. Additionally, we combine MixQuant with vanilla asymmetric quantization to show that MixQuant has the potential to optimize the performance of any quantization technique.
翻訳日:2023-10-02 12:54:03 公開日:2023-09-29
# ダウンダウンウォッチ:extreme event regularizerによる早期停止予測

Outage-Watch: Early Prediction of Outages using Extreme Event Regularizer ( http://arxiv.org/abs/2309.17340v1 )

ライセンス: Link先を確認
Shubham Agarwal, Sarthak Chakraborty, Shaddy Garg, Sumit Bisht, Chahat Jain, Ashritha Gonuguntla and Shiv Saini(参考訳) クラウドサービスは全社的に存在し、クラウドサービスの失敗は命の事実である。 顧客を維持し、収益損失を防止するためには、これらのサービスに高い信頼性保証を提供することが重要である。 この方法の1つは、障害を事前に予測することで、重症度を低減し、回復までの時間を短縮することができる。 これらのイベントの豪華さのため、重大な障害を予測することは困難である。 さらに、クリティカルな障害は観測可能なデータの観点からは定義できない。 提案手法であるOutage-Watchでは、重要なサービス停止を、メトリクスセットによってキャプチャされたQuality of Service(QoS)の劣化として定義する。 Outage-Watchは、現在のシステム状態を使用して、QoSメトリクスがしきい値を越えて極端なイベントを開始するかどうかを事前に検出する。 ガウスの混合物はqosメトリクスの分布を柔軟にモデル化するために使われ、極端なイベントレギュラライザーは分布の尾での学習を改善するのに役立つ。 qosメトリックス交差しきい値のいずれかの確率が著しく変化した場合、停止が予測される。 現実のSaaS企業のデータセットに対する我々の評価は、Outage-Watchが従来の手法を平均0.98で大幅に上回っていることを示している。 さらに、Outage-Watchは、サービスメトリクスの変化を示すすべての障害を検出し、提案手法の有効性を実証し、エンタープライズクラウドサービスシステムにデプロイすると、障害の平均時間検出(MTTD)を最大88%削減する。

Cloud services are omnipresent and critical cloud service failure is a fact of life. In order to retain customers and prevent revenue loss, it is important to provide high reliability guarantees for these services. One way to do this is by predicting outages in advance, which can help in reducing the severity as well as time to recovery. It is difficult to forecast critical failures due to the rarity of these events. Moreover, critical failures are ill-defined in terms of observable data. Our proposed method, Outage-Watch, defines critical service outages as deteriorations in the Quality of Service (QoS) captured by a set of metrics. Outage-Watch detects such outages in advance by using current system state to predict whether the QoS metrics will cross a threshold and initiate an extreme event. A mixture of Gaussian is used to model the distribution of the QoS metrics for flexibility and an extreme event regularizer helps in improving learning in tail of the distribution. An outage is predicted if the probability of any one of the QoS metrics crossing threshold changes significantly. Our evaluation on a real-world SaaS company dataset shows that Outage-Watch significantly outperforms traditional methods with an average AUC of 0.98. Additionally, Outage-Watch detects all the outages exhibiting a change in service metrics and reduces the Mean Time To Detection (MTTD) of outages by up to 88% when deployed in an enterprise cloud-service system, demonstrating efficacy of our proposed method.
翻訳日:2023-10-02 12:53:34 公開日:2023-09-29
# 自己教師付きクロステーブル表現学習におけるスケーリング実験

Scaling Experiments in Self-Supervised Cross-Table Representation Learning ( http://arxiv.org/abs/2309.17339v1 )

ライセンス: Link先を確認
Maximilian Schambach, Dominique Paul, Johannes S. Otterbach(参考訳) 表表表表現学習モデルのスケーリングポテンシャルを分析するために,表表データに適したトランスフォーマーベースアーキテクチャと表表固有のトークン化器と共有トランスフォーマーバックボーンを利用するクロステーブル表現学習を導入する。 当社のトレーニングアプローチは,シングルテーブルモデルとクロステーブルモデルの両方を包含して,自己教師付きマスク型セルリカバリ目標による価値インプテーションの欠如を通じてトレーニングする。 この手法のスケーリング挙動を理解するために,約10^4$から10^7$パラメータまで,さまざまなサイズのモデルをトレーニングした。 これらのモデルは、76の多様なデータセットからソースされた135万のトレーニングトークンからなる、注意深くキュレートされた事前トレーニングデータセットでトレーニングされる。 ベンチマークデータセットのキュレーションセット上で線形プローブを用いて事前学習したモデルを評価し,従来のベースラインと比較することにより,単一テーブルおよびクロステーブルの事前トレーニング設定におけるアーキテクチャのスケーリングを評価する。

To analyze the scaling potential of deep tabular representation learning models, we introduce a novel Transformer-based architecture specifically tailored to tabular data and cross-table representation learning by utilizing table-specific tokenizers and a shared Transformer backbone. Our training approach encompasses both single-table and cross-table models, trained via missing value imputation through a self-supervised masked cell recovery objective. To understand the scaling behavior of our method, we train models of varying sizes, ranging from approximately $10^4$ to $10^7$ parameters. These models are trained on a carefully curated pretraining dataset, consisting of 135M training tokens sourced from 76 diverse datasets. We assess the scaling of our architecture in both single-table and cross-table pretraining setups by evaluating the pretrained models using linear probing on a curated set of benchmark datasets and comparing the results with conventional baselines.
翻訳日:2023-10-02 12:53:08 公開日:2023-09-29
# ドロップウェイポイントによる動的マルチエージェント環境における軌道予測の改善

Improving Trajectory Prediction in Dynamic Multi-Agent Environment by Dropping Waypoints ( http://arxiv.org/abs/2309.17338v1 )

ライセンス: Link先を確認
Pranav Singh Chib, Pravendra Singh(参考訳) 本質的に多様性があり不確実な軌跡の性質は、それらを正確にモデル化する上で非常に難しい課題である。 動作予測システムは、エージェントの将来の軌跡を予測するために、過去から空間的および時間的情報を効果的に学習する必要がある。 既存の多くの手法は、時間的特徴を捉えるために、積み重ねられたモデル内の別々のコンポーネントを通して時間的動きを学ぶ。 本稿では,TWD(Temporal Waypoint Dropping)と呼ばれる新しいフレームワークを提案する。 ウェイポイントドロップによる学習は、エージェント間の時間的相関の理解を改善するためにモデルに強制され、結果として軌道予測が大幅に向上する。 軌跡予測法は、観測された軌跡の経路点列が完全であるという仮定の下で動作し、欠落した値が発生する現実のシナリオを無視し、それらの性能に影響を与える可能性がある。 さらに、予測を行う際に、これらのモデルはしばしば特定のウェイポイントシーケンスに対するバイアスを示す。 我々のTWDはこれらの問題に効果的に対処できる。 時間的シーケンスに基づいて戦略的に経路ポイントを落とすことによって、過去の軌跡を規則化する確率的および固定的なプロセスが組み込まれている。 広範な実験を通じて,twdがエージェント間の複雑な時間相関を学習させる効果を実証した。 提案手法は,既存の軌道予測手法を補完し,予測精度を向上させる。 また,NBA Sports VU,ETH-UCY,TrajNet++の3つのデータセットに対して提案手法の評価を行った。

The inherently diverse and uncertain nature of trajectories presents a formidable challenge in accurately modeling them. Motion prediction systems must effectively learn spatial and temporal information from the past to forecast the future trajectories of the agent. Many existing methods learn temporal motion via separate components within stacked models to capture temporal features. This paper introduces a novel framework, called Temporal Waypoint Dropping (TWD), that promotes explicit temporal learning through the waypoint dropping technique. Learning through waypoint dropping can compel the model to improve its understanding of temporal correlations among agents, thus leading to a significant enhancement in trajectory prediction. Trajectory prediction methods often operate under the assumption that observed trajectory waypoint sequences are complete, disregarding real-world scenarios where missing values may occur, which can influence their performance. Moreover, these models frequently exhibit a bias towards particular waypoint sequences when making predictions. Our TWD is capable of effectively addressing these issues. It incorporates stochastic and fixed processes that regularize projected past trajectories by strategically dropping waypoints based on temporal sequences. Through extensive experiments, we demonstrate the effectiveness of TWD in forcing the model to learn complex temporal correlations among agents. Our approach can complement existing trajectory prediction methods to enhance prediction accuracy. We also evaluate our proposed method across three datasets: NBA Sports VU, ETH-UCY, and TrajNet++.
翻訳日:2023-10-02 12:52:52 公開日:2023-09-29
# パイプライン対応MLフェアネスの運用に向けて : 実践的ガイドラインとツール開発のための研究成果

Toward Operationalizing Pipeline-aware ML Fairness: A Research Agenda for Developing Practical Guidelines and Tools ( http://arxiv.org/abs/2309.17337v1 )

ライセンス: Link先を確認
Emily Black, Rakshit Naidu, Rayid Ghani, Kit T. Rodolfa, Daniel E. Ho, Hoda Heidari(参考訳) アルゴリズム的公平性は研究の活発な分野であるが、実際にはバイアスの軽減は、最適化ステップのフェアネス制約を強制するか、後処理モデル出力を強制するか、トレーニングデータを操作することによって、任意に選択されたフェアネスメトリックを強制することによってしばしば削減される。 最近の研究は、MLパイプラインを通じて行われた多くの設計選択を体系的に調査し、その症状とは対照的に、問題の根本原因を標的とした介入を特定することによって、公正問題に取り組むためのより包括的なアプローチをMLコミュニティに求めている。 このパイプラインベースのアプローチは、アルゴリズム上の不公平と戦うのに最も適しているという信念を共有していますが、このアプローチを実際に行う方法はほとんどありません。 教育者や実践者としての経験に基づいて、私たちはまず、明確なガイドラインやツールキットがなければ、専門的なML知識を持つ個人でさえ、さまざまなデザイン選択がモデル行動にどのように影響するかを仮説化することが難しいことを証明しました。 私たちは、MLパイプラインを通じてさまざまな不公平ソースを検出し、測定し、緩和しようとする以前の作業を体系的に収集し、組織化します。 我々は,これまでの貢献を広範囲に分類し,研究課題を概観する。 この研究が、アルゴリズムの公正性に対するパイプライン指向のアプローチを探求し、設計し、テストすることに関心のあるML研究者、実践者、学生のための、より包括的なリソースセットへの足掛かりになることを期待しています。

While algorithmic fairness is a thriving area of research, in practice, mitigating issues of bias often gets reduced to enforcing an arbitrarily chosen fairness metric, either by enforcing fairness constraints during the optimization step, post-processing model outputs, or by manipulating the training data. Recent work has called on the ML community to take a more holistic approach to tackle fairness issues by systematically investigating the many design choices made through the ML pipeline, and identifying interventions that target the issue's root cause, as opposed to its symptoms. While we share the conviction that this pipeline-based approach is the most appropriate for combating algorithmic unfairness on the ground, we believe there are currently very few methods of \emph{operationalizing} this approach in practice. Drawing on our experience as educators and practitioners, we first demonstrate that without clear guidelines and toolkits, even individuals with specialized ML knowledge find it challenging to hypothesize how various design choices influence model behavior. We then consult the fair-ML literature to understand the progress to date toward operationalizing the pipeline-aware approach: we systematically collect and organize the prior work that attempts to detect, measure, and mitigate various sources of unfairness through the ML pipeline. We utilize this extensive categorization of previous contributions to sketch a research agenda for the community. We hope this work serves as the stepping stone toward a more comprehensive set of resources for ML researchers, practitioners, and students interested in exploring, designing, and testing pipeline-oriented approaches to algorithmic fairness.
翻訳日:2023-10-02 12:52:26 公開日:2023-09-29
# クロスモーダル幻覚(cross-modal hallucination)による点雲からのロバストな3dオブジェクト検出

See Beyond Seeing: Robust 3D Object Detection from Point Clouds via Cross-Modal Hallucination ( http://arxiv.org/abs/2309.17336v1 )

ライセンス: Link先を確認
Jianning Deng, Gabriel Chan, Hantao Zhong, and Chris Xiaoxuan Lu(参考訳) 本稿では,点雲からの3次元物体検出のための新しい枠組みを提案する。 提案手法は,LiDARと4Dレーダの幻覚方向に依存しない。 バックボーンの改良と幻覚生成を同時に行うために,空間レベルと特徴レベルの両方に複数のアライメントを導入する。 具体的には、LiDARとレーダーのより優れたインスタンスマッチングのための幾何学的不一致を扱うために空間アライメントを提案する。 特徴アライメントステップはさらに、センシングモダリティ間の固有の属性ギャップを橋渡しし、トレーニングを安定化させる。 訓練されたオブジェクト検出モデルは、推論段階で入力としてシングルモーダルデータのみを使用していても、より難しい検出ケースに対処できる。 VoD(View-of-Delft)データセットの大規模な実験により,提案手法は,実行時の競争効率を維持しつつ,レーダおよびLiDARオブジェクト検出の最先端(SOTA)手法よりも優れていた。

This paper presents a novel framework for robust 3D object detection from point clouds via cross-modal hallucination. Our proposed approach is agnostic to either hallucination direction between LiDAR and 4D radar. We introduce multiple alignments on both spatial and feature levels to achieve simultaneous backbone refinement and hallucination generation. Specifically, spatial alignment is proposed to deal with the geometry discrepancy for better instance matching between LiDAR and radar. The feature alignment step further bridges the intrinsic attribute gap between the sensing modalities and stabilizes the training. The trained object detection models can deal with difficult detection cases better, even though only single-modal data is used as the input during the inference stage. Extensive experiments on the View-of-Delft (VoD) dataset show that our proposed method outperforms the state-of-the-art (SOTA) methods for both radar and LiDAR object detection while maintaining competitive efficiency in runtime.
翻訳日:2023-10-02 12:51:55 公開日:2023-09-29
# 将来と現在のための法律: 持続的サンプル効率を有する自律型LLMエージェントの原理的枠組み

Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency ( http://arxiv.org/abs/2309.17382v1 )

ライセンス: Link先を確認
Zhihan Liu, Hao Hu, Shenao Zhang, Hongyi Guo, Shuqi Ke, Boyi Liu, Zhaoran Wang(参考訳) 大規模言語モデル(LLM)は印象的な推論能力を示しているが、現実の世界での行動に推論を翻訳することは難しい。 特に、内部的な推論機構を通じて、外部環境との最小数の相互作用の中で、与えられたタスクを確実に完了させる方法は不明である。 この目的のために我々は,「未来のための推論,現在のための行動」 (\texttt{RAFA}) と呼ばれる推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則付きフレームワークを提案する。 具体的には、メモリバッファから学習し、将来の軌道を長い地平線で計画する推論のためのプロンプトテンプレート(``reason for future)を設計する。各ステップにおいて、llmエージェントは、計画された軌道の初期動作(``act for now)を受け取り、収集されたフィードバックをメモリバッファに格納し、新しい状態から将来の軌道を計画する推論ルーチンを再起動する。 鍵となる考え方は、LLMにおける推論をベイズ適応マルコフ決定プロセス(MDP)の学習と計画として使うことである。 それに対応して、LLMは、メモリバッファ(学習)から未知環境の更新後部を形成するように促し、値関数(計画)を最大化する複数の将来のステップに対して最適な軌道を生成する。 学習と計画のサブルーチンは、MDPのアクター批判更新をエミュレートする"コンテキスト内で"実行される。 我々の理論的分析により, 長期的推論と短期的行為の新たな組み合わせは$\sqrt{t}$ regretが得られることが証明された。 特に、後悔のバウンドは、事前訓練によって得られた事前知識と、推論と演技によって達成された不確実性低減との興味深い相互作用を強調する。 私たちの実証検証では、既存のフレームワークよりも優れており、いくつかのベンチマークでほぼ完璧なスコアが得られています。

Large language models (LLMs) demonstrate impressive reasoning abilities, but translating reasoning into actions in the real world remains challenging. In particular, it remains unclear how to complete a given task provably within a minimum number of interactions with the external environment, e.g., through an internal mechanism of reasoning. To this end, we propose a principled framework with provable regret guarantees to orchestrate reasoning and acting, which we call ``reason for future, act for now" (\texttt{RAFA}). Specifically, we design a prompt template for reasoning that learns from the memory buffer and plans a future trajectory over a long horizon (``reason for future"). At each step, the LLM agent takes the initial action of the planned trajectory (``act for now"), stores the collected feedback in the memory buffer, and reinvokes the reasoning routine to replan the future trajectory from the new state. The key idea is to cast reasoning in LLMs as learning and planning in Bayesian adaptive Markov decision processes (MDPs). Correspondingly, we prompt LLMs to form an updated posterior of the unknown environment from the memory buffer (learning) and generate an optimal trajectory for multiple future steps that maximizes a value function (planning). The learning and planning subroutines are performed in an "in-context" manner to emulate the actor-critic update for MDPs. Our theoretical analysis proves that the novel combination of long-term reasoning and short-term acting achieves a $\sqrt{T}$ regret. In particular, the regret bound highlights an intriguing interplay between the prior knowledge obtained through pretraining and the uncertainty reduction achieved by reasoning and acting. Our empirical validation shows that it outperforms various existing frameworks and achieves nearly perfect scores on a few benchmarks.
翻訳日:2023-10-02 12:43:33 公開日:2023-09-29
# 量子重ね合わせ、波動関数の崩壊、量子測定、非断熱的服装状態

Quantum Superposition, Collapse of Wave Function, Quantum Measurement and Nonadiabatic Dressed States ( http://arxiv.org/abs/2309.17377v1 )

ライセンス: Link先を確認
I. G. Koprinkov(参考訳) 量子重ね合わせ、波動関数の崩壊、および量子測定問題は、非断熱的な状態と量子遷移に関する実験的観察に基づいて再検討される。 これらのプロセスの背後にある物理的メカニズムが明らかにされる。

Quantum superposition, collapse of wave function and quantum measurement problem are reexamined based on nonadiabatic dressed states and experimental observations on the quantum transitions. The physical mechanisms behind these processes are revealed.
翻訳日:2023-10-02 12:42:55 公開日:2023-09-29
# 潜在情報を用いた視覚観察からの敵対的模倣学習

Adversarial Imitation Learning from Visual Observations using Latent Information ( http://arxiv.org/abs/2309.17371v1 )

ライセンス: Link先を確認
Vittorio Giammarino, James Queeney, Ioannis Ch. Paschalidis(参考訳) 視覚的観察から模倣学習の課題に焦点をあて,学習エージェントが専門家の動画を唯一の学習源として利用できるようにする。 このフレームワークの課題は、エキスパートアクションの欠如と環境の部分的可観測性である。 この問題に取り組むため,我々はまず,部分的に観察可能な環境において模倣学習の理論解析を行う。 我々は、専門家とエージェントの潜伏状態遷移分布のばらつきに関して、学習エージェントの最適度に関する上限を確立する。 この分析に動機づけられたアルゴリズムは、観測のシーケンスからエージェントの状態の学習された潜在的表現と、オフ・ポリティカルな敵対的模倣技術を組み合わせたものである。 高次元連続ロボットタスクの実験では、我々のアルゴリズムは最先端の性能と一致し、計算上の優位性は大きい。 さらに,本手法を用いて,エキスパートビデオを活用することにより,画素からの強化学習の効率を向上させる方法を示す。 再現性を確保するため、コードへの無料アクセスを提供しています。

We focus on the problem of imitation learning from visual observations, where the learning agent has access to videos of experts as its sole learning source. The challenges of this framework include the absence of expert actions and the partial observability of the environment, as the ground-truth states can only be inferred from pixels. To tackle this problem, we first conduct a theoretical analysis of imitation learning in partially observable environments. We establish upper bounds on the suboptimality of the learning agent with respect to the divergence between the expert and the agent latent state-transition distributions. Motivated by this analysis, we introduce an algorithm called Latent Adversarial Imitation from Observations, which combines off-policy adversarial imitation techniques with a learned latent representation of the agent's state from sequences of observations. In experiments on high-dimensional continuous robotic tasks, we show that our algorithm matches state-of-the-art performance while providing significant computational advantages. Additionally, we show how our method can be used to improve the efficiency of reinforcement learning from pixels by leveraging expert videos. To ensure reproducibility, we provide free access to our code.
翻訳日:2023-10-02 12:42:50 公開日:2023-09-29
# 限定領域モデリングのためのグラフに基づくニューラル気象予測

Graph-based Neural Weather Prediction for Limited Area Modeling ( http://arxiv.org/abs/2309.17370v1 )

ライセンス: Link先を確認
Joel Oskarsson, Tomas Landelius, Fredrik Lindsten(参考訳) 気象予報のための正確な機械学習手法の台頭は、大気をモデリングするための根本的に新しい可能性を生み出している。 気候変動の時代には、このようなモデルによる高解像度予測へのアクセスもますます重要になっている。 既存のニューラル気象予測(NeurWP)手法は、大域的予測に重点を置いているが、これらの手法が限られた領域モデリングにどのように適用できるかが重要な疑問である。 本研究では,グラフベースのNeurWPアプローチを限定領域設定に適用し,マルチスケール階層モデル拡張を提案する。 本手法は北欧地域の局所モデルを用いた実験により検証された。

The rise of accurate machine learning methods for weather forecasting is creating radical new possibilities for modeling the atmosphere. In the time of climate change, having access to high-resolution forecasts from models like these is also becoming increasingly vital. While most existing Neural Weather Prediction (NeurWP) methods focus on global forecasting, an important question is how these techniques can be applied to limited area modeling. In this work we adapt the graph-based NeurWP approach to the limited area setting and propose a multi-scale hierarchical model extension. Our approach is validated by experiments with a local model for the Nordic region.
翻訳日:2023-10-02 12:42:32 公開日:2023-09-29
# 量子エラー軽減のための機械学習

Machine Learning for Practical Quantum Error Mitigation ( http://arxiv.org/abs/2309.17368v1 )

ライセンス: Link先を確認
Haoran Liao, Derek S. Wang, Iskandar Sitdikov, Ciro Salcedo, Alireza Seif, Zlatko K. Minev(参考訳) 量子コンピュータは、古典的なスーパーコンピュータを超えるために積極的に競争している。 短期的なデバイスでこれらを克服する鍵は、量子エラー軽減の分野を通じて出現し、追加のランタイムのコストで精度が向上する。 しかし実際には、緩和の成功は一般に指数関数的なオーバーヘッドによって制限される。 古典的機械学習は、今日の量子コンピュータでこの課題に対処できるだろうか? ここでは,100キュービットまでの量子コンピュータのシミュレーションと実験を通じて,量子エラー軽減のための機械学習が,従来の手法の精度を劇的に低減し,維持あるいは超過し,量子アルゴリズムのノイズのない結果に近づいたことを実証する。 我々は、線形回帰、ランダムフォレスト、多層パーセプトロン、グラフニューラルネットワークといったさまざまな機械学習モデルを、様々な量子回路のクラス、ますます複雑なデバイスノイズプロファイル、補間と外挿、小規模で大規模な量子回路に対してベンチマークする。 これらの試験は、デジタルゼロノイズ外挿法を付加参照として採用している。 さらに、従来の緩和結果の結果を模倣して、ML-QEMを古典的に難解な量子回路にスケールする方法を示す。 本研究は,量子計算における古典的機械学習の可能性に注目した。

Quantum computers are actively competing to surpass classical supercomputers, but quantum errors remain their chief obstacle. The key to overcoming these on near-term devices has emerged through the field of quantum error mitigation, enabling improved accuracy at the cost of additional runtime. In practice, however, the success of mitigation is limited by a generally exponential overhead. Can classical machine learning address this challenge on today's quantum computers? Here, through both simulations and experiments on state-of-the-art quantum computers using up to 100 qubits, we demonstrate that machine learning for quantum error mitigation (ML-QEM) can drastically reduce overheads, maintain or even surpass the accuracy of conventional methods, and yield near noise-free results for quantum algorithms. We benchmark a variety of machine learning models -- linear regression, random forests, multi-layer perceptrons, and graph neural networks -- on diverse classes of quantum circuits, over increasingly complex device-noise profiles, under interpolation and extrapolation, and for small and large quantum circuits. These tests employ the popular digital zero-noise extrapolation method as an added reference. We further show how to scale ML-QEM to classically intractable quantum circuits by mimicking the results of traditional mitigation results, while significantly reducing overhead. Our results highlight the potential of classical machine learning for practical quantum computation.
翻訳日:2023-10-02 12:42:15 公開日:2023-09-29
# ソフトコア相互作用を持つ反発性フェルミガス中のペアリング接着剤の創出

Emergence of pairing glue in repulsive Fermi gases with soft-core interactions ( http://arxiv.org/abs/2309.17362v1 )

ライセンス: Link先を確認
Ahmet Keles, Xiaopeng Li, Erhai Zhao(参考訳) 最近の量子ガス実験は、微調整された2体相互作用の時代を先導している。 例えば、長距離双極子-双極子相互作用を持つ原子や、高励起電子状態への光カップリングによって生成されるライドバーグ装填原子などである。 これらの系はコールド原子の ‘canonical system' と異なり、接触相互作用は単一のパラメータである散乱長によって特徴づけられる。 制御可能な原子間相互作用を持つこれらの実験に触発されて、我々は2次元のスピンレスフェルミ気体のモデル多体系を考え、そこでは素の2体相互作用がソフトコアディスクポテンシャルの形をとる。 例えば、$f$-および$h$-waveチャネルでは、$p$-waveチャネルではなく、$f$-および$h$-waveチャネルで、高い部分波パーリングを持つ非自明な超流動状態へとシステムを動かすことができることを示す。 ゼロ温度位相図は数値関数的再正規化群 (FRG) によって得られ、これは先行次摂動理論を超え、全てのチャネルにおける相互作用頂点を保持する。 また、希薄な極限で正当化される摂動解析を行い、2階のコーン・ラッティンガー図形が様々な超流動相のオンセットの定性的な理解を提供することを示す。 しかし、摂動論はFRGによって予測される定量的位相境界を捉えることに失敗する。 その結果, 原子間相互作用の形状は, 反発性フェルミガス中でのペアリング接着剤の生成において重要であり, 相互作用ポテンシャルの調整は, 低温原子ガス中でのエキゾチックな多体相を実現するための有望な経路であることがわかった。

Recent quantum gas experiments are ushering in an era of fine-tailored two-body interactions. These include for example atoms with long-range dipole-dipole interactions and Rydberg-dressed atoms created by optical coupling to highly excited electronic states. These systems differ from the ``canonical system" of cold atoms with contact interactions characterized by a single parameter, the scattering length. Inspired by these experiments with controllable atomic interactions, here we consider a model many-body system of spinless Fermi gas in two dimensions, where the bare two-body interaction takes the form of a soft-core disk potential. We show that the repulsive interaction can drive the system to a series of nontrivial superfluid states with higher partial wave paring, for example in the $f$- and $h$-wave channels instead of the $p$-wave channel. The zero temperature phase diagram is obtained by numerical functional renormalization group (FRG), which goes beyond leading order perturbation theory and retains the interaction vertices in all channels. We also carry out a perturbative analysis which is justified in the dilute limit and show that the second order Kohn-Luttinger diagrams provide a qualitative understanding of the onsets of the various superfluid phases. The perturbative arguments however fail to capture the quantitative phase boundaries predicted by FRG. Our findings illustrate that the shape of the bare atomic interaction matters in producing the pairing glue in repulsive Fermi gases, and tuning the interaction potential offers a promising route to realize exotic many-body phases in cold atomic gases.
翻訳日:2023-10-02 12:41:37 公開日:2023-09-29
# 学習可能なコードブックとマッピングによるネットワークメモリフットプリント圧縮

Network Memory Footprint Compression Through Jointly Learnable Codebooks and Mappings ( http://arxiv.org/abs/2309.17361v1 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny, Kevin Bailly(参考訳) コンピュータビジョンと自然言語処理の両方に対するディープニューラルネットワーク(DNN)に対する大きな関心は、計算能力の増大によって引き起こされている。 しかし、これはメモリフットプリントの増加につながり、携帯電話のようなコモディティデバイスにモデルを簡単にロードすることが困難になった。 この制限に対処するため、量子化は高い精度のテンソルを低い精度でメモリ効率の良いフォーマットにマッピングするので好ましい解である。 メモリフットプリントの削減に関して、最も効果的なバリエーションはコードブックに基づいている。 しかし、これらの方法には2つの制限がある。 まず、テンソルごとに1つのコードブックを定義するか、複数のコードブックへのメモリ拡張マッピングを使用する。 第二に、写像の勾配降下最適化は極値に向かってジャンプし、従って近位探索を定義しない。 本稿では,この2つの制約に対処することを提案する。 まず、最初は同様に分散したニューロンをグループ化し、並べ替えられた構造を利用して異なるグループに異なるスケール要素を適用するか、あるいはこれらのグループに該当する重みをマッピングのオーバーヘッドなく複数のコードブックにマップする。 次に,この初期化を契機に,最近のグラデーション・トレーニング後の量子化手法と類似性を持つコードブックと重み付けマッピングの合同学習を提案する。 第3に,ストレートスルー推定手法によるドローイング推定を行い,コードブックとそのマッピングの近位探索を可能にする新しい勾配更新定義を導入する。 提案した共同学習可能なコードブックとマッピング(JLCM)法は,任意のDNNの極めて効率的な近似を可能にする。

The massive interest in deep neural networks (DNNs) for both computer vision and natural language processing has been sparked by the growth in computational power. However, this led to an increase in the memory footprint, to a point where it can be challenging to simply load a model on commodity devices such as mobile phones. To address this limitation, quantization is a favored solution as it maps high precision tensors to a low precision, memory efficient format. In terms of memory footprint reduction, its most effective variants are based on codebooks. These methods, however, suffer from two limitations. First, they either define a single codebook for each tensor, or use a memory-expensive mapping to multiple codebooks. Second, gradient descent optimization of the mapping favors jumps toward extreme values, hence not defining a proximal search. In this work, we propose to address these two limitations. First, we initially group similarly distributed neurons and leverage the re-ordered structure to either apply different scale factors to the different groups, or map weights that fall in these groups to several codebooks, without any mapping overhead. Second, stemming from this initialization, we propose a joint learning of the codebook and weight mappings that bears similarities with recent gradient-based post-training quantization techniques. Third, drawing estimation from straight-through estimation techniques, we introduce a novel gradient update definition to enable a proximal search of the codebooks and their mappings. The proposed jointly learnable codebooks and mappings (JLCM) method allows a very efficient approximation of any DNN: as such, a Llama 7B can be compressed down to 2Go and loaded on 5-year-old smartphones.
翻訳日:2023-10-02 12:41:08 公開日:2023-09-29
# 楕円トラップされたポラリトン凝縮体におけるクビットゲート操作

Qubit Gate Operations in Elliptically Trapped Polariton Condensates ( http://arxiv.org/abs/2309.17360v1 )

ライセンス: Link先を確認
Luciano S. Ricco, Ivan A. Shelykh and Alexey Kavokin(参考訳) 我々は,エキシトン・ポーラリトンのボソニック凝縮を楕円トラップに光学的に閉じ込めた。 トラップの2つの主軸に沿って向き付けられた縮合体の2つの非退化 \textit{p} 型の状態の重ね合わせは、ブロッホ球上の点で表され、光学的に調整可能な量子ビットと見なされる。 本稿では,補助レーザ光によるブロッホベクトルの制御可能なシフトを実現するための普遍的単一量子ビットゲートのセットについて述べる。 さらに,CPHASE, \textit{i}SWAP, CNOTゲートなどの2ビット操作を設計できる2つの隣接するトラップ間の相互作用機構についても検討する。 単一量子ビットゲートと2量子ビットゲートの両方は、純粋なデファスメントや自発的緩和機構のようなポラリトントラップの文脈におけるエラー源の存在で分析され、最終的な量子ビット状態と量子共起の忠実さの低下とフォン・ノイマンのエントロピーの増加に繋がる。 また、Divincenzoによる局所量子コンピューティングプロセスの実現基準の文脈における量子ビット提案の適用性についても論じる。 同様に、開発された量子演算のセットは、光学的に誘導された楕円トラップのセットで平面的微小キャビティ内の様々な量子アルゴリズムを実現するための道を開くだろう。

We consider bosonic condensates of exciton-polaritons optically confined in elliptical traps. A superposition of two non-degenerated \textit{p}-type states of the condensate oriented along the two main axes of the trap is represented by a point on a Bloch sphere, being considered as an optically tunable qubit. We describe a set of universal single-qubit gates resulting in a controllable shift of the Bloch vector by means of an auxiliary laser beam. Moreover, we consider interaction mechanisms between two neighboring traps that enable designing two-qubit operations such as CPHASE, \textit{i}SWAP, and CNOT gates. Both the single- and two-qubit gates are analyzed in the presence of error sources in the context of polariton traps, such as pure dephasing and spontaneous relaxation mechanisms, leading to a fidelity reduction of the final qubit states and quantum concurrence, as well as the increase of Von Neumann entropy. We also discuss the applicability of our qubit proposal in the context of DiVincenzo's criteria for the realization of local quantum computing processes. Altogether, the developed set of quantum operations would pave the way to the realization of a variety of quantum algorithms in a planar microcavity with a set of optically induced elliptical traps.
翻訳日:2023-10-02 12:40:39 公開日:2023-09-29
# 移動最小化方式によるニューラルネットワークのモジュールワイドトレーニング

Module-wise Training of Neural Networks via the Minimizing Movement Scheme ( http://arxiv.org/abs/2309.17357v1 )

ライセンス: Link先を確認
Skander Karkar and Ibrahim Ayed and Emmanuel de B\'ezenac and Patrick Gallinari(参考訳) 階層的、あるいはモジュール的ニューラルネットワークのトレーニングは、エンドツーエンドのバックプロパゲーションの多くの問題を回避しているため、メモリが制限された制約付きデバイス上での設定において魅力的なものだ。 しかし、初期層が過剰に適合し、より深い層が特定の深さの後にテスト精度を高めるのを止めるという、停滞する問題に苦しむ。 分散空間における勾配流の最小化運動スキームに着想を得たモジュールワイズ正規化を導入することでこの問題を解決することを提案する。 本手法をTRGL(Transport Regularized Greedy Learning)と呼び,それを理論的に研究し,規則的かつ漸進的に課題を解決しているグリージーモジュールに繋がることを示す。 実験により,resnet,transformer,vggなどの各種アーキテクチャのモジュール単位でのトレーニングの精度が向上したことを示す。

Greedy layer-wise or module-wise training of neural networks is compelling in constrained and on-device settings where memory is limited, as it circumvents a number of problems of end-to-end back-propagation. However, it suffers from a stagnation problem, whereby early layers overfit and deeper layers stop increasing the test accuracy after a certain depth. We propose to solve this issue by introducing a module-wise regularization inspired by the minimizing movement scheme for gradient flows in distribution space. We call the method TRGL for Transport Regularized Greedy Learning and study it theoretically, proving that it leads to greedy modules that are regular and that progressively solve the task. Experimentally, we show improved accuracy of module-wise training of various architectures such as ResNets, Transformers and VGG, when our regularization is added, superior to that of other module-wise training methods and often to end-to-end training, with as much as 60% less memory usage.
翻訳日:2023-10-02 12:40:16 公開日:2023-09-29
# ニューラルネットワークの潜在表現におけるadversarial machine learning

Adversarial Machine Learning in Latent Representations of Neural Networks ( http://arxiv.org/abs/2309.17401v1 )

ライセンス: Link先を確認
Milin Zhang, Mohammad Abdi and Francesco Restuccia(参考訳) 分散ディープニューラルネットワーク(DNN)は、モバイルデバイスの計算負担を低減し、エッジコンピューティングシナリオにおけるエンドツーエンドの推論レイテンシを低減することが示されている。 分散DNNは研究されているが、我々の知る限り、分散DNNの敵行動に対するレジリエンスは依然として未解決の問題である。 本稿では,分散DNNの対戦行動に対する堅牢性を厳密に分析することにより,既存の研究ギャップを埋める。 情報理論の文脈でこの問題を提起し、歪みと頑健性に関する2つの新しい測定基準を導入する。 理論的には (i)同じレベルの情報歪みを仮定すると、潜時特徴は入力表現よりも常に堅牢である。 (II) DNNの特徴次元と一般化能力により, 対向ロバスト性は共同で決定される。 理論的知見を検証するために,6つの異なるDNNアーキテクチャ,分散DNNに対する6つの異なるアプローチ,ImageNet-1Kデータセットに対する10の異なる敵攻撃について検討した。 実験の結果, 圧縮潜在表現は, 入力空間に対する攻撃と比較して, 最大88%, 平均57%, 敵攻撃の成功率を低下させることを示した。

Distributed deep neural networks (DNNs) have been shown to reduce the computational burden of mobile devices and decrease the end-to-end inference latency in edge computing scenarios. While distributed DNNs have been studied, to the best of our knowledge the resilience of distributed DNNs to adversarial action still remains an open problem. In this paper, we fill the existing research gap by rigorously analyzing the robustness of distributed DNNs against adversarial action. We cast this problem in the context of information theory and introduce two new measurements for distortion and robustness. Our theoretical findings indicate that (i) assuming the same level of information distortion, latent features are always more robust than input representations; (ii) the adversarial robustness is jointly determined by the feature dimension and the generalization capability of the DNN. To test our theoretical findings, we perform extensive experimental analysis by considering 6 different DNN architectures, 6 different approaches for distributed DNN and 10 different adversarial attacks to the ImageNet-1K dataset. Our experimental results support our theoretical findings by showing that the compressed latent representations can reduce the success rate of adversarial attacks by 88% in the best case and by 57% on the average compared to attacks to the input space.
翻訳日:2023-10-02 12:34:19 公開日:2023-09-29
# 微分逆流の直接微調整拡散モデル

Directly Fine-Tuning Diffusion Models on Differentiable Rewards ( http://arxiv.org/abs/2309.17400v1 )

ライセンス: Link先を確認
Kevin Clark, Paul Vicol, Kevin Swersky, David J Fleet(参考訳) 本稿では,人間の嗜好モデルからのスコアなど,微分可能な報酬関数を最大化するための,簡易かつ効果的な拡散モデル手法であるdirect reward fine-tuning (draft)を提案する。 まず,完全なサンプリング手順を通じて報酬関数の勾配をバックプロパゲートすることが可能であり,その結果,強化学習に基づくアプローチを上回って,様々な報酬において強力な性能が得られることを示す。 次に DRaFT のより効率的な変種を提案する: DRaFT-K と DRaFT-LV は K=1 の場合の低分散勾配推定値を得る。 提案手法は,様々な報酬関数に対して有効であり,安定拡散1.4で生成した画像の美的品質を大幅に向上させることができる。 最後に,我々のアプローチと先行作業との関係を描き,グラデーションに基づく微調整アルゴリズムの設計空間に関する統一的な視点を提供する。

We present Direct Reward Fine-Tuning (DRaFT), a simple and effective method for fine-tuning diffusion models to maximize differentiable reward functions, such as scores from human preference models. We first show that it is possible to backpropagate the reward function gradient through the full sampling procedure, and that doing so achieves strong performance on a variety of rewards, outperforming reinforcement learning-based approaches. We then propose more efficient variants of DRaFT: DRaFT-K, which truncates backpropagation to only the last K steps of sampling, and DRaFT-LV, which obtains lower-variance gradient estimates for the case when K=1. We show that our methods work well for a variety of reward functions and can be used to substantially improve the aesthetic quality of images generated by Stable Diffusion 1.4. Finally, we draw connections between our approach and prior work, providing a unifying perspective on the design space of gradient-based fine-tuning algorithms.
翻訳日:2023-10-02 12:33:58 公開日:2023-09-29
# IFAST:シングルショットの両眼NIR画像から顔の偽造を監視

IFAST: Weakly Supervised Interpretable Face Anti-spoofing from Single-shot Binocular NIR Images ( http://arxiv.org/abs/2309.17399v1 )

ライセンス: Link先を確認
Jiancheng Huang, Donghao Zhou, Shifeng Chen(参考訳) 顔認識システムを保護するためには,シングルショットフェイスアンチスプーフィング(fas)が重要な技術であり,入力として静止画像のみを必要とする。 しかし、単一ショットのfasは2つの主な理由から、難解で未解決な問題である。 データ側では、RGB画像からFASを学習することは、主にコンテキスト依存であり、追加アノテーションのない単発画像は、限られた意味情報を含んでいる。 2) モデル側では,既存の単発FASモデルは決定の適切な証拠を与えることができないため,深度推定に基づくFAS手法には高額なピクセル単位のアノテーションが必要である。 これらの問題に対処するために、30万以上の実顔および平面攻撃画像を含む大規模な双眼NIR画像データセット(BNI-FAS)を構築し、公開し、解釈可能な予測を生成するために弱監督のみを必要とする解釈可能なFAS変換器(IFAST)を提案する。 我々のIFASTはDMA(Dynamic Matching Attention)ブロックを用いた不均一度推定変換器によって画素単位の不均一度マップを生成することができる。 また, 提案したデュアルティーチンガー蒸留モジュールと連携して最終識別結果を得るために, 適切に設計された信頼マップ生成器が採用された。 両眼NIR画像を用いた単発FASの有効性を実証し,BNI-FASにおけるIFASTの有効性を実証した。

Single-shot face anti-spoofing (FAS) is a key technique for securing face recognition systems, and it requires only static images as input. However, single-shot FAS remains a challenging and under-explored problem due to two main reasons: 1) on the data side, learning FAS from RGB images is largely context-dependent, and single-shot images without additional annotations contain limited semantic information. 2) on the model side, existing single-shot FAS models are infeasible to provide proper evidence for their decisions, and FAS methods based on depth estimation require expensive per-pixel annotations. To address these issues, a large binocular NIR image dataset (BNI-FAS) is constructed and published, which contains more than 300,000 real face and plane attack images, and an Interpretable FAS Transformer (IFAST) is proposed that requires only weak supervision to produce interpretable predictions. Our IFAST can produce pixel-wise disparity maps by the proposed disparity estimation Transformer with Dynamic Matching Attention (DMA) block. Besides, a well-designed confidence map generator is adopted to cooperate with the proposed dual-teacher distillation module to obtain the final discriminant results. The comprehensive experiments show that our IFAST can achieve state-of-the-art results on BNI-FAS, proving the effectiveness of the single-shot FAS based on binocular NIR images.
翻訳日:2023-10-02 12:33:42 公開日:2023-09-29
# AV-CPL: 音声認識のための連続擬似ラベル

AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition ( http://arxiv.org/abs/2309.17395v1 )

ライセンス: Link先を確認
Andrew Rouditchenko, Ronan Collobert, Tatiana Likhomanenko(参考訳) 音声視覚音声は、自動音声認識(ASR)と視覚音声認識(VSR)の両方の表現を学習するための、モーダル間監視を提供する同期オーディオと視覚情報を含んでいる。 本稿では,音声視覚音声認識(av-cpl, audio-visual speech recognition,avsr)モデルをラベル付きビデオとラベルなしビデオの組み合わせで訓練する半教師付き手法であるav-cplについて紹介する。 我々のモデルは、音声・視覚入力から音声認識を訓練し、音声と視覚の両方を用いて音声認識を行うことができる。 提案手法は教師付きトレーニングと擬似ラベル生成の両方に同じ音声視覚モデルを使用し,擬似ラベル生成のための外部音声認識モデルの必要性を緩和する。 AV-CPLは、実用的なASRおよびAVSR性能を維持しながら、LSS3データセット上でのVSR性能を大幅に改善する。 最後に、視覚のみの音声データを用いて、ラベルなしの視覚音声を利用してVSRを改善する。

Audio-visual speech contains synchronized audio and visual information that provides cross-modal supervision to learn representations for both automatic speech recognition (ASR) and visual speech recognition (VSR). We introduce continuous pseudo-labeling for audio-visual speech recognition (AV-CPL), a semi-supervised method to train an audio-visual speech recognition (AVSR) model on a combination of labeled and unlabeled videos with continuously regenerated pseudo-labels. Our models are trained for speech recognition from audio-visual inputs and can perform speech recognition using both audio and visual modalities, or only one modality. Our method uses the same audio-visual model for both supervised training and pseudo-label generation, mitigating the need for external speech recognition models to generate pseudo-labels. AV-CPL obtains significant improvements in VSR performance on the LRS3 dataset while maintaining practical ASR and AVSR performance. Finally, using visual-only speech data, our method is able to leverage unlabeled visual speech to improve VSR.
翻訳日:2023-10-02 12:33:15 公開日:2023-09-29
# スピン-2ボース-アインシュタイン凝縮体における連続および離散点群対称性の欠陥とテクスチャによって交差する位相的界面

Topological interfaces crossed by defects and textures of continuous and discrete point group symmetries in spin-2 Bose-Einstein condensates ( http://arxiv.org/abs/2309.17394v1 )

ライセンス: Link先を確認
Giuseppe Baio, Matthew T. Wheeler, David S. Hall, Janne Ruostekoski, Magnus O. Borgh(参考訳) スピン-2ボース・アインシュタイン凝縮体における位相的に異なる磁性相間の界面を連続的に貫通する欠陥やテクスチャを表すスピノル波動関数の集合を体系的かつ解析的に構成する。 これには、二軸および一軸のネマティック相、環状相および強磁性相の間の界面を接続する質量またはスピン循環を持つ特異渦および非特異渦、および界面上の単極として終端する渦 ("boojums") が含まれる。 非アベリア渦を特徴とする離散ポリトープ対称性を示す二軸ネマティック相と環状相を考察し、トポロジカル界面の文脈における一対の非可換線欠陥について検討する。 数値シミュレーションにより, 複合欠陥の形成を含む非自明な欠陥コア構造の出現を特徴付ける。 この結果から,Spose-2 Bose-Einsteinは界面物理を探索するための実験可能なプラットフォームとして,連続的および離散的対称性の豊富な組み合わせを提供する可能性が示された。

We systematically and analytically construct a set of spinor wave functions representing defects and textures that continuously penetrate interfaces between coexisting, topologically distinct magnetic phases in a spin-2 Bose-Einstein condensate. These include singular and nonsingular vortices carrying mass or spin circulation that connect across interfaces between biaxial- and uniaxial nematic, cyclic and ferromagnetic phases, as well as vortices terminating as monopoles on the interface ("boojums"). The biaxial-nematic and cyclic phases exhibit discrete polytope symmetries featuring non-Abelian vortices and we investigate a pair of non-commuting line defects within the context of a topological interface. By numerical simulations, we characterize the emergence of non-trivial defect core structures, including the formation of composite defects. Our results demonstrate the potential of spin-2 Bose-Einstein condensates as experimentally accessible platforms for exploring interface physics, offering a wealth of combinations of continuous and discrete symmetries.
翻訳日:2023-10-02 12:32:56 公開日:2023-09-29
# 量子生物学のための特異値分解量子アルゴリズム

Singular value decomposition quantum algorithm for quantum biology ( http://arxiv.org/abs/2309.17391v1 )

ライセンス: Link先を確認
Emily K. Oh, Timothy J. Krogmeier, Anthony W. Schlimgen, Kade Head-Marsden(参考訳) 近年、現在の量子コンピュータを用いた非単位量子力学のモデリングと予測に対する量子アルゴリズムへの関心が高まっている。 量子生物学の分野は、これらのアルゴリズムが有用であることを証明できる領域の一つであり、生物系は一般に完全な形で扱うことは困難であるが、オープンな量子系アプローチに適応できる。 本稿では,最近開発されたsingular value decompositionアルゴリズムを量子生物学における2つのよく研究されたベンチマークシステム,fenna-matthews-olson複合体を経由する励起エネルギー輸送と鳥の航行におけるラジカルペア機構に適用する。 この特異値分解アルゴリズムは,量子シミュレータの実装により,これらのシステムの短時間・長時間の正確なダイナミクスを捉えることが可能であることを実証し,このアルゴリズムが今後の量子生物学に関するシステム研究の有効なツールとなる可能性を示唆する。

There has been a recent interest in quantum algorithms for the modelling and prediction of non-unitary quantum dynamics using current quantum computers. The field of quantum biology is one area where these algorithms could prove to be useful, as biological systems are generally intractable to treat in their complete form, but amenable to an open quantum systems approach. Here we present the application of a recently developed singular value decomposition algorithm to two well-studied benchmark systems in quantum biology: excitonic energy transport through the Fenna-Matthews-Olson complex and the radical pair mechanism for avian navigation. We demonstrate that the singular value decomposition algorithm is capable of capturing accurate short- and long-time dynamics for these systems through implementation on a quantum simulator, and conclude that this algorithm has the potential to be an effective tool for the future study of systems relevant to quantum biology.
翻訳日:2023-10-02 12:32:34 公開日:2023-09-29
# ダイナミックシーンの新しい視点合成のための前方流れ

Forward Flow for Novel View Synthesis of Dynamic Scenes ( http://arxiv.org/abs/2309.17390v1 )

ライセンス: Link先を確認
Xiang Guo, Jiadai Sun, Yuchao Dai, Guanying Chen, Xiaoqing Ye, Xiao Tan, Errui Ding, Yumeng Zhang, Jingdong Wang(参考訳) 本稿では,フォワードワーピングを用いた動的シーンの新しい視点合成のためのニューラル・ラミアンス・フィールド(nerf)アプローチを提案する。 既存の手法では、静的なNeRFを用いて標準空間を表現し、サンプル化された3Dポイントを学習した後方の流れ場と共に標準空間にマッピングすることで、他の時間ステップでダイナミックな画像をレンダリングする。 しかし、この逆流場は非スムースで不連続であり、一般的に使用される滑らかな運動モデルでは取り付けが困難である。 この問題に対処するために, 前方流れ場を推定し, 正準放射場を他の時間ステップに密着させる手法を提案する。 このような前方流れ場は対象領域内で滑らかで連続的であり、運動モデル学習の恩恵を受ける。 この目的を達成するために、ボクセル格子を用いた正準放射場を表現し、平均スプレイティング操作やインペントネットワークを含む微分可能なワーププロセスを提案し、多対一および一対多のマッピング問題を解決する。 徹底的な実験により,提案手法は,新しい映像レンダリングと動きモデリングの両方において,既存の手法よりも優れており,前方流れモデルの有効性が示された。 プロジェクトページ: https://npucvr.github.io/ForwardFlowDNeRF

This paper proposes a neural radiance field (NeRF) approach for novel view synthesis of dynamic scenes using forward warping. Existing methods often adopt a static NeRF to represent the canonical space, and render dynamic images at other time steps by mapping the sampled 3D points back to the canonical space with the learned backward flow field. However, this backward flow field is non-smooth and discontinuous, which is difficult to be fitted by commonly used smooth motion models. To address this problem, we propose to estimate the forward flow field and directly warp the canonical radiance field to other time steps. Such forward flow field is smooth and continuous within the object region, which benefits the motion model learning. To achieve this goal, we represent the canonical radiance field with voxel grids to enable efficient forward warping, and propose a differentiable warping process, including an average splatting operation and an inpaint network, to resolve the many-to-one and one-to-many mapping issues. Thorough experiments show that our method outperforms existing methods in both novel view rendering and motion modeling, demonstrating the effectiveness of our forward flow motion modeling. Project page: https://npucvr.github.io/ForwardFlowDNeRF
翻訳日:2023-10-02 12:32:18 公開日:2023-09-29
# プロンプトベースのテスト時間実画像デハジング:新しいパイプライン

Prompt-based test-time real image dehazing: a novel pipeline ( http://arxiv.org/abs/2309.17389v1 )

ライセンス: Link先を確認
Zixuan Chen, Zewei He, Ziqian Lu, Zhe-Ming Lu(参考訳) 既存の手法は、よく設計されたトレーニングスキーム(例えば、サイクルGAN、事前損失)を探索することで、現実のハジー画像におけるモデルの一般化能力を向上しようとする。 しかし、そのほとんどは満足な結果を得るために非常に複雑な訓練手順が必要である。 そこで本研究では,提案手法を用いたプロンプトベーステストタイムデハジング(pttd)と呼ばれる全く新しいテストパイプラインを提案する。 PTTDは、合成データに基づいて訓練された復調モデルを用いて、符号化機能の統計(平均偏差と標準偏差)を微調整することにより、領域ギャップを狭め、実画像の復調性能を高めることができることを実験的に見出した。 そこで我々はまず,平均および標準偏差に対する適切な統計的摂動の源である視覚的プロンプトを生成するために,プロンプト生成モジュール(PGM)を適用した。 そして,既存のデハージングモデルに特徴適応モジュール(FAM)を用いて,生成したプロンプトのガイダンスを用いて,元の統計量を調整する。 なお、PTTDはモデル非依存であり、合成ヘイズクリーンペアで訓練された様々な最先端の脱ハージングモデルを備えることができる。 PTTDは現実のシナリオにおける最先端の脱ハージング手法に対して優れた性能を達成可能であることを示す。

Existing methods attempt to improve models' generalization ability on real-world hazy images by exploring well-designed training schemes (e.g., cycleGAN, prior loss). However, most of them need very complicated training procedures to achieve satisfactory results. In this work, we present a totally novel testing pipeline called Prompt-based Test-Time Dehazing (PTTD) to help generate visually pleasing results of real-captured hazy images during the inference phase. We experimentally find that given a dehazing model trained on synthetic data, by fine-tuning the statistics (i.e., mean and standard deviation) of encoding features, PTTD is able to narrow the domain gap, boosting the performance of real image dehazing. Accordingly, we first apply a prompt generation module (PGM) to generate a visual prompt, which is the source of appropriate statistical perturbations for mean and standard deviation. And then, we employ the feature adaptation module (FAM) into the existing dehazing models for adjusting the original statistics with the guidance of the generated prompt. Note that, PTTD is model-agnostic and can be equipped with various state-of-the-art dehazing models trained on synthetic hazy-clean pairs. Extensive experimental results demonstrate that our PTTD is flexible meanwhile achieves superior performance against state-of-the-art dehazing methods in real-world scenarios.
翻訳日:2023-10-02 12:31:54 公開日:2023-09-29
# ツリークロスの注意

Tree Cross Attention ( http://arxiv.org/abs/2309.17388v1 )

ライセンス: Link先を確認
Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Yoshua Bengio, Mohamed Osama Ahmed(参考訳) クロス注意(Cross Attention)は、予測を行うためのコンテキストトークンの集合から情報を取得する一般的な方法である。 予測時間毎に、Cross Attentionは$\mathcal{O}(N)$トークンの完全なセットをスキャンする。 しかし実際には、良いパフォーマンスのためにはトークンの小さなサブセットしか必要とされないことが多い。 Perceiver IO のような手法は、より小さな潜在トークンの集合に情報を蒸留し、その上にクロスアテンションを適用し、その結果、$\mathcal{O}(L)$複雑さが生じるため、推論時に安価である。 しかし、実際には、入力トークンの数や蒸留する情報量が増加するにつれて、必要となる潜在トークンの数も大幅に増加する。 本研究では,対数的$\mathcal{o}(\log(n))$のトークンからのみ情報を取得するクロスアテンションに基づくツリークロスアテンション(tca)モジュールを提案する。 TCAは、データをツリー構造に整理し、推論時にツリー検索を行い、関連するトークンを検索して予測する。 TCAを活用して、トークン効率のよい推論のための柔軟なアーキテクチャであるReTreeverを紹介します。 木間交差注意(TCA)は様々な分類・不確実性回帰タスクにおいてクロス注意に匹敵する性能を示し,トークン効率は著しく向上した。 さらに、ReTreeverとPerceiver IOを比較し、推論に同じ数のトークンを使用しながら大きな利得を示した。

Cross Attention is a popular method for retrieving information from a set of context tokens for making predictions. At inference time, for each prediction, Cross Attention scans the full set of $\mathcal{O}(N)$ tokens. In practice, however, often only a small subset of tokens are required for good performance. Methods such as Perceiver IO are cheap at inference as they distill the information to a smaller-sized set of latent tokens $L < N$ on which cross attention is then applied, resulting in only $\mathcal{O}(L)$ complexity. However, in practice, as the number of input tokens and the amount of information to distill increases, the number of latent tokens needed also increases significantly. In this work, we propose Tree Cross Attention (TCA) - a module based on Cross Attention that only retrieves information from a logarithmic $\mathcal{O}(\log(N))$ number of tokens for performing inference. TCA organizes the data in a tree structure and performs a tree search at inference time to retrieve the relevant tokens for prediction. Leveraging TCA, we introduce ReTreever, a flexible architecture for token-efficient inference. We show empirically that Tree Cross Attention (TCA) performs comparable to Cross Attention across various classification and uncertainty regression tasks while being significantly more token-efficient. Furthermore, we compare ReTreever against Perceiver IO, showing significant gains while using the same number of tokens for inference.
翻訳日:2023-10-02 12:31:30 公開日:2023-09-29
# 3次テンソルのマルチスライスクラスタリングの並列計算

Parallel Computation of Multi-Slice Clustering of Third-Order Tensors ( http://arxiv.org/abs/2309.17383v1 )

ライセンス: Link先を確認
Dina Faneva Andriantsiory, Camille Coti, Joseph Ben Geloun, Mustapha Lebbah(参考訳) クラスタリング手法のような機械学習アプローチは、増大する課題を示す巨大なデータセットを扱う。 3次テンソルに対するマルチスライスクラスタリング(MSC)の並列アルゴリズムを考案した。 msc法はテンソルスライスのスペクトル解析に基づいており、それぞれのテンソルモードで独立に動作する。 このような機能は、分散メモリシステムを介して並列パラダイムに適合する。 並列方式は逐次計算より優れており,MSC法のスケーラビリティが向上していることを示す。

Machine Learning approaches like clustering methods deal with massive datasets that present an increasing challenge. We devise parallel algorithms to compute the Multi-Slice Clustering (MSC) for 3rd-order tensors. The MSC method is based on spectral analysis of the tensor slices and works independently on each tensor mode. Such features fit well in the parallel paradigm via a distributed memory system. We show that our parallel scheme outperforms sequential computing and allows for the scalability of the MSC method.
翻訳日:2023-10-02 12:31:06 公開日:2023-09-29
# FACTS: 最初に相関を増幅し、次にバイアスを発見

FACTS: First Amplify Correlations and Then Slice to Discover Bias ( http://arxiv.org/abs/2309.17430v1 )

ライセンス: Link先を確認
Sriram Yenamandra, Pratik Ramesh, Viraj Prabhu, Judy Hoffman(参考訳) コンピュータビジョンデータセットは、しばしばタスク関連ラベルと(学習しやすい)潜在タスク関連属性(コンテキストなど)の間に急激な相関関係を含む。 このようなデータセットでトレーニングされたモデルは、"ショートカット"を学び、相関が保たないデータのバイアス分散スライスを過小評価する。 本研究では,このようなスライスを識別して下流のバイアス軽減戦略に知らせる問題について検討する。 そこで我々は,まず相関を増幅し,強正則化された経験的リスク最小化を通した単純なバイアス整合仮説に適合する相関を増幅する。 次に,バイアスアライメント特徴空間における混合モデリングによる相関認識スライシングを行い,異なる相関関係を捉えた不適切なデータスライスを検出する。 その単純さにもかかわらず、本手法は、様々な評価設定において相関バイアスの同定において、事前の作業(最大35%の精度@10)よりも大幅に改善する。 私たちのコードは、https://github.com/yvsriram/FACTS.comで利用可能です。

Computer vision datasets frequently contain spurious correlations between task-relevant labels and (easy to learn) latent task-irrelevant attributes (e.g. context). Models trained on such datasets learn "shortcuts" and underperform on bias-conflicting slices of data where the correlation does not hold. In this work, we study the problem of identifying such slices to inform downstream bias mitigation strategies. We propose First Amplify Correlations and Then Slice to Discover Bias (FACTS), wherein we first amplify correlations to fit a simple bias-aligned hypothesis via strongly regularized empirical risk minimization. Next, we perform correlation-aware slicing via mixture modeling in bias-aligned feature space to discover underperforming data slices that capture distinct correlations. Despite its simplicity, our method considerably improves over prior work (by as much as 35% precision@10) in correlation bias identification across a range of diverse evaluation settings. Our code is available at: https://github.com/yvsriram/FACTS.
翻訳日:2023-10-02 12:23:25 公開日:2023-09-29
# CRAFT: 特殊ツールセットの作成と検索によるLCMのカスタマイズ

CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets ( http://arxiv.org/abs/2309.17428v1 )

ライセンス: Link先を確認
Lifan Yuan, Yangyi Chen, Xingyao Wang, Yi R. Fung, Hao Peng, Heng Ji(参考訳) 大規模言語モデル(llm)は、しばしば複雑なタスクを解決するツールで拡張される。 コードスニペットを生成し,タスク固有のアプリケーションプログラミングインターフェース(api)を通じて実行することで,特定の機能をイメージエンコーディングや計算など,専用の外部モジュールにオフロードすることが可能になる。 しかし、ツールでLLMを拡張するための既存のアプローチのほとんどは、汎用APIによって制約されており、特定のタスクに合わせる柔軟性がない。 本稿では,LLMのための汎用ツール作成・検索フレームワークであるCRAFTを紹介する。 タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。 各タスクに対して、GPT-4にトレーニング例の解決を促すことで、特定のコードソリューションを収集する。 正確性を保証する検証ステップに従って、これらのソリューションは再利用性を高めるためにコードスニペットに抽象化され、より高い品質のために重複する。 推論時に、言語モデルはツールセットからスニペットを検索し、実行するか、検索したスニペット上で出力条件を生成する。 本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。 視覚言語、表処理、数学的推論タスクの実験により、我々の手法は強いベースラインに比べて大幅に改善されていることが示された。 さらに我々は,(1)ツールの数とバックボーンモデルの能力のスケールアップによる一貫したパフォーマンス向上,(2)アプローチの各コンポーネントがパフォーマンス向上に寄与すること,(3)作成ツールが十分に構造化されており,複雑さとアトミック性が低いこと,などを明らかにした。 コードは \url{https://github.com/lifan-yuan/craft} で入手できる。

Large language models (LLMs) are often augmented with tools to solve complex tasks. By generating code snippets and executing them through task-specific Application Programming Interfaces (APIs), they can offload certain functions to dedicated external modules, such as image encoding and performing calculations. However, most existing approaches to augment LLMs with tools are constrained by general-purpose APIs and lack the flexibility for tailoring them to specific tasks. In this work, we present CRAFT, a general tool creation and retrieval framework for LLMs. It creates toolsets specifically curated for the tasks and equips LLMs with a component that retrieves tools from these sets to enhance their capability to solve complex tasks. For each task, we collect specific code solutions by prompting GPT-4 to solve the training examples. Following a validation step ensuring the correctness, these solutions are abstracted into code snippets to enhance reusability, and deduplicated for higher quality. At inference time, the language model retrieves snippets from the toolsets and then executes them or generates the output conditioning on the retrieved snippets. Our method is designed to be flexible and offers a plug-and-play approach to adapt off-the-shelf LLMs to unseen domains and modalities, without any finetuning. Experiments on vision-language, tabular processing, and mathematical reasoning tasks show that our approach achieves substantial improvements compared to strong baselines. In addition, our in-depth analysis reveals that: (1) consistent performance improvement can be achieved by scaling up the number of tools and the capability of the backbone models; (2) each component of our approach contributes to the performance gains; (3) the created tools are well-structured and reliable with low complexity and atomicity. The code is available at \url{https://github.com/lifan-yuan/CRAFT}.
翻訳日:2023-10-02 12:23:09 公開日:2023-09-29
# 畳み込みニューラルネットワークの事前学習モデルによる表面積に基づくポットホールの分類

Classification of Potholes Based on Surface Area Using Pre-Trained Models of Convolutional Neural Network ( http://arxiv.org/abs/2309.17426v1 )

ライセンス: Link先を確認
Chauhdary Fazeel Ahmad, Abdullah Cheema, Waqas Qayyum, Rana Ehtisham, Muhammad Haroon Yousaf, Junaid Mir, Nasim Shakouri Mahmoudabadi, Afaq Ahmad(参考訳) ポットホールは致命的であり、車両に深刻な損傷を与え、また致命的な事故を引き起こす可能性がある。 南アジア諸国では、舗装の苦難が、低品位状態の悪化、地下排水の不足、過度の降雨による主な原因である。 本研究では,3つの事前学習型畳み込みニューラルネットワーク(CNN)モデル,すなわちResNet 50,ResNet 18,MobileNetの性能を比較した。 まず、舗装画像にポットホール、すなわちポットホールまたはノーマルを含むか否かを分類する。 第2に、舗装画像は、スモールポットホール、大型ポットホール、ノーマルの3つのカテゴリに分類される。 舗装画像は3.5フィート (腰の高さ) と2フィートから撮影される。 mobilenet v2は98%の精度でポットホールを検出する。 2フィートの高さで撮影された画像の分類は87.33%、88.67%、および92%の精度で、それぞれ大きな、小さい、通常の舗装を分類している。 同様に、フル・オブ・ウエスト(FFW)の高さから撮影された画像の分類は、精度は98.67%、98.67%、100%である。

Potholes are fatal and can cause severe damage to vehicles as well as can cause deadly accidents. In South Asian countries, pavement distresses are the primary cause due to poor subgrade conditions, lack of subsurface drainage, and excessive rainfalls. The present research compares the performance of three pre-trained Convolutional Neural Network (CNN) models, i.e., ResNet 50, ResNet 18, and MobileNet. At first, pavement images are classified to find whether images contain potholes, i.e., Potholes or Normal. Secondly, pavements images are classi-fied into three categories, i.e., Small Pothole, Large Pothole, and Normal. Pavement images are taken from 3.5 feet (waist height) and 2 feet. MobileNet v2 has an accuracy of 98% for detecting a pothole. The classification of images taken at the height of 2 feet has an accuracy value of 87.33%, 88.67%, and 92% for classifying the large, small, and normal pavement, respectively. Similarly, the classification of the images taken from full of waist (FFW) height has an accuracy value of 98.67%, 98.67%, and 100%.
翻訳日:2023-10-02 12:22:38 公開日:2023-09-29
# データフィルタリングネットワーク

Data Filtering Networks ( http://arxiv.org/abs/2309.17425v1 )

ライセンス: Link先を確認
Alex Fang, Albin Madappally Jose, Amit Jain, Ludwig Schmidt, Alexander Toshev, Vaishaal Shankar(参考訳) 大規模なトレーニングセットは機械学習の基盤となり、言語モデリングとマルチモーダル学習の最近の進歩の基礎となっている。 事前トレーニングのためのデータキュレーションは、しばしばアドホックであるが、一般的なパラダイムの一つは、まずWebから大量のデータを収集し、この候補プールを様々なヒューリスティックを通して実際のトレーニングセットにフィルタリングすることである。 本研究では,データフィルタリングネットワーク(dfn)を学習する問題を,大規模な未計算データセットをフィルタリングする第2段階として検討する。 例えば、ImageNetでよく機能するモデルでは、少量の高品質なデータに基づいてトレーニングされるImageNetの精度が低いモデルよりも、トレーニングセットが悪くなります。 この知見に基づいて,最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。 具体的には、私たちの最高のパフォーマンスデータセットDFN-5Bは、計算予算に対する最先端モデルのトレーニングを可能にします。さまざまなタスクの改善の中で、データセットでトレーニングされたViT-Hは、ImageNet上で83.0%のゼロショット転送精度を実現します。 データセット設計のさらなる研究を促進するため、新たに20億のサンプルデータセットDFN-2Bをリリースし、公開データのみを使用して、高速なデータフィルタリングネットワークをゼロからトレーニング可能であることを示す。

Large training sets have become a cornerstone of machine learning and are the foundation for recent advances in language modeling and multimodal learning. While data curation for pre-training is often still ad-hoc, one common paradigm is to first collect a massive pool of data from the Web and then filter this candidate pool down to an actual training set via various heuristics. In this work, we study the problem of learning a data filtering network (DFN) for this second step of filtering a large uncurated dataset. Our key finding is that the quality of a network for filtering is distinct from its performance on downstream tasks: for instance, a model that performs well on ImageNet can yield worse training sets than a model with low ImageNet accuracy that is trained on a small amount of high-quality data. Based on our insights, we construct new data filtering networks that induce state-of-the-art image-text datasets. Specifically, our best performing dataset DFN-5B enables us to train state-of-the-art models for their compute budgets: among other improvements on a variety of tasks, a ViT-H trained on our dataset achieves 83.0% zero-shot transfer accuracy on ImageNet, out-performing models trained on other datasets such as LAION-2B, DataComp-1B, or OpenAI's WIT. In order to facilitate further research in dataset design, we also release a new 2 billion example dataset DFN-2B and show that high performance data filtering networks can be trained from scratch using only publicly available data.
翻訳日:2023-10-02 12:22:17 公開日:2023-09-29
# LMMの夜明け: GPT-4V(ision)による予備探査

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) ( http://arxiv.org/abs/2309.17421v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, Lijuan Wang(参考訳) 大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデル(LLM)を拡張する。 本稿では,最新のモデルであるGPT-4V(ision)を分析し,LMMの理解を深める。 この分析は、GPT-4Vが実行可能な興味深いタスクに焦点を当てており、GPT-4Vの能力の質と汎用性、サポートされた入力と動作モード、そしてモデルを刺激する効果的な方法を調べるためのテストサンプルを含んでいる。 GPT-4Vの探索にあたり、様々な領域やタスクにまたがる慎重に設計された定性的サンプルの収集と整理を行う。 これらのサンプルから得られた観測は、GPT-4Vが任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力と、その能力の汎用性によって、GPT-4Vが強力なマルチモーダルジェネリストシステムになることを示している。 さらに、入力画像上に描画された視覚マーカーを理解するGPT-4Vのユニークな能力は、視覚的参照プロンプトのような新しい人間とコンピュータの相互作用方法を引き起こす可能性がある。 本報告は,GPT-4Vベースのシステムにおける今後の応用シナリオと今後の研究方向性について,詳細な議論で締めくくっている。 この予備的な調査によって、次世代マルチモーダルタスクの定式化、LMMを活用・拡張して現実の問題を解決する新しい方法、マルチモーダル基盤モデルの理解を深めることが期待されている。

Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4V's capabilities, its supported inputs and working modes, and the effective ways to prompt the model. In our approach to exploring GPT-4V, we curate and organize a collection of carefully designed qualitative samples spanning a variety of domains and tasks. Observations from these samples demonstrate that GPT-4V's unprecedented ability in processing arbitrarily interleaved multimodal inputs and the genericity of its capabilities together make GPT-4V a powerful multimodal generalist system. Furthermore, GPT-4V's unique capability of understanding visual markers drawn on input images can give rise to new human-computer interaction methods such as visual referring prompting. We conclude the report with in-depth discussions on the emerging application scenarios and the future research directions for GPT-4V-based systems. We hope that this preliminary exploration will inspire future research on the next-generation multimodal task formulation, new ways to exploit and enhance LMMs to solve real-world problems, and gaining better understanding of multimodal foundation models.
翻訳日:2023-10-02 12:21:50 公開日:2023-09-29
# ネットワーク不等式:グラフニューラルネットワークリンク予測における優先アタッチメントバイアス

Networked Inequality: Preferential Attachment Bias in Graph Neural Network Link Prediction ( http://arxiv.org/abs/2309.17417v1 )

ライセンス: Link先を確認
Arjun Subramonian, Levent Sagun, Yizhou Sun(参考訳) graph neural network (gnn)リンク予測は、学術文献、共同研究者、友人を推薦するために、引用、コラボレーション、オンラインソーシャルネットワークにますます展開されている。 先行研究ではgnnリンク予測のdyadic fairnessを調査したが、グループ内フェアネスと ``rich get richer'' のリンク予測のダイナミクスは未検討のままである。 しかし、これらの側面はネットワークの度合いと電力不均衡に重大な影響を及ぼす。 本稿では,ネットワークの度合いバイアスがグラフ畳み込みネットワーク(GCN)のリンク予測に与える影響について述べる。 特に、対称正規化グラフフィルタを持つGCNが群内優先アタッチメントバイアスを有することを理論的に明らかにする。 我々は,実世界の引用,コラボレーション,オンラインソーシャルネットワークに関する理論的分析を検証する。 さらに、リンク予測におけるGCNの優先的アタッチメントバイアスを不公平に橋渡しし、新しいグループ内フェアネス尺度を提案する。 このメトリクスは、社会的グループ間のリンク予測スコアの差を定量化し、程度と力の差の増幅に対処する。 最後に,グループ内不公平を緩和する簡単なトレーニングタイム戦略を提案し,引用,オンラインソーシャル,信用ネットワークにおいて有効であることを示す。

Graph neural network (GNN) link prediction is increasingly deployed in citation, collaboration, and online social networks to recommend academic literature, collaborators, and friends. While prior research has investigated the dyadic fairness of GNN link prediction, the within-group fairness and ``rich get richer'' dynamics of link prediction remain underexplored. However, these aspects have significant consequences for degree and power imbalances in networks. In this paper, we shed light on how degree bias in networks affects Graph Convolutional Network (GCN) link prediction. In particular, we theoretically uncover that GCNs with a symmetric normalized graph filter have a within-group preferential attachment bias. We validate our theoretical analysis on real-world citation, collaboration, and online social networks. We further bridge GCN's preferential attachment bias with unfairness in link prediction and propose a new within-group fairness metric. This metric quantifies disparities in link prediction scores between social groups, towards combating the amplification of degree and power disparities. Finally, we propose a simple training-time strategy to alleviate within-group unfairness, and we show that it is effective on citation, online social, and credit networks.
翻訳日:2023-10-02 12:21:22 公開日:2023-09-29
# 直感的か依存的か? LLMの矛盾問題に対するロバスト性の検討

Intuitive or Dependent? Investigating LLMs' Robustness to Conflicting Prompts ( http://arxiv.org/abs/2309.17415v1 )

ライセンス: Link先を確認
Jiahao Ying, Yixin Cao, Kai Xiong, Yidong He, Long Cui, Yongbin Liu(参考訳) 本稿では,実世界のアプリケーションにおけるノイズやタスク設定によるコントラスト情報を含む内部メモリやプロンプトに対するllmsの選好のロバスト性について検討する。 この目的のために,定量的ベンチマークフレームワークを構築し,llmsの選好を制御するためのロールプレイング介入を行う。 具体的に、我々は、プロンプトや記憶から正しい事実を識別する能力をターゲットにした事実的堅牢性と、認知理論に基づく決定的な「正しい」答えが存在しないと仮定して、一貫した選択を行う際のLCMの振る舞いを分類する決定スタイルという2つのタイプを定義します。 7つのオープンソースおよびクローズドソースllmに関する広範な実験から得られた知見から,これらのモデルは誤解を招くプロンプト,特にコモンセンス知識の指導に強い影響を受けやすいことが明らかとなった。 詳細な指示は誤解を招く回答の選択を緩和するが、無効な回答の発生を増加させる。 選好を解き明かした後、異なるサイズのLLMを特定のスタイルのロール・インストラクションを通して介入し、それぞれの高次のロバスト性および適応性を示す。

This paper explores the robustness of LLMs' preference to their internal memory or the given prompt, which may contain contrasting information in real-world applications due to noise or task settings. To this end, we establish a quantitative benchmarking framework and conduct the role playing intervention to control LLMs' preference. In specific, we define two types of robustness, factual robustness targeting the ability to identify the correct fact from prompts or memory, and decision style to categorize LLMs' behavior in making consistent choices -- assuming there is no definitive "right" answer -- intuitive, dependent, or rational based on cognitive theory. Our findings, derived from extensive experiments on seven open-source and closed-source LLMs, reveal that these models are highly susceptible to misleading prompts, especially for instructing commonsense knowledge. While detailed instructions can mitigate the selection of misleading answers, they also increase the incidence of invalid responses. After Unraveling the preference, we intervene different sized LLMs through specific style of role instruction, showing their varying upper bound of robustness and adaptivity.
翻訳日:2023-10-02 12:21:01 公開日:2023-09-29
# デルタドープシリコン中の超薄電子液体の運動空間イメージング

Momentum-space imaging of ultra-thin electron liquids in delta-doped silicon ( http://arxiv.org/abs/2309.17413v1 )

ライセンス: Link先を確認
Procopios Constantinou, Taylor J. Z. Stock, Eleanor Crane, Alexander K\"olker, Marcel van Loon, Juerong Li, Sarah Fearn, Henric Bornemann, Nicol\`o D'Anna, Andrew J. Fisher, Vladimir N. Strocov, Gabriel Aeppli, Neil J. Curson, Steven R. Schofield(参考訳) 半導体中の2次元ドーパント層(\delta$-layers)は、ナノスケールの量子電子デバイスに必要な高流動電子液体(2DELs)を提供する。 キャリア密度、有効質量、2DELの閉じ込め厚さといった重要なパラメータは、伝統的に量子磁気輸送から抽出されてきた。 原則として、パラメータは角度分解光電子分光(arpes)によって測定できる1電子スペクトル関数からすぐに読み取れる。 ここで、シリコン中の埋設2del$\delta$-layersを軟x線(sx)arpeで測定し、その充填導電帯に関する詳細な情報を取得し、デバイス関連特性を抽出する。 本研究は、真空紫外(VUV) ARPESに対するSX-ARPESのより大きい探査深度と光子エネルギー範囲を利用して、$\delta$-layer電子閉じ込めを正確に測定する。 測定は環境暴露試料で行われ、非常に薄い(1$nm$)と密度の高い(10$10^{14}$$cm^2$)2DELが得られる。 臨界的に、この方法では、ヒ素の$\delta$-layersが同じ条件で作製されたリンの$\delta$-layersよりも電子閉じ込めが優れていることを示すために用いられる。

Two-dimensional dopant layers ($\delta$-layers) in semiconductors provide the high-mobility electron liquids (2DELs) needed for nanoscale quantum-electronic devices. Key parameters such as carrier densities, effective masses, and confinement thicknesses for 2DELs have traditionally been extracted from quantum magnetotransport. In principle, the parameters are immediately readable from the one-electron spectral function that can be measured by angle-resolved photoemission spectroscopy (ARPES). Here, buried 2DEL $\delta$-layers in silicon are measured with soft X-ray (SX) ARPES to obtain detailed information about their filled conduction bands and extract device-relevant properties. This study takes advantage of the larger probing depth and photon energy range of SX-ARPES relative to vacuum ultraviolet (VUV) ARPES to accurately measure the $\delta$-layer electronic confinement. The measurements are made on ambient-exposed samples and yield extremely thin ($\approx 1$ $nm$) and dense ($\approx$ $10^{14}$ $cm^2$) 2DELs. Critically, this method is used to show that $\delta$-layers of arsenic exhibit better electronic confinement than $\delta$-layers of phosphorus fabricated under identical conditions.
翻訳日:2023-10-02 12:20:40 公開日:2023-09-29
# LLMから機密情報を削除できるのか? 抽出攻撃に対する防御の目的

Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Attacks ( http://arxiv.org/abs/2309.17410v1 )

ライセンス: Link先を確認
Vaidehi Patil, Peter Hase, Mohit Bansal(参考訳) 事前訓練された言語モデルには、人を傷つけることのできる、記憶された個人情報や知識を含む、私たちが望まない知識がある。 有害なテキストや有害なテキストも出力できる。 これらの安全・情報問題を軽減するため,我々は,機密情報をモデル重みから直接削除するタスクを研究するための攻撃・防衛枠組みを提案する。 本研究は,(1) 特定の削除された情報が将来的な攻撃によって抽出されないことを保証すべきであり,(2) 機密情報を引き出すために一般に利用可能なモデルウェイトを用いて,安全・プライバシーの主張を行うために必要なホワイトボックス攻撃に対して保護すべきである。 我々の脅威モデルでは、B候補の答えがB候補の集合内にある場合、B候補の答えがB候補の情報が安全でない場合のシナリオに基づいて攻撃が成功すると仮定する。 実験により,ROMEのような最先端のモデル編集手法でさえ,我々のホワイトボックスやブラックボックス攻撃が編集されたモデルの38%から「削除された」情報を復元できるため,GPT-Jのようなモデルから事実情報を真に削除することは困難であることがわかった。 これらの攻撃は、(1) 削除された情報のトレースが中間モデル隠蔽状態にあること、(2) ある質問に対して編集方法を適用すると、その質問のリフレスされたバージョン間で情報を削除できないこと、の2つの重要な観察を利用する。 最後に、いくつかの抽出攻撃から保護する新たな防御方法を提案するが、普遍的に有効な防衛方法を見いだすことはできない。 攻撃成功率が比較的低い場合でも、言語モデルの現実的な展開に深刻な社会的影響をもたらす可能性があるため、センシティブな情報の削除は困難である。

Pretrained language models sometimes possess knowledge that we do not wish them to, including memorized personal information and knowledge that could be used to harm people. They can also output toxic or harmful text. To mitigate these safety and informational issues, we propose an attack-and-defense framework for studying the task of deleting sensitive information directly from model weights. We study direct edits to model weights because (1) this approach should guarantee that particular deleted information is never extracted by future prompt attacks, and (2) it should protect against whitebox attacks, which is necessary for making claims about safety/privacy in a setting where publicly available model weights could be used to elicit sensitive information. Our threat model assumes that an attack succeeds if the answer to a sensitive question is located among a set of B generated candidates, based on scenarios where the information would be insecure if the answer is among B candidates. Experimentally, we show that even state-of-the-art model editing methods such as ROME struggle to truly delete factual information from models like GPT-J, as our whitebox and blackbox attacks can recover "deleted" information from an edited model 38% of the time. These attacks leverage two key observations: (1) that traces of deleted information can be found in intermediate model hidden states, and (2) that applying an editing method for one question may not delete information across rephrased versions of the question. Finally, we provide new defense methods that protect against some extraction attacks, but we do not find a single universally effective defense method. Our results suggest that truly deleting sensitive information is a tractable but difficult problem, since even relatively low attack success rates have potentially severe societal implications for real-world deployment of language models.
翻訳日:2023-10-02 12:20:14 公開日:2023-09-29
# 画像圧縮と最小二乗解に対する最大体積行列クロス近似

Maximal Volume Matrix Cross Approximation for Image Compression and Least Squares Solution ( http://arxiv.org/abs/2309.17403v1 )

ライセンス: Link先を確認
Kenneth Allen, Ming-Jun Lai, Zhaiming Shen(参考訳) 最大体積サブマトリクスに基づく行列の古典的クロス近似について検討する。 主な結果は,行列クロス近似の古典的な推定値の改善と,最大体積サブマトリクスを求めるためのグリーディなアプローチである。 実際、改良定数を持つ不等式を古典的に推定する新しい証明を示す。 また、チェビシェフノルムにおける行列の交叉近似の誤差境界を改善するとともに、古典的な最大体積アルゴリズムの計算効率を向上させる。 提案するアルゴリズムは収束の理論的保証を有することが示されている。 最後に,画像圧縮と連続関数の最小二乗近似の2つの応用について述べる。 本論文の締めくくりにおける数値的な結果から,本手法の効果的な性能を示す。

We study the classic cross approximation of matrices based on the maximal volume submatrices. Our main results consist of an improvement of a classic estimate for matrix cross approximation and a greedy approach for finding the maximal volume submatrices. Indeed, we present a new proof of a classic estimate of the inequality with an improved constant. Also, we present a family of greedy maximal volume algorithms which improve the error bound of cross approximation of a matrix in the Chebyshev norm and also improve the computational efficiency of classic maximal volume algorithm. The proposed algorithms are shown to have theoretical guarantees of convergence. Finally, we present two applications: one is image compression and the other is least squares approximation of continuous functions. Our numerical results in the end of the paper demonstrate the effective performances of our approach.
翻訳日:2023-10-02 12:19:38 公開日:2023-09-29
# 注意シンク付き効率的なストリーミング言語モデル

Efficient Streaming Language Models with Attention Sinks ( http://arxiv.org/abs/2309.17453v1 )

ライセンス: Link先を確認
Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis(参考訳) 長い対話が期待されるマルチラウンド対話のようなストリーミングアプリケーションへの大規模言語モデル(llm)のデプロイは、緊急に必要だが、2つの大きな課題がある。 まず、デコード段階では、以前のトークンのキーと値の状態(kv)をキャッシュすることで、広範なメモリを消費する。 第二に、人気のあるLLMはトレーニングシーケンス長よりも長いテキストに一般化できない。 最新のkvsだけがキャッシュされるウィンドウの注意は自然なアプローチですが、テキストの長さがキャッシュサイズを超えると失敗することを示しています。 我々は、初期トークンのKVを維持することで、窓の注意を回復する興味深い現象、すなわち注意シンクを観察する。 本稿では,最初に注意シンクの出現は,意味的に重要でない場合でも,初期トークンを「シンク」として注目するスコアが強いことに起因することを示す。 以上の分析に基づいて,有限長注意ウィンドウで学習したLLMを微調整なしで無限列長に一般化する,効率的なフレームワークであるStreamingLLMを導入する。 StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。 さらに,事前トレーニング中にプレースホルダトークンを注意シンクとして追加することで,ストリーミングデプロイメントをさらに改善できることが分かりました。 ストリーミング設定では、StreamingLLMはスライディングウィンドウのリ計算ベースラインを最大22.2倍高速化する。 コードとデータセットはhttps://github.com/mit-han-lab/streaming-llmで提供される。

Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.
翻訳日:2023-10-02 12:14:47 公開日:2023-09-29
# ToRA:数学的問題解決のためのツール統合推論エージェント

ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving ( http://arxiv.org/abs/2309.17452v1 )

ライセンス: Link先を確認
Zhibin Gou, Zhihong Shao, Yeyun Gong, yelong shen, Yujiu Yang, Minlie Huang, Nan Duan, Weizhu Chen(参考訳) 大規模言語モデルは様々な言語タスクにおいて大きな進歩を遂げてきたが、それでも複雑な数学に苦しむ。 本稿では,自然言語推論と外部ツール(例えば,計算ライブラリやシンボリックソルバ)をシームレスに統合することにより,言語の分析能力とツールの計算効率を両立させることにより,難解な数学的問題を解決するための一連のツール統合推論エージェントを提案する。 toraをトレーニングするために,数量データセットの対話的ツール利用トラジェクタをキュレーションし,アノテーションに模倣学習を適用し,モデルの推論行動をさらに洗練するための出力空間シェーピングを提案する。 結果として、toraモデルは、すべてのスケールで10の数学的推論データセットでオープンソースモデルを大きく上回り、平均で13%-19%の絶対的な改善が行われた。 特に、ToRA-7Bは競合レベルのデータセットMATHで44.6%に達し、最高のオープンソースモデルであるWizardMath-70Bを22%上回った。 また、TORA-34BはMATHで50%を超える精度を達成する最初のオープンソースモデルであり、GPT-4のCoTよりも大幅に優れており、プログラムでのGPT-4の問題解決と競合する。 さらに,数学的推論のためのツールインタラクションの利点と課題を総合的に分析し,今後の研究に有用な知見を提供する。

Large language models have made significant progress in various language tasks, yet they still struggle with complex mathematics. In this paper, we propose ToRA a series of Tool-integrated Reasoning Agents designed to solve challenging mathematical problems by seamlessly integrating natural language reasoning with the utilization of external tools (e.g., computation libraries and symbolic solvers), thereby amalgamating the analytical prowess of language and the computational efficiency of tools. To train ToRA, we curate interactive tool-use trajectories on mathematical datasets, apply imitation learning on the annotations, and propose output space shaping to further refine models' reasoning behavior. As a result, ToRA models significantly outperform open-source models on 10 mathematical reasoning datasets across all scales with 13%-19% absolute improvements on average. Notably, ToRA-7B reaches 44.6% on the competition-level dataset MATH, surpassing the best open-source model WizardMath-70B by 22% absolute. ToRA-34B is also the first open-source model that achieves an accuracy exceeding 50% on MATH, which significantly outperforms GPT-4's CoT result, and is competitive with GPT-4 solving problems with programs. Additionally, we conduct a comprehensive analysis of the benefits and remaining challenges of tool interaction for mathematical reasoning, providing valuable insights for future research.
翻訳日:2023-10-02 12:14:23 公開日:2023-09-29
# ニューラルラジアンス場を用いたマルチタスクビュー合成

Multi-task View Synthesis with Neural Radiance Fields ( http://arxiv.org/abs/2309.17450v1 )

ライセンス: Link先を確認
Shuhong Zheng, Zhipeng Bao, Martial Hebert, Yu-Xiong Wang(参考訳) マルチタスク視覚学習はコンピュータビジョンの重要な側面である。 しかし、近年の研究は、本質的な3次元世界とその多視点一貫した構造を見渡すマルチタスク密集予測設定に主に集中しており、多面的想像力に欠ける。 これらの制約に対応して,マルチタスク予測をrgbを含む複数のシーン特性の新規な合成タスクのセットとして再解釈する,マルチタスクビュー合成(mtvs)という,新たな問題設定を提案する。 MTVS問題に対処するために,マルチタスクとクロスビューの両方の知識を組み込んで複数のシーン特性を同時に合成するフレームワークであるMuvieNeRFを提案する。 muvienerfは、クロスタスクアテンション(cta)とクロスビューアテンション(cva)の2つのキーモジュールを統合し、複数のビューとタスクにわたる情報の効率的な利用を可能にする。 総合的および現実的なベンチマークにおいて、MuvieNeRFは様々なシーン特性と有望な視覚的品質を同時に合成できることを示した。 特に、MuvieNeRFは、様々なNeRFバックボーンに普遍的な適用性を示す。 私たちのコードはhttps://github.com/zsh2000/muvienerfで利用可能です。

Multi-task visual learning is a critical aspect of computer vision. Current research, however, predominantly concentrates on the multi-task dense prediction setting, which overlooks the intrinsic 3D world and its multi-view consistent structures, and lacks the capability for versatile imagination. In response to these limitations, we present a novel problem setting -- multi-task view synthesis (MTVS), which reinterprets multi-task prediction as a set of novel-view synthesis tasks for multiple scene properties, including RGB. To tackle the MTVS problem, we propose MuvieNeRF, a framework that incorporates both multi-task and cross-view knowledge to simultaneously synthesize multiple scene properties. MuvieNeRF integrates two key modules, the Cross-Task Attention (CTA) and Cross-View Attention (CVA) modules, enabling the efficient use of information across multiple views and tasks. Extensive evaluation on both synthetic and realistic benchmarks demonstrates that MuvieNeRF is capable of simultaneously synthesizing different scene properties with promising visual quality, even outperforming conventional discriminative models in various settings. Notably, we show that MuvieNeRF exhibits universal applicability across a range of NeRF backbones. Our code is available at https://github.com/zsh2000/MuvieNeRF.
翻訳日:2023-10-02 12:14:00 公開日:2023-09-29
# SMPLer-X:表現力のある人文のスケールアップと形状推定

SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation ( http://arxiv.org/abs/2309.17448v1 )

ライセンス: Link先を確認
Zhongang Cai, Wanqi Yin, Ailing Zeng, Chen Wei, Qingping Sun, Yanjun Wang, Hui En Pang, Haiyi Mei, Mingyuan Zhang, Lei Zhang, Chen Change Loy, Lei Yang, Ziwei Liu(参考訳) 表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きのキャプチャを多数の応用で統一する。 進歩を奨励する一方で、現在の最先端の手法は限定されたトレーニングデータセットに大きく依存している。 本研究では,VT-Hugeをバックボーンとし,さまざまなデータソースから最大4.5万インスタンスをトレーニングする,最初のジェネラリスト基盤モデル(SMPLer-Xと呼ばれる)へのEHPSのスケールアップについて検討する。 ビッグデータと大規模モデルにより、SMPLer-Xは、さまざまなテストベンチマークにまたがる強力なパフォーマンスと、目に見えない環境への優れた転送性を示す。 1) データのスケーリングには,32のEHPSデータセットを体系的に調査し,単一のデータセットでトレーニングしたモデルでは扱えない幅広いシナリオを網羅する。 さらに重要なのは、広範なベンチマークプロセスから得られた洞察を活かして、トレーニングスキームを最適化し、EHPS能力の大きな飛躍につながるデータセットを選択することです。 2) モデルスケーリングでは,EHPSにおけるモデルサイズのスケーリング法則を研究するために,視覚変換器を利用する。 さらに,我々はSMPLer-Xを専門モデルとし,さらなる性能向上を実現した。 AGORA (107.2 mm NMVE)、UBody (57.4 mm PVE)、EgoBody (63.6 mm PVE)、EHF (62.3 mm PVE) の7つのベンチマークに対して、我々の基礎モデルSMPLer-Xは一貫して最先端の結果を提供する。

Expressive human pose and shape estimation (EHPS) unifies body, hands, and face motion capture with numerous applications. Despite encouraging progress, current state-of-the-art methods still depend largely on confined training datasets. In this work, we investigate scaling up EHPS towards the first generalist foundation model (dubbed SMPLer-X), with up to ViT-Huge as the backbone and training with up to 4.5M instances from diverse data sources. With big data and the large model, SMPLer-X exhibits strong performance across diverse test benchmarks and excellent transferability to even unseen environments. 1) For the data scaling, we perform a systematic investigation on 32 EHPS datasets, encompassing a wide range of scenarios that a model trained on any single dataset cannot handle. More importantly, capitalizing on insights obtained from the extensive benchmarking process, we optimize our training scheme and select datasets that lead to a significant leap in EHPS capabilities. 2) For the model scaling, we take advantage of vision transformers to study the scaling law of model sizes in EHPS. Moreover, our finetuning strategy turn SMPLer-X into specialist models, allowing them to achieve further performance boosts. Notably, our foundation model SMPLer-X consistently delivers state-of-the-art results on seven benchmarks such as AGORA (107.2 mm NMVE), UBody (57.4 mm PVE), EgoBody (63.6 mm PVE), and EHF (62.3 mm PVE without finetuning).
翻訳日:2023-10-02 12:13:25 公開日:2023-09-29
# 教育調査フィードバック分析のための大規模言語モデルアプローチ

A Large Language Model Approach to Educational Survey Feedback Analysis ( http://arxiv.org/abs/2309.17447v1 )

ライセンス: Link先を確認
Michael J. Parker, Caitlin Anderson, Claire Stone, YeaRim Oh(参考訳) 本稿では,大規模言語モデル(LLM) GPT-4 と GPT-3.5 が教育フィードバック調査から洞察を得るのに役立つ可能性を評価する。 教育におけるLLMのユースケースの探索は、教育フィードバック分析における能力の探求を減らし、教育と学習に焦点を当てている。 教育における調査分析には、カリキュラムのギャップを見つけることや教師の評価といった目標が含まれており、しばしばテキスト応答のマニュアル処理に時間を要する。 LLMは、特殊な機械学習モデルや微調整なしでこれらの目標を達成する柔軟な手段を提供する可能性がある。 自然言語処理(NLP)タスクを,分類(複数ラベル,複数クラス,バイナリ),抽出,テーマ分析,感情分析などのタスクとしてLLMで行うことで,このような目標に対して多目的なアプローチを示す。 これらのワークフローを、バイオメディカルサイエンスコースからの2500の終末調査コメントの実際のデータセットに適用し、すべてのタスクにわたるゼロショットアプローチ(例やラベル付きトレーニングデータを必要としない)を評価し、ラベル付きデータが不足する教育設定を反映する。 効果的なプロンプトプラクティスを適用することで、gpt-4で複数のタスクにおける人間レベルのパフォーマンスを実現し、典型的な目標を達成するために必要なワークフローを実現する。 また,LLMのチェーン・オブ・シークレット(CoT)推論を検査し,信頼性を高める洞察を与える可能性を示した。 本研究は,様々なコースタイプ(オンライン,ハイブリッド,インパーソン)に適応し,カスタマイズが容易な多彩な分類分類群の開発を特徴とする。 以上の結果から,LLMは調査テキストから様々な知見を得るのに有用であることが示唆された。

This paper assesses the potential for the large language models (LLMs) GPT-4 and GPT-3.5 to aid in deriving insight from education feedback surveys. Exploration of LLM use cases in education has focused on teaching and learning, with less exploration of capabilities in education feedback analysis. Survey analysis in education involves goals such as finding gaps in curricula or evaluating teachers, often requiring time-consuming manual processing of textual responses. LLMs have the potential to provide a flexible means of achieving these goals without specialized machine learning models or fine-tuning. We demonstrate a versatile approach to such goals by treating them as sequences of natural language processing (NLP) tasks including classification (multi-label, multi-class, and binary), extraction, thematic analysis, and sentiment analysis, each performed by LLM. We apply these workflows to a real-world dataset of 2500 end-of-course survey comments from biomedical science courses, and evaluate a zero-shot approach (i.e., requiring no examples or labeled training data) across all tasks, reflecting education settings, where labeled data is often scarce. By applying effective prompting practices, we achieve human-level performance on multiple tasks with GPT-4, enabling workflows necessary to achieve typical goals. We also show the potential of inspecting LLMs' chain-of-thought (CoT) reasoning for providing insight that may foster confidence in practice. Moreover, this study features development of a versatile set of classification categories, suitable for various course types (online, hybrid, or in-person) and amenable to customization. Our results suggest that LLMs can be used to derive a range of insights from survey text.
翻訳日:2023-10-02 12:12:35 公開日:2023-09-29
# L2CEval: 大規模言語モデルの言語間コード生成能力の評価

L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models ( http://arxiv.org/abs/2309.17446v1 )

ライセンス: Link先を確認
Ansong Ni, Pengcheng Yin, Yilun Zhao, Martin Riddell, Troy Feng, Rui Shen, Stephen Yin, Ye Liu, Semih Yavuz, Caiming Xiong, Shafiq Joty, Yingbo Zhou, Dragomir Radev, Arman Cohan(参考訳) 近年、大規模言語モデル(LLM)、特にコードで事前訓練された言語は、数ショットまたはゼロショットの方法で自然言語入力からプログラムを生成する強力な能力を示している。 有望な結果にもかかわらず、言語からコードへの生成能力に関する包括的な評価が欠けている。 既存の研究は、しばしば特定のタスク、モデルアーキテクチャ、学習パラダイムに焦点を合わせ、全体像を断片的に理解する。 本研究では,L2CEvalを提案する。L2CEvalは,セマンティック解析,数学推論,Pythonプログラミングの領域領域にまたがる7つのタスクに対して,LLMの言語対コード生成能力を体系的に評価し,モデルサイズ,事前学習データ,命令チューニング,異なるプロンプト手法などの性能に影響を与える可能性のある要因を分析する。 モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。 これにより、さまざまなタスクやモデルにまたがる典型的な障害モードを特定し、分析することができます。 L2CEvalは、言語対コード生成におけるLLMの機能と制限を包括的に理解する。 評価フレームワークとすべてのモデルアウトプットもリリースし、この領域におけるさらなる研究の基礎を築きたいと考えています。

Recently, large language models (LLMs), especially those that are pretrained on code, have demonstrated strong capabilities in generating programs from natural language inputs in a few-shot or even zero-shot manner. Despite promising results, there is a notable lack of a comprehensive evaluation of these models language-to-code generation capabilities. Existing studies often focus on specific tasks, model architectures, or learning paradigms, leading to a fragmented understanding of the overall landscape. In this work, we present L2CEval, a systematic evaluation of the language-to-code generation capabilities of LLMs on 7 tasks across the domain spectrum of semantic parsing, math reasoning and Python programming, analyzing the factors that potentially affect their performance, such as model size, pretraining data, instruction tuning, and different prompting methods. In addition to assessing model performance, we measure confidence calibration for the models and conduct human evaluations of the output programs. This enables us to identify and analyze the typical failure modes across various tasks and models. L2CEval offers a comprehensive understanding of the capabilities and limitations of LLMs in language-to-code generation. We also release the evaluation framework and all model outputs, hoping to lay the groundwork for further future research in this domain.
翻訳日:2023-10-02 12:12:05 公開日:2023-09-29
# LLM地上映像拡散モデル

LLM-grounded Video Diffusion Models ( http://arxiv.org/abs/2309.17444v1 )

ライセンス: Link先を確認
Long Lian, Baifeng Shi, Adam Yala, Trevor Darrell, Boyi Li(参考訳) テキストコンディション拡散モデルは、神経ビデオ生成の有望なツールとして登場した。 しかし、現在のモデルは複雑な時空間的プロンプトに苦戦し、しばしば制限されたまたは誤った動きを生じさせる(例えば、左から右へ移動する物体に対して誘導する能力が欠如している)。 これらの制約に対処するため,LLM-grounded Video Diffusion (LVD)を導入する。 lvdはテキスト入力から直接ビデオを生成する代わりに、まず大きな言語モデル(llm)を利用してテキスト入力に基づいて動的シーンレイアウトを生成し、その後生成されたレイアウトを使用してビデオ生成のための拡散モデルをガイドする。 LLMはテキストのみから複雑な時空間力学を理解でき、現実世界でよく見られるプロンプトと物体の動きパターンの両方と密接に一致したレイアウトを生成する。 次に,アテンションマップの調整により,これらのレイアウトで映像拡散モデルを導くことを提案する。 我々のアプローチはトレーニングフリーであり、分類器のガイダンスを付加したビデオ拡散モデルに統合できる。 以上の結果から,LVDの動画拡散モデルと,所望の属性と動作パターンを忠実に生成する強力なベースライン法が著しく優れていることが示された。

Text-conditioned diffusion models have emerged as a promising tool for neural video generation. However, current models still struggle with intricate spatiotemporal prompts and often generate restricted or incorrect motion (e.g., even lacking the ability to be prompted for objects moving from left to right). To address these limitations, we introduce LLM-grounded Video Diffusion (LVD). Instead of directly generating videos from the text inputs, LVD first leverages a large language model (LLM) to generate dynamic scene layouts based on the text inputs and subsequently uses the generated layouts to guide a diffusion model for video generation. We show that LLMs are able to understand complex spatiotemporal dynamics from text alone and generate layouts that align closely with both the prompts and the object motion patterns typically observed in the real world. We then propose to guide video diffusion models with these layouts by adjusting the attention maps. Our approach is training-free and can be integrated into any video diffusion model that admits classifier guidance. Our results demonstrate that LVD significantly outperforms its base video diffusion model and several strong baseline methods in faithfully generating videos with the desired attributes and motion patterns.
翻訳日:2023-10-02 12:11:40 公開日:2023-09-29
# 密度汎関数理論の凸条件

The Convexity Condition of Density-Functional Theory ( http://arxiv.org/abs/2309.17443v1 )

ライセンス: Link先を確認
Andrew C. Burgess, Edward Linscott, and David D. O'Regan(参考訳) 実験的な証拠から、有限電子系の総エネルギーは電子数に対して凸であり、2 E_v[N_0] <= E_v[N_0 - 1] + E_v[N_0 + 1] と仮定されている。 無限分離リミット法を用いて、この通信は密度汎関数理論(dft)の任意の定式化に対する凸条件を証明し、(1)すべてのv表現可能な密度、(2)サイズ整合、(3)翻訳不変量について完全である。 この証明の結論は、DFTのそのような定式化において、有限電子系の電子親和性は常にそのイオン化ポテンシャルよりも小さいか等しいことを示している。 類似の結果は、一体還元密度行列汎関数理論でも証明されている。 この証明は、密度汎関数の近似の発展に役立つ正確な交換相関関数に対する厳密な制約を与える。 また、コーン・シャムバンドギャップとdftの交換相関微分の不連続性を理解する中心となる電子数に関する分割線形性条件の証明における立位仮定も持ち上げている。

Based on experimental evidence, it has long been postulated that the total energy of a finite electronic system is convex with respect to electron count, so that 2 E_v[N_0] <= E_v[N_0 - 1] + E_v[N_0 + 1]. Using the infinite-separation-limit technique, this Communication proves the convexity condition for any formulation of density-functional theory (DFT) that is (1) exact for all v-representable densities, (2) size-consistent, and (3) translationally invariant. A corollary to this proof shows that in such formulations of DFT, the electron affinity of a finite electronic system is always less than or equal to its ionization potential. An analogous result is also proven for one-body reduced density matrix functional theory. This proof offers a stringent constraint on the exact exchange-correlation functional that could aid in the development of density functional approximations. It also lifts a standing assumption in the proof of the piecewise linearity condition with respect to electron count, which has proven central to understanding the Kohn-Sham band-gap and the exchange-correlation derivative discontinuity of DFT.
翻訳日:2023-10-02 12:11:20 公開日:2023-09-29
# 時空間グラフニューラルネットワークを用いた分散Flocking Controllerの学習

Learning Decentralized Flocking Controllers with Spatio-Temporal Graph Neural Network ( http://arxiv.org/abs/2309.17437v1 )

ライセンス: Link先を確認
Siji Chen, Yanshen Sun, Peihan Li, Lifeng Zhou, Chang-Tien Lu(参考訳) 近年、Swarm Roboticsにおける分散制御のためのグラフニューラルネットワーク(GNN)の利用が研究されている。 しかし、近隣の国家にのみ依存することは、中央集権的な統制政策を模倣するには不十分である。 この制限に対処するために、以前の研究は$l$-hop遅延状態を計算に組み込むことを提案した。 このアプローチは有望であるが、遠方の群れ構成員の間でのコンセンサスの欠如と小さな群れの形成を招き、結束的な群れ行動の失敗をもたらす可能性がある。 提案手法は時空間拡張と時空間拡張の両方を含む時空間GNNであるSTGNNを利用する。 空間展開は遠方の隣人から遅延状態を集め、時間展開は直近の隣人から前の状態を取り込む。 両方の拡張から収集されたより広範で包括的な情報は、より効果的で正確な予測をもたらす。 本研究では,ロボット群を制御するためのエキスパートアルゴリズムを開発し,本アルゴリズムに基づく分散STGNNモデルの訓練に模倣学習を用いる。 提案したSTGNNアプローチを様々な設定でシミュレートし,グローバルエキスパートアルゴリズムをエミュレートするための分散化能力を示す。 さらに,クラジフリードローン群による凝集性フラッキング,リーダ追跡,障害物回避を実現するためのアプローチも実施した。 STGNNの性能は、結束群、リーダー追従および障害物回避タスクを達成するための効果的で信頼性の高いアプローチとしての可能性を示している。

Recently a line of researches has delved the use of graph neural networks (GNNs) for decentralized control in swarm robotics. However, it has been observed that relying solely on the states of immediate neighbors is insufficient to imitate a centralized control policy. To address this limitation, prior studies proposed incorporating $L$-hop delayed states into the computation. While this approach shows promise, it can lead to a lack of consensus among distant flock members and the formation of small clusters, consequently resulting in the failure of cohesive flocking behaviors. Instead, our approach leverages spatiotemporal GNN, named STGNN that encompasses both spatial and temporal expansions. The spatial expansion collects delayed states from distant neighbors, while the temporal expansion incorporates previous states from immediate neighbors. The broader and more comprehensive information gathered from both expansions results in more effective and accurate predictions. We develop an expert algorithm for controlling a swarm of robots and employ imitation learning to train our decentralized STGNN model based on the expert algorithm. We simulate the proposed STGNN approach in various settings, demonstrating its decentralized capacity to emulate the global expert algorithm. Further, we implemented our approach to achieve cohesive flocking, leader following and obstacle avoidance by a group of Crazyflie drones. The performance of STGNN underscores its potential as an effective and reliable approach for achieving cohesive flocking, leader following and obstacle avoidance tasks.
翻訳日:2023-10-02 12:10:51 公開日:2023-09-29
# dream: マルチロボットシステムの探索と効率的なエネルギー管理のための分散強化学習

DREAM: Decentralized Reinforcement Learning for Exploration and Efficient Energy Management in Multi-Robot Systems ( http://arxiv.org/abs/2309.17433v1 )

ライセンス: Link先を確認
Dipam Patel, Phu Pham, Kshitij Tiwari and Aniket Bera(参考訳) 資源に制約のあるロボットは、しばしばエネルギーの非効率、不適切なタスク割り当てによる計算能力の不足、動的環境におけるロバスト性の欠如に苦しむ。 本稿では,効率的な探索のための資源配分を最適化する総合的なフレームワークであるDREAM-Decentralized Reinforcement Learning for Exploration and Efficient Energy Management in Multi-Robot Systemsを紹介する。 従来のヒューリスティックなタスク計画よりも進歩している。 このフレームワークは、強化学習を用いた運用範囲推定を取り入れ、未知の地形での探索と障害物回避を行う。 DREAMはさらに、目標割り当てのためのエネルギー消費モデルを導入し、グラフニューラルネットワークを用いて制約されたリソース下でのミッション完了を保証する。 このアプローチは、複数のエージェントを妥協するランダムに目標を割り当てる従来のアプローチと比較して、マルチロボットシステム全体がさらなるミッションのために長期間生存することを保証する。 我々のアプローチはエージェントをリアルタイムに優先順位付けすることに適応し、動的環境に対する顕著なレジリエンスを示す。 この堅牢なソリューションは様々なシミュレートされた環境で評価され、様々なシナリオで適応性と適用性を示す。 我々は,ベースライン法に比べて約25%の大幅な改善がみられ,資源制約型ロボット研究の道筋を導いた。

Resource-constrained robots often suffer from energy inefficiencies, underutilized computational abilities due to inadequate task allocation, and a lack of robustness in dynamic environments, all of which strongly affect their performance. This paper introduces DREAM - Decentralized Reinforcement Learning for Exploration and Efficient Energy Management in Multi-Robot Systems, a comprehensive framework that optimizes the allocation of resources for efficient exploration. It advances beyond conventional heuristic-based task planning as observed conventionally. The framework incorporates Operational Range Estimation using Reinforcement Learning to perform exploration and obstacle avoidance in unfamiliar terrains. DREAM further introduces an Energy Consumption Model for goal allocation, thereby ensuring mission completion under constrained resources using a Graph Neural Network. This approach also ensures that the entire Multi-Robot System can survive for an extended period of time for further missions compared to the conventional approach of randomly allocating goals, which compromises one or more agents. Our approach adapts to prioritizing agents in real-time, showcasing remarkable resilience against dynamic environments. This robust solution was evaluated in various simulated environments, demonstrating adaptability and applicability across diverse scenarios. We observed a substantial improvement of about 25% over the baseline method, leading the way for future research in resource-constrained robotics.
翻訳日:2023-10-02 12:10:29 公開日:2023-09-29
# キツネ林における局在・マッピング・作物モニタリングのためのマルチモーダルデータセット

Multimodal Dataset for Localization, Mapping and Crop Monitoring in Citrus Tree Farms ( http://arxiv.org/abs/2309.15332v2 )

ライセンス: Link先を確認
Hanzhe Teng, Yipeng Wang, Xiaoao Song, Konstantinos Karydis(参考訳) 本研究は,農業分野で動作する車輪型移動ロボットが収集した総合的マルチモーダル感覚データセットであるcitrusfarmデータセットを紹介する。 このデータセットは、深度情報を備えたステレオRGB画像と、モノクローム、近赤外線、熱画像を提供し、農業研究に不可欠な多様なスペクトル応答を示す。 さらに、ホイール・オドメトリー、LiDAR、慣性測定ユニット(IMU)、リアルタイム・キネマティック(RTK)を用いたGNSSを含む航法センサデータをセンチメートルレベルの地上真実として提供する。 本データセットは, 生育段階の異なる木種, 独特の植林パターン, 日光条件の異なる木種を特徴とする, キツネの3つの畑で収集された7つの配列からなる。 総運転時間は1.7時間、走行距離は7.5km、データ量は1.3TBである。 このデータセットは、特に局在化、マッピング、作物モニタリングタスクにおいて、農業ツリー環境で動作する自律ロボットシステムの開発を容易にすることを期待する。 さらに、このデータセットで提供されるリッチセンシングモダリティは、場所認識、シーン理解、オブジェクト検出とセグメンテーション、マルチモーダル学習など、ロボット工学やコンピュータビジョンのタスクにおける研究を支援することもできる。 このデータセットは関連するツールやリソースとともにhttps://github.com/UCR-Robotics/Citrus-Farm-Datasetで公開されている。

In this work we introduce the CitrusFarm dataset, a comprehensive multimodal sensory dataset collected by a wheeled mobile robot operating in agricultural fields. The dataset offers stereo RGB images with depth information, as well as monochrome, near-infrared and thermal images, presenting diverse spectral responses crucial for agricultural research. Furthermore, it provides a range of navigational sensor data encompassing wheel odometry, LiDAR, inertial measurement unit (IMU), and GNSS with Real-Time Kinematic (RTK) as the centimeter-level positioning ground truth. The dataset comprises seven sequences collected in three fields of citrus trees, featuring various tree species at different growth stages, distinctive planting patterns, as well as varying daylight conditions. It spans a total operation time of 1.7 hours, covers a distance of 7.5 km, and constitutes 1.3 TB of data. We anticipate that this dataset can facilitate the development of autonomous robot systems operating in agricultural tree environments, especially for localization, mapping and crop monitoring tasks. Moreover, the rich sensing modalities offered in this dataset can also support research in a range of robotics and computer vision tasks, such as place recognition, scene understanding, object detection and segmentation, and multimodal learning. The dataset, in conjunction with related tools and resources, is made publicly available at https://github.com/UCR-Robotics/Citrus-Farm-Dataset.
翻訳日:2023-10-02 10:27:04 公開日:2023-09-29
# InternLM-XComposer:高度なテキストイメージ理解と構成のための視覚言語大モデル

InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition ( http://arxiv.org/abs/2309.15112v3 )

ライセンス: Link先を確認
Pan Zhang, Xiaoyi Dong, Bin Wang, Yuhang Cao, Chao Xu, Linke Ouyang, Zhiyuan Zhao, Shuangrui Ding, Songyang Zhang, Haodong Duan, Hang Yan, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang(参考訳) InternLM-XComposerは、高度な画像テキスト理解と合成を可能にする視覚言語大モデルである。 私たちのモデルの革新的な性質は、3つの魅力的な性質によって強調される。 1)Interleaved Text- Image composition: InternLM-XComposerは、画像をシームレスに統合し、より魅力的で没入的な読書体験を提供するコヒーレントで文脈的な記事を生成することができる。 タイトルを提供すれば、システムは対応する原稿を生成します。 画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。 2) リッチ多言語知識の理解: テキストイメージの理解は,多言語多言語概念の訓練によって強化され,戦略を慎重に構築し,視覚的内容の理解を深める。 3)最先端性能:我々のモデルは、MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench(中国文化ベンチマーク)など、ビジョンベースモデルの様々な主要なベンチマークにおいて、常に最先端の結果を達成する。 集合的に、InternLM-XComposerは高度なテキストイメージの理解と構成をシームレスにブレンドし、視覚と言語間の相互作用を革新し、新たな洞察と機会を提供する。 7Bパラメータを持つInternLM-XComposerモデルシリーズはhttps://github.com/InternLM/InternLM-XComposerで公開されている。

We propose InternLM-XComposer, a vision-language large model that enables advanced image-text comprehension and composition. The innovative nature of our model is highlighted by three appealing properties: 1) Interleaved Text-Image Composition: InternLM-XComposer can effortlessly generate coherent and contextual articles that seamlessly integrate images, providing a more engaging and immersive reading experience. Simply provide a title, and our system will generate the corresponding manuscript. It can intelligently identify the areas in the text where images would enhance the content and automatically insert the most appropriate visual candidates. 2) Comprehension with Rich Multilingual Knowledge: The text-image comprehension is empowered by training on extensive multi-modal multilingual concepts with carefully crafted strategies, resulting in a deep understanding of visual content. 3) State-of-the-art Performance: Our model consistently achieves state-of-the-art results across various mainstream benchmarks for vision-language foundational models, including MME Benchmark, MMBench, MMBench-CN, Seed-Bench, and CCBench (Chinese Cultural Benchmark). Collectively, InternLM-XComposer seamlessly blends advanced text-image comprehension and composition, revolutionizing vision-language interaction and offering new insights and opportunities. The InternLM-XComposer model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.
翻訳日:2023-10-02 10:26:37 公開日:2023-09-29
# データセット拡散: ピクセルレベルセマンティックセグメンテーションのための拡散に基づく合成データセット生成

Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation ( http://arxiv.org/abs/2309.14303v3 )

ライセンス: Link先を確認
Quang Nguyen, Truong Vu, Anh Tran, Khoi Nguyen(参考訳) 深部視覚モデルのトレーニングデータの準備は、労働集約的な作業です。 これに対処するために、生成モデルが合成データを生成する効果的なソリューションとして登場した。 現在の生成モデルは画像レベルのカテゴリラベルを生成する一方で、テキストから画像への生成モデル安定拡散(sd)を用いた画素レベルの意味セグメンテーションラベルを生成する新しい手法を提案する。 テキストプロンプト,クロスアテンション,SDの自己アテンションを利用して,クラスプロンプト付加,クラスプロンプト横断アテンション,自己アテンション指数の3つの新しい手法を導入する。 これらの手法により合成画像に対応するセグメンテーションマップを生成することができる。 これらのマップはセマンティクスセグメンタをトレーニングするための擬似ラベルとして機能する。 擬似ラベルの不完全性を考慮し,不確実領域をセグメンテーションに組み込むことで,これらの領域の損失を無視することができる。 PASCAL VOC と MSCOCO の2つのデータセットで評価を行い,本手法は並列処理を著しく上回っている。 ベンチマークとコードはhttps://github.com/VinAIResearch/Dataset-Diffusionで公開される予定です。

Preparing training data for deep vision models is a labor-intensive task. To address this, generative models have emerged as an effective solution for generating synthetic data. While current generative models produce image-level category labels, we propose a novel method for generating pixel-level semantic segmentation labels using the text-to-image generative model Stable Diffusion (SD). By utilizing the text prompts, cross-attention, and self-attention of SD, we introduce three new techniques: class-prompt appending, class-prompt cross-attention, and self-attention exponentiation. These techniques enable us to generate segmentation maps corresponding to synthetic images. These maps serve as pseudo-labels for training semantic segmenters, eliminating the need for labor-intensive pixel-wise annotation. To account for the imperfections in our pseudo-labels, we incorporate uncertainty regions into the segmentation, allowing us to disregard loss from those regions. We conduct evaluations on two datasets, PASCAL VOC and MSCOCO, and our approach significantly outperforms concurrent work. Our benchmarks and code will be released at https://github.com/VinAIResearch/Dataset-Diffusion
翻訳日:2023-10-02 10:26:08 公開日:2023-09-29
# ブリッジブロック分解による大規模mtp$_2$ガウス図形モデルの学習

Learning Large-Scale MTP$_2$ Gaussian Graphical Models via Bridge-Block Decomposition ( http://arxiv.org/abs/2309.13405v3 )

ライセンス: Link先を確認
Xiwen Wang, Jiaxi Ying, Daniel P. Palomar(参考訳) 本稿では,階数2 (\text{mtp}_2$) の完全正の多変量ガウス図形モデルを学習する問題について検討する。 大規模スパースグラフに共通に存在するブリッジの概念を導入することで、(1)閾値付きサンプル共分散グラフ上の \emph{bridge-block decomposition} によって引き起こされるいくつかの小さなサブプロブレムと(2)ブリッジに対応するエントリ上の明示的な解の集合によって問題全体が等価に最適化できることを示した。 現実的な側面から、この単純で証明可能な規律は、大きな問題を小さなトラクタブルなものに分解するために適用することができ、計算複雑性の大幅な削減と既存のアルゴリズムの大幅な改善につながる。 合成および実世界の実験により,提案手法は最先端のベンチマークと比較すると,大幅な高速化を示した。

This paper studies the problem of learning the large-scale Gaussian graphical models that are multivariate totally positive of order two ($\text{MTP}_2$). By introducing the concept of bridge, which commonly exists in large-scale sparse graphs, we show that the entire problem can be equivalently optimized through (1) several smaller-scaled sub-problems induced by a \emph{bridge-block decomposition} on the thresholded sample covariance graph and (2) a set of explicit solutions on entries corresponding to bridges. From practical aspect, this simple and provable discipline can be applied to break down a large problem into small tractable ones, leading to enormous reduction on the computational complexity and substantial improvements for all existing algorithms. The synthetic and real-world experiments demonstrate that our proposed method presents a significant speed-up compared to the state-of-the-art benchmarks.
翻訳日:2023-10-02 10:25:45 公開日:2023-09-29
# 信頼度調整顔と近親相姦検証

Confidence-Calibrated Face and Kinship Verification ( http://arxiv.org/abs/2210.13905v5 )

ライセンス: Link先を確認
Min Xu, Ximiao Zhang and Xiuzhuang Zhou(参考訳) 本稿では,顔と血縁の検証における予測信頼度の問題について検討する。 既存の顔と血縁の検証手法の多くは、予測結果の信頼度を無視しながら精度に重点を置いている。 しかし,高リスクタスクにおける信頼性と信頼性のモデリングには信頼性推定が不可欠である。 そこで本研究では,任意の顔対に対して類似度スコアを信頼度スコアに変換するための効果的な信頼度尺度を提案する。 さらに,Angular Scaling Calibration (ASC)と呼ばれる信頼性校正手法を提案する。 ASCは実装が容易で、モデルの修正なしに既存の検証モデルに容易に適用でき、精度保存と信頼性校正の確率的検証モデルが得られる。 さらに, 校正信頼度の不確実性を導入し, 雑音データの存在下での検証モデルの信頼性と信頼性を高める。 我々の知識を最大限に活用するために、我々の研究は、現代の顔と親族関係の検証タスクに対する、初めての包括的信頼度補正ソリューションを提示した。 筆者らは4つの顔・血縁検証データセットについて広範な実験を行い,提案手法の有効性を実証した。 コードとモデルはhttps://github.com/cnulab/ascで入手できる。

In this paper, we investigate the problem of prediction confidence in face and kinship verification. Most existing face and kinship verification methods focus on accuracy performance while ignoring confidence estimation for their prediction results. However, confidence estimation is essential for modeling reliability and trustworthiness in such high-risk tasks. To address this, we introduce an effective confidence measure that allows verification models to convert a similarity score into a confidence score for any given face pair. We further propose a confidence-calibrated approach, termed Angular Scaling Calibration (ASC). ASC is easy to implement and can be readily applied to existing verification models without model modifications, yielding accuracy-preserving and confidence-calibrated probabilistic verification models. In addition, we introduce the uncertainty in the calibrated confidence to boost the reliability and trustworthiness of the verification models in the presence of noisy data. To the best of our knowledge, our work presents the first comprehensive confidence-calibrated solution for modern face and kinship verification tasks. We conduct extensive experiments on four widely used face and kinship verification datasets, and the results demonstrate the effectiveness of our proposed approach. Code and models are available at https://github.com/cnulab/ASC.
翻訳日:2023-10-02 10:24:43 公開日:2023-09-29
# CLIPデータのデマイズ

Demystifying CLIP Data ( http://arxiv.org/abs/2309.16671v2 )

ライセンス: Link先を確認
Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer(参考訳) Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行い、現代の認識システムと生成モデルを活性化するアプローチである。 clipの成功の主な要因は、モデルアーキテクチャやトレーニング対象ではなく、そのデータであると考えています。 しかし、クリップはそのデータとその収集方法に関する限られた情報しか提供せず、モデルパラメータでフィルタリングすることでクリップのデータを再現することを目的としている。 本研究は,クリップのデータキュレーションアプローチを明らかにし,メタデータによる言語イメージ事前トレーニング(metaclip)をコミュニティに公開することを目的としています。 MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。 実験では,データのみに集中して,モデルとトレーニング設定を厳格に分離した。 MetaCLIPはCommonCrawlに4億の画像テキストデータペアで適用され、CLIPのデータを複数の標準ベンチマークで上回る。 ゼロショットイメージネット分類では、MetaCLIPは70.8%の精度で、ViT-BモデルでCLIPの68.3%を上回っている。 1Bデータへのスケーリングは同じトレーニング予算を維持しながら、72.4%に達する。 我々の観測は、ViT-Hが80.5%、ベル・アンド・ウィストルを使わずに、様々なモデルサイズにまたがっている。 メタデータのキュレーションコードとトレーニングデータの配布はhttps://github.com/facebookresearch/MetaCLIPで公開されている。

Contrastive Language-Image Pre-training (CLIP) is an approach that has advanced research and applications in computer vision, fueling modern recognition systems and generative models. We believe that the main ingredient to the success of CLIP is its data and not the model architecture or pre-training objective. However, CLIP only provides very limited information about its data and how it has been collected, leading to works that aim to reproduce CLIP's data by filtering with its model parameters. In this work, we intend to reveal CLIP's data curation approach and in our pursuit of making it open to the community introduce Metadata-Curated Language-Image Pre-training (MetaCLIP). MetaCLIP takes a raw data pool and metadata (derived from CLIP's concepts) and yields a balanced subset over the metadata distribution. Our experimental study rigorously isolates the model and training settings, concentrating solely on data. MetaCLIP applied to CommonCrawl with 400M image-text data pairs outperforms CLIP's data on multiple standard benchmarks. In zero-shot ImageNet classification, MetaCLIP achieves 70.8% accuracy, surpassing CLIP's 68.3% on ViT-B models. Scaling to 1B data, while maintaining the same training budget, attains 72.4%. Our observations hold across various model sizes, exemplified by ViT-H achieving 80.5%, without any bells-and-whistles. Curation code and training data distribution on metadata is made available at https://github.com/facebookresearch/MetaCLIP.
翻訳日:2023-10-02 10:20:16 公開日:2023-09-29
# 自分のペアを混ぜる

Mixup Your Own Pairs ( http://arxiv.org/abs/2309.16633v2 )

ライセンス: Link先を確認
Yilei Wu, Zijian Dong, Chongyao Chen, Wangchunshu Zhou, Juan Helen Zhou(参考訳) 表現学習では、回帰は伝統的に分類よりも注意が払われていない。 回帰に分類用に設計された表現学習技術を直接適用すると、しばしば潜在空間における断片化表現が発生し、準最適性能が得られる。 本稿では,2つの重要な側面,すなわち順序性認識と硬さの欠如から,回帰学習におけるコントラスト学習の可能性が隠蔽されていることを論じる。 これらの課題に対処するため、私たちは、実/実サンプルのみに頼るのではなく、"教師付きコントラスト回帰のための自身のコントラストペアを混ぜ合わせる"ことを推奨する。 具体的には,SupReMix (SupReMix) を用いた回帰学習を提案する。 アンカー-包括的混合物(アンカーと異なる負の試料の混合)をハード負のペアとして、アンカー-排他的混合物(2つの異なる負の試料の混合)を埋め込みレベルでハード正のペアとする。 この戦略は、よりリッチな順序情報を統合することで、よりコントラスト的なペアを定式化する。 2次元画像、ボリューム画像、テキスト、表データ、時系列信号を含む6つの回帰データセットと理論解析を組み合わせることで、supremixプリトレーニングが回帰データの連続順序表現を助長し、回帰性能が大幅に向上することを示す。 さらに、SupReMixは、転送学習、不均衡なトレーニングデータ、トレーニングサンプルが少ないシナリオなど、さまざまな回帰的な課題において、他のアプローチよりも優れている。

In representation learning, regression has traditionally received less attention than classification. Directly applying representation learning techniques designed for classification to regression often results in fragmented representations in the latent space, yielding sub-optimal performance. In this paper, we argue that the potential of contrastive learning for regression has been overshadowed due to the neglect of two crucial aspects: ordinality-awareness and hardness. To address these challenges, we advocate "mixup your own contrastive pairs for supervised contrastive regression", instead of relying solely on real/augmented samples. Specifically, we propose Supervised Contrastive Learning for Regression with Mixup (SupReMix). It takes anchor-inclusive mixtures (mixup of the anchor and a distinct negative sample) as hard negative pairs and anchor-exclusive mixtures (mixup of two distinct negative samples) as hard positive pairs at the embedding level. This strategy formulates harder contrastive pairs by integrating richer ordinal information. Through extensive experiments on six regression datasets including 2D images, volumetric images, text, tabular data, and time-series signals, coupled with theoretical analysis, we demonstrate that SupReMix pre-training fosters continuous ordered representations of regression data, resulting in significant improvement in regression performance. Furthermore, SupReMix is superior to other approaches in a range of regression challenges including transfer learning, imbalanced training data, and scenarios with fewer training samples.
翻訳日:2023-10-02 10:19:50 公開日:2023-09-29
# ガウススプレイティングを用いたテキストから3D

Text-to-3D using Gaussian Splatting ( http://arxiv.org/abs/2309.16585v2 )

ライセンス: Link先を確認
Zilong Chen, Feng Wang, Huaping Liu(参考訳) 本稿では,高品質3dオブジェクト生成のための新しい手法であるgsgen(gaussian splatting based text-to-3d generation)を提案する。 以前の手法では、3dの事前表現と適切な表現がないため、不正確な幾何学と限定的な忠実さに苦しむ。 我々は,最新の最先端表現である3d gaussian splatting を利用して,3d pre の組み入れを可能にする明示的な性質を活用し,既存の欠点を解決する。 具体的には,幾何学最適化段階と外観改善段階を含むプログレッシブ最適化戦略を採用する。 幾何最適化において、通常の2次元SDS損失とともに3次元幾何の下で粗い表現が確立され、3次元一貫性のある粗い形状が確保される。 その後、得られたガウス人は詳細を豊かにするために反復的な改良を行う。 この段階では、コンパクト性に基づくデンシフィケーションによってガウス数を増やし、連続性を高め、忠実性を向上させる。 これらの設計により、より繊細なディテールとより正確な幾何で3Dコンテンツを生成することができる。 広汎な評価は,特に高周波成分の捕捉に有効であることを示す。 ビデオはhttps://gsgen3d.github.ioで提供される。 私たちのコードはhttps://github.com/gsgen3d/gsgenで利用可能です。

In this paper, we present Gaussian Splatting based text-to-3D generation (GSGEN), a novel approach for generating high-quality 3D objects. Previous methods suffer from inaccurate geometry and limited fidelity due to the absence of 3D prior and proper representation. We leverage 3D Gaussian Splatting, a recent state-of-the-art representation, to address existing shortcomings by exploiting the explicit nature that enables the incorporation of 3D prior. Specifically, our method adopts a progressive optimization strategy, which includes a geometry optimization stage and an appearance refinement stage. In geometry optimization, a coarse representation is established under a 3D geometry prior along with the ordinary 2D SDS loss, ensuring a sensible and 3D-consistent rough shape. Subsequently, the obtained Gaussians undergo an iterative refinement to enrich details. In this stage, we increase the number of Gaussians by compactness-based densification to enhance continuity and improve fidelity. With these designs, our approach can generate 3D content with delicate details and more accurate geometry. Extensive evaluations demonstrate the effectiveness of our method, especially for capturing high-frequency components. Video results are provided at https://gsgen3d.github.io. Our code is available at https://github.com/gsgen3d/gsgen
翻訳日:2023-10-02 10:19:11 公開日:2023-09-29
# 周期駆動量子スピン系における時間結晶電子キメラ

Time Crystal Embodies Chimera in Periodically Driven Quantum Spin System ( http://arxiv.org/abs/2309.16523v2 )

ライセンス: Link先を確認
Mahbub Rahaman, Akitada Sakurai, Analabha Roy(参考訳) キメラ状態(chimera states)は、複数の相互接続された要素からなるシステムが、同期と非同期の振る舞いの特徴的な組み合わせを示すキャプティベーション発生である。 これらの状態の出現は、量子的絡み合いと系の構成要素間の相互作用の微妙なバランスの間の複雑な相互依存性に起因する。 典型的な多体周期駆動系における離散時間結晶(DTC)の出現は、時間翻訳対称性の破れがあるときに起こる。 異なる種類のスピンスピンスピン相互作用に対する無秩序スピン1/2鎖の制御スピン回転誤差の下で,結合dtcと強磁性動的多体局在(dmbl)相が共存している。 我々は、周期的に駆動される量子多体系における外部静的場に対して堅牢なDTC-DMBL-Chimera相の出現に対する新しいアプローチに寄与する。

Chimera states are a captivating occurrence in which a system comprised of multiple interconnected elements exhibits a distinctive combination of synchronized and desynchronized behavior. The emergence of these states can be attributed to the complex interdependence between quantum entanglement and the delicate balance of interactions among system constituents. The emergence of Discrete Time Crystal (DTC) in typical many-body periodically driven systems occurs when there is a breaking of time translation symmetry. Coexisting coupled DTC and a ferromagnetic dynamically many-body localized (DMBL) phase at distinct regions have been investigated under the controlled spin rotational error of a disorder-free spin-1/2 chain for different types of spin-spin interactions. We contribute a novel approach for the emergence of the DTC-DMBL-Chimera phase, which is robust against external static fields in a periodically driven quantum many-body system.
翻訳日:2023-10-02 10:18:51 公開日:2023-09-29
# 雇用再割り当て問題のQUBO解決

QUBO Resolution of the Job Reassignment Problem ( http://arxiv.org/abs/2309.16473v2 )

ライセンス: Link先を確認
I\~nigo Perez Delgado, Beatriz Garc\'ia Markaida, Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta(参考訳) 本稿では、JSP(Job Reassignment Problem)のヒューリスティックな解決のためのサブプロブレメーション方式を提案する。 JSPのコスト関数はQUBOハミルトニアンによって記述され、ゲートベースとアニーリング量子コンピュータの両方で実装できる。 k$ジョブのジョブプールでは、$\mathcal{o}(k^2)$バイナリ変数 -qubits -- が、$\mathcal{o}(2^{k^2})$のランタイムの完全な問題を解決するために必要となる。 提示されたヒューリスティックスでは、解決すべき$D$サブプロブレムの平均変数数は$\mathcal{O}(K^2/2D)$、期待される総ランタイム$\mathcal{O}(D2^{K^2/2D})$である。

We present a subproblemation scheme for heuristical solving of the JSP (Job Reassignment Problem). The cost function of the JSP is described via a QUBO hamiltonian to allow implementation in both gate-based and annealing quantum computers. For a job pool of $K$ jobs, $\mathcal{O}(K^2)$ binary variables -- qubits -- are needed to solve the full problem, for a runtime of $\mathcal{O}(2^{K^2})$. With the presented heuristics, the average variable number of each of the $D$ subproblems to solve is $\mathcal{O}(K^2/2D)$, and the expected total runtime $\mathcal{O}(D2^{K^2/2D})$, achieving an exponential speedup.
翻訳日:2023-10-02 10:18:38 公開日:2023-09-29
# AutoCLIP:視覚言語モデルのための自動調整ゼロショット分類器

AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models ( http://arxiv.org/abs/2309.16414v2 )

ライセンス: Link先を確認
Jan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi(参考訳) CLIPのような視覚言語モデル上に構築された分類器は、幅広い画像分類タスクで顕著なゼロショット性能を示している。 これまでの研究では、プロンプトテンプレートに基づいた各クラス用の記述子セットを自動生成する方法を、手作業によるテンプレートから、大きな言語モデルから得られたテンプレートまで、ランダムな単語や文字で構築されたテンプレートまで、さまざまな方法で研究してきた。 これまで、各エンコードされたクラス記述子からゼロショットの分類子を導出することは、ほとんど変わらない、すなわち、平均エンコードされたクラス記述子と画像符号化子のコサイン類似性を最大化するクラスに分類された。 しかし、全てのクラス記述子を等しく重くすることは、特定の記述子が与えられた画像上の視覚的な手がかりと他の画像よりもマッチする場合に最適である。 本研究では,ゼロショット分類器の自動調整手法であるAutoCLIPを提案する。 AutoCLIPは、クラス記述子-画像類似性の統計に基づいて、推論時に各プロンプトテンプレートに画像毎の重みをチューニングする。 AutoCLIPは完全に教師なしで、計算オーバーヘッドが非常に少なく、数行のコードで簡単に実装できる。 AutoCLIPは、幅広いビジョン言語モデル、データセットでベースラインを上回り、テンプレートを一貫して、最大3%精度でプロンプトすることを示す。

Classifiers built upon vision-language models such as CLIP have shown remarkable zero-shot performance across a broad range of image classification tasks. Prior work has studied different ways of automatically creating descriptor sets for every class based on prompt templates, ranging from manually engineered templates over templates obtained from a large language model to templates built from random words and characters. Up until now, deriving zero-shot classifiers from the respective encoded class descriptors has remained nearly unchanged, i.e., classify to the class that maximizes cosine similarity between its averaged encoded class descriptors and the image encoding. However, weighing all class descriptors equally can be suboptimal when certain descriptors match visual clues on a given image better than others. In this work, we propose AutoCLIP, a method for auto-tuning zero-shot classifiers. AutoCLIP tunes per-image weights to each prompt template at inference time, based on statistics of class descriptor-image similarities. AutoCLIP is fully unsupervised, has very low computational overhead, and can be easily implemented in few lines of code. We show that AutoCLIP outperforms baselines across a broad range of vision-language models, datasets, and prompt templates consistently and by up to 3 percent point accuracy.
翻訳日:2023-10-02 10:18:18 公開日:2023-09-29
# 文書レベルの関係抽出に関する総合調査(2016-2023)

A Comprehensive Survey of Document-level Relation Extraction (2016-2023) ( http://arxiv.org/abs/2309.16396v2 )

ライセンス: Link先を確認
Julien Delaunay, Thi Hong Hanh Tran, Carlos-Emiliano Gonz\'alez-Gallardo, Georgeta Bordea, Nicolas Sidere, Antoine Doucet(参考訳) 文書レベル関係抽出 (docre) は自然言語処理 (nlp) における活発な研究分野であり、文の境界を越えたエンティティ間の関係を同定し抽出する。 従来の文レベルの関係抽出と比較して、DocREは分析のためのより広い文脈を提供しており、複数の文や段落にまたがる関係を識別するので、より難しい。 この課題は、エンティティ間の関係をよりよく理解するために、非構造化の大規模文書(科学論文、法律契約、ニュース記事など)から知識ベースを自動で構築し、蓄積するための実行可能なソリューションとして、関心が高まっている。 本稿では,この分野の最近の進歩を包括的に概観し,文レベルの関係抽出に比較して,その応用を強調する。

Document-level relation extraction (DocRE) is an active area of research in natural language processing (NLP) concerned with identifying and extracting relationships between entities beyond sentence boundaries. Compared to the more traditional sentence-level relation extraction, DocRE provides a broader context for analysis and is more challenging because it involves identifying relationships that may span multiple sentences or paragraphs. This task has gained increased interest as a viable solution to build and populate knowledge bases automatically from unstructured large-scale documents (e.g., scientific papers, legal contracts, or news articles), in order to have a better understanding of relationships between entities. This paper aims to provide a comprehensive overview of recent advances in this field, highlighting its different applications in comparison to sentence-level relation extraction.
翻訳日:2023-10-02 10:17:54 公開日:2023-09-29
# 時間グラフモデルは、大域的時間的ダイナミクスを捉えるのに失敗する

Temporal graph models fail to capture global temporal dynamics ( http://arxiv.org/abs/2309.15730v2 )

ライセンス: Link先を確認
Micha{\l} Daniluk, Jacek D\k{a}browski(参考訳) 最近リリースされたTemporal Graph Benchmarkは、Dynamic Link Property Predictionのコンテキストで分析されている。 本報告では,中規模および大規模データセットにおける他の手法に匹敵する「最近人気の高いノード」の最適化フリーベースラインを提案する。 本研究では,データセットの短期的および長期的大域的ダイナミクスの強さを定量化可能なwasserstein距離に基づく2つの尺度を提案する。 予期せぬほど強いベースラインを解析することにより,時間的ダイナミクスの強いデータセットに対して,標準負サンプリング評価がいかに不適切であるかを示す。 また、簡単な負サンプリングがトレーニング中にモデル変性を引き起こすことを示し、時間グラフネットワークの完全飽和予測のランク付けが不可能であることを示す。 学習と評価の両面でのネガティブサンプリング手法の改良を提案し,その有用性を検証した。 負のサンプリングを伴わずに非対照的に訓練されたモデルとの比較を行う。 その結果,ソーシャルメディアや暗号通貨市場,eコマースなど,世界規模で大きなダイナミクスを持つ問題に対して,時間的グラフネットワークアーキテクチャを深く再考する必要があることが示された。 ベースライン,測度,提案する負のサンプリングスキームのコードをオープンソース化する。

A recently released Temporal Graph Benchmark is analyzed in the context of Dynamic Link Property Prediction. We outline our observations and propose a trivial optimization-free baseline of "recently popular nodes" outperforming other methods on medium and large-size datasets in the Temporal Graph Benchmark. We propose two measures based on Wasserstein distance which can quantify the strength of short-term and long-term global dynamics of datasets. By analyzing our unexpectedly strong baseline, we show how standard negative sampling evaluation can be unsuitable for datasets with strong temporal dynamics. We also show how simple negative-sampling can lead to model degeneration during training, resulting in impossible to rank, fully saturated predictions of temporal graph networks. We propose improved negative sampling schemes for both training and evaluation and prove their usefulness. We conduct a comparison with a model trained non-contrastively without negative sampling. Our results provide a challenging baseline and indicate that temporal graph network architectures need deep rethinking for usage in problems with significant global dynamics, such as social media, cryptocurrency markets or e-commerce. We open-source the code for baselines, measures and proposed negative sampling schemes.
翻訳日:2023-10-02 10:17:40 公開日:2023-09-29
# Few-shot Unsupervised Domain Adaptationのための信頼に基づく視覚分散

Confidence-based Visual Dispersal for Few-shot Unsupervised Domain Adaptation ( http://arxiv.org/abs/2309.15575v2 )

ライセンス: Link先を確認
Yizhe Xiong, Hui Chen, Zijia Lin, Sicheng Zhao, Guiguang Ding(参考訳) 教師なしドメイン適応(unsupervised domain adaptation)は、完全にラベル付きソースドメインからラベルなしのターゲットドメインに知識を転送することを目的としている。 しかし、実世界のシナリオでは、アノテーションの難しさと高コストのため、ソースドメインでさえラベル付きデータを提供することは不可能である。 この問題に対処するため、近年の研究では、少数のサンプルしかラベル付けされていないFew-shot Unsupervised Domain Adaptation (FUDA)について検討し、自己教師付き学習手法による知識伝達を行う。 しかし、既存の手法では、スパースラベルの設定が信頼できるソース知識の学習を妨げていることを一般的に見落としている。 さらに, 対象サンプルの学習困難度差は異なるが無視され, ハードターゲットサンプルの分類が不十分である。 本稿では、両障害に対処するために、FUDAのための信頼度に基づく新しい視覚分散変換学習法(C-VisDiT)を提案する。 具体的には、C-VisDiTは、モデル適応のための高信頼ソース知識のみを伝達するクロスドメインビジュアル分散戦略と、ハードターゲットサンプルの学習を容易なものでガイドするドメイン内ビジュアル分散戦略からなる。 office-31, office-home, visda-c, domainnetベンチマークデータセットを広範囲に実験した結果,提案手法のc-visditがfuda法を大幅に上回っていることが示された。 私たちのコードはhttps://github.com/Bostoncake/C-VisDiT.comで利用可能です。

Unsupervised domain adaptation aims to transfer knowledge from a fully-labeled source domain to an unlabeled target domain. However, in real-world scenarios, providing abundant labeled data even in the source domain can be infeasible due to the difficulty and high expense of annotation. To address this issue, recent works consider the Few-shot Unsupervised Domain Adaptation (FUDA) where only a few source samples are labeled, and conduct knowledge transfer via self-supervised learning methods. Yet existing methods generally overlook that the sparse label setting hinders learning reliable source knowledge for transfer. Additionally, the learning difficulty difference in target samples is different but ignored, leaving hard target samples poorly classified. To tackle both deficiencies, in this paper, we propose a novel Confidence-based Visual Dispersal Transfer learning method (C-VisDiT) for FUDA. Specifically, C-VisDiT consists of a cross-domain visual dispersal strategy that transfers only high-confidence source knowledge for model adaptation and an intra-domain visual dispersal strategy that guides the learning of hard target samples with easy ones. We conduct extensive experiments on Office-31, Office-Home, VisDA-C, and DomainNet benchmark datasets and the results demonstrate that the proposed C-VisDiT significantly outperforms state-of-the-art FUDA methods. Our code is available at https://github.com/Bostoncake/C-VisDiT.
翻訳日:2023-10-02 10:17:21 公開日:2023-09-29
# LogicMP: 一階論理制約を符号化するニューロシンボリックアプローチ

LogicMP: A Neuro-symbolic Approach for Encoding First-order Logic Constraints ( http://arxiv.org/abs/2309.15458v2 )

ライセンス: Link先を確認
Weidi Xu, Jingwei Wang, Lele Xie, Jianshan He, Hongting Zhou, Taifeng Wang, Xiaopei Wan, Jingdong Chen, Chao Qu, Wei Chu(参考訳) ニューラルネットワークに一階述語論理制約(FOLC)を統合することは、制約を満たすために複雑な相関をモデル化する必要があるため、極めて難しい問題である。 本稿では,MLN上で平均場変動推定を行う新しいニューラルネットワーク層LogicMPを提案する。 モジュール性と効率を保ちながらFOLCをエンコードするために、市販のニューラルネットワークにプラグインすることができる。 mlnsの構造と対称性を活用し,mln推論の難しさを効果的に軽減し,逐次計算から一連の並列テンソル演算への推論を減少させることを理論的に証明した。 グラフ、画像、テキストの3種類のタスクを経験した結果、LogicMPはパフォーマンスと効率の両面で先進的な競合より優れていた。

Integrating first-order logic constraints (FOLCs) with neural networks is a crucial but challenging problem since it involves modeling intricate correlations to satisfy the constraints. This paper proposes a novel neural layer, LogicMP, whose layers perform mean-field variational inference over an MLN. It can be plugged into any off-the-shelf neural network to encode FOLCs while retaining modularity and efficiency. By exploiting the structure and symmetries in MLNs, we theoretically demonstrate that our well-designed, efficient mean-field iterations effectively mitigate the difficulty of MLN inference, reducing the inference from sequential calculation to a series of parallel tensor operations. Empirical results in three kinds of tasks over graphs, images, and text show that LogicMP outperforms advanced competitors in both performance and efficiency.
翻訳日:2023-10-02 10:16:52 公開日:2023-09-29