このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231006となっている論文です。

PDF登録状況(公開日: 20231006)

TitleAuthorsAbstract論文公表日・翻訳日
# 1つの自己準同型を与えられた超特異な自己準同型環問題

The supersingular endomorphism ring problem given one endomorphism ( http://arxiv.org/abs/2309.11912v2 )

ライセンス: Link先を確認
Arthur Herlédan Le Merdy, Benjamin Wesolowski, (参考訳) E の超特異楕円曲線 E と非スカラー自己準同型 $\alpha$ が与えられたとき、E の自己準同型環は円板(Z[$\alpha$])^1/4 に関する古典的時間と量子部分指数時間で計算できることを証明し、一般化されたリーマン予想を仮定する。 以前の結果はより複雑なものか、ヒューリスティックな仮定に依存していた。 その過程で、プリミチベーション問題は多項式時間で解けることを証明し(以前は難しいと考えられていた)、配向楕円曲線上の滑らかなイデアルの作用は多項式時間で計算可能であることを証明した(この形式の以前の結果は、イデアルをパワームース(すなわち、大きな素数で割り切れない)。 SIDH攻撃後,高次元の異性体が本研究の主成分となった。

Given a supersingular elliptic curve E and a non-scalar endomorphism $\alpha$ of E, we prove that the endomorphism ring of E can be computed in classical time about disc(Z[$\alpha$])^1/4 , and in quantum subexponential time, assuming the generalised Riemann hypothesis. Previous results either had higher complexities, or relied on heuristic assumptions. Along the way, we prove that the Primitivisation problem can be solved in polynomial time (a problem previously believed to be hard), and we prove that the action of smooth ideals on oriented elliptic curves can be computed in polynomial time (previous results of this form required the ideal to be powersmooth, i.e., not divisible by any large prime power). Following the attacks on SIDH, isogenies in high dimension are a central ingredient of our results.
翻訳日:2024-03-19 04:01:03 公開日:2023-10-06
# DeMiST:ステルスアナログハードウェアトロイの木馬の検出と緩和

DeMiST: Detection and Mitigation of Stealthy Analog Hardware Trojans ( http://arxiv.org/abs/2310.03994v1 )

ライセンス: Link先を確認
Enahoro Oriero, Faiq Khalid, Syed Rafay Hasan, (参考訳) グローバル半導体サプライチェーンは、様々な場所での設計と製造を伴い、ハードウェアトロイジャン(HT)の挿入など、複数のセキュリティ脆弱性を引き起こす。 ほとんどのHTはデジタル回路をターゲットにしているが、HTはアナログ回路に挿入できる。 そのため、アナログ回路におけるHT挿入のためのいくつかの技術が開発されている。 キャパシタンスベースのAHT(Analog Hardware Trojan)は、キャパシタに無視可能な電荷蓄積を利用してステルストリガを生成するため、既存のほとんどのHT検出技術をバイパスできる最もステルスなHTの1つである。 本稿では、電荷共有と蓄積の問題に対処するために、そのような容量ベースのAHTを検出する新しい方法を提案する。 第二に、既存のAHTを批判的に分析し、それぞれの制限を強調した。 我々は、これらの制限に対処して、新しいAHT検出手法を回避できるステルスキャパシタを用いたAHT(fortified AHT)を提案する。 最後に, 提案した要塞化AHTと既存のAHTを批判的に解析することにより, AHTのトリガ機能をオフにすることで, コンデンサベースステルスAHTの効果を軽減できる堅牢な2相フレームワーク(DeMiST)を開発した。 第1フェーズでは、中間結合回路の供給電圧を制御することにより、実行中に同期システムがAHTを回避する方法を示す。 第2フェーズでは、容量ベースAHTを検出するための電源電圧デューティサイクルに基づく検証手法を提案する。 さらに、DeMiSTは、電荷蓄積のためのスイッチングアクティビティを、既存のスイッチングアクティビティベースのHT検出技術で容易に検出できる程度に増幅した。

The global semiconductor supply chain involves design and fabrication at various locations, which leads to multiple security vulnerabilities, e.g., Hardware Trojan (HT) insertion. Although most HTs target digital circuits, HTs can be inserted in analog circuits. Therefore, several techniques have been developed for HT insertions in analog circuits. Capacitance-based Analog Hardware Trojan (AHT) is one of the stealthiest HT that can bypass most existing HT detection techniques because it uses negligible charge accumulation in the capacitor to generate stealthy triggers. To address the charge sharing and accumulation issues, we propose a novel way to detect such capacitance-based AHT in this paper. Secondly, we critically analyzed existing AHTs to highlight their respective limitations. We proposed a stealthier capacitor-based AHT (fortified AHT) that can bypass our novel AHT detection technique by addressing these limitations. Finally, by critically analyzing the proposed fortified AHT and existing AHTs, we developed a robust two-phase framework (DeMiST) in which a synchronous system can mitigate the effects of capacitance-based stealthy AHTs by turning off the triggering capability of AHT. In the first phase, we demonstrate how the synchronous system can avoid the AHT during run-time by controlling the supply voltage of the intermediate combinational circuits. In the second phase, we proposed a supply voltage duty cycle-based validation technique to detect capacitance-based AHTs. Furthermore, DeMiST amplified the switching activity for charge accumulation to such a degree that it can be easily detectable using existing switching activity-based HT detection techniques.
翻訳日:2024-03-19 03:12:08 公開日:2023-10-06
# マイナーは楕円曲線離散対数問題を解く

Minors solve the elliptic curve discrete logarithm problem ( http://arxiv.org/abs/2310.04132v1 )

ライセンス: Link先を確認
Ansari Abdullah, Ayan Mahalanobis, (参考訳) 楕円曲線離散対数問題は、公開鍵暗号において基本的な重要性である。 それは長い間使われています。 さらに、これは計算数学における興味深い挑戦である。 その解決策は、興味深い研究の方向性を提供するはずである。 本稿では楕円曲線離散対数問題の解法を検討する。 私たちの結果はおもに計算結果です。 しかし、私たちが追求する方法や方向性は、この問題に対して強力な攻撃を与えることができるように思われる。 この研究は、楕円曲線が定義される同じ有限体上の行列の零部分を見つけ、この問題を解こうとする初期の研究に続くものである。 この論文は自己完結している。

The elliptic curve discrete logarithm problem is of fundamental importance in public-key cryptography. It is in use for a long time. Moreover, it is an interesting challenge in computational mathematics. Its solution is supposed to provide interesting research directions. In this paper, we explore ways to solve the elliptic curve discrete logarithm problem. Our results are mostly computational. However, it seems, the methods that we develop and directions that we pursue can provide a potent attack on this problem. This work follows our earlier work, where we tried to solve this problem by finding a zero minor in a matrix over the same finite field on which the elliptic curve is defined. This paper is self-contained.
翻訳日:2024-03-19 03:12:08 公開日:2023-10-06
# 間接メルトダウン:過渡的実行攻撃による新たなサイドチャネル攻撃の構築

Indirect Meltdown: Building Novel Side-Channel Attacks from Transient-Execution Attacks ( http://arxiv.org/abs/2310.04183v1 )

ライセンス: Link先を確認
Daniel Weber, Fabian Thomas, Lukas Gerlach, Ruiyi Zhang, Michael Schwarz, (参考訳) 過渡実行攻撃のMeltdownは、注文外実行中にアクセス不能なデータに過渡アクセスすることで機密情報をリークする。 最近のCPU世代ではMeltdownはハードウェアで固定されているが、現在デプロイされているほとんどのCPUはKPTIのようなソフトウェアによる軽減に頼らなければならない。 それでも、メルトダウンは現在のシステムでは説明不能であると考えられている。 本稿では,メルトダウンに別の間接層を追加することで,過渡的実行攻撃をサイドチャネル攻撃に変換し,データの代わりにメタデータを漏洩させることを示す。 ソフトウェア対策にもかかわらず、攻撃者は非機密データ上でMeltdownの成功率を観察して、他のセキュリティドメインからメタデータをリークすることができる。 LeakIDTでは,カーネルアドレスのキャッシュラインの粒度モニタリングを行う。 LeakIDTは、攻撃者による割り込みのサイクル精度の高いタイムスタンプを得ることを可能にする。 私たちは攻撃を利用して、キーストローク間の正確なタイミングと、訪問したウェブサイトの指紋を取得する。 我々はLeakIDTの悪用を防ぐための低オーバーヘッドソフトウェア対策を提案するが、過渡的実行攻撃のサイドチャネルの側面は過小評価されるべきではないことを強調する。

The transient-execution attack Meltdown leaks sensitive information by transiently accessing inaccessible data during out-of-order execution. Although Meltdown is fixed in hardware for recent CPU generations, most currently-deployed CPUs have to rely on software mitigations, such as KPTI. Still, Meltdown is considered non-exploitable on current systems. In this paper, we show that adding another layer of indirection to Meltdown transforms a transient-execution attack into a side-channel attack, leaking metadata instead of data. We show that despite software mitigations, attackers can still leak metadata from other security domains by observing the success rate of Meltdown on non-secret data. With LeakIDT, we present the first cache-line granular monitoring of kernel addresses. LeakIDT allows an attacker to obtain cycle-accurate timestamps for attacker-chosen interrupts. We use our attack to get accurate inter-keystroke timings and fingerprint visited websites. While we propose a low-overhead software mitigation to prevent the exploitation of LeakIDT, we emphasize that the side-channel aspect of transient-execution attacks should not be underestimated.
翻訳日:2024-03-19 03:12:08 公開日:2023-10-06
# メルトダウン3aの復活

Reviving Meltdown 3a ( http://arxiv.org/abs/2310.04192v1 )

ライセンス: Link先を確認
Daniel Weber, Fabian Thomas, Lukas Gerlach, Ruiyi Zhang, Michael Schwarz, (参考訳) 2017年のメルトダウンとスペクターの発見以来、これらの攻撃の様々な変種が発見されている。 しばしば見落とされた派生型はメルトダウン3a、別名メルトダウン-CPL-REGである。 Meltdown-CPL-REGは2018年に初めて発見されたが、脆弱性に関する情報はまだ乏しい。 本稿では、自動化ツールを用いて、異なるベンダーの19種類のCPU上でのMeltdown-CPL-REGを分析する。 我々は、影響がドキュメントよりも多様であり、CPUからCPUまで異なることを観察する。 驚いたことに、最新のIntel CPUはMeltdown-CPL-REGの影響を受けていないように見えるが、最新のAMD CPU(Zen3+)は依然として脆弱性の影響を受けている。 さらに、攻撃プリミティブであるCounterLeakを考慮すれば、Meltdown-CPL-REGは最新のパッチに加えて、暗号アルゴリズムに対するパフォーマンスカウンタベースの攻撃、KASLRの破壊、およびSpectreのマウント攻撃を再現可能であることを示す。 メルトダウン-CPL-REGは他の過渡的実行攻撃ほど強力ではないが、攻撃面を過小評価するべきではない。

Since the initial discovery of Meltdown and Spectre in 2017, different variants of these attacks have been discovered. One often overlooked variant is Meltdown 3a, also known as Meltdown-CPL-REG. Even though Meltdown-CPL-REG was initially discovered in 2018, the available information regarding the vulnerability is still sparse. In this paper, we analyze Meltdown-CPL-REG on 19 different CPUs from different vendors using an automated tool. We observe that the impact is more diverse than documented and differs from CPU to CPU. Surprisingly, while the newest Intel CPUs do not seem affected by Meltdown-CPL-REG, the newest available AMD CPUs (Zen3+) are still affected by the vulnerability. Furthermore, given our attack primitive CounterLeak, we show that besides up-to-date patches, Meltdown-CPL-REG can still be exploited as we reenable performance-counter-based attacks on cryptographic algorithms, break KASLR, and mount Spectre attacks. Although Meltdown-CPL-REG is not as powerful as other transient-execution attacks, its attack surface should not be underestimated.
翻訳日:2024-03-19 03:02:24 公開日:2023-10-06
# Threat Trekker:サイバー脅威追跡のアプローチ

Threat Trekker: An Approach to Cyber Threat Hunting ( http://arxiv.org/abs/2310.04197v1 )

ライセンス: Link先を確認
Ángel Casanova Bienzobas, Alfonso Sánchez-Macián, (参考訳) 脅威狩りは、複雑な環境でのサイバー攻撃を探索、検出、緩和するための積極的な方法論である。 従来の検知システムとは対照的に、脅威狩猟戦略は敵がシステムに侵入したと仮定し、侵入の試みを示す可能性のある異常なパターンや活動を積極的に探索する。 歴史的にこの取り組みは,(1)仮説駆動型調査,(2)妥協の指標(IOC),(3)ハイレベルな機械学習分析に基づくアプローチの3つの手法を用いて追求されてきた。 そこで本研究では,Threat Trekkerと呼ばれる新しい機械学習パラダイムを提案する。 この提案では,データを直接イベントストリーミングチャネルに供給し,アルゴリズムによって処理し,ホストネットワークにフィードバックを提供するコネクタを利用する。 これらの実験から得られた結論は、より微妙な攻撃を分類するために機械学習を使うことの有効性を明確に証明している。

Threat hunting is a proactive methodology for exploring, detecting and mitigating cyberattacks within complex environments. As opposed to conventional detection systems, threat hunting strategies assume adversaries have infiltrated the system; as a result they proactively search out any unusual patterns or activities which might indicate intrusion attempts. Historically, this endeavour has been pursued using three investigation methodologies: (1) Hypothesis-Driven Investigations; (2) Indicator of Compromise (IOC); and (3) High-level machine learning analysis-based approaches. Therefore, this paper introduces a novel machine learning paradigm known as Threat Trekker. This proposal utilizes connectors to feed data directly into an event streaming channel for processing by the algorithm and provide feedback back into its host network. Conclusions drawn from these experiments clearly establish the efficacy of employing machine learning for classifying more subtle attacks.
翻訳日:2024-03-19 03:02:24 公開日:2023-10-06
# フェデレーションラーニングとマルチパーティ計算によるプライバシー保護型財務異常検出

Privacy-Preserving Financial Anomaly Detection via Federated Learning & Multi-Party Computation ( http://arxiv.org/abs/2310.04546v1 )

ライセンス: Link先を確認
Sunpreet Arora, Andrew Beams, Panagiotis Chatzigiannis, Sebastian Meiser, Karan Patel, Srinivasan Raghuraman, Peter Rindal, Harshal Shah, Yizhen Wang, Yuhang Wu, Hao Yang, Mahdi Zamani, (参考訳) 今日の金融機関(FIs)の主な目的の1つは、詐欺や金融犯罪と戦うことである。 この目的のためにFIは、顧客から収集したデータを使って訓練された洗練された機械学習モデルを使用する。 機械学習モデルのアウトプットは、トランザクションが異常である可能性とその後のアクションの手順を決定するといった、重要なユースケースのために手動でレビューすることができる。 高度な機械学習モデルは異常検出においてFIを大いに支援する一方で、他のFIから追加の顧客データを使用してモデル性能を著しく向上させることができる。 しかし、実際には、FIは他のFIとデータを共有するための顧客からの適切な同意が得られない可能性がある。 さらに、データプライバシの規制は、FIが特定の地理的にクライアントの機密データを共有することを禁じる可能性がある。 したがって、顧客のデータを組み合わせて高精度な異常検出モデルを共同訓練することは、運用環境におけるFIにとって困難である。 本稿では、FIが高精度な異常検出モデルを共同で訓練できるプライバシー保護フレームワークについて述べる。 このフレームワークは、フェデレーション学習の概念と、差分プライバシーにインスパイアされた効率的なマルチパーティ計算とノイズの多い集約を組み合わせる。 提示された枠組みは、US/UK PETs Challengeの金融犯罪検出トラックの勝者として提出された。 この課題は、銀行が顧客データを保持し、中央ネットワークを通じてトランザクションを実行するアーキテクチャを検討することである。 当社のソリューションは,顧客データのプライバシを保ちながら,高精度な異常検出モデルをトレーニングすることを可能にする。 実験の結果,提案手法を用いて顧客データを追加することで,異常検出モデルのAUPRCを0.6から0.7に改善することがわかった。 我々は、我々のフレームワークが、他の同様のシナリオにどのように一般化されるかについて論じる。

One of the main goals of financial institutions (FIs) today is combating fraud and financial crime. To this end, FIs use sophisticated machine-learning models trained using data collected from their customers. The output of machine learning models may be manually reviewed for critical use cases, e.g., determining the likelihood of a transaction being anomalous and the subsequent course of action. While advanced machine learning models greatly aid an FI in anomaly detection, model performance could be significantly improved using additional customer data from other FIs. In practice, however, an FI may not have appropriate consent from customers to share their data with other FIs. Additionally, data privacy regulations may prohibit FIs from sharing clients' sensitive data in certain geographies. Combining customer data to jointly train highly accurate anomaly detection models is therefore challenging for FIs in operational settings. In this paper, we describe a privacy-preserving framework that allows FIs to jointly train highly accurate anomaly detection models. The framework combines the concept of federated learning with efficient multi-party computation and noisy aggregates inspired by differential privacy. The presented framework was submitted as a winning entry to the financial crime detection track of the US/UK PETs Challenge. The challenge considered an architecture where banks hold customer data and execute transactions through a central network. We show that our solution enables the network to train a highly accurate anomaly detection model while preserving privacy of customer data. Experimental results demonstrate that use of additional customer data using the proposed approach results in improvement of our anomaly detection model's AUPRC from 0.6 to 0.7. We discuss how our framework, can be generalized to other similar scenarios.
翻訳日:2024-03-19 03:02:24 公開日:2023-10-06
# KyberMat:NTTおよびポリフェーズ分解によるCRYSTALS-Kyberスキームの行列ベクトル多項式乗算の効率的な加速器

KyberMat: Efficient Accelerator for Matrix-Vector Polynomial Multiplication in CRYSTALS-Kyber Scheme via NTT and Polyphase Decomposition ( http://arxiv.org/abs/2310.04618v1 )

ライセンス: Link先を確認
Weihang Tan, Yingjie Lao, Keshab K. Parhi, (参考訳) CRYSTAL-Kyber (Kyber) は、標準化プロセス中に選択された暗号鍵カプセル化機構 (KEM) の1つである。 本稿では,Kyberアーキテクチャのレイテンシとスループットの制約に対する最適化について述べる。 具体的には、行列ベクトル乗法と数理論変換(NTT)に基づく多項式乗法は、最適化を必要とする重要な演算とボトルネックである。 この課題に対処するために,計算複雑性を低減するために,新しいサブ構造共有技術を用いて,行列ベクトル乗法とNTTベースの多項式乗法を体系的に最適化するアルゴリズムとハードウェア共同設計手法を提案する。 サブ構造共有アプローチは、多相分解に基づく事前の高速並列アプローチに着想を得たものである。 提案した効率的なフィードフォワードアーキテクチャは,全ハードウェアコンポーネントの高速,低レイテンシ,フル活用を実現し,キーバー方式の全体的な効率を大幅に向上させることができる。 FPGA実装の結果から,高速な2並列構造を用いた設計により,実行時間の約90%が削減され,スループット性能も66倍に向上した。

CRYSTAL-Kyber (Kyber) is one of the post-quantum cryptography (PQC) key-encapsulation mechanism (KEM) schemes selected during the standardization process. This paper addresses optimization for Kyber architecture with respect to latency and throughput constraints. Specifically, matrix-vector multiplication and number theoretic transform (NTT)-based polynomial multiplication are critical operations and bottlenecks that require optimization. To address this challenge, we propose an algorithm and hardware co-design approach to systematically optimize matrix-vector multiplication and NTT-based polynomial multiplication by employing a novel sub-structure sharing technique in order to reduce computational complexity, i.e., the number of modular multiplications and modular additions/subtractions consumed. The sub-structure sharing approach is inspired by prior fast parallel approaches based on polyphase decomposition. The proposed efficient feed-forward architecture achieves high speed, low latency, and full utilization of all hardware components, which can significantly enhance the overall efficiency of the Kyber scheme. The FPGA implementation results show that our proposed design, using the fast two-parallel structure, leads to an approximate reduction of 90% in execution time, along with a 66 times improvement in throughput performance.
翻訳日:2024-03-19 03:02:24 公開日:2023-10-06
# リモートワークの増加期における従業員の現場での働き方

What Attracts Employees to Work Onsite in Times of Increased Remote Working? ( http://arxiv.org/abs/2311.09232v1 )

ライセンス: Link先を確認
Darja Smite, Eriks Klotins, Nils Brede Moe(参考訳) 新型コロナウイルスのパンデミックは、オフィスの存在に対する態度を不可逆的に変えた。 これまでリモートワーカーは懐疑と不信に満ちていたが、今日ではリモートワークを禁止している企業にも当てはまる。 多くのワークスペースは空です。 本稿では,8社(ericsson, knowit, sparebank 1 utvikling, spotify, storebrand, telenor, company-x, company-y, and their sites in sweden, norway and the uk)におけるオフィスの役割,企業方針,およびリモートワークに関する行動について考察する。 私たちの発見は2倍です。 まず、企業が実際にオフィスの存在に悩まされており、企業スペース(35-67%)が未利用であることがわかりました。 第2に,オフィスの存在動機はコネクティビティとコミュニティであり,それに続く物質提供,選好,義務であることがわかった。 最後に、現場作業を促進するための実行可能なアドバイスをまとめた。これは、他の多くの企業がオフィスでの生活を回復するのに役立ちそうだ。

COVID-19 pandemic has irreversibly changed the attitude towards office presence. While previously remote workers were met with skepticism and distrust, today the same applies to companies prohibiting remote working. Albeit many workspaces are half empty. In this paper, we offer insights into the role of the office, corporate policies and actions regarding remote work in eight companies: Ericsson, Knowit, SpareBank 1 Utvikling, Spotify, Storebrand, Telenor, Company-X, Company-Y, and their sites in Sweden, Norway and the UK. Our findings are twofold. First, we found that companies indeed struggle with office presence and a large share of corporate space (35-67%) is underutilized. Second, we found that the main motivator for office presence is Connection and community, followed by Material offerings, Preference and Duty. Finally, we summarize actionable advice to promote onsite work, which is likely to help many other companies to rejuvenate life in their offices.
翻訳日:2024-01-15 16:12:01 公開日:2023-10-06
# そうなの? モバイルバイオメトリックスとテクノポリティクス : クイアコミュニティの考察

Should they? Mobile Biometrics and Technopolicy meet Queer Community Considerations ( http://arxiv.org/abs/2311.10725v1 )

ライセンス: Link先を確認
Anaelia Ovalle, Davi Liang, Alicia Boyd(参考訳) スマートフォンは私たちの日常生活や活動に不可欠な機能であり、テキストメッセージや電話といった基本的な機能を提供し、ナビゲーション、モバイルゲーム、フィットネストラッキングといったより複雑なモーションベースの機能を提供します。 これらの機能を容易にするために、スマートフォンは加速度計やジャイロスコープなどの統合センサーに依存している。 これらのセンサーはパーソナライズされた測定を提供し、モバイルの健康のために生体データを分析するなどのタスクに寄与する。 スマートフォン利用者の利益に加えて、生体認証データは生体認証研究に携わる研究者にとって重要な価値を持っている。 それでも、歩行や性別認識などの生体認証タスクにこのユーザーデータを利用すれば、特にクイアコミュニティ内で、深刻なプライバシー、規範、倫理的懸念が高まる。 アルゴリズム的偏見とアルゴリズムによって引き起こされるジフォリアの懸念は、地域社会に対する縁取り、監視、ハラスメント、差別、暴力の歴史的背景から表面化している。 本稿では,新たなデータ保護とバイオメトリクス収集の実践の課題や緊張感,機会を,クイアコミュニティの社会技術的現実と相反する形で提供することによって,AI駆動システムにおける人権の保護に関するタイムリーな議論に貢献する。

Smartphones are integral to our daily lives and activities, providing us with basic functions like texting and phone calls to more complex motion-based functionalities like navigation, mobile gaming, and fitness-tracking. To facilitate these functionalities, smartphones rely on integrated sensors like accelerometers and gyroscopes. These sensors provide personalized measurements that, in turn, contribute to tasks such as analyzing biometric data for mobile health purposes. In addition to benefiting smartphone users, biometric data holds significant value for researchers engaged in biometric identification research. Nonetheless, utilizing this user data for biometric identification tasks, such as gait and gender recognition, raises serious privacy, normative, and ethical concerns, particularly within the queer community. Concerns of algorithmic bias and algorithmically-driven dysphoria surface from a historical backdrop of marginalization, surveillance, harassment, discrimination, and violence against the queer community. In this position paper, we contribute to the timely discourse on safeguarding human rights within AI-driven systems by providing a sense of challenges, tensions, and opportunities for new data protections and biometric collection practices in a way that grapples with the sociotechnical realities of the queer community.
翻訳日:2024-01-15 15:55:58 公開日:2023-10-06
# アルツハイマー病のマルチモーダル診断

Multimodal Identification of Alzheimer's Disease: A Review ( http://arxiv.org/abs/2311.12842v1 )

ライセンス: Link先を確認
Guian Fang, Mengsha Liu, Yi Zhong, Zhuolin Zhang, Jiehui Huang, Zhenchao Tang, Calvin Yu-Chian Chen(参考訳) アルツハイマー病は認知障害と記憶喪失を特徴とする進行性神経障害である。 高齢化に伴い、ADの頻度は増加し続けており、早期診断や介入が緊急に必要となる。 近年、多くのチームがADの早期分類研究にコンピュータ支援診断技術を適用している。 ほとんどの研究は、MRI(MRI)、ポジトロン放射断層撮影(PET)、脳波(EEG)などの画像モダリティを活用している。 しかし、音、姿勢、バイオマーカー、認知評価スコア、それらの融合といったモデルの入力特徴として、他のモダリティを使おうとした研究もある。 実験結果から,複数モーダルの組合せは単一モーダルに比べて性能が向上することが示された。 そこで本稿では, 様々なモダリティとその融合に着目し, 様々なモダリティのメカニズムを徹底的に解明し, それらの有効性を活かすために組み合わせるべき方法を探究し, 近年のADの早期分類分野における文献を解析・要約し, モダリティの組み合わせの可能性を探究する。

Alzheimer's disease is a progressive neurological disorder characterized by cognitive impairment and memory loss. With the increasing aging population, the incidence of AD is continuously rising, making early diagnosis and intervention an urgent need. In recent years, a considerable number of teams have applied computer-aided diagnostic techniques to early classification research of AD. Most studies have utilized imaging modalities such as magnetic resonance imaging (MRI), positron emission tomography (PET), and electroencephalogram (EEG). However, there have also been studies that attempted to use other modalities as input features for the models, such as sound, posture, biomarkers, cognitive assessment scores, and their fusion. Experimental results have shown that the combination of multiple modalities often leads to better performance compared to a single modality. Therefore, this paper will focus on different modalities and their fusion, thoroughly elucidate the mechanisms of various modalities, explore which methods should be combined to better harness their utility, analyze and summarize the literature in the field of early classification of AD in recent years, in order to explore more possibilities of modality combinations.
翻訳日:2024-01-15 15:36:45 公開日:2023-10-06
# 完全畳み込み型デジタル画像処理によるブランキングプロセスにおける工具摩耗セグメンテーション

Tool Wear Segmentation in Blanking Processes with Fully Convolutional Networks based Digital Image Processing ( http://arxiv.org/abs/2311.12841v1 )

ライセンス: Link先を確認
Clemens Schlegel, Dirk Alexander Molitor, Christian Kubik, Daniel Michael Martin, Peter Groche(参考訳) ツール摩耗の拡大はブランキングプロセスに大きな影響を与え、製品の品質と生産性に決定的な影響を与えます。 このため、多くの科学者が、重要な摩耗を早期に特定または予測するために、監視システムを身につける研究に取り組んできた。 既存のアプローチは主に、しきい値や機械学習モデルを通じて重要な摩耗状態を検出するために使用される時系列を使用した間接的なモニタリングに基づいている。 それにもかかわらず、磨耗時の工具に影響を及ぼす摩耗現象の種類や摩耗面の定量化は、実際には限定されている。 時系列データは摩耗の発生と進化に関する部分的な洞察を提供するが、画像データを利用した直接監視技術はより包括的な視点を提供し、さまざまなプロセスパラメータを扱う際の堅牢性を高める。 しかし、このデータのリアルタイム取得と処理は困難である。 特に、画像データの高次元性に加えて、ストローク率の増加と高ダイナミックスを組み合わせることで、直接画像ベースの監視システムの開発が妨げられている。 そこで本研究では,600spmのツールの高解像度画像を,セマンティックセグメンテーション深層学習アルゴリズム,より正確にはFCN(Fully Convolutional Networks)を用いてキャプチャし,処理する方法を示す。 125,000枚のツールの画像が連続するストロークから撮影され、顕微鏡画像は摩耗面を調べるために撮影される。 顕微鏡画像から得られた知見に基づき、選択された画像は、その摩耗条件に応じて画素単位でラベル付けされ、FCN(U-Net)のトレーニングに使用される。

The extend of tool wear significantly affects blanking processes and has a decisive impact on product quality and productivity. For this reason, numerous scientists have addressed their research to wear monitoring systems in order to identify or even predict critical wear at an early stage. Existing approaches are mainly based on indirect monitoring using time series, which are used to detect critical wear states via thresholds or machine learning models. Nevertheless, differentiation between types of wear phenomena affecting the tool during blanking as well as quantification of worn surfaces is still limited in practice. While time series data provides partial insights into wear occurrence and evolution, direct monitoring techniques utilizing image data offer a more comprehensive perspective and increased robustness when dealing with varying process parameters. However, acquiring and processing this data in real-time is challenging. In particular, high dynamics combined with increasing strokes rates as well as the high dimensionality of image data have so far prevented the development of direct image-based monitoring systems. For this reason, this paper demonstrates how high-resolution images of tools at 600 spm can be captured and subsequently processed using semantic segmentation deep learning algorithms, more precisely Fully Convolutional Networks (FCN). 125,000 images of the tool are taken from successive strokes, and microscope images are captured to investigate the worn surfaces. Based on findings from the microscope images, selected images are labeled pixel by pixel according to their wear condition and used to train a FCN (U-Net).
翻訳日:2024-01-15 15:36:24 公開日:2023-10-06
# 潜在ベクトル表現を用いたウェーハマップ欠陥パターンの半教師付き分類

Wafer Map Defect Patterns Semi-Supervised Classification Using Latent Vector Representation ( http://arxiv.org/abs/2311.12840v1 )

ライセンス: Link先を確認
Qiyu Wei and Wei Zhao and Xiaoyan Zheng and Zeng Zeng(参考訳) 半導体設計・製造プロセスのグローバル化が進むにつれて、集積回路製造段階における欠陥検出の需要がますます重要になり、半導体製品の収量向上に重要な役割を果たしている。 従来のウェーハマップの欠陥パターン検出手法では、電子顕微鏡を用いてサンプル画像を収集し、欠陥を専門家によって評価する。 このアプローチは労働集約的で非効率です。 したがって、手動操作の代わりに欠陥を自動的に検出できるモデルを開発する必要がある。 本稿では,当初トレーニング済みのVAEモデルを用いて,ウエハマップの故障分布情報を取得する手法を提案する。 この情報は、半教師付きモデルトレーニングのためのオリジナルイメージセットと組み合わせて、ガイダンスとして機能する。 セミ教師付きトレーニングでは,教師と学生のネットワークを反復学習に活用する。 本論文で示したモデルは、ベンチマークデータセットwm-811k waferデータセット上で検証される。 実験により, 工業応用の要件を満たす技術モデルと比較して, 分類精度と検出性能が優れていた。 オリジナルのアーキテクチャと比較すると、パフォーマンスが大幅に向上しました。

As the globalization of semiconductor design and manufacturing processes continues, the demand for defect detection during integrated circuit fabrication stages is becoming increasingly critical, playing a significant role in enhancing the yield of semiconductor products. Traditional wafer map defect pattern detection methods involve manual inspection using electron microscopes to collect sample images, which are then assessed by experts for defects. This approach is labor-intensive and inefficient. Consequently, there is a pressing need to develop a model capable of automatically detecting defects as an alternative to manual operations. In this paper, we propose a method that initially employs a pre-trained VAE model to obtain the fault distribution information of the wafer map. This information serves as guidance, combined with the original image set for semi-supervised model training. During the semi-supervised training, we utilize a teacher-student network for iterative learning. The model presented in this paper is validated on the benchmark dataset WM-811K wafer dataset. The experimental results demonstrate superior classification accuracy and detection performance compared to state-of-the-art models, fulfilling the requirements for industrial applications. Compared to the original architecture, we have achieved significant performance improvement.
翻訳日:2024-01-15 15:36:00 公開日:2023-10-06
# 単語埋め込みによるトピックモデリングの一手法

A Process for Topic Modelling Via Word Embeddings ( http://arxiv.org/abs/2312.03705v1 )

ライセンス: Link先を確認
Diego Salda\~na Ulloa(参考訳) この研究は、単語埋め込み、次元縮小、クラスタリングに基づくアルゴリズムを組み合わせる。 目的は、未分類のテキストからトピックを取得することである。 単語の埋め込みを得るアルゴリズムは、NLPタスクで広く使われているニューラルネットワークアーキテクチャであるBERTモデルである。 高次元性のため、UMAPと呼ばれる次元削減技術が用いられている。 本手法は、元のデータの局所的およびグローバル的情報の一部を保存しつつ、寸法を削減できる。 K-Meansはクラスタリングアルゴリズムとして使われ、トピックを得る。 次に、TF-IDF統計、トピック多様性、トピックコヒーレンスを用いてトピックを評価し、クラスタ上の単語の意味を取得する。 プロセスの結果は良い値を示すので、このプロセスのトピックモデリングはラベルなしでテキストを分類またはクラスタリングするための実行可能な選択肢である。

This work combines algorithms based on word embeddings, dimensionality reduction, and clustering. The objective is to obtain topics from a set of unclassified texts. The algorithm to obtain the word embeddings is the BERT model, a neural network architecture widely used in NLP tasks. Due to the high dimensionality, a dimensionality reduction technique called UMAP is used. This method manages to reduce the dimensions while preserving part of the local and global information of the original data. K-Means is used as the clustering algorithm to obtain the topics. Then, the topics are evaluated using the TF-IDF statistics, Topic Diversity, and Topic Coherence to get the meaning of the words on the clusters. The results of the process show good values, so the topic modeling of this process is a viable option for classifying or clustering texts without labels.
翻訳日:2024-01-15 15:12:25 公開日:2023-10-06
# in nomine patris... 中世父性の意味論の要素

In nomine patris... Elements for a semantics of medieval paternity ( http://arxiv.org/abs/2311.04907v1 )

ライセンス: Link先を確認
Nicolas Perreaux (LAMOP)(参考訳) 本稿は,中世のテキストコーパスのデジタル解析を通して,父子関係と父子関係の中世概念を考察する。 歴史家は2023年に巨大なデジタルコレクションにアクセスできたが、これらの資源を十分に活用することはめったにない。 筆者らは,父性に関連する用語の進化を分析するために,モデリングツールやテキストマイニング全般を用いて,このテーマに対する歴史的意味論的アプローチを提案する。 研究は3つの結論を提案する。 一) 古代から中世前期にかけて、父性の意味の分野において意味的分裂が起こった。 パターとその派生語の意味は、特にキリスト教三位一体の教義の影響を受けて、4世紀から6世紀にかけて根本的に変化した。 中世の父親は多次元的であり、生物学的側面と精神的な側面の両方を包含し、言い換えれば、複数のカルナールと霊的(すなわち神聖な)父の間の複雑な関係を包含していた。 2. アニタ・ゲロー=ジャラベルトとj{\'e}r{\^o}me baschetの研究が既に示しているように、精神的な親族の役割は中世の父親の理解に不可欠である。 当初、この「理想の父親」(父母)は教会のメンバー(ポップ、司教、修道院長)にまで徐々に広がっていき、同時に何世紀にもわたって研究された生物学的血縁よりも精神的血縁の重要性が高まった。 3. 肉眼では見えないこれらの構造を明らかにするため、学際的なアプローチが厳格に求められている。 レムマ・マター、フィリア、フラッター、その他の家族用語に関する補完的な調査が必要である。 デジタルツールと歴史的意味分析を用いることで、歴史学、人類学、言語学、データマイニングの研究者の新しい視点が開かれ、古代社会の表現体系を深く、そしてニュアンスで探求することができる。

This article examines medieval concepts of paternity and father-son relationships through the digital analysis of medieval textual corpora. Although historians have access to enormous digital collections in 2023, they have rarely fully exploited these resources. The author proposes a historical semantic approach to this theme, using modeling tools and text mining in general, to analyze the evolution of terms related to paternity. The study proposes three conclusions: 1. a semantic break occurred in the semantic field of paternity at the turn of Antiquity and the Early Middle Ages. The meaning of pater and its derivatives changed radically over the course of the 4th-6th centuries, particularly as a result of the influence of the dogma of the Christian Trinity. Medieval fatherhood was multidimensional, encompassing both biological and spiritual aspects, in other words, complex relationships between multiple carnal and spiritual (i.e. divine) fathers. 2. The role of spiritual kinship is crucial to understanding medieval fatherhood, as the work of Anita Guerreau-Jalabert and J{\'e}r{\^o}me Baschet has already shown. Initially attributed to God, this ''ideal paternity'' (paternitas) gradually extended to members of the Church (popes, bishops, abbots), underlining at the same time the growing importance of spiritual kinship over biological kinship over the centuries studied. 3. To reveal these structures, invisible to the naked eye, an interdisciplinary approach is rigorously required. Complementary investigations into the lemmas mater, filia, frater and other family terms are required. The use of digital tools and historical semantic analysis opens up new perspectives for researchers in history, anthropology, linguistics and data mining, enabling them to explore the representation systems of ancient societies in depth and with nuance.
翻訳日:2023-11-12 19:35:54 公開日:2023-10-06
# adaboostの概要 : そのダイナミクスの理解を深めるために

Overview of AdaBoost : Reconciling its views to better understand its dynamics ( http://arxiv.org/abs/2310.18323v1 )

ライセンス: Link先を確認
Perceval Beja-Battais (CB)(参考訳) 1980年代後半には昇圧方式が導入された。 彼らはPAC学習の理論的側面に従って生まれた。 強化手法の主な考え方は、弱い学習者を組み合わせて強力な学習者を得ることである。 弱い学習者は、前の弱い学習者の誤りを正そうとするヒューリスティックによって反復的に得られる。 1995年、freundとschapireは、今日でも広く使われているブースティングアルゴリズムであるadaboostを導入した。 それ以来、アルゴリズムの力学を適切に解き明かすために多くの見解が提案されている。 本稿では、AdaBoostで得られるすべてのビューをカバーしようとします。 まずFreundとSchapireのオリジナルのビューから始め、異なるビューをカバーし、それらを同じフォーマリズムで統一する。 この論文は、AdaBoostのダイナミクスと、異なるビューがどのように同等で、相互に関連があるのかをよりよく理解するのに役立ちます。

Boosting methods have been introduced in the late 1980's. They were born following the theoritical aspect of PAC learning. The main idea of boosting methods is to combine weak learners to obtain a strong learner. The weak learners are obtained iteratively by an heuristic which tries to correct the mistakes of the previous weak learner. In 1995, Freund and Schapire [18] introduced AdaBoost, a boosting algorithm that is still widely used today. Since then, many views of the algorithm have been proposed to properly tame its dynamics. In this paper, we will try to cover all the views that one can have on AdaBoost. We will start with the original view of Freund and Schapire before covering the different views and unify them with the same formalism. We hope this paper will help the non-expert reader to better understand the dynamics of AdaBoost and how the different views are equivalent and related to each other.
翻訳日:2023-11-05 14:05:20 公開日:2023-10-06
# 会話型金融情報検索モデル(ConFIRM)

Conversational Financial Information Retrieval Model (ConFIRM) ( http://arxiv.org/abs/2310.13001v1 )

ライセンス: Link先を確認
Stephen Choi, William Gazeley, Siu Ho Wong, Tingting Li(参考訳) 大規模言語モデル(LLM)の指数的な成長に伴い、金融メリット探索(英語版)のような専門分野の創発的特性を活用する。 しかし、金融などの規制された分野は、ドメイン最適化フレームワークを必要とする独自の制約を課す。 質問意図分類と知識ベースラベリングに適したLLMベースの対話型財務情報検索モデルであるConFIRMを提案する。 ConFIRMは、1)ドメイン固有の問合せペアを合成する手法と、2)クエリ分類タスクのためのパラメータ効率の良い微調整手法の評価からなる。 4000以上のサンプルのデータセットを生成し、別々のテストセットで精度を評価します。 確認は90%以上の精度を達成し、規制の遵守に不可欠である。 confirmは金融ダイアログシステムの正確なクエリインテントを抽出するためのデータ効率の良いソリューションを提供する。

With the exponential growth in large language models (LLMs), leveraging their emergent properties for specialized domains like finance merits exploration. However, regulated fields such as finance pose unique constraints, requiring domain-optimized frameworks. We present ConFIRM, an LLM-based conversational financial information retrieval model tailored for query intent classification and knowledge base labeling. ConFIRM comprises two modules: 1) a method to synthesize finance domain-specific question-answer pairs, and 2) evaluation of parameter efficient fine-tuning approaches for the query classification task. We generate a dataset of over 4000 samples, assessing accuracy on a separate test set. ConFIRM achieved over 90% accuracy, essential for regulatory compliance. ConFIRM provides a data-efficient solution to extract precise query intent for financial dialog systems.
翻訳日:2023-10-29 16:24:05 公開日:2023-10-06
# 関係相関強化による文書レベル関係抽出

Document-Level Relation Extraction with Relation Correlation Enhancement ( http://arxiv.org/abs/2310.13000v1 )

ライセンス: Link先を確認
Yusheng Huang, Zhouhan Lin(参考訳) ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内のエンティティ間の関係を識別することに焦点を当てたタスクである。 しかし、既存のドクレモデルはしばしば関係の相関を見落とし、相関関係の定量的解析を欠いている。 この制限に対処し、DocREの相関関係を効果的に捉えるために、関係間の相互依存を明示的に活用することを目的とした関係グラフ法を提案する。 まず,先行関係知識から得られた統計的共起情報を用いて関係関係をモデル化する関係グラフを構築する。 第二に,関係情報の伝播を導くための効果的な関係相関行列を作成するために,再重み付け方式を採用する。 さらに,グラフアテンションネットワークを利用して関係埋め込みを集約する。 重要なのは、既存のモデルにプラグイン・アンド・プレイモジュールとしてシームレスに統合できることです。 実験結果から,本手法はマルチリレーション抽出の性能を向上し,DocREにおける相関関係の考察の有効性を強調した。

Document-level relation extraction (DocRE) is a task that focuses on identifying relations between entities within a document. However, existing DocRE models often overlook the correlation between relations and lack a quantitative analysis of relation correlations. To address this limitation and effectively capture relation correlations in DocRE, we propose a relation graph method, which aims to explicitly exploit the interdependency among relations. Firstly, we construct a relation graph that models relation correlations using statistical co-occurrence information derived from prior relation knowledge. Secondly, we employ a re-weighting scheme to create an effective relation correlation matrix to guide the propagation of relation information. Furthermore, we leverage graph attention networks to aggregate relation embeddings. Importantly, our method can be seamlessly integrated as a plug-and-play module into existing models. Experimental results demonstrate that our approach can enhance the performance of multi-relation extraction, highlighting the effectiveness of considering relation correlations in DocRE.
翻訳日:2023-10-29 16:23:52 公開日:2023-10-06
# zermeloのナビゲーション問題に対するハイブリッド探索法

Hybrid Search method for Zermelo's navigation problem ( http://arxiv.org/abs/2308.02434v2 )

ライセンス: Link先を確認
Daniel Precioso, Robert Milson, Louis Bu, Yvonne Menchions, David G\'omez-Ullate(参考訳) 本稿では,zermeloのナビゲーション初期値問題とferraro-mart\'in de diego-almagroアルゴリズムを融合したハイブリッド探索アルゴリズムを提案する。 我々のアルゴリズムはユークリッド空間と球面空間の両方で動作するように設計されており、目的地を中心にした所定の探索円錐内に留まりながら船を前進させるヒューリスティックを利用する。 このアプローチは効率を向上するだけでなく、障害物回避も含み、現実世界のアプリケーションに適している。 本研究では,合成ベクトル場と実海流データを用いたハイブリッド探索アルゴリズムの性能評価を行い,その効果と性能を示す。

In this paper, we present a novel algorithm called the Hybrid Search algorithm that integrates the Zermelo's Navigation Initial Value Problem with the Ferraro-Mart\'in de Diego-Almagro algorithm to find the optimal route for a vessel to reach its destination. Our algorithm is designed to work in both Euclidean and spherical spaces and utilizes a heuristic that allows the vessel to move forward while remaining within a predetermined search cone centred around the destination. This approach not only improves efficiency but also includes obstacle avoidance, making it well-suited for real-world applications. We evaluate the performance of the Hybrid Search algorithm on synthetic vector fields and real ocean currents data, demonstrating its effectiveness and performance.
翻訳日:2023-10-23 15:21:42 公開日:2023-10-06
# precisionbugcollector: 拡張可能で実行可能で正確なバグ修正コレクション

PreciseBugCollector: Extensible, Executable and Precise Bug-fix Collection ( http://arxiv.org/abs/2309.06229v3 )

ライセンス: Link先を確認
He Ye, Zimin Chen and Claire Le Goues(参考訳) バグデータセットは、ディープラーニング技術がバグに関連するソフトウェアのメンテナンスタスクに対処できるようにするために不可欠である。 しかし、既存のバグデータセットは、小さなが、手動による検証では正確であるか、単純なコミットメッセージ処理では不正確である。 本稿では,この2つの制限を克服した多言語バグ収集手法であるclearbugcollectorを提案する。 PreciseBugCollectorは2つの新しいコンポーネントに基づいている。 a) コードベースのリポジトリを外部のバグリポジトリにマップし、バグタイプ情報をトレースするバグトラッカー b) バグインジェクタは、正しいコードベースにノイズを注入し、テスト失敗メッセージを取得するためのテストスイートに対して、プロジェクト固有のバグを生成します。 3つのソースに対してPreciseBugCollectorを実装します。 1) 国家脆弱性データセット(NVD)にリンクして一般の脆弱性を収集するバグトラッカー。 2)OSS-Fuzzにリンクして全般的なバグを収集するバグトラッカー 3) プロジェクト毎のバグを生成する16のインジェクションルールに基づくバグインジェクタ。 現在、PreciseBugCollectorは2968のオープンソースプロジェクトから抽出された1057818のバグを含んでいる。 そのうち12602のバグはバグリポジトリ(NVDとOSS-Fuzz)から発生し、残りの1045216のプロジェクト固有のバグはバグインジェクタによって生成される。 プロジェクト固有のバグはドメインの知識と一致し、同じコードベースを共有し、産業プロジェクトで採用されるコーディングスタイルに準拠するためである。

Bug datasets are vital for enabling deep learning techniques to address software maintenance tasks related to bugs. However, existing bug datasets suffer from precise and scale limitations: they are either small-scale but precise with manual validation or large-scale but imprecise with simple commit message processing. In this paper, we introduce PreciseBugCollector, a precise, multi-language bug collection approach that overcomes these two limitations. PreciseBugCollector is based on two novel components: a) A bug tracker to map the codebase repositories with external bug repositories to trace bug type information, and b) A bug injector to generate project-specific bugs by injecting noise into the correct codebases and then executing them against their test suites to obtain test failure messages. We implement PreciseBugCollector against three sources: 1) A bug tracker that links to the national vulnerability data set (NVD) to collect general-wise vulnerabilities, 2) A bug tracker that links to OSS-Fuzz to collect general-wise bugs, and 3) A bug injector based on 16 injection rules to generate project-wise bugs. To date, PreciseBugCollector comprises 1057818 bugs extracted from 2968 open-source projects. Of these, 12602 bugs are sourced from bug repositories (NVD and OSS-Fuzz), while the remaining 1045216 project-specific bugs are generated by the bug injector. Considering the challenge objectives, we argue that a bug injection approach is highly valuable for the industrial setting, since project-specific bugs align with domain knowledge, share the same codebase, and adhere to the coding style employed in industrial projects.
翻訳日:2023-10-23 08:02:26 公開日:2023-10-06
# スマートコントラクト言語を解剖する - 調査

Dissecting Smart Contract Languages: A Survey ( http://arxiv.org/abs/2310.02799v2 )

ライセンス: Link先を確認
Majd Soud, G\'isli Hj\'almt\'ysson and Mohammad Hamdaqa(参考訳) blockchainは分散台帳技術であり、集中型第三者機関による仲介なしに暗号通貨をピア間で変換可能にすることで人気を博した。 スマートコントラクトはブロックチェーン技術の応用を拡大し、広く採用されている役割を担っている。 スマートコントラクト(smart contracts)は、パーティ間の合意を成文化するためにブロックチェーンにデプロイされる、不変のデジタルプログラムである。 既存のスマートコントラクト実装は、セキュリティ脆弱性を含む課題に直面しており、重大な損失と懸念を引き起こしている。 これは、実装の課題を克服し、コード品質を確保するためにスマートコントラクト言語(scl)を改善するための一連の試みを刺激し、多様な機能を持つ多くの言語を生み出した。 研究者は、SCLを分類し、SCLを選択する過程を明らかにする試みを行っているが、私たちの知る限り、既存のSCLの包括的な調査は公開されていない。 当社の作業は、ブロックチェーンの研究と実装のためのSCL選択のプロセスを容易にするために、はるかに大きなSCLセットを評価することで、以前の取り組みを超越しています。 本稿では,既存のSCLを比較するためのロバストなフレームワークを提案し,(2)36個のSCLを解析・議論し,比較フレームワークの構築に使用した以上の問題に対処し,(3)将来のSCLの研究・開発のための新しいパラメータを定義する。 この調査は、スマートコントラクトを実装したり、新しいSCLを開発したり、既存のSCLに新たな拡張機能を追加したりするために、SCLを選択したり使用したりする人々のためのガイドを提供する。

Blockchain is a distributed ledger technology that gained popularity for enabling the transformation of cryptocurrency among peers without mediation by a centralized third-party authority. Smart contracts expand the applications of blockchain technology and have played a role in its widespread adoption. Smart contracts are immutable digital programs that are deployed on blockchains to codify agreements between parties. Existing smart contract implementations have faced challenges, including security vulnerabilities, leading to significant losses and concerns. This has stimulated a wave of attempts to improve Smart Contract Languages (SCLs) to overcome implementation challenges and ensure code quality, producing many languages with diverse features. Scholars have made some attempts to classify SCLs and clarify the process of selecting an SCL, but to the best of our knowledge, no comprehensive survey of existing SCLs has been published. Our work surpasses earlier efforts by evaluating a significantly larger set of SCLs, in greater depth, to ease the process of SCL selection for blockchain research and implementation. In this paper, we (1) propose a robust framework for comparing existing SCLs, (2) analyze and discuss 36 SCLs, addressing issues beyond those used to construct the comparison framework, and (3) define new parameters for future research and development of SCLs. The survey provides a guide for those who intend to select or use an SCL to implement smart contracts, develop new SCLs, or add new extensions to the existing SCLs.
翻訳日:2023-10-23 04:43:58 公開日:2023-10-06
# 静的解析による意味的矛盾の検出

Detecting Semantic Conflicts using Static Analysis ( http://arxiv.org/abs/2310.04269v1 )

ライセンス: Link先を確認
Galileu Santos de Jesus, Paulo Borba, Rodrigo Bonif\'acio, Matheus Barbosa de Oliveira(参考訳) バージョン管理システムツールは、開発者が独立して開発タスクに取り組むことを可能にする。 これらのツールは、マージ操作による変更の統合を促進し、テキスト上の衝突をレポートする。 しかし、開発者が変更を統合すると、現在のマージツールでは検出されない他のタイプの競合に遭遇する可能性がある。 本稿では,動的セマンティックコンフリクトに注目する。このコンフリクトは,レポートのマージ時に発生するが,望ましくない干渉が発生し,実行時に予期しないプログラム動作を引き起こす。 この問題に対処するために,2人の開発者によるコントリビューションを統合する際に,静的解析を用いて干渉を検出する手法を提案する。 統合シナリオから抽出した99個の実験単位のデータセットを用いて,本手法の評価を行った。 その結果,本手法が重要な干渉検出能力を示す証拠が得られた。 f1スコアとリコールの面では、以前の方法ではセマンティックコンフリクトを検出するために動的解析に依存するが、精度は向上している。 我々の技術精度は、静的解析や定理証明技術を利用して意味的矛盾を検出する他の研究と同等であるが、全体的な性能は大幅に改善されている。

Version control system tools empower developers to independently work on their development tasks. These tools also facilitate the integration of changes through merging operations, and report textual conflicts. However, when developers integrate their changes, they might encounter other types of conflicts that are not detected by current merge tools. In this paper, we focus on dynamic semantic conflicts, which occur when merging reports no textual conflicts but results in undesired interference - causing unexpected program behavior at runtime. To address this issue, we propose a technique that explores the use of static analysis to detect interference when merging contributions from two developers. We evaluate our technique using a dataset of 99 experimental units extracted from merge scenarios. The results provide evidence that our technique presents significant interference detection capability. It outperforms, in terms of F1 score and recall, previous methods that rely on dynamic analysis for detecting semantic conflicts, but these show better precision. Our technique precision is comparable to the ones observed in other studies that also leverage static analysis or use theorem proving techniques to detect semantic conflicts, albeit with significantly improved overall performance.
翻訳日:2023-10-23 04:24:45 公開日:2023-10-06
# ByteStack-ID:Grayscale Image-based Network Intrusion Detectionのための Payload Byte Frequency を利用した統合スタックモデル

ByteStack-ID: Integrated Stacked Model Leveraging Payload Byte Frequency for Grayscale Image-based Network Intrusion Detection ( http://arxiv.org/abs/2310.09298v1 )

ライセンス: Link先を確認
Irfan Khan, Yasir Ali Farrukh and Syed Wali(参考訳) 進化を続けるネットワークセキュリティの領域では、ネットワークトラフィック内の多様な攻撃クラスの迅速かつ正確な識別が最優先事項である。 本稿では,パケットレベルの侵入検知に適した先駆的アプローチであるByteStack-IDを提案する。 bytestack-idの中核は、ペイロードデータの頻度分布から生成されたグレースケールのイメージを活用しており、これは複雑なデータパターンを識別するモデルの能力を大きく向上する画期的な技術である。 特に,本手法は,主にフローベースデータに依存する従来のネットワーク侵入検知システム(NIDS)から逸脱したパケットレベルの情報にのみ基づいている。 ByteStack-IDはスタック手法の基本的な概念に基づいて構築されているが、従来のスタック手法とは異なっている。 新たなメタ学習層を統合ベース学習層にシームレスに統合し、高度に最適化された統一モデルを作成する。 ByteStack-IDフレームワークは、精度、リコール、F1スコアを含む重要なパフォーマンス指標にわたって、ベースラインモデルと最先端のアプローチを一貫して上回っている。 印象的なことに,提案手法は,マルチクラス分類タスクにおいて,81\%のマクロF1スコアを実現する。 ネットワークの脅威の継続的な進化によって特徴づけられる状況において、bytestack-idは堅牢で汎用性の高いセキュリティソリューションとして出現し、ネットワークトラフィックデータから抽出されたパケットレベルの情報のみに依存する。

In the ever-evolving realm of network security, the swift and accurate identification of diverse attack classes within network traffic is of paramount importance. This paper introduces "ByteStack-ID," a pioneering approach tailored for packet-level intrusion detection. At its core, ByteStack-ID leverages grayscale images generated from the frequency distributions of payload data, a groundbreaking technique that greatly enhances the model's ability to discern intricate data patterns. Notably, our approach is exclusively grounded in packet-level information, a departure from conventional Network Intrusion Detection Systems (NIDS) that predominantly rely on flow-based data. While building upon the fundamental concept of stacking methodology, ByteStack-ID diverges from traditional stacking approaches. It seamlessly integrates additional meta learner layers into the concatenated base learners, creating a highly optimized, unified model. Empirical results unequivocally confirm the outstanding effectiveness of the ByteStack-ID framework, consistently outperforming baseline models and state-of-the-art approaches across pivotal performance metrics, including precision, recall, and F1-score. Impressively, our proposed approach achieves an exceptional 81\% macro F1-score in multiclass classification tasks. In a landscape marked by the continuous evolution of network threats, ByteStack-ID emerges as a robust and versatile security solution, relying solely on packet-level information extracted from network traffic data.
翻訳日:2023-10-23 02:40:55 公開日:2023-10-06
# 変形可能なジェネレータネットワーク:外観と形状の教師なし不連続

Deformable Generator Networks: Unsupervised Disentanglement of Appearance and Geometry ( http://arxiv.org/abs/1806.06298v4 )

ライセンス: Link先を確認
Xianglei Xing, Ruiqi Gao, Tian Han, Song-Chun Zhu, Ying Nian Wu(参考訳) 本稿では、画像データと映像データの外観と幾何学的情報を純粋に教師なしの方法で切り離す変形可能なジェネレータモデルを提案する。 外見生成ネットワークは、色、照明、アイデンティティ、カテゴリを含む外見に関する情報をモデル化し、幾何学的生成装置は、生成した外見をワープして最終画像又は映像シーケンスを得る変形場を生成することにより、回転や伸縮などの幾何学的ワーピングを行う。 2つのジェネレータは独立潜伏ベクトルを入力として、画像やビデオのシーケンスから外観と幾何学的情報を切り離す。 ビデオデータに対しては、外観と幾何学的ジェネレータの両方に非線形遷移モデルを導入し、時間とともにダイナミクスを捉える。 提案されたスキームは一般的であり、異なる生成モデルに容易に統合できる。 定性的かつ定量的な実験の広範なセットは、外観と幾何学的情報がうまく絡み合っており、学習された幾何学的生成物は他の画像データセットに便利に転送でき、知識伝達作業が容易であることを示している。

We present a deformable generator model to disentangle the appearance and geometric information for both image and video data in a purely unsupervised manner. The appearance generator network models the information related to appearance, including color, illumination, identity or category, while the geometric generator performs geometric warping, such as rotation and stretching, through generating deformation field which is used to warp the generated appearance to obtain the final image or video sequences. Two generators take independent latent vectors as input to disentangle the appearance and geometric information from image or video sequences. For video data, a nonlinear transition model is introduced to both the appearance and geometric generators to capture the dynamics over time. The proposed scheme is general and can be easily integrated into different generative models. An extensive set of qualitative and quantitative experiments shows that the appearance and geometric information can be well disentangled, and the learned geometric generator can be conveniently transferred to other image datasets to facilitate knowledge transfer tasks.
翻訳日:2023-10-13 17:47:55 公開日:2023-10-06
# サイドステッピングによるより強いキャリブレーション下限

Stronger Calibration Lower Bounds via Sidestepping ( http://arxiv.org/abs/2012.03454v3 )

ライセンス: Link先を確認
Mingda Qiao, Gregory Valiant(参考訳) 我々は、予測者が1つずつ$t$ビットのシーケンスを観察するオンラインバイナリ予測設定を考える。 各ビットが明かされる前に、予測器はビットが1ドルである確率を予測する。 予測器が well-calibrated と呼ばれるのは、各$p \in [0, 1]$ に対して、予測者が確率 $p$ を予測する$n_p$ のうち、実際の数 $m_p$ が$p \cdot n_p$ に等しい場合である。 キャリブレーション誤差は$\sum_p |m_pp n_p|$と定義され、予測器が適切に校正されない範囲を定量化する。 O(T^{2/3})$キャリブレーション誤差は、ビットが逆選択された場合でも達成可能であり、おそらくは以前の予測に基づいている。 しかし、独立フェアコインフリップの自明な例から従う$\Omega(\sqrt{T})$boundを除いて、下界側ではほとんど知られていない。 本稿では,キャリブレーション誤差に対する$\Omega(T^{0.528})$バウンドを証明し,この設定を私たちの知識の最高のものにするための最初のスーパー=$\sqrt{T}$ローバウンドである。 我々の研究の技術的貢献には、早期停止とサイドステッピングの2つの下限技術が含まれており、これは以前に強いキャリブレーションの下限を妨げていた障害を回避するものである。 また, 予測設定の抽象化として, 独立興味を持った手話保存ゲームを提案する。 このゲームは完全な予測設定よりもずっと小さな状態空間を持ち、より単純な分析を可能にする。 $\Omega(T^{0.528})$ lower bound は Sign-Preservation のゲーム値の下位境界をキャリブレーション誤差の下位境界に変換する一般還元定理から従う。

We consider an online binary prediction setting where a forecaster observes a sequence of $T$ bits one by one. Before each bit is revealed, the forecaster predicts the probability that the bit is $1$. The forecaster is called well-calibrated if for each $p \in [0, 1]$, among the $n_p$ bits for which the forecaster predicts probability $p$, the actual number of ones, $m_p$, is indeed equal to $p \cdot n_p$. The calibration error, defined as $\sum_p |m_p - p n_p|$, quantifies the extent to which the forecaster deviates from being well-calibrated. It has long been known that an $O(T^{2/3})$ calibration error is achievable even when the bits are chosen adversarially, and possibly based on the previous predictions. However, little is known on the lower bound side, except an $\Omega(\sqrt{T})$ bound that follows from the trivial example of independent fair coin flips. In this paper, we prove an $\Omega(T^{0.528})$ bound on the calibration error, which is the first super-$\sqrt{T}$ lower bound for this setting to the best of our knowledge. The technical contributions of our work include two lower bound techniques, early stopping and sidestepping, which circumvent the obstacles that have previously hindered strong calibration lower bounds. We also propose an abstraction of the prediction setting, termed the Sign-Preservation game, which may be of independent interest. This game has a much smaller state space than the full prediction setting and allows simpler analyses. The $\Omega(T^{0.528})$ lower bound follows from a general reduction theorem that translates lower bounds on the game value of Sign-Preservation into lower bounds on the calibration error.
翻訳日:2023-10-13 17:43:06 公開日:2023-10-06
# 複合輸送ダイバージェンスを用いたガウス混合低減

Gaussian Mixture Reduction with Composite Transportation Divergence ( http://arxiv.org/abs/2002.08410v4 )

ライセンス: Link先を確認
Qiong Zhang, Archer Gong Zhang, Jiahua Chen(参考訳) ガウス混合は密度推定、信念伝播、ベイズフィルタリングなどの様々な応用において密度関数の近似に広く用いられている。 これらの応用はしばしば、再帰的に更新される初期近似としてガウス混合を用いる。 これらの再帰過程における重要な課題は、混合物の位数が指数関数的に増加することに起因する。 この難しさを克服するために、高次ガウス混合を低次で近似したガウス混合還元(GMR)を用いることができる。 クラスタリングに基づく手法は, 良好な性能と計算効率で知られているが, 収束特性と最適ターゲットはいまだ不明である。 本稿では,複合輸送分散(CTD)に基づく新しい最適化に基づくGMR法を提案する。 我々は,還元混合物を計算し,一般条件下での理論収束を確立するための一般化最小化アルゴリズムを開発した。 さらに,既存のクラスタリングベース手法の多くが,最適化ベース手法とクラスタリングベース手法のギャップを効果的に橋渡ししていることを示す。 当社のunified frameworkは,ctdの最も適切なコスト関数を選択して,特定のアプリケーションで優れたパフォーマンスを実現するためのものです。 実験により,提案手法の効率性と有効性を実証し,様々な領域においてその可能性を示す。

Gaussian mixtures are widely used for approximating density functions in various applications such as density estimation, belief propagation, and Bayesian filtering. These applications often utilize Gaussian mixtures as initial approximations that are updated recursively. A key challenge in these recursive processes stems from the exponential increase in the mixture's order, resulting in intractable inference. To overcome the difficulty, the Gaussian mixture reduction (GMR), which approximates a high order Gaussian mixture by one with a lower order, can be used. Although existing clustering-based methods are known for their satisfactory performance and computational efficiency, their convergence properties and optimal targets remain unknown. In this paper, we propose a novel optimization-based GMR method based on composite transportation divergence (CTD). We develop a majorization-minimization algorithm for computing the reduced mixture and establish its theoretical convergence under general conditions. Furthermore, we demonstrate that many existing clustering-based methods are special cases of ours, effectively bridging the gap between optimization-based and clustering-based techniques. Our unified framework empowers users to select the most appropriate cost function in CTD to achieve superior performance in their specific applications. Through extensive empirical experiments, we demonstrate the efficiency and effectiveness of our proposed method, showcasing its potential in various domains.
翻訳日:2023-10-13 17:41:18 公開日:2023-10-06
# 疲労試験リグの非線形システム同定のためのハイブリッド機械学習モデルの評価

Assessment of hybrid machine learning models for non-linear system identification of fatigue test rigs ( http://arxiv.org/abs/2107.03645v4 )

ライセンス: Link先を確認
Leonhard Heindel, Peter Hantschke and Markus K\"astner(参考訳) 与えられた疲労試験ベンチ駆動信号に対するシステム応答の予測は、線形周波数応答関数モデルが一般的に用いられる課題である。 非線形現象を考慮し,Long Short-Term Memory Networkを用いた既存手法を拡張した新しいハイブリッドモデルを提案する。 この手法のさらなる仮想センシング応用が示されている。 このアプローチはサーボ・ヒドラリックテストリグからの非線形実験データを用いてテストされ、このデータセットが公開されている。 この評価には、時間および周波数領域における様々な測定値、および可変振幅下での疲労強度が用いられる。

The prediction of system responses for a given fatigue test bench drive signal is a challenging task, for which linear frequency response function models are commonly used. To account for non-linear phenomena, a novel hybrid model is suggested, which augments existing approaches using Long Short-Term Memory networks. Additional virtual sensing applications of this method are demonstrated. The approach is tested using non-linear experimental data from a servo-hydraulic test rig and this dataset is made publicly available. A variety of metrics in time and frequency domains, as well as fatigue strength under variable amplitudes, are employed in the evaluation.
翻訳日:2023-10-13 17:33:42 公開日:2023-10-06
# 時系列モデリングのための高効率連続多様体学習

Deep Efficient Continuous Manifold Learning for Time Series Modeling ( http://arxiv.org/abs/2112.03379v2 )

ライセンス: Link先を確認
Seungwoo Jeong, Wonjun Ko, Ahmad Wisnu Mulyadi, Heung-Il Suk(参考訳) 非ユークリッドデータのモデリングは、さまざまな分野におけるディープニューラルネットワークの成功と共に、広く注目を集めている。 特に、有益な統計的表現を学習する能力のため、コンピュータビジョン、信号処理、医用画像解析において対称正定値行列が積極的に研究されている。 しかしながら、厳格な制約のため、特にディープラーニングフレームワークに組み込む場合、最適化の問題や非効率な計算コストは依然として困難である。 本稿では,リーマン多様体とコレスキー空間の微分同相写像を利用する枠組みを提案し,最適化問題を効率的に解くだけでなく,計算コストを大幅に削減することが可能になる。 さらに,時系列データの動的モデリングのために,多様体常微分方程式とゲートリカレントニューラルネットワークを体系的に統合して連続多様体学習法を考案する。 チョーレスキー空間における行列のよいパラメータ化のため、リーマン幾何学的測度を備えた提案されたネットワークを訓練することは簡単である。 提案手法は, 各種時系列タスクにおいて, 既存の多様体法や最先端手法を効率よく, 確実に訓練し, 性能を向上できることを示す。

Modeling non-Euclidean data is drawing extensive attention along with the unprecedented successes of deep neural networks in diverse fields. Particularly, a symmetric positive definite matrix is being actively studied in computer vision, signal processing, and medical image analysis, due to its ability to learn beneficial statistical representations. However, owing to its rigid constraints, it remains challenging to optimization problems and inefficient computational costs, especially, when incorporating it with a deep learning framework. In this paper, we propose a framework to exploit a diffeomorphism mapping between Riemannian manifolds and a Cholesky space, by which it becomes feasible not only to efficiently solve optimization problems but also to greatly reduce computation costs. Further, for dynamic modeling of time-series data, we devise a continuous manifold learning method by systematically integrating a manifold ordinary differential equation and a gated recurrent neural network. It is worth noting that due to the nice parameterization of matrices in a Cholesky space, training our proposed network equipped with Riemannian geometric metrics is straightforward. We demonstrate through experiments over regular and irregular time-series datasets that our proposed model can be efficiently and reliably trained and outperforms existing manifold methods and state-of-the-art methods in various time-series tasks.
翻訳日:2023-10-13 17:24:07 公開日:2023-10-06
# ソフト部分指数を用いたランベック計算のためのベクトル空間意味論

Vector Space Semantics for Lambek Calculus with Soft Subexponentials ( http://arxiv.org/abs/2111.11331v3 )

ライセンス: Link先を確認
Lachlan McPheat, Hadi Wazni, Mehrnoosh Sadrzadeh(参考訳) ソフトな部分指数を持つランベック計算のためのベクトル空間意味論を開発し, パラシティックギャップ名詞句とアナフォラやエリプシスを用いた談話単位の構成ベクトル解釈に適用し, 分布文類似タスクにおける構成を実験した。 ランベック計算を関連モーダリティで用いた以前の研究とは対照的に、本論文で用いた計算はモダリティの有界バージョンを使用し、決定可能である。 この新しいモダリティのベクトル空間の意味論は、縮小を射影として意味的に定義し、それまで非線形写像によってのみ達成できたことの背後にある線形理論を提供する。

We develop a vector space semantics for Lambek Calculus with Soft Subexponentials, apply the calculus to construct compositional vector interpretations for parasitic gap noun phrases and discourse units with anaphora and ellipsis, and experiment with the constructions in a distributional sentence similarity task. As opposed to previous work, which used Lambek Calculus with a Relevant Modality the calculus used in this paper uses a bounded version of the modality and is decidable. The vector space semantics of this new modality allows us to meaningfully define contraction as projection and provide a linear theory behind what we could previously only achieve via nonlinear maps.
翻訳日:2023-10-13 17:23:22 公開日:2023-10-06
# 集中型マルチアームバンディットは集中型上信頼度バウンドアルゴリズムに勝る

Decentralized Multi-Armed Bandits Can Outperform Centralized Upper Confidence Bound Algorithms ( http://arxiv.org/abs/2111.10933v2 )

ライセンス: Link先を確認
Jingxuan Zhu, Ethan Mulle, Christopher Salomon Smith, Alec Koppel, Ji Liu(参考訳) 本稿では,マルチエージェントネットワークにおける分散マルチアームドバンディット問題について検討する。 この問題は、NエージェントがMアームの共通集合に直面し、同じアームの報酬分布を共有することを仮定して同時に解決される。 各エージェントは隣人からのみ情報を受け取ることができ、エージェント間の隣人関係は無向グラフによって記述される。 古典的アッパー信頼境界(UCB)アルゴリズムと最先端KL-UCBアルゴリズムに基づいて、2つの完全に分散化されたマルチアームバンドアルゴリズムを提案する。 提案する分散アルゴリズムにより,ネットワーク内の各エージェントは,そのエージェントが少なくとも1つの隣人を持ち,そのエージェントが持つ隣人が多くなるほど,その合計がコンポーネント部分以上である場合において,ネットワーク内の各エージェントに対して,より優れた対数的漸近的後悔を実現することができる。

This paper studies a decentralized multi-armed bandit problem in a multi-agent network. The problem is simultaneously solved by N agents assuming they face a common set of M arms and share the same arms' reward distributions. Each agent can receive information only from its neighbors, where the neighbor relationships among the agents are described by an undirected graph. Two fully decentralized multi-armed bandit algorithms are proposed, respectively based on the classic upper confidence bound (UCB) algorithm and the state-of-the-art KL-UCB algorithm. The proposed decentralized algorithms permit each agent in the network to achieve a better logarithmic asymptotic regret than their single-agent counterparts, provided that the agent has at least one neighbor, and the more neighbors an agent has, the better regret it will have, meaning that the sum is more than its component parts.
翻訳日:2023-10-13 17:23:06 公開日:2023-10-06
# 畳み込みモチーフカーネルネットワーク

Convolutional Motif Kernel Networks ( http://arxiv.org/abs/2111.02272v3 )

ライセンス: Link先を確認
Jonas C. Ditz, Bernhard Reuter, Nico Pfeifer(参考訳) ニューラルネットワークは、特定の結果に関連するデータ内の相関を検出することに有望な性能を示す。 しかし、そのようなモデルのブラックボックスの性質は、決定過程を省略し、科学者が予測結果を完全に概念化するのを防ぎ、研究分野の知識の進歩を妨げる可能性がある。 さらに、医療提供者のようなドメインの専門家は、予測された結果が高い利害関係のシナリオで信頼できるかどうかを判断し、モデルが自身のルーチンに統合されるのを助けるために、説明可能な予測が必要である。 したがって、解釈可能なモデルは、医療のような高リスクシナリオに機械学習を組み込む上で重要な役割を果たす。 本稿では、位置認識型モチーフカーネル関数の再生カーネルヒルベルト空間のサブ空間内の特徴表現を学習するニューラルネットワークアーキテクチャであるConvolutional Motif Kernel Networksを紹介する。 得られたモデルは、追加のポストホック解析を必要とせずに、生物学的および医学的に有意義な説明を提供することにより、予測結果を直接解釈し、評価することができる。 我々のモデルは、小さなデータセットでしっかりと学習でき、関連する医療予測タスクで最先端のパフォーマンスを達成できることを示す。 提案手法はDNAおよびタンパク質配列に利用することができる。 さらに,本手法はエンド・ツー・エンドの学習手法を用いて,データから直接生物学的に有意義な概念を学習することを示す。

Artificial neural networks show promising performance in detecting correlations within data that are associated with specific outcomes. However, the black-box nature of such models can hinder the knowledge advancement in research fields by obscuring the decision process and preventing scientist to fully conceptualize predicted outcomes. Furthermore, domain experts like healthcare providers need explainable predictions to assess whether a predicted outcome can be trusted in high stakes scenarios and to help them integrating a model into their own routine. Therefore, interpretable models play a crucial role for the incorporation of machine learning into high stakes scenarios like healthcare. In this paper we introduce Convolutional Motif Kernel Networks, a neural network architecture that involves learning a feature representation within a subspace of the reproducing kernel Hilbert space of the position-aware motif kernel function. The resulting model enables to directly interpret and evaluate prediction outcomes by providing a biologically and medically meaningful explanation without the need for additional post-hoc analysis. We show that our model is able to robustly learn on small datasets and reaches state-of-the-art performance on relevant healthcare prediction tasks. Our proposed method can be utilized on DNA and protein sequences. Furthermore, we show that the proposed method learns biologically meaningful concepts directly from data using an end-to-end learning scheme.
翻訳日:2023-10-13 17:22:29 公開日:2023-10-06
# モビリティにおける動的予測可能性と時空間的文脈

Dynamic predictability and spatio-temporal contexts in human mobility ( http://arxiv.org/abs/2201.01376v2 )

ライセンス: Link先を確認
Bibandhan Poudyal, Diogo Pacheco, Marcos Oliveira, Zexun Chen, Hugo Barbosa, Ronaldo Menezes and Gourab Ghoshal(参考訳) 人間の移動行動は著しく規則的であり、概ね予測可能であり、主に生物学的必要(睡眠、食事)と社会的構成(学校スケジュール、労働の同期)によって駆動される。 このような予測可能性は、個人(偏見の好み、選択)や社会的(偏見の家庭、グループ)から世界規模(パンデミックにおける偏見の移動制限)まで、さまざまな要因に影響を受けています。 本研究では, 個人レベルの移動における時空間パターンが, 「emph{predictability state}」と呼ばれ, 移動性における正則性の性質について, 広範囲の情報を伝達する方法について検討する。 本研究は,予測可能性状態における文脈的および活動的シグネチャの存在を示唆し,頻繁・確率的手法を超えた短期・高次モビリティ予測への,より洗練されたデータ駆動型アプローチの可能性を示している。

Human travelling behaviours are markedly regular, to a large extent, predictable, and mostly driven by biological necessities (\eg sleeping, eating) and social constructs (\eg school schedules, synchronisation of labour). Not surprisingly, such predictability is influenced by an array of factors ranging in scale from individual (\eg preference, choices) and social (\eg household, groups) all the way to global scale (\eg mobility restrictions in a pandemic). In this work, we explore how spatio-temporal patterns in individual-level mobility, which we refer to as \emph{predictability states}, carry a large degree of information regarding the nature of the regularities in mobility. Our findings indicate the existence of contextual and activity signatures in predictability states, pointing towards the potential for more sophisticated, data-driven approaches to short-term, higher-order mobility predictions beyond frequentist/probabilistic methods.
翻訳日:2023-10-13 17:12:56 公開日:2023-10-06
# ランク付けを学ぶ上で重要なのはどのトリックか?

Which Tricks Are Important for Learning to Rank? ( http://arxiv.org/abs/2204.01500v2 )

ライセンス: Link先を確認
Ivan Lyzhin, Aleksei Ustimenko, Andrey Gulin, Liudmila Prokhorenkova(参考訳) 現在、最先端の学習とランク付けの手法は勾配ブースト決定木(gbdt)に基づいている。 最もよく知られているアルゴリズムは10年以上前に提案されたLambdaMARTである。 近年,GBDTに基づくランキングアルゴリズムが提案されている。 本稿では,これらの手法を統一した構成で徹底的に解析する。 特に、以下の質問を取り上げます。 滑らかなランキング損失の直接最適化は凸サーロゲートの最適化よりも望ましいか? サーロゲートランキングの損失を適切に構築し円滑にする方法 これらの問題に対処するため、LambdaMARTと yetiRank と StochasticRank のメソッドとその修正を比較します。 また,特定のランキング損失関数を最適化するイエティランクアプローチの簡易な改善を提案する。 その結果,学習からランクへの技法への洞察を得て,新たな最先端アルゴリズムを得ることができた。

Nowadays, state-of-the-art learning-to-rank methods are based on gradient-boosted decision trees (GBDT). The most well-known algorithm is LambdaMART which was proposed more than a decade ago. Recently, several other GBDT-based ranking algorithms were proposed. In this paper, we thoroughly analyze these methods in a unified setup. In particular, we address the following questions. Is direct optimization of a smoothed ranking loss preferable over optimizing a convex surrogate? How to properly construct and smooth surrogate ranking losses? To address these questions, we compare LambdaMART with YetiRank and StochasticRank methods and their modifications. We also propose a simple improvement of the YetiRank approach that allows for optimizing specific ranking loss functions. As a result, we gain insights into learning-to-rank techniques and obtain a new state-of-the-art algorithm.
翻訳日:2023-10-13 17:01:34 公開日:2023-10-06
# デリバティブ価格モデルのキャリブレーション:マルチエージェント強化学習の視点から

Calibration of Derivative Pricing Models: a Multi-Agent Reinforcement Learning Perspective ( http://arxiv.org/abs/2203.06865v4 )

ライセンス: Link先を確認
Nelson Vadori(参考訳) 量的金融における最も基本的な問題の1つは、与えられたオプションセットの市場価格に適合する連続時間拡散モデルの存在である。 伝統的に、直観、理論的、実証的な分析の混合を用いて、正確なあるいは近似的な適合を達成するモデルを見つける。 本研究は,近年の深層マルチエージェント強化学習における既存の発展を活用し,確率過程の分野における探索に適切なゲーム理論的定式化がいかに役立つかを示すことを目的とする。 実験では,局所的なボラティリティや,ボラティリティプロセスに必要な経路依存性を学習し,ベルムダンオプションの価格を最小限に抑えることができた。 我々のアルゴリズムは粒子法 \textit{\`{a} la} Guyon \textit{et} Henry-Labordere と見ることができ、粒子は $\sigma_{loc}(t,S_t)^2 = \mathbb{E}[\sigma_t^2|S_t]$ を確実にする代わりに、より一般的なキャリブレーション目標に向けて協調する RL 駆動エージェントを学習している。

One of the most fundamental questions in quantitative finance is the existence of continuous-time diffusion models that fit market prices of a given set of options. Traditionally, one employs a mix of intuition, theoretical and empirical analysis to find models that achieve exact or approximate fits. Our contribution is to show how a suitable game theoretical formulation of this problem can help solve this question by leveraging existing developments in modern deep multi-agent reinforcement learning to search in the space of stochastic processes. Our experiments show that we are able to learn local volatility, as well as path-dependence required in the volatility process to minimize the price of a Bermudan option. Our algorithm can be seen as a particle method \textit{\`{a} la} Guyon \textit{et} Henry-Labordere where particles, instead of being designed to ensure $\sigma_{loc}(t,S_t)^2 = \mathbb{E}[\sigma_t^2|S_t]$, are learning RL-driven agents cooperating towards more general calibration targets.
翻訳日:2023-10-13 17:00:51 公開日:2023-10-06
# AdaptivePaste: 意味論的学習によるコード適応

AdaptivePaste: Code Adaptation through Learning Semantics-aware Variable Usage Representations ( http://arxiv.org/abs/2205.11023v3 )

ライセンス: Link先を確認
Xiaoyu Liu, Jinu Jang, Neel Sundaresan, Miltiadis Allamanis, Alexey Svyatkovskiy(参考訳) ソフトウェア開発では、プログラマがコードスニペットをコピーペーストしたり移植したりして、ユースケースに適用することが一般的です。 このシナリオは、コード適応タスクを動機付けます -- 既存のソースコードにペーストされたコードのスニペット内の変数識別子を適応させることを目的とした、プログラム修正の亜種です。 しかし、この課題に効果的に取り組むための既存のアプローチは示されていない。 本稿では,トランスフォーマをベースとしたソースコード適応学習手法であるAdaptivePasteと,変数使用パターンの有意義な表現を学習するための専用データフロー対応難読化事前学習タスクを紹介する。 我々はPythonのコードスニペットのデータセット上でAdaptivePasteを評価する。 その結果、我々のモデルは79.8%の精度でソースコードを適応させることを学べることが示唆された。 AdaptivePasteが実際にどれほど価値があるかを評価するために、100の現実世界のコピーペーストインスタンス上で、10人のPython開発者とユーザスタディを実施します。 その結果,adaptivepasteでは,手作業によるコード適応に要する時間のほぼ半分に削減でき,バグの回避に役立ちます。 また,AdaptivePasteの改善のために,参加者からのフィードバックを用いて潜在的経路を特定する。

In software development, it is common for programmers to copy-paste or port code snippets and then adapt them to their use case. This scenario motivates the code adaptation task -- a variant of program repair which aims to adapt variable identifiers in a pasted snippet of code to the surrounding, preexisting source code. However, no existing approach has been shown to effectively address this task. In this paper, we introduce AdaptivePaste, a learning-based approach to source code adaptation, based on transformers and a dedicated dataflow-aware deobfuscation pre-training task to learn meaningful representations of variable usage patterns. We evaluate AdaptivePaste on a dataset of code snippets in Python. Results suggest that our model can learn to adapt source code with 79.8% accuracy. To evaluate how valuable is AdaptivePaste in practice, we perform a user study with 10 Python developers on a hundred real-world copy-paste instances. The results show that AdaptivePaste reduces the dwell time to nearly half the time it takes for manual code adaptation, and helps to avoid bugs. In addition, we utilize the participant feedback to identify potential avenues for improvement of AdaptivePaste.
翻訳日:2023-10-13 16:51:42 公開日:2023-10-06
# 磁性開始時の異常点の自発的形成

Spontaneous Formation of Exceptional Points at the Onset of Magnetism ( http://arxiv.org/abs/2207.05097v2 )

ライセンス: Link先を確認
Lorenzo Crippa, Giorgio Sangiovanni and Jan Carl Budich(参考訳) トポロジカル半金属中の対称性が、長距離秩序の開始時に対称性を破る揺らぎによって、一般化的に安定な例外点(EP)のペアにどのように昇格するかを明らかにする。 この非エルミタン(NH)トポロジーへの新しい経路は、高温常磁性相から強相関した3次元トポロジカル絶縁体の表面で自然に発生する磁気的NHワイル相によって実証される。 ここでは、反対のスピンを持つ電子励起は時間的に大きく異なるため、陽極表面状態のカイラルスピンテクスチャーと不整合なスピンの反エルミタン構造が生まれ、EPの自発的な形成を促進する。 動的平均場理論の枠組みにおいて、顕微鏡的マルチバンドハバードモデルを非摂動的に解くことにより、この現象の数値的証拠を示す。

We reveal how symmetry protected nodal points in topological semimetals may be promoted to pairs of generically stable exceptional points (EPs) by symmetry-breaking fluctuations at the onset of long-range order. This novel route to non-Hermitian (NH) topology is exemplified by a magnetic NH Weyl phase spontaneously emerging at the surface of a strongly correlated three-dimensional topological insulator when entering the ferromagnetic regime from a high temperature paramagnetic phase. Here, electronic excitations with opposite spin acquire significantly different life-times, thus giving rise to an anti-Hermitian structure in spin that is incompatible with the chiral spin texture of the nodal surface states, and hence facilitates the spontaneous formation of EPs. We present numerical evidence of this phenomenon by solving a microscopic multi-band Hubbard model non-perturbatively in the framework of dynamical mean-field theory.
翻訳日:2023-10-13 16:40:50 公開日:2023-10-06
# SGDと軽量化はニューラルネットワークの低ランクバイアスを誘発する

SGD and Weight Decay Provably Induce a Low-Rank Bias in Neural Networks ( http://arxiv.org/abs/2206.05794v5 )

ライセンス: Link先を確認
Tomer Galanti, Zachary S. Siegel, Aparna Gupte, Tomaso Poggio(参考訳) 本研究では,SGD(Stochastic Gradient Descent)の偏りを考察し,深部ReLUニューラルネットワークのトレーニングにおいて低ランクの重み行列を学習する。 以上の結果から,SGDと重み劣化によるニューラルネットワークのトレーニングは,重み行列のランク最小化に偏りがあることが示唆された。 具体的には、理論的にも経験的にも、より小さなバッチサイズ、学習率の向上、体重減少の増加などにより、このバイアスはより顕著であることを示す。 さらに、このバイアスを達成するには重量減衰が必要であることを実証的に予測し、観察する。 これまでの文献とは異なり、我々の分析は重量行列のデータ、収束、最適性に関する仮定に依存しておらず、幅や深さの広いニューラルネットワークアーキテクチャに適用できる。 最後に,このバイアスと一般化との関係を実証的に検討し,一般化に限界的な影響があることを見いだした。

We study the bias of Stochastic Gradient Descent (SGD) to learn low-rank weight matrices when training deep ReLU neural networks. Our results show that training neural networks with mini-batch SGD and weight decay causes a bias towards rank minimization over the weight matrices. Specifically, we show, both theoretically and empirically, that this bias is more pronounced when using smaller batch sizes, higher learning rates, or increased weight decay. Additionally, we predict and observe empirically that weight decay is necessary to achieve this bias. Unlike previous literature, our analysis does not rely on assumptions about the data, convergence, or optimality of the weight matrices and applies to a wide range of neural network architectures of any width or depth. Finally, we empirically investigate the connection between this bias and generalization, finding that it has a marginal effect on generalization.
翻訳日:2023-10-13 16:39:07 公開日:2023-10-06
# 時間と規律による分散化の概念:定量的探索

The Concept of Decentralization Through Time and Disciplines: A Quantitative Exploration ( http://arxiv.org/abs/2207.14260v2 )

ライセンス: Link先を確認
Gabriele Di Bona, Alberto Bracci, Nicola Perra, Vito Latora, Andrea Baronchelli(参考訳) 分散化(Decentralization)は、経済学、政治科学、コンピュータ科学などの分野にまたがる幅広い概念であり、異なるが相互に関係のある方法で使われている。 ここでは,「分散化」を指す学術論文425,144件を分析し,この用語の学術的歴史を調査するための一般的なパイプラインを開発し,公開する。 この話題に関する論文の数は1950年代以降指数関数的に増加している。 2021年、154年の1人の著者は、記事のタイトルや要約において、分散化について言及した。 意味情報と引用パターンの両方を用いて,論文をフィールドに集約し,それらの間の知識フローを特徴付ける。 分析の結果,学際汚染が小さく,異なる分野に独自に現れたことが明らかとなった。 さらに,約10年前にはブロックチェーンがもっとも影響力のある分野になってきたが,1990年代以前にはガバナンスが支配的だった。 まとめると,本研究は,異なる分野における上昇と降下のサイクルを経た重要かつ不可解な概念の進化を定量的に評価するものである。 私たちのパイプラインは、学術文献における学術用語の進化を分析する強力なツールを提供し、科学における集合的および独立的な発見間の相互作用に関する洞察を提供する。

Decentralization is a pervasive concept found across disciplines, including Economics, Political Science, and Computer Science, where it is used in distinct yet interrelated ways. Here, we develop and publicly release a general pipeline to investigate the scholarly history of the term, analysing 425,144 academic publications that refer to (de)centralization. We find that the fraction of papers on the topic has been exponentially increasing since the 1950s. In 2021, 1 author in 154 mentioned (de)centralization in the title or abstract of an article. Using both semantic information and citation patterns, we cluster papers in fields and characterize the knowledge flows between them. Our analysis reveals that the topic has independently emerged in the different fields, with small cross-disciplinary contamination. Moreover, we show how Blockchain has become the most influential field about 10 years ago, while Governance dominated before the 1990s. In summary, our findings provide a quantitative assessment of the evolution of a key yet elusive concept, which has undergone cycles of rise and fall within different fields. Our pipeline offers a powerful tool to analyze the evolution of any scholarly term in the academic literature, providing insights into the interplay between collective and independent discoveries in science.
翻訳日:2023-10-13 16:30:15 公開日:2023-10-06
# TwiRGCN: 時間的知識グラフに対する質問応答のための時間的重み付きグラフ畳み込み

TwiRGCN: Temporally Weighted Graph Convolution for Question Answering over Temporal Knowledge Graphs ( http://arxiv.org/abs/2210.06281v2 )

ライセンス: Link先を確認
Aditya Sharma, Apoorv Saxena, Chitrank Gupta, Seyed Mehran Kazemi, Partha Talukdar, Soumen Chakrabarti(参考訳) 近年、複雑な質問応答(QA)のための知識グラフ(KG)に対する時間的推論への関心が高まっているが、人間の能力には大きなギャップがある。 時間的KGQAのためのリレーショナルグラフ畳み込みネットワーク(RGCN)の一般化について検討する。 具体的には、コンボリューション中のKGエッジを通過するメッセージを、関連する時間と質問との関連性に基づいて、新しい、直感的で解釈可能な方式を提案する。 また,複雑な時間的質問に対する回答が kg の実体か時間かを予測するゲーティングデバイスを導入し,この予測を用いてスコアリング機構を導出する。 最近リリースされたマルチホップ複合時間QAのための挑戦的データセットであるTimeQuestionsで、TwiRGCNと呼ぶ結果のシステムを評価する。 TwiRGCNは,様々な質問タイプにまたがって,このデータセットの最先端システムを大幅に上回ることを示す。 特にTwiRGCNは、最も困難で暗黙的な質問タイプに対して、9~10ポイントの精度を向上させる。

Recent years have witnessed much interest in temporal reasoning over knowledge graphs (KG) for complex question answering (QA), but there remains a substantial gap in human capabilities. We explore how to generalize relational graph convolutional networks (RGCN) for temporal KGQA. Specifically, we propose a novel, intuitive and interpretable scheme to modulate the messages passed through a KG edge during convolution, based on the relevance of its associated time period to the question. We also introduce a gating device to predict if the answer to a complex temporal question is likely to be a KG entity or time and use this prediction to guide our scoring mechanism. We evaluate the resulting system, which we call TwiRGCN, on TimeQuestions, a recently released, challenging dataset for multi-hop complex temporal QA. We show that TwiRGCN significantly outperforms state-of-the-art systems on this dataset across diverse question types. Notably, TwiRGCN improves accuracy by 9--10 percentage points for the most difficult ordinal and implicit question types.
翻訳日:2023-10-13 16:21:45 公開日:2023-10-06
# Blinder:個人化フェデレーション学習によるセンシングシステムにおけるエンドツーエンドのプライバシ保護

Blinder: End-to-end Privacy Protection in Sensing Systems via Personalized Federated Learning ( http://arxiv.org/abs/2209.12046v3 )

ライセンス: Link先を確認
Xin Yang, Omid Ardakanian(参考訳) 本稿では,分散データに基づいてトレーニングを行い,センサデータが異なる下位分布を持つ異種環境においても,データユーティリティとプライバシの間の望ましいトレードオフを行うセンサデータ匿名化モデルを提案する。 われわれの匿名化モデルは blinder と呼ばれ、変分オートエンコーダと、1つまたは複数の識別ネットワークを敵のやり方で訓練している。 モデルに依存しないメタラーニングフレームワークを用いて,各ユーザのデータ分布にフェデレーション学習を通じてトレーニングされた匿名化モデルを適用する。 我々はBlinderを異なる設定で評価し、2つのIMUデータセットに対して、プライバシー損失を最大4.00%増加し、データユーティリティを最大4.24%減少させることで、エンドツーエンドのプライバシ保護を提供することを示した。 また,周波数センシングモードを匿名化するブラインドラーの能力についても紹介する。 実験により,Blinderは一度に複数のプライベート属性を隠蔽できることを確認した。センサデータのリアルタイム匿名化を実現するために,エッジデバイスやスマートフォンに展開する電力消費と計算オーバーヘッドが十分に低い。

This paper proposes a sensor data anonymization model that is trained on decentralized data and strikes a desirable trade-off between data utility and privacy, even in heterogeneous settings where the sensor data have different underlying distributions. Our anonymization model, dubbed Blinder, is based on a variational autoencoder and one or multiple discriminator networks trained in an adversarial fashion. We use the model-agnostic meta-learning framework to adapt the anonymization model trained via federated learning to each user's data distribution. We evaluate Blinder under different settings and show that it provides end-to-end privacy protection on two IMU datasets at the cost of increasing privacy loss by up to 4.00% and decreasing data utility by up to 4.24%, compared to the state-of-the-art anonymization model trained on centralized data. We also showcase Blinder's ability to anonymize the radio frequency sensing modality. Our experiments confirm that Blinder can obscure multiple private attributes at once, and has sufficiently low power consumption and computational overhead for it to be deployed on edge devices and smartphones to perform real-time anonymization of sensor data.
翻訳日:2023-10-13 16:21:28 公開日:2023-10-06
# $\delta$-layer接合のトンネル速度に及ぼす欠陥の影響

Influence of imperfections on tunneling rate in $\delta$-layer junctions ( http://arxiv.org/abs/2209.11343v3 )

ライセンス: Link先を確認
Juan P. Mendez and Shashank Misra and Denis Mamaluy(参考訳) 走査型トンネル顕微鏡を用いた半導体中のドーパントの原子的精密配置は、平面ドーパントベースのデバイスを作成するために使われ、新しい古典的あるいは量子コンピューティングの概念を探索することができる。 ドーパントの形状はサブナノメータ精度で定義できるが、トンネル速度の決定には不完全さが重要な役割を果たす。 そこで本研究では, シリコンのリン系$\delta$-layerトンネル接合における異なる不完全性の影響について検討する。 その結果, トンネル間隙における荷電不純物は, 比較的大きなトンネル間隙であっても, トンネル間隙内の1つの荷電不純物によって1桁以上のトンネル間隙が変化することがわかった。 また, トンネル速度は不純物の電荷サインに強く依存していることが明らかとなった。

The atomically precise placement of dopants in semiconductors using scanning tunneling microscopes has been used to create planar dopant-based devices, enabling the exploration of novel classical or quantum computing concepts, which often require precise control over tunneling rates in their operation. While the geometry of the dopants can be defined to sub-nanometer precision, imperfections can still play a significant role in determining the tunneling rates. Here, we investigate the influence of different imperfections in phosphorous $\delta$-layer tunnel junctions in silicon: variations of $\delta$-layer thickness and tunnel gap width, interface roughness, and charged impurities. It is found that while most of the imperfections moderately affect the tunneling rate, a single charged impurity in the tunnel gap can alter the tunneling rate by more than an order of magnitude, even for relatively large tunnel gaps. Moreover, it is also revealed that the tunneling rate strongly depends on the electrical charge sign of the impurity.
翻訳日:2023-10-13 16:21:07 公開日:2023-10-06
# 機械学習タスクのためのフランス語未構造化臨床ノートの同定

De-Identification of French Unstructured Clinical Notes for Machine Learning Tasks ( http://arxiv.org/abs/2209.09631v2 )

ライセンス: Link先を確認
Yakini Tchouka, Jean-Fran\c{c}ois Couchot, Maxime Coulmeau, David Laiymani, Philippe Selles, Azzedine Rahmani(参考訳) 非構造化テキストデータは、医師間の連絡状、手術報告、ICD-10規格による手続きのコーディングなど、医療システムの中心にある。 これらの文書に含まれている詳細は、患者をよりよく知ることができ、患者をより良く管理し、病理学をより良く研究し、関連する医療行為に正確に報酬を与えることができる。 しかし、プライバシー保護の明白な理由から、これらのaiの設計者は、識別データを含む限り、これらの文書にアクセスする法的権利を持たない。 これらの文書の非識別、すなわちそれらの中のすべての識別情報の検出と削除は、このデータを2つの補完的な世界間で共有するための法的に必要なステップである。 過去10年間で、主に英語で文書を識別するいくつかの提案がなされた。 検出スコアは高いことが多いが、置換法は攻撃にはあまり適さないことが多い。 フランス語では、任意の検出や置換規則に基づく手法はほとんどない。 本稿では,フランス語の医療文書を包括的に識別する手法を提案する。 要素識別(ディープラーニングに基づく)とそれらの置換(差分プライバシに基づく)の2つのアプローチは、最も証明された既存のアプローチに基づいている。 結果は、これらの医療文書の中心にある患者のプライバシーを効果的に保護するアプローチである。 このアプローチは、フランス公立病院のフランス語医療データセットで評価されており、結果は非常に有益である。

Unstructured textual data are at the heart of health systems: liaison letters between doctors, operating reports, coding of procedures according to the ICD-10 standard, etc. The details included in these documents make it possible to get to know the patient better, to better manage him or her, to better study the pathologies, to accurately remunerate the associated medical acts\ldots All this seems to be (at least partially) within reach of today by artificial intelligence techniques. However, for obvious reasons of privacy protection, the designers of these AIs do not have the legal right to access these documents as long as they contain identifying data. De-identifying these documents, i.e. detecting and deleting all identifying information present in them, is a legally necessary step for sharing this data between two complementary worlds. Over the last decade, several proposals have been made to de-identify documents, mainly in English. While the detection scores are often high, the substitution methods are often not very robust to attack. In French, very few methods are based on arbitrary detection and/or substitution rules. In this paper, we propose a new comprehensive de-identification method dedicated to French-language medical documents. Both the approach for the detection of identifying elements (based on deep learning) and their substitution (based on differential privacy) are based on the most proven existing approaches. The result is an approach that effectively protects the privacy of the patients at the heart of these medical documents. The whole approach has been evaluated on a French language medical dataset of a French public hospital and the results are very encouraging.
翻訳日:2023-10-13 16:20:49 公開日:2023-10-06
# AMPNet: グラフニューラルネットワークのメッセージパッシングとしての注意

AMPNet: Attention as Message Passing for Graph Neural Networks ( http://arxiv.org/abs/2210.09475v2 )

ライセンス: Link先を確認
Syed Asad Rizvi, Nhi Nguyen, Haoran Lyu, Benjamin Christensen, Josue Ortega Caro, Antonio H. O. Fonseca, Emanuele Zappala, Maryam Bagherian, Christopher Averill, Chadi G. Abdallah, Rex Ying, Maria Brbic, Rahul Madhav Dhodapkar, David van Dijk(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの強力な表現学習フレームワークとして登場した。 従来のgnnの重要な制限は、特異な特徴ベクトルを持つ各ノードの表現であり、個々のノードの特徴に関する複雑な詳細を見渡す可能性がある。 本稿では,ノード毎の個々の特徴をエンコードし,メッセージパッシングステップにおけるクロスノードによる機能レベルのインタラクションをモデル化する,gnn(ampnet)のためのアテンションベースのメッセージパッシング層を提案する。 AMPNetは,fMRI脳活動記録や空間ゲノムデータなどの実世界の生物システムを広範囲にベンチマークし,fMRI信号再構成において既存のベースラインを20%改善し,さらに位置埋め込みを付加して8%向上した。 最後に,AMPNetが生物学的システムのケーススタディを通じて意味のある特徴レベルの相互作用を明らかにする能力を検証する。 我々は,ノードエンティティが豊富な特徴レベル情報を含むグラフ構造化データに対して,我々のアーキテクチャが高度に適用可能であることを期待する。

Graph Neural Networks (GNNs) have emerged as a powerful representation learning framework for graph-structured data. A key limitation of conventional GNNs is their representation of each node with a singular feature vector, potentially overlooking intricate details about individual node features. Here, we propose an Attention-based Message-Passing layer for GNNs (AMPNet) that encodes individual features per node and models feature-level interactions through cross-node attention during message-passing steps. We demonstrate the abilities of AMPNet through extensive benchmarking on real-world biological systems such as fMRI brain activity recordings and spatial genomic data, improving over existing baselines by 20% on fMRI signal reconstruction, and further improving another 8% with positional embedding added. Finally, we validate the ability of AMPNet to uncover meaningful feature-level interactions through case studies on biological systems. We anticipate that our architecture will be highly applicable to graph-structured data where node entities encompass rich feature-level information.
翻訳日:2023-10-13 16:12:19 公開日:2023-10-06
# ステートフルアクティブファシリテータ:協調多エージェント強化学習におけるコーディネーションと環境不均一性

Stateful active facilitator: Coordination and Environmental Heterogeneity in Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2210.03022v3 )

ライセンス: Link先を確認
Dianbo Liu, Vedant Shah, Oussama Boussif, Cristian Meo, Anirudh Goyal, Tianmin Shu, Michael Mozer, Nicolas Heess, Yoshua Bengio(参考訳) 協調型マルチエージェント強化学習では、エージェントのチームが協力して共通の目標を達成する。 異なる環境やタスクは、最適な方法で目標を達成するために、エージェント間の調整の程度を変える必要がある。 調整の性質は環境の特性(空間的レイアウト、障害物の分布、ダイナミクスなど)に依存します。 この性質の変化を異質性(heregeneity)と呼ぶ。 既存の文献は、異なる環境が異質性のレベルが異なるという事実に十分対応していない。 環境の調整レベルと不均一性レベルの概念を定式化し、環境の調整レベルと不均一性レベルを定量的に制御することで、異なる調整レベルと環境不均一性の異なるMARLアプローチの実験的評価を容易にするマルチエージェントRL環境のスイートであるHECOGridを提示する。 さらに, エージェントが高コーディネーション環境と高ヘテロジニティ環境において, 共有ポリシープールからの動的選択と学習に使用する知識ソースを識別し, 効率よく作業できる, ステートフルアクティブファシリテータ (SAF) と呼ばれる集中型訓練分散実行学習手法を提案する。 我々はSAFを評価し,HECOGrid上のベースラインIPPOとMAPPOを比較した。 以上の結果から,SAFは,タスクや不均一性,調整レベルの相違により,基準線を一貫して上回ることがわかった。 HECOGridのコードだけでなく、すべての実験もリリースしています。

In cooperative multi-agent reinforcement learning, a team of agents works together to achieve a common goal. Different environments or tasks may require varying degrees of coordination among agents in order to achieve the goal in an optimal way. The nature of coordination will depend on the properties of the environment -- its spatial layout, distribution of obstacles, dynamics, etc. We term this variation of properties within an environment as heterogeneity. Existing literature has not sufficiently addressed the fact that different environments may have different levels of heterogeneity. We formalize the notions of coordination level and heterogeneity level of an environment and present HECOGrid, a suite of multi-agent RL environments that facilitates empirical evaluation of different MARL approaches across different levels of coordination and environmental heterogeneity by providing a quantitative control over coordination and heterogeneity levels of the environment. Further, we propose a Centralized Training Decentralized Execution learning approach called Stateful Active Facilitator (SAF) that enables agents to work efficiently in high-coordination and high-heterogeneity environments through a differentiable and shared knowledge source used during training and dynamic selection from a shared pool of policies. We evaluate SAF and compare its performance against baselines IPPO and MAPPO on HECOGrid. Our results show that SAF consistently outperforms the baselines across different tasks and different heterogeneity and coordination levels. We release the code for HECOGrid as well as all our experiments.
翻訳日:2023-10-13 16:10:35 公開日:2023-10-06
# アンタングル表現の強化による複数ドメイン長手学習

Multi-Domain Long-Tailed Learning by Augmenting Disentangled Representations ( http://arxiv.org/abs/2210.14358v3 )

ライセンス: Link先を確認
Xinyu Yang, Huaxiu Yao, Allan Zhou, Chelsea Finn(参考訳) 多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。 この問題に対処する現在の手法は、すべての例が同じ分布から来ているシナリオのみを考慮している。 しかし多くの場合、異なるクラス不均衡を持つ複数のドメインが存在する。 本稿では,この多領域長鎖学習問題について検討し,すべてのクラスやドメインに共通するモデルの構築を目指す。 そこで本研究では,この多領域長鎖学習問題に対処するTALLYを提案する。 TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合し、データ拡張として使用するための新しい表現を生成する。 意味表現のゆがみを改善するため、TALLYはドメイン固有の効果を平均化するドメイン不変クラスプロトタイプをさらに活用する。 いくつかのベンチマークや実世界のデータセットでTALLYを評価し、サブポピュレーションとドメインシフトの両方において、他の最先端の手法よりも一貫して優れています。 私たちのコードとデータはhttps://github.com/huaxiuyao/tallyでリリースされています。

There is an inescapable long-tailed class-imbalance issue in many real-world classification problems. Current methods for addressing this problem only consider scenarios where all examples come from the same distribution. However, in many cases, there are multiple domains with distinct class imbalance. We study this multi-domain long-tailed learning problem and aim to produce a model that generalizes well across all classes and domains. Towards that goal, we introduce TALLY, a method that addresses this multi-domain long-tailed learning problem. Built upon a proposed selective balanced sampling strategy, TALLY achieves this by mixing the semantic representation of one example with the domain-associated nuisances of another, producing a new representation for use as data augmentation. To improve the disentanglement of semantic representations, TALLY further utilizes a domain-invariant class prototype that averages out domain-specific effects. We evaluate TALLY on several benchmarks and real-world datasets and find that it consistently outperforms other state-of-the-art methods in both subpopulation and domain shift. Our code and data have been released at https://github.com/huaxiuyao/TALLY.
翻訳日:2023-10-13 15:59:14 公開日:2023-10-06
# 確率分布に関する量子生成モデルの古典的学習のためのプロトコル

Protocols for classically training quantum generative models on probability distributions ( http://arxiv.org/abs/2210.13442v2 )

ライセンス: Link先を確認
Sachin Kasture, Oleksandr Kyriienko, Vincent E. Elfving(参考訳) qgm(quantum generative modelling)は、量子状態の生成とそれらの状態からのサンプル生成を隠れた確率分布として依存する。 ある種の量子状態(回路)の分布は古典的にはサンプリングが難しいため、QGMは量子超越実験において優れたテストベッドである。 さらに、生成タスクは産業用機械学習アプリケーションにますます関係しているため、QGMは実用的な量子優位性を示す強力な候補である。 しかし、これには量子回路を工業的に関連のある分布を表すように訓練することが必要であり、それに対応する訓練段階は現在の量子ハードウェアの訓練コストが膨大である。 そこで本研究では,効率的な勾配計算を行う特定のタイプの回路をベースとしたQGMの古典的訓練のためのプロトコルを提案する。 特に、Instantaneous Quantum Polynomial(IQP)回路とその拡張について考察する。 時間的複雑性, 疎度, 反集束特性の観点から, それらの古典的シミュラビリティを示すことによって, 出力確率分布をシミュレートし, 古典的トレーニングを目標確率分布にすることができる。 IQPの量子サンプリングは、古典的なサンプリングとは異なり、効率的に行うことができる。 デスクトップコンピュータ上で最大30キュービットの確率分布を用いたiqp回路のエンドツーエンドトレーニングを数値的に示す。 産業的に関係のある分布に適用すると、古典的なトレーニングと量子サンプリングの組み合わせは、NISQ時代に優位に立つための道のりである。

Quantum Generative Modelling (QGM) relies on preparing quantum states and generating samples from these states as hidden - or known - probability distributions. As distributions from some classes of quantum states (circuits) are inherently hard to sample classically, QGM represents an excellent testbed for quantum supremacy experiments. Furthermore, generative tasks are increasingly relevant for industrial machine learning applications, and thus QGM is a strong candidate for demonstrating a practical quantum advantage. However, this requires that quantum circuits are trained to represent industrially relevant distributions, and the corresponding training stage has an extensive training cost for current quantum hardware in practice. In this work, we propose protocols for classical training of QGMs based on circuits of the specific type that admit an efficient gradient computation, while remaining hard to sample. In particular, we consider Instantaneous Quantum Polynomial (IQP) circuits and their extensions. Showing their classical simulability in terms of the time complexity, sparsity and anti-concentration properties, we develop a classically tractable way of simulating their output probability distributions, allowing classical training to a target probability distribution. The corresponding quantum sampling from IQPs can be performed efficiently, unlike when using classical sampling. We numerically demonstrate the end-to-end training of IQP circuits using probability distributions for up to 30 qubits on a regular desktop computer. When applied to industrially relevant distributions this combination of classical training with quantum sampling represents an avenue for reaching advantage in the NISQ era.
翻訳日:2023-10-13 15:58:20 公開日:2023-10-06
# コンピュータビジョンデータセットにおける問題に対するデータセットのリファインメントに関する調査

A Survey of Dataset Refinement for Problems in Computer Vision Datasets ( http://arxiv.org/abs/2210.11717v2 )

ライセンス: Link先を確認
Zhijing Wan, Zhixiang Wang, CheukTing Chung and Zheng Wang(参考訳) 大規模データセットはコンピュータビジョンの進歩において重要な役割を果たす。 しかし、クラス不均衡、ノイズラベル、データセットバイアス、高リソースコストといった問題に悩まされ、モデルの性能を阻害し、信頼性を低下させる。 データ中心の研究の提唱により、上述のデータセット問題を解決するために、様々なデータ中心のソリューションが提案されている。 データセットを再構成することで、データセットの品質が向上します。 本稿では,問題のあるコンピュータビジョンデータセットに対するデータセット改良の最近の進歩について,包括的かつ構造化された概観を提供する。 まず,大規模コンピュータビジョンデータセットで発生する様々な問題を要約し,解析する。 次に,データサンプリング,データサブセット選択,アクティブラーニングの3つのカテゴリに分類した。 さらに,これらのデータセットの改良手法を,対応データ問題に応じて整理し,体系的な比較記述を提供する。 これらの3種類のデータセット改善は、特定の研究目的に適したデータ中心手法の選択を通知するデータセット問題に対して、明確な利点と欠点があることを指摘する。 最後に,現在の文献を要約し,今後の研究課題を提案する。

Large-scale datasets have played a crucial role in the advancement of computer vision. However, they often suffer from problems such as class imbalance, noisy labels, dataset bias, or high resource costs, which can inhibit model performance and reduce trustworthiness. With the advocacy of data-centric research, various data-centric solutions have been proposed to solve the dataset problems mentioned above. They improve the quality of datasets by re-organizing them, which we call dataset refinement. In this survey, we provide a comprehensive and structured overview of recent advances in dataset refinement for problematic computer vision datasets. Firstly, we summarize and analyze the various problems encountered in large-scale computer vision datasets. Then, we classify the dataset refinement algorithms into three categories based on the refinement process: data sampling, data subset selection, and active learning. In addition, we organize these dataset refinement methods according to the addressed data problems and provide a systematic comparative description. We point out that these three types of dataset refinement have distinct advantages and disadvantages for dataset problems, which informs the choice of the data-centric method appropriate to a particular research objective. Finally, we summarize the current literature and propose potential future research topics.
翻訳日:2023-10-13 15:57:55 公開日:2023-10-06
# ロバストなワンショット歌声変換

Robust One-Shot Singing Voice Conversion ( http://arxiv.org/abs/2210.11096v2 )

ライセンス: Link先を確認
Naoya Takahashi, Mayank Kumar Singh, Yuki Mitsufuji(参考訳) 近年の深層生成モデルの進歩により音声領域における音声変換の質が向上した。 しかし, 声高, 声高, 発音の多様さから, 高品質な歌唱音声変換 (SVC) はいまだに困難である。 さらに、歌声は、しばしばレバーブや伴奏音楽で録音されるため、SVCをさらに困難にしている。 本研究では,このような歪んだ歌声に対しても,任意のSVCを頑健に行う頑健なワンショットSVC(ROSVC)を提案する。 そこで本研究では,まず,部分的領域条件付けにより非知覚シンガーに一般化し,ピッチ分布マッチングとアデイン・スキップ条件付けにより目標ピッチを正確に回復する,生成型逆ネットワークに基づくワンショットsvcモデルを提案する。 次に,ロバスティフィケーション(Robostify)と呼ばれる2段階の訓練手法を提案し,高品質な変換を実現するため,第1段階の1ショットSVCモデルをクリーンデータで訓練し,第2段階のモデルエンコーダに拡張モジュールを導入し,歪みした歌声の特徴抽出を強化する。 音声品質とピッチ再構成精度をさらに向上するため,音声ニューラルボコーダの階層的拡散モデルを提案する。 実験の結果, 提案手法は, 歌唱者および未聴者の両方において, 最先端のワンショットsvcベースラインよりも優れており, 歪みに対するロバスト性が著しく向上した。

Recent progress in deep generative models has improved the quality of voice conversion in the speech domain. However, high-quality singing voice conversion (SVC) of unseen singers remains challenging due to the wider variety of musical expressions in pitch, loudness, and pronunciation. Moreover, singing voices are often recorded with reverb and accompaniment music, which make SVC even more challenging. In this work, we present a robust one-shot SVC (ROSVC) that performs any-to-any SVC robustly even on such distorted singing voices. To this end, we first propose a one-shot SVC model based on generative adversarial networks that generalizes to unseen singers via partial domain conditioning and learns to accurately recover the target pitch via pitch distribution matching and AdaIN-skip conditioning. We then propose a two-stage training method called Robustify that train the one-shot SVC model in the first stage on clean data to ensure high-quality conversion, and introduces enhancement modules to the encoders of the model in the second stage to enhance the feature extraction from distorted singing voices. To further improve the voice quality and pitch reconstruction accuracy, we finally propose a hierarchical diffusion model for singing voice neural vocoders. Experimental results show that the proposed method outperforms state-of-the-art one-shot SVC baselines for both seen and unseen singers and significantly improves the robustness against distortions.
翻訳日:2023-10-13 15:57:22 公開日:2023-10-06
# 高速マルチビュービデオ合成のための混合ニューラルネットワークボクセル

Mixed Neural Voxels for Fast Multi-view Video Synthesis ( http://arxiv.org/abs/2212.00190v2 )

ライセンス: Link先を確認
Feng Wang, Sinan Tan, Xinghang Li, Zeyue Tian, Yafei Song and Huaping Liu(参考訳) 実世界のマルチビュー入力から高忠実度ビデオを合成することは、現実の環境の複雑さと非常にダイナミックな動きのために困難である。 従来の神経放射場に基づく研究は、動的シーンの高品質な再構成を実証してきた。 しかし、そのようなモデルを実世界のシーンでトレーニングするのには通常数日から数週間かかる。 本稿では,高速なトレーニング速度と競争性を有する動的シーンをよりよく表現するためのmixvoxelsという新しい手法を提案する。 提案したMixVoxelsは、4D動的シーンを静的および動的ボクセルの混合として表現し、異なるネットワークで処理する。 このようにして、静的なボクセルに必要なモダリティの計算を軽量なモデルで行うことができ、特に静的な背景が支配する多くの動的シーンにおいて、計算の量を削減することができる。 2種類のボクセルを分離するために,各ボクセルの時間的ばらつきを推定する新しい変動場を提案する。 動的ボクセルでは,複数の時間ステップを効率的に問合せするための内積時間問合せ手法を設計し,高ダイナミックな動作の復元に不可欠である。 その結果,300コマビデオの入力によるダイナミックシーンのトレーニング15分で,MixVoxelsは従来の手法よりも優れたPSNRを実現することができた。 コードとトレーニングされたモデルはhttps://github.com/fengres/mixvoxelsで入手できる。

Synthesizing high-fidelity videos from real-world multi-view input is challenging because of the complexities of real-world environments and highly dynamic motions. Previous works based on neural radiance fields have demonstrated high-quality reconstructions of dynamic scenes. However, training such models on real-world scenes is time-consuming, usually taking days or weeks. In this paper, we present a novel method named MixVoxels to better represent the dynamic scenes with fast training speed and competitive rendering qualities. The proposed MixVoxels represents the 4D dynamic scenes as a mixture of static and dynamic voxels and processes them with different networks. In this way, the computation of the required modalities for static voxels can be processed by a lightweight model, which essentially reduces the amount of computation, especially for many daily dynamic scenes dominated by the static background. To separate the two kinds of voxels, we propose a novel variation field to estimate the temporal variance of each voxel. For the dynamic voxels, we design an inner-product time query method to efficiently query multiple time steps, which is essential to recover the high-dynamic motions. As a result, with 15 minutes of training for dynamic scenes with inputs of 300-frame videos, MixVoxels achieves better PSNR than previous methods. Codes and trained models are available at https://github.com/fengres/mixvoxels
翻訳日:2023-10-13 15:38:06 公開日:2023-10-06
# SafeSpace MFNet: 高精度かつ効率的な多機能ドローン検出ネットワーク

SafeSpace MFNet: Precise and Efficient MultiFeature Drone Detection Network ( http://arxiv.org/abs/2211.16785v2 )

ライセンス: Link先を確認
Misha Urooj Khan, Mahnoor Dil, Muhammad Zeshan Alam, Farooq Alam Orakazi, Abdullah M. Almasoud, Zeeshan Kaleem, Chau Yuen(参考訳) ドローンとして知られる無人航空機(uav)の普及は、信頼性の高い検出システムに対する需要を生み出した。 ドローンの不適切な使用は、特に機密施設に関して、潜在的なセキュリティとプライバシーの危険をもたらす。 これらの障害を克服するために、最も集中した特徴マップをキャプチャして特徴表現を強化するソリューションであるMFNet(MultiFeatureNet)の概念を提案した。 さらに,入力特徴マップの異なるチャネルを適応的に重み付けする手法であるmultifeaturenet-feature attention (mfnet-fa)を提案する。 マルチスケール検出の要件を満たすため,MFNetとMFNet-FAのバージョン,すなわち小型(S),中型(M),大型(L)を提示した。 その結果、顕著なパフォーマンス向上が明らかになった。 最適鳥検出のためのmfnet-m(アブレーション研究) 2)UAV検出におけるMFNet-L(アブレーション研究)の精度は99.8\%である。 2)精度スコア97.2\%を達成する。 MFNet-FA-S(アブレーション研究) 3) より小さな特徴マップサイズ、計算要求(GFLOP)、運用効率(毎秒フレーム)を考慮すると、最もリソース効率のよい代替案として登場します。 これにより、限られた機能を持つハードウェアへのデプロイに特に適している。 さらにMFNet-FA-S(アブレーション研究) 3) faモジュールが組み込まれているため、swiftリアルタイム推論とマルチオブジェクト検出が際立っている。 フォーカスモジュールを用いたMFNet-Lの提案(アブレーション研究) 2)最も顕著な分類結果を示し、平均精度は98.4\%、平均リコール率は96.6\%、平均平均精度(マップ)は98.3\%、平均交点率(iou)は72.8\%である。 再現可能な研究を促進するため、MFNetのデータセットとコードは、オープンソースのプロジェクトとして、github.com/ZeeshanKaleem/MultiFeatureNetとして自由に利用可能である。

The increasing prevalence of unmanned aerial vehicles (UAVs), commonly known as drones, has generated a demand for reliable detection systems. The inappropriate use of drones presents potential security and privacy hazards, particularly concerning sensitive facilities. To overcome those obstacles, we proposed the concept of MultiFeatureNet (MFNet), a solution that enhances feature representation by capturing the most concentrated feature maps. Additionally, we present MultiFeatureNet-Feature Attention (MFNet-FA), a technique that adaptively weights different channels of the input feature maps. To meet the requirements of multi-scale detection, we presented the versions of MFNet and MFNet-FA, namely the small (S), medium (M), and large (L). The outcomes reveal notable performance enhancements. For optimal bird detection, MFNet-M (Ablation study 2) achieves an impressive precision of 99.8\%, while for UAV detection, MFNet-L (Ablation study 2) achieves a precision score of 97.2\%. Among the options, MFNet-FA-S (Ablation study 3) emerges as the most resource-efficient alternative, considering its small feature map size, computational demands (GFLOPs), and operational efficiency (in frame per second). This makes it particularly suitable for deployment on hardware with limited capabilities. Additionally, MFNet-FA-S (Ablation study 3) stands out for its swift real-time inference and multiple-object detection due to the incorporation of the FA module. The proposed MFNet-L with the focus module (Ablation study 2) demonstrates the most remarkable classification outcomes, boasting an average precision of 98.4\%, average recall of 96.6\%, average mean average precision (mAP) of 98.3\%, and average intersection over union (IoU) of 72.8\%. To encourage reproducible research, the dataset, and code for MFNet are freely available as an open-source project: github.com/ZeeshanKaleem/MultiFeatureNet.
翻訳日:2023-10-13 15:37:43 公開日:2023-10-06
# ビッグデータスキャナーによる中国のcpi予測

Predicting China's CPI by Scanner Big Data ( http://arxiv.org/abs/2211.16641v3 )

ライセンス: Link先を確認
Zhenkun Zhou and Zikun Song and Tao Ren(参考訳) Scannerのビッグデータは、Consumer Price Index(CPI)を構築する可能性がある。 本研究は、中国Ant Business Alliance(CAA)が提供するスーパーマーケット販売のスキャナーデータを用いて、中国でS-FCPI(Scanner-data Food Consumer Price Index)を構築し、他のマクロ指標、特に中国のCPIによって指標信頼性が検証されている。 それだけでなく、私たちはS-FCPIに基づく複数の機械学習モデルを構築し、数ヶ月でCPIの成長率を定量的に予測し、その方向とレベルを質的に予測します。 予測モデルは、既存の研究における従来の時系列モデルよりもはるかに優れたパフォーマンスを達成する。 この研究は、中国のスキャナービッグデータを使用して価格指数を構築し、予測する方法を開拓する。 S-FCPIは、CPIよりも高頻度で広い範囲の商品価格の変化を反映できるだけでなく、マクロ経済活動の監視、インフレの予測、その他の経済問題を理解するための新たな視点を提供する。

Scanner big data has potential to construct Consumer Price Index (CPI). This work utilizes the scanner data of supermarket retail sales, which are provided by China Ant Business Alliance (CAA), to construct the Scanner-data Food Consumer Price Index (S-FCPI) in China, and the index reliability is verified by other macro indicators, especially by China's CPI. And not only that, we build multiple machine learning models based on S-FCPI to quantitatively predict the CPI growth rate in months, and qualitatively predict those directions and levels. The prediction models achieve much better performance than the traditional time series models in existing research. This work paves the way to construct and predict price indexes through using scanner big data in China. S-FCPI can not only reflect the changes of goods prices in higher frequency and wider geographic dimension than CPI, but also provide a new perspective for monitoring macroeconomic operation, predicting inflation and understanding other economic issues, which is beneficial supplement to China's CPI.
翻訳日:2023-10-13 15:37:10 公開日:2023-10-06
# ランダム化適応量子状態準備

Randomized adaptive quantum state preparation ( http://arxiv.org/abs/2301.04201v2 )

ライセンス: Link先を確認
Alicia B. Magann, Sophia E. Economou, Christian Arenz(参考訳) 本研究では、ランダム性を必須成分とし、古典的最適化を必要としない量子状態準備のための適応法を開発した。 代わりに、コスト関数を最小化し、適応的に構築された量子回路を通じて所望の量子状態を作成する。 ほぼ全ての初期状態に対して、対象状態への収束が達成できるという理論的議論と数値的な証拠を提供する。 本研究では,不連続高原への接続を可能にし,大規模問題に対するアルゴリズムの適用性を評価するために,異なるランダム化手順を調査し,期待コスト関数変化の低域を開拓する。

We develop an adaptive method for quantum state preparation that utilizes randomness as an essential component and that does not require classical optimization. Instead, a cost function is minimized to prepare a desired quantum state through an adaptively constructed quantum circuit, where each adaptive step is informed by feedback from gradient measurements in which the associated tangent space directions are randomized. We provide theoretical arguments and numerical evidence that convergence to the target state can be achieved for almost all initial states. We investigate different randomization procedures and develop lower bounds on the expected cost function change, which allows for drawing connections to barren plateaus and for assessing the applicability of the algorithm to large-scale problems.
翻訳日:2023-10-13 15:30:12 公開日:2023-10-06
# 最適ワンショット絡み合い共有

Optimal one-shot entanglement sharing ( http://arxiv.org/abs/2301.01781v2 )

ライセンス: Link先を確認
Vikesh Siddhu and John Smolin(参考訳) 量子インターコネクト間の絡み合いの共有は、量子情報処理の基本である。 本稿では、この相互接続を量子チャネルでモデル化し、高忠実度エンタングルメントの共有を目的とした実用的な設定について論じる。 任意のチャネルに対して、この最大忠実度とそれを実現する最適入力の両方を容易に見つける方法を提供する。 絡み合いを共有するためのほとんどの指標とは異なり、この最大忠実性は乗法であることが示される。 これにより、ワンショット設定で見つかった最大忠実度と最適な入力が、複数のチャンネルが、おそらく他のチャネルと使用されても拡張されるという意味で、完全な理解が得られます。 最適な入力は完全に絡み合う必要はない。 これらの最適入力における最小絡み合いは、チャネルノイズによって不連続に変化することがある。 一般に、ノイズパラメータは識別が難しく、ほとんどのチャネルで未知のままである。 しかし、クビット環境を持つ全てのクビットチャネルに対して、厳密なノイズパラメトリゼーションを提供し、非閉鎖の時期を説明する。 この雑音のパラメトリゼーションと、我々が標準クラウス分解と呼ぶチャネル表現は、それらがより一般的に有用であるような喜ばしい性質を持つ。

Sharing entanglement across quantum interconnects is fundamental for quantum information processing. We discuss a practical setting where this interconnect, modeled by a quantum channel, is used once with the aim of sharing high fidelity entanglement. For any channel, we provide methods to easily find both this maximum fidelity and optimal inputs that achieve it. Unlike most metrics for sharing entanglement, this maximum fidelity can be shown to be multiplicative. This ensures a complete understanding in the sense that the maximum fidelity and optimal inputs found in our one-shot setting extend even when the channel is used multiple times, possibly with other channels. Optimal inputs need not be fully entangled. We find the minimum entanglement in these optimal inputs can even vary discontinuously with channel noise. Generally, noise parameters are hard to identify and remain unknown for most channels. However, for all qubit channels with qubit environments, we provide a rigorous noise parametrization which we explain in-terms of no-cloning. This noise parametrization and a channel representation we call the standard Kraus decomposition have pleasing properties that make them both useful more generally.
翻訳日:2023-10-13 15:29:36 公開日:2023-10-06
# 非エルミートブレイディングに由来するエルミートトポロジー

Hermitian Topologies originating from non-Hermitian braidings ( http://arxiv.org/abs/2212.13736v2 )

ライセンス: Link先を確認
W. B. Rui, Y. X. Zhao, Z. D. Wang(参考訳) 非エルミート系の複素エネルギー帯は1次元においても運動量空間に分岐する。 ここでは、非エルミートブレイディングが、エルミート系と非エルミート系を統一する一般的な枠組みの下で、カイラル対称性を持つエルミート位相物理学の下にあることを明らかにした。 特に、非エルミート帯域をブレイディングする結び目とゼロエネルギーループの間の連結数と1次元のカイラル対称位相の位相不変量とを同一視するエレガントなアイデンティティを導出する。 さらに、非エルミートブレイディングの異なる結び目構造を変換する臨界点から生じる相転移のエキゾチックなクラスを見出し、従来のエルミート位相相転移理論には含まれていない。 それにもかかわらず、バルク非エルミートブレイディングとエルミート位相絶縁体の境界ゼロモードの間のバルク境界対応を示す。 最後に, 人工結晶で容易に実現可能な非エルミートブレイディングを用いた典型的な位相相を構築する。

The complex energy bands of non-Hermitian systems braid in momentum space even in one dimension. Here, we reveal that the non-Hermitian braiding underlies the Hermitian topological physics with chiral symmetry under a general framework that unifies Hermitian and non-Hermitian systems. Particularly, we derive an elegant identity that equates the linking number between the knots of braiding non-Hermitian bands and the zero-energy loop to the topological invariant of chiral-symmetric topological phases in one dimension. Moreover, we find an exotic class of phase transitions arising from the critical point transforming different knot structures of the non-Hermitian braiding, which are not included in the conventional Hermitian topological phase transition theory. Nevertheless, we show the bulk-boundary correspondence between the bulk non-Hermitian braiding and boundary zero-modes of the Hermitian topological insulators. Finally, we construct typical topological phases with non-Hermitian braidings, which can be readily realized by artificial crystals.
翻訳日:2023-10-13 15:28:31 公開日:2023-10-06
# 多領域意味セグメンテーションのための普遍視覚概念の弱い教師付き学習

Weakly supervised training of universal visual concepts for multi-domain semantic segmentation ( http://arxiv.org/abs/2212.10340v2 )

ライセンス: Link先を確認
Petra Bevandi\'c, Marin Or\v{s}i\'c, Ivan Grubi\v{s}i\'c, Josip \v{S}ari\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) 深層監視モデルには、大量のトレーニングデータを吸収する前例のない能力がある。 したがって、複数のデータセットのトレーニングは、通常のシーンにおける強い一般化とエッジケースにおける優雅なパフォーマンス劣化への選択方法となる。 残念ながら、異なるデータセットは互換性のないラベルを持つことが多い。 例えば、Cityscapesロードクラスはすべての走行面を仮定し、Vistasは道路マーキングやマンホールなどの別々のクラスを定義している。 さらに、多くのデータセットには重複ラベルがある。 例えば、ピックアップはVIPERのトラック、Vistaの車、ADE20kのバンとしてラベル付けされる。 我々は、ラベルを普遍的な視覚概念の連合として考えることで、この問題に対処する。 これにより、relabelingの労力を必要とせずに、マルチドメインデータセットコレクション上でシームレスで原則的な学習が可能になる。 本手法は,データセット内およびデータセット間を競争的に一般化するとともに,トレーニングデータセットに別々にラベル付けされていない視覚概念を学習する能力を有する。 実験では、2つのマルチドメインデータセットコレクションとWildDash 2ベンチマークで、競合や最先端のパフォーマンスが明らかになった。

Deep supervised models have an unprecedented capacity to absorb large quantities of training data. Hence, training on multiple datasets becomes a method of choice towards strong generalization in usual scenes and graceful performance degradation in edge cases. Unfortunately, different datasets often have incompatible labels. For instance, the Cityscapes road class subsumes all driving surfaces, while Vistas defines separate classes for road markings, manholes etc. Furthermore, many datasets have overlapping labels. For instance, pickups are labeled as trucks in VIPER, cars in Vistas, and vans in ADE20k. We address this challenge by considering labels as unions of universal visual concepts. This allows seamless and principled learning on multi-domain dataset collections without requiring any relabeling effort. Our method achieves competitive within-dataset and cross-dataset generalization, as well as ability to learn visual concepts which are not separately labeled in any of the training datasets. Experiments reveal competitive or state-of-the-art performance on two multi-domain dataset collections and on the WildDash 2 benchmark.
翻訳日:2023-10-13 15:27:32 公開日:2023-10-06
# AIシステムにおけるXenophobiaの検討

Manifestations of Xenophobia in AI Systems ( http://arxiv.org/abs/2212.07877v2 )

ライセンス: Link先を確認
Nenad Tomasev, Jonathan Leader Maynard, Iason Gabriel(参考訳) Xenophobiaは辺境化、差別、紛争の主要な要因の1つだが、多くの著名な機械学習(ML)フェアネスフレームワークは、結果として生じるキセノピーの害を包括的に測定または緩和することができない。 ここでは、この概念的ギャップを埋め、人工知能(AI)ソリューションの安全で倫理的な設計を促進することを目的とする。 キセノフォビアの影響について、まず異なる種類のキセノフォビア害を識別し、次にこのフレームワークをいくつかの著名なAIアプリケーションドメインに適用し、ソーシャルメディアやレコメンデーションシステム、医療、移民、雇用、そして大規模な事前訓練モデルにおけるバイアスに対するAIとキセノフォビアの潜在的な相互作用をレビューする。 これらは、将来のaiシステムの包括的でxen 親和的な設計に向けての推奨に役立ちます。

Xenophobia is one of the key drivers of marginalisation, discrimination, and conflict, yet many prominent machine learning (ML) fairness frameworks fail to comprehensively measure or mitigate the resulting xenophobic harms. Here we aim to bridge this conceptual gap and help facilitate safe and ethical design of artificial intelligence (AI) solutions. We ground our analysis of the impact of xenophobia by first identifying distinct types of xenophobic harms, and then applying this framework across a number of prominent AI application domains, reviewing the potential interplay between AI and xenophobia on social media and recommendation systems, healthcare, immigration, employment, as well as biases in large pre-trained models. These help inform our recommendations towards an inclusive, xenophilic design of future AI systems.
翻訳日:2023-10-13 15:27:14 公開日:2023-10-06
# 近傍ホモフィリーグラフ畳み込みネットワーク

Neighborhood Homophily-based Graph Convolutional Network ( http://arxiv.org/abs/2301.09851v3 )

ライセンス: Link先を確認
Shengbo Gong, Jiajun Zhou, Chenxuan Xie, Qi Xuan(参考訳) グラフニューラルネットワーク(GNN)は、グラフ指向タスクにおいて強力であることが証明されている。 しかし、多くの実世界のグラフは異性を持ち、古典的なGNNのホモフィリーな仮定に挑戦する。 普遍性問題を解決するために、多くの研究がネットワークを深くしたり、中間表現を結合させたりしている。 最近の研究では、ホモフィリーを特徴付ける新しい指標を提案するが、提案する指標とモデルの相関を考えることは稀である。 本稿ではまず,ノード近傍におけるラベルの複雑さや純度を測定するため,新しい計量であるNeighborhood Homophily(\textit{NH})を設計する。 さらに、このメトリックを古典的なグラフ畳み込みネットワーク(gcn)アーキテクチャに組み込んで、 \textbf{n}eighborhood \textbf{h}omophily-based \textbf{g}raph \textbf{c}onvolutional \textbf{n}etwork (\textbf{nhgcn})を提案する。 このフレームワークでは、隣人は推定された \textit{NH} 値でグループ化され、異なるチャネルから集約され、その結果のノード予測が順番に使われて \textit{NH} 値を推定および更新する。 メトリック推定とモデル推論の2つのプロセスは、よりよいノード分類を達成するために交互に最適化される。 nhgcnは、ホモフィラスベンチマークとヘテロフィラスベンチマークの両方で最高性能を達成し、現在のsata法と比較して最大7.4\%改善されている。

Graph neural networks (GNNs) have been proved powerful in graph-oriented tasks. However, many real-world graphs are heterophilous, challenging the homophily assumption of classical GNNs. To solve the universality problem, many studies deepen networks or concatenate intermediate representations, which does not inherently change neighbor aggregation and introduces noise. Recent studies propose new metrics to characterize the homophily, but rarely consider the correlation of the proposed metrics and models. In this paper, we first design a new metric, Neighborhood Homophily (\textit{NH}), to measure the label complexity or purity in node neighborhoods. Furthermore, we incorporate the metric into the classical graph convolutional network (GCN) architecture and propose \textbf{N}eighborhood \textbf{H}omophily-based \textbf{G}raph \textbf{C}onvolutional \textbf{N}etwork (\textbf{NHGCN}). In this framework, neighbors are grouped by estimated \textit{NH} values and aggregated from different channels, and the resulting node predictions are then used in turn to estimate and update \textit{NH} values. The two processes of metric estimation and model inference are alternately optimized to achieve better node classification. NHGCN achieves top overall performance on both homophilous and heterophilous benchmarks, with an improvement of up to 7.4\% compared to the current SOTA methods.
翻訳日:2023-10-13 15:19:20 公開日:2023-10-06
# Rydberg型ブロッキングを用いたSchr\"{o}dinger cat状態の熱劣化耐性生成

Thermal-dephasing-tolerant generation of Schr\"{o}dinger cat states with Rydberg dressed blockade ( http://arxiv.org/abs/2301.05389v2 )

ライセンス: Link先を確認
Ri-Hua Zheng, S.-L. Su, Jie Song, Weibin Li, and Yan Xia(参考訳) 非局所性を含む多粒子交絡状態は、量子力学の最も魅力的な特徴の1つである。 本研究では,rydberg型原子を用いたメソスコピックエンタングル状態の熱分解耐性生成法を提案する。 ライドバーグ状態よりも服装状態の論理状態を符号化する。 このような処理は、rydberg-state-codingと同一のシステムサイズで比較すると、多成分の絡み合いコヒーレンスの寿命を約3倍に増やすことができるため、メゾスコピック重ね合わせ状態生成の固体フィダリティを誘導する。 現在の研究は、大規模量子計算や多体リドバーグ量子シミュレーションに役立つ多体量子絡み合いにおいて、Rydberg装束状態を使用することの利点を理論的に検証している。

Multipartite entangled states involving non-locality are one of the most fascinating characteristics of quantum mechanics. In this work, we propose a thermal-dephasing-tolerant generation of mesoscopic entangled states with Rydberg dressed atoms. We encode logical state on dressed states rather than Rydberg states. Such treatment can increase the lifetime of multipartite entanglement coherence to around 3 times compared to the Rydberg-state-coding one at the same system size, and therefore induce solid fidelities of mesoscopic superposition states generation. The current work theoretically verifies the advantages of using Rydberg dressed states in many-body quantum entanglement, which is helpful for large-scale quantum computation and many-body Rydberg quantum simulation.
翻訳日:2023-10-13 15:17:11 公開日:2023-10-06
# EvoX: スケーラブル進化計算のための分散GPUアクセラレーションフレームワーク

EvoX: A Distributed GPU-accelerated Framework for Scalable Evolutionary Computation ( http://arxiv.org/abs/2301.12457v8 )

ライセンス: Link先を確認
Beichen Huang, Ran Cheng, Zhuozhao Li, Yaochu Jin, Kay Chen Tan(参考訳) 自然進化過程にインスパイアされた進化的計算(ec)は、人工知能の基盤としての地位を確立した。 ecは適応性や拡張的な問題空間を探索する能力など、特有の特性を持っており、複雑なブラックボックス最適化を必要とする領域で有用である。 近年,データ集約型アプリケーションや大規模複雑システムの普及に伴い,スケーラブルなECソリューションの需要は大幅に増大している。 しかし、元々は質素なスケールで設計された既存のECライブラリの多くは、現代の問題に対する要求が高まっているため、不足している。 先駆的なGPU加速ECライブラリの出現は一歩前進するが、柔軟性とアーキテクチャの堅牢性という面では、制限に悩まされている。 これらの制限に対処するため、ECアルゴリズムの自動化、分散、異種実行に適した計算フレームワークであるEvoXを紹介した。 evoxの中核は、並列化されたecアルゴリズムの開発を単純化する関数型プログラミングモデルであり、gpuの分散実行に特化した高性能計算モデルとシームレスに統合されている。 基盤として,単一目的と多目的の両方の最適化のために,45のecアルゴリズムの広い範囲からなる広範なライブラリを構築した。 さらに、このライブラリは、数十の数値テスト機能から数百の神経進化と強化学習タスク/環境まで、さまざまなベンチマーク問題に対する包括的なサポートを提供する。 さまざまな問題シナリオやハードウェア構成に関する広範な実験を通じて、EvoXは堅牢なシステムとモデルのパフォーマンスを実証した。 EvoXはオープンソースで、https://github.com/EMI-Group/EvoXでアクセスできる。

Inspired by natural evolutionary processes, Evolutionary Computation (EC) has established itself as a cornerstone of Artificial Intelligence. EC possesses distinctive attributes, including adaptability and the capability to explore expansive problem spaces, making it invaluable in domains that require intricate black-box optimization. Recently, with the surge in data-intensive applications and large-scale complex systems, the demand for scalable EC solutions has grown significantly. However, many existing EC libraries, which were originally designed for modest scales, fall short in catering to the heightened demands of modern problems. While the advent of some pioneering GPU-accelerated EC libraries is a step forward, they too grapple with limitations, particularly in terms of flexibility and architectural robustness. To address these limitations, we introduce EvoX: a computing framework tailored for automated, distributed, and heterogeneous execution of EC algorithms. At the core of EvoX lies a functional programming model that simplifies the development of parallelized EC algorithms, seamlessly integrated with a high-performance computation model designed specifically for distributed GPU-accelerated execution. Building upon foundation, we have crafted an extensive library comprising a wide spectrum of 45 EC algorithms for both single- and multi-objective optimization. Furthermore, the library offers comprehensive support for a diverse set of benchmark problems, ranging from dozens of numerical test functions to hundreds of neuroevolution and reinforcement learning tasks/environments. Through extensive experiments across a range of problem scenarios and hardware configurations, EvoX has demonstrated robust system and model performances. EvoX is open-source and accessible at: https://github.com/EMI-Group/EvoX.
翻訳日:2023-10-13 15:09:42 公開日:2023-10-06
# cancerunit: 大規模なctスキャンを用いた8つの主要癌の検出, 分節化, 診断のための単一統一モデルに向けて

CancerUniT: Towards a Single Unified Model for Effective Detection, Segmentation, and Diagnosis of Eight Major Cancers Using a Large Collection of CT Scans ( http://arxiv.org/abs/2301.12291v2 )

ライセンス: Link先を確認
Jieneng Chen, Yingda Xia, Jiawen Yao, Ke Yan, Jianpeng Zhang, Le Lu, Fakai Wang, Bo Zhou, Mingyan Qiu, Qihang Yu, Mingze Yuan, Wei Fang, Yuxing Tang, Minfeng Xu, Jian Zhou, Yuqian Zhao, Qifeng Wang, Xianghua Ye, Xiaoli Yin, Yu Shi, Xin Chen, Jingren Zhou, Alan Yuille, Zaiyi Liu, Ling Zhang(参考訳) 人間の読者や放射線科医は臨床でフルボディのマルチディセーゼ検出と診断を日常的に行っているが、ほとんどの医療aiシステムは、いくつかの病気の限られたリストを持つ単一の臓器に焦点を当てるように作られている。 これはAIの臨床的採用を著しく制限する可能性がある。 特定の数のAIモデルを非自明に組み立てて、CTスキャンを読んでいる人の診断プロセスと一致させる必要がある。 本稿では,CTにおける8大癌に対する腫瘍の存在と位置と診断を共同で検出する統一腫瘍トランスフォーマー(CancerUniT)モデルを構築した。 CancerUniT はマルチ腫瘍予測の出力を持つクエリベースの Mask Transformer モデルである。 対象クエリを臓器クエリ,腫瘍検出クエリ,腫瘍診断クエリに分離し,さらに3つのグループ間の階層的関係を確立する。 この臨床的にインスパイアされたアーキテクチャは、腫瘍の組織間および組織内表現学習を効果的に支援し、これらの複雑で解剖学的に関連した多臓器癌画像読取タスクの解決を促進する。 CancerUniTは8種類のがんを含む10,042人の大規模CT画像と非癌腫瘍(いずれも放射線医が注釈を付けた3D腫瘍マスクで診断された)を用いて、エンドツーエンドに訓練されている。 631人のテストセットにおいて、がんユニットは、腫瘍の検出、分節化、診断に関する8つの単一オーガンエキスパートモデルと、マルチダイザー法を実質的に上回る一連の臨床関連評価基準の下で、強力なパフォーマンスを示した。 これは、普遍的な高性能がんスクリーニングツールに一歩近づいた。

Human readers or radiologists routinely perform full-body multi-organ multi-disease detection and diagnosis in clinical practice, while most medical AI systems are built to focus on single organs with a narrow list of a few diseases. This might severely limit AI's clinical adoption. A certain number of AI models need to be assembled non-trivially to match the diagnostic process of a human reading a CT scan. In this paper, we construct a Unified Tumor Transformer (CancerUniT) model to jointly detect tumor existence & location and diagnose tumor characteristics for eight major cancers in CT scans. CancerUniT is a query-based Mask Transformer model with the output of multi-tumor prediction. We decouple the object queries into organ queries, tumor detection queries and tumor diagnosis queries, and further establish hierarchical relationships among the three groups. This clinically-inspired architecture effectively assists inter- and intra-organ representation learning of tumors and facilitates the resolution of these complex, anatomically related multi-organ cancer image reading tasks. CancerUniT is trained end-to-end using a curated large-scale CT images of 10,042 patients including eight major types of cancers and occurring non-cancer tumors (all are pathology-confirmed with 3D tumor masks annotated by radiologists). On the test set of 631 patients, CancerUniT has demonstrated strong performance under a set of clinically relevant evaluation metrics, substantially outperforming both multi-disease methods and an assembly of eight single-organ expert models in tumor detection, segmentation, and diagnosis. This moves one step closer towards a universal high performance cancer screening tool.
翻訳日:2023-10-13 15:08:51 公開日:2023-10-06
# フッ化ニウム量子ビット上のカップラーマイクロ波励起制御相ゲート

Coupler microwave-activated controlled phase gate on fluxonium qubits ( http://arxiv.org/abs/2302.09819v2 )

ライセンス: Link先を確認
Ilya A. Simakov, Grigoriy S. Mazhorin, Ilya N. Moskalenko, Nikolay N. Abramov, Alexander A. Grigorev, Dmitry O. Moskalev, Anastasiya A. Pishchimova, Nikita S. Smirnov, Evgeniy V. Zikiy, Ilya A. Rodionov, Ilya S. Besedin(参考訳) チューナブルカップルは超伝導量子ビット間の2ビットゲートを実装するための最も強力なツールの1つである。 チューナブルカプラは通常、2つのキュービットを接続するLC回路の共振周波数を調整するために使用されるSQUIDのような非線形要素を含む。 本稿では,準定常制御信号を適用することで,可変カプラの共振周波数を調整する代わりに,マイクロ波によってカプラ自体に関連する自由度を励起する手法を提案する。 カプラとキュービットの間の強い有効長のカップリングのため、この遷移の周波数は計算状態に大きく依存し、異なる状態における異なる位相の蓄積に繋がる。 この方法を用いて、フラックスニウムベースの量子プロセッサ上で44ns持続時間czゲートを実験的に実証し、クロスエントロピーベンチマークによって特徴付けられる97.6\pm 0.4 \%$を得た。

Tunable couplers have recently become one of the most powerful tools for implementing two-qubit gates between superconducting qubits. A tunable coupler typically includes a nonlinear element, such as a SQUID, which is used to tune the resonance frequency of an LC circuit connecting two qubits. Here we propose a complimentary approach where instead of tuning the resonance frequency of the tunable coupler by applying a quasistatic control signal, we excite by microwave the degree of freedom associated with the coupler itself. Due to strong effective longitudinal coupling between the coupler and the qubits, the frequency of this transition strongly depends on the computational state, leading to different phase accumulations in different states. Using this method, we experimentally demonstrate a CZ gate of 44 ns duration on a fluxonium-based quantum processor, obtaining a fidelity of $97.6\pm 0.4 \%$ characterized by cross-entropy benchmarking.
翻訳日:2023-10-13 14:59:20 公開日:2023-10-06
# インシシット幾何学と相互作用埋め込みによる分子特性予測の改善

Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular Property Prediction ( http://arxiv.org/abs/2302.02055v2 )

ライセンス: Link先を確認
Christopher Fifty, Joseph M. Paggi, Ehsan Amid, Jure Leskovec, Ron Dror(参考訳) 少ないショット学習は、教師ありデータはしばしば非常に制限されるため、分子特性予測に有望なアプローチである。 しかし、多くの重要な分子特性は複雑な分子特性(例えば分子が採用する様々な3dジオメトリやそれが形成できる化学相互作用の種類など)に依存しており、それらは特徴空間で明示的にエンコードされておらず、低量のデータから近似しなければならない。 これらの特徴を学習することは、特に新しいタスクに迅速に適応するように設計された数ショットの学習アルゴリズムでは困難である。 本研究では, 複雑な分子特性をエンコードする分子埋め込み法を開発し, 少ない分子特性予測の性能を向上させる。 提案手法では,分子ドッキング計算の結果や,組込み空間を構成するマルチタスク学習パラダイムなど,大量の合成データを活用する。 複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。 私たちのコードはhttps://github.com/cfifty/igniteで利用可能です。

Few-shot learning is a promising approach to molecular property prediction as supervised data is often very limited. However, many important molecular properties depend on complex molecular characteristics -- such as the various 3D geometries a molecule may adopt or the types of chemical interactions it can form -- that are not explicitly encoded in the feature space and must be approximated from low amounts of data. Learning these characteristics can be difficult, especially for few-shot learning algorithms that are designed for fast adaptation to new tasks. In this work, we develop molecular embeddings that encode complex molecular characteristics to improve the performance of few-shot molecular property prediction. Our approach leverages large amounts of synthetic data, namely the results of molecular docking calculations, and a multi-task learning paradigm to structure the embedding space. On multiple molecular property prediction benchmarks, training from the embedding space substantially improves Multi-Task, MAML, and Prototypical Network few-shot learning performance. Our code is available at https://github.com/cfifty/IGNITE.
翻訳日:2023-10-13 14:57:37 公開日:2023-10-06
# CVTNet:LiDARデータを用いた位置認識のためのクロスプラットフォームトランスフォーマネットワーク

CVTNet: A Cross-View Transformer Network for Place Recognition Using LiDAR Data ( http://arxiv.org/abs/2302.01665v2 )

ライセンス: Link先を確認
Junyi Ma, Guangming Xiong, Jingyi Xu, Xieyuanli Chen(参考訳) LiDARをベースとした位置認識(LPR)は、GPSで識別された環境において、これまで訪れた場所を特定する上で、自動運転車の最も重要なコンポーネントの1つである。 既存のLPR手法の多くは、異なるビューを考慮せずに入力ポイントクラウドの平凡な表現を使用するが、LiDARセンサーからの情報を完全に活用することはできない。 本稿では,LIDARデータから発生する範囲画像ビュー(RIV)と鳥眼ビュー(BEV)を融合させる,CVTNetと呼ばれるクロスビュートランスフォーマーネットワークを提案する。 変換器内および変換器間を用いた2つの異なるビュー間の相関関係を抽出する。 これに基づいて,提案するCVTNetは,各レーザスキャンの終端をオンライン化して,現在のクエリスキャンと事前構築したデータベースとのデクリプタマッチングにより,既往の場所を検索する,Yaw-angle-invariant Global Descriptorを生成する。 センサの設定や環境条件の異なる3つのデータセットに対するアプローチを評価した。 実験結果から,提案手法は視点変化と長期スパンに強い頑健性を有する最先端のLPR法よりも優れていた。 さらに,本手法は,通常のLiDARフレームレートよりも高速なリアルタイム性能を実現する。 本手法の実装は, https://github.com/BIT-MJY/CVTNetで公開されている。

LiDAR-based place recognition (LPR) is one of the most crucial components of autonomous vehicles to identify previously visited places in GPS-denied environments. Most existing LPR methods use mundane representations of the input point cloud without considering different views, which may not fully exploit the information from LiDAR sensors. In this paper, we propose a cross-view transformer-based network, dubbed CVTNet, to fuse the range image views (RIVs) and bird's eye views (BEVs) generated from the LiDAR data. It extracts correlations within the views themselves using intra-transformers and between the two different views using inter-transformers. Based on that, our proposed CVTNet generates a yaw-angle-invariant global descriptor for each laser scan end-to-end online and retrieves previously seen places by descriptor matching between the current query scan and the pre-built database. We evaluate our approach on three datasets collected with different sensor setups and environmental conditions. The experimental results show that our method outperforms the state-of-the-art LPR methods with strong robustness to viewpoint changes and long-time spans. Furthermore, our approach has a good real-time performance that can run faster than the typical LiDAR frame rate. The implementation of our method is released as open source at: https://github.com/BIT-MJY/CVTNet.
翻訳日:2023-10-13 14:57:19 公開日:2023-10-06
# 光子相関におけるフォノン信号

Phonon Signatures in Photon Correlations ( http://arxiv.org/abs/2302.01105v2 )

ライセンス: Link先を確認
Ben S. Humphries, Dale Green, Magnus O. Borgh, Garth A. Jones(参考訳) 熱浴中のビブロニック分子から放出されるフォノンと光子の2次および2次相関関数は,それぞれ束縛と反バンチング(純粋量子効果)をもたらすことを示した。 光子-光子相関では、フォノン交換と環境に関するシグナルが明らかにされる。 相関関数が検出順序に強く依存していることを示し,フォノンダイナミクスが光の放出に与える影響について考察した。 この研究は、凝縮相分子系の量子効果を研究する新しい機会を提供する。

We show that the second-order, two-time correlation functions for phonons and photons emitted from a vibronic molecule in a thermal bath result in bunching and anti-bunching (a purely quantum effect), respectively. Signatures relating to phonon exchange with the environment are revealed in photon-photon correlations. We demonstrate that cross-correlation functions have a strong dependence on the order of detection giving insight into how phonon dynamics influences the emission of light. This work offers new opportunities to investigate quantum effects in condensed-phase molecular systems.
翻訳日:2023-10-13 14:56:10 公開日:2023-10-06
# RETVec: レジリエントで効率的なテキストベクタライザ

RETVec: Resilient and Efficient Text Vectorizer ( http://arxiv.org/abs/2302.09207v2 )

ライセンス: Link先を確認
Elie Bursztein, Marina Zhang, Owen Vallis, Xinyu Jia, Alexey Kurakin(参考訳) 本稿では,ニューラルベーステキスト処理用に設計された,効率的でレジリエントな多言語テキストベクタライザRETVecについて述べる。 RETVecは、256次元ベクトル空間に単語を埋め込むために、新しい文字エンコーディングとオプションの小さな埋め込みモデルを組み合わせる。 RETVec埋め込みモデルは、ペアワイドメトリック学習を用いて事前訓練され、タイプミスやキャラクターレベルの攻撃に対して堅牢である。 本稿では,RETVecと最先端ベクタライザと,一般的なモデルアーキテクチャやデータセット上での単語埋め込みの評価と比較を行う。 これらの比較は、RETVecがタイポスや敵対的テキスト攻撃に対して非常に耐性のある、競争力のある多言語モデルをもたらすことを示している。 RETVecはApache 2ライセンスでhttps://github.com/google-research/retvec.comから入手できる。

This paper describes RETVec, an efficient, resilient, and multilingual text vectorizer designed for neural-based text processing. RETVec combines a novel character encoding with an optional small embedding model to embed words into a 256-dimensional vector space. The RETVec embedding model is pre-trained using pair-wise metric learning to be robust against typos and character-level adversarial attacks. In this paper, we evaluate and compare RETVec to state-of-the-art vectorizers and word embeddings on popular model architectures and datasets. These comparisons demonstrate that RETVec leads to competitive, multilingual models that are significantly more resilient to typos and adversarial text attacks. RETVec is available under the Apache 2 license at https://github.com/google-research/retvec.
翻訳日:2023-10-13 14:49:00 公開日:2023-10-06
# 画像品質, 信頼性, 一般化性を改善した高速拡散mri生成ai

Generative AI for Rapid Diffusion MRI with Improved Image Quality, Reliability and Generalizability ( http://arxiv.org/abs/2303.05686v2 )

ライセンス: Link先を確認
Amir Sadikov, Xinlei Pan, Hannah Choi, Lanya T. Cai, Pratik Mukherjee(参考訳) 拡散MRI(Diffusion MRI)は、組織組織をマッピングするための非侵襲的生体内イメージング法である。 応用例としては、人間の脳の構造的接続のイメージングや、構造的神経変化の検出がある。 しかし、高信号対雑音比のdMRIデータセットを高い角分解能と空間分解能で取得するには、特に小児、高齢者、意識的な鎮静や全身麻酔を必要とする急性神経疾患など多くの重要な臨床環境での使用を制限するため、極めて長いスキャン時間が必要である。 我々は、Human Connectome Projectデータに基づいて訓練され、登録されたT1スキャンで条件付けされたSwin UNEt Transformersモデルを用いて、dMRIの一般化復調を行う。 また,健常成人におけるHCPデータを用いた超解像を定性的に実証した。 特筆すべきは、Swin UNETRは単一のサンプルスキャンでドメイン外のデータセットを微調整することができ、神経発達障害を持つ子供のdMRIと急性の外傷性脳損傷を持つ成人のdMRIで、それぞれのコホートは異なる部位の異なるイメージングプロトコルを持つスキャナーの異なるモデルでスキャンされる。 高速拡散テンソル画像の精度と信頼性は,90秒のスキャン時間しか必要としない。 DMRIの組織微細構造モデリングに応用したSwin UNETR denoisingは、細胞内体積分画と遊離水分画の信頼性テストのための最先端技術よりも劇的な改善を実現し、ヘビーテールノイズを除去し、バイオ物理モデリングの忠実さを向上させる。 Swin UNeTRは、特に科学的、臨床的応用のための生物学的組織を探索するために、前例のない精度と信頼性で迅速な拡散MRIを可能にする。 コードとモデルはhttps://github.com/ucsfncl/dmri-swinで公開されている。

Diffusion MRI is a non-invasive, in-vivo biomedical imaging method for mapping tissue microstructure. Applications include structural connectivity imaging of the human brain and detecting microstructural neural changes. However, acquiring high signal-to-noise ratio dMRI datasets with high angular and spatial resolution requires prohibitively long scan times, limiting usage in many important clinical settings, especially for children, the elderly, and in acute neurological disorders that may require conscious sedation or general anesthesia. We employ a Swin UNEt Transformers model, trained on augmented Human Connectome Project data and conditioned on registered T1 scans, to perform generalized denoising of dMRI. We also qualitatively demonstrate super-resolution with artificially downsampled HCP data in normal adult volunteers. Remarkably, Swin UNETR can be fine-tuned for an out-of-domain dataset with a single example scan, as we demonstrate on dMRI of children with neurodevelopmental disorders and of adults with acute evolving traumatic brain injury, each cohort scanned on different models of scanners with different imaging protocols at different sites. We exceed current state-of-the-art denoising methods in accuracy and test-retest reliability of rapid diffusion tensor imaging requiring only 90 seconds of scan time. Applied to tissue microstructural modeling of dMRI, Swin UNETR denoising achieves dramatic improvements over the state-of-the-art for test-retest reliability of intracellular volume fraction and free water fraction measurements and can remove heavy-tail noise, improving biophysical modeling fidelity. Swin UNeTR enables rapid diffusion MRI with unprecedented accuracy and reliability, especially for probing biological tissues for scientific and clinical applications. The code and model are publicly available at https://github.com/ucsfncl/dmri-swin.
翻訳日:2023-10-13 14:28:53 公開日:2023-10-06
# 古典力学においてクローン化できない位相空間

Phase spaces that cannot be cloned in classical mechanics ( http://arxiv.org/abs/2303.00255v3 )

ライセンス: Link先を確認
Yuan Yao(参考訳) 量子非クローニング定理は、量子情報理論において不可欠な結果である。 この考えに従うと、古典力学の文脈におけるクローンの物理的に自然な定義をシンプレクティック幾何学を用いて与え、フェニエスの業績に基づいて構築する。 フェニエスに従えば、位相空間 $(\mathbb{R}^{2N}, dx_i\wedge dy_i)$ を持つ任意の系は我々の定義でクローン化できる。 しかし、もし$(M,\omega)$が私たちの定義でクローン可能であるなら、$M$は契約可能でなければならない。 例えば、これは単純な振り子をハミルトン力学ではクローンできないことを示す。 さらに、近似クローニングのロバストな概念を定式化し、もし$(m, \omega)$ がおよそクローンできるなら、$m$ は可約であることを示した。 結果の解釈を与え、いくつかの特別なケースでは、古典的な情報がクローン可能であるという一般的な経験とクローンの定理を一致させる。 最後に, 古典的測定問題と結果の関連など, 新たな研究の方向性を指摘する。

The quantum no cloning theorem is an essential result in quantum information theory. Following this idea, we give a physically natural definition of cloning in the context of classical mechanics using symplectic geometry, building on work of Fenyes. We observe, following Fenyes, any system with phase space $(\mathbb{R}^{2N}, dx_i\wedge dy_i)$ can be cloned in our definition. However, we show that if $(M,\omega)$ can be cloned in our definition, then $M$ must be contractible. For instance, this shows the simple pendulum cannot be cloned in Hamiltonian mechanics. We further formulate a robust notion of approximate cloning, and show that if $(M, \omega)$ can be approximately cloned, then $M$ is contractible. We give interpretations of our results and in some special cases reconcile our no cloning theorems with the general experience that classical information is clonable. Finally we point to new directions of research, including a connection of our result with the classical measurement problem.
翻訳日:2023-10-13 14:27:10 公開日:2023-10-06
# CoreDiff:低線量CTにおける文脈誤差変調一般化拡散モデル

CoreDiff: Contextual Error-Modulated Generalized Diffusion Model for Low-Dose CT Denoising and Generalization ( http://arxiv.org/abs/2304.01814v2 )

ライセンス: Link先を確認
Qi Gao, Zilong Li, Junping Zhang, Yi Zhang, Hongming Shan(参考訳) 低線量CT画像は光子飢餓と電子ノイズによりノイズやアーティファクトに悩まされる。 近年, 拡散モデルを用いて, 従来の深層学習モデルで発生する過度な滑らかさとトレーニング不安定性に対処しようとする研究がある。 しかし, 拡散モデルでは, 多数のサンプリングステップが伴うため, 長い推定時間に苦しむ。 直近では、冷拡散モデルは古典拡散モデルを一般化し、より柔軟性を持つ。 コールド拡散にインスパイアされた本論文では,CoreDiffと呼ばれる低用量CT(LDCT)のための新しいCOntextual eRror-modulated gEneralized Diffusionモデルを提案する。 第一に、CoreDiffはLDCT画像を用いてランダムなガウスノイズを除去し、新しい平均保存劣化演算子を用いてCT劣化の物理過程を模倣し、情報的LDCT画像がサンプリングプロセスの出発点となることによりサンプリングステップを大幅に削減する。 第2に, サンプリング過程における不完全な復元操作によるエラー蓄積問題を軽減するために, コンテキスト情報を利用してサンプリング過程を構造的歪みから制約し, 次のステップで入力とのアライメントを改善するための時間ステップ埋め込み特徴を変調する, 新たなコンテキスト誤り修正復元ネットワーク (clear-net) を提案する。 第三に、できるだけ少ないリソースで、新しい、目に見えない線量レベルに迅速に一般化するために、我々は、NDCTでペアリングされた単一のLDCT画像のみを使用して、CoreDiffをより速く、より良く一般化するためのワンショット学習フレームワークを考案した。 2つのデータセットの広範な実験結果から,我々のcorediffは,臨床的に許容される推論時間とともに,推論性能と一般化性能において競合する手法を上回っていることが判明した。 ソースコードはhttps://github.com/qgao21/corediffで入手できる。

Low-dose computed tomography (CT) images suffer from noise and artifacts due to photon starvation and electronic noise. Recently, some works have attempted to use diffusion models to address the over-smoothness and training instability encountered by previous deep-learning-based denoising models. However, diffusion models suffer from long inference times due to the large number of sampling steps involved. Very recently, cold diffusion model generalizes classical diffusion models and has greater flexibility. Inspired by the cold diffusion, this paper presents a novel COntextual eRror-modulated gEneralized Diffusion model for low-dose CT (LDCT) denoising, termed CoreDiff. First, CoreDiff utilizes LDCT images to displace the random Gaussian noise and employs a novel mean-preserving degradation operator to mimic the physical process of CT degradation, significantly reducing sampling steps thanks to the informative LDCT images as the starting point of the sampling process. Second, to alleviate the error accumulation problem caused by the imperfect restoration operator in the sampling process, we propose a novel ContextuaL Error-modulAted Restoration Network (CLEAR-Net), which can leverage contextual information to constrain the sampling process from structural distortion and modulate time step embedding features for better alignment with the input at the next time step. Third, to rapidly generalize to a new, unseen dose level with as few resources as possible, we devise a one-shot learning framework to make CoreDiff generalize faster and better using only a single LDCT image (un)paired with NDCT. Extensive experimental results on two datasets demonstrate that our CoreDiff outperforms competing methods in denoising and generalization performance, with a clinically acceptable inference time. Source code is made available at https://github.com/qgao21/CoreDiff.
翻訳日:2023-10-13 13:56:54 公開日:2023-10-06
# FedFTN:多施設PETデノベーションのためのDeep Feature Transformation Networkによる個人化フェデレーション学習

FedFTN: Personalized Federated Learning with Deep Feature Transformation Network for Multi-institutional Low-count PET Denoising ( http://arxiv.org/abs/2304.00570v3 )

ライセンス: Link先を確認
Bo Zhou, Huidong Xie, Qiong Liu, Xiongchao Chen, Xueqi Guo, Zhicheng Feng, Jun Hou, S. Kevin Zhou, Biao Li, Axel Rominger, Kuangyu Shi, James S. Duncan, Chi Liu(参考訳) 低位PETは放射線照射と取得時間を短縮する効率的な方法であるが、再構成された画像は低信号対雑音比 (SNR) に悩まされることが多く、診断や下流作業に影響を及ぼす。 近年のディープラーニングの進歩は,PET画像の品質向上に大きな可能性を示しているが,患者データのプライバシやセキュリティ上の懸念から,堅牢なモデルをトレーニングするために,複数の機関から大規模で集中的かつ多様なデータセットを取得することは困難である。 さらに、異なる機関のローカウンドpetデータは異なるデータ分布を持つため、パーソナライズされたモデルが必要となる。 従来のフェデレーション学習(fl)アルゴリズムでは,ローカルデータの集約を必要とせずに,多施設共同トレーニングを可能にするが,複数機関の低人数petデノイジング適用における大きなドメインシフトへの対処は依然として課題であり,未検討のままである。 本稿では,これらの課題に対処する個人化されたフェデレーション学習戦略であるFedFTNを提案する。 FedFTNは、ローカルなディープ・フィーチャー・トランスフォーメーション・ネットワーク(FTN)を使用して、グローバルに共有されているデノナイジング・ネットワークの機能出力を変調し、各機関でパーソナライズされたローカウントPETデノナイジングを可能にする。 連合学習の過程では、分断ネットワークの重みのみが通信され、集約され、一方ftnは特徴変換のための地方機関に残る。 本手法は,3大陸にまたがる3つの医療センターの多施設間におけるPET画像データの大規模データセットを用いて評価し,FedFTNが高品質なPET画像を提供することを示した。

Low-count PET is an efficient way to reduce radiation exposure and acquisition time, but the reconstructed images often suffer from low signal-to-noise ratio (SNR), thus affecting diagnosis and other downstream tasks. Recent advances in deep learning have shown great potential in improving low-count PET image quality, but acquiring a large, centralized, and diverse dataset from multiple institutions for training a robust model is difficult due to privacy and security concerns of patient data. Moreover, low-count PET data at different institutions may have different data distribution, thus requiring personalized models. While previous federated learning (FL) algorithms enable multi-institution collaborative training without the need of aggregating local data, addressing the large domain shift in the application of multi-institutional low-count PET denoising remains a challenge and is still highly under-explored. In this work, we propose FedFTN, a personalized federated learning strategy that addresses these challenges. FedFTN uses a local deep feature transformation network (FTN) to modulate the feature outputs of a globally shared denoising network, enabling personalized low-count PET denoising for each institution. During the federated learning process, only the denoising network's weights are communicated and aggregated, while the FTN remains at the local institutions for feature transformation. We evaluated our method using a large-scale dataset of multi-institutional low-count PET imaging data from three medical centers located across three continents, and showed that FedFTN provides high-quality low-count PET images, outperforming previous baseline FL reconstruction methods across all low-count levels at all three institutions.
翻訳日:2023-10-13 13:55:19 公開日:2023-10-06
# Open-Vocabulary Visual Recognitionのための20のクラスによるプロンプト事前学習

Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition ( http://arxiv.org/abs/2304.04704v2 )

ライセンス: Link先を確認
Shuhuai Ren, Aston Zhang, Yi Zhu, Shuai Zhang, Shuai Zheng, Mu Li, Alex Smola, Xu Sun(参考訳) 本稿では,視覚言語モデルの事前学習手法であるPOMPを提案する。 メモリと計算の効率が良いため、POMPは学習したプロンプトによって、20以上のクラスでリッチな視覚概念の集合に意味情報を凝縮することができる。 事前学習すると、強い転送能力を持つプロンプトを画像分類、意味セグメンテーション、オブジェクト検出など様々な視覚認識タスクに直接接続し、ゼロショット方式で認識性能を向上させることができる。 例えば、10の分類データセット(coopと比較して+3.1%)と84.4 hiou(zssegと比較して+6.9)で67.0%の平均精度を達成している。 私たちのコードはhttps://github.com/amazon-science/prompt-pretrainingで利用可能です。

This work proposes POMP, a prompt pre-training method for vision-language models. Being memory and computation efficient, POMP enables the learned prompt to condense semantic information for a rich set of visual concepts with over twenty-thousand classes. Once pre-trained, the prompt with a strong transferable ability can be directly plugged into a variety of visual recognition tasks including image classification, semantic segmentation, and object detection, to boost recognition performances in a zero-shot manner. Empirical evaluation shows that POMP achieves state-of-the-art performances on 21 datasets, e.g., 67.0% average accuracy on 10 classification datasets (+3.1% compared to CoOp) and 84.4 hIoU on open-vocabulary Pascal VOC segmentation (+6.9 compared to ZSSeg). Our code is available at https://github.com/amazon-science/prompt-pretraining.
翻訳日:2023-10-13 13:47:30 公開日:2023-10-06
# No Easy Way Out: ヘイトとハラスメントを抑えるためのExtremist Forumの非プラットフォーム化の効果

No Easy Way Out: the Effectiveness of Deplatforming an Extremist Forum to Suppress Hate and Harassment ( http://arxiv.org/abs/2304.07037v6 )

ライセンス: Link先を確認
Anh V. Vu, Alice Hutchings, Ross Anderson(参考訳) 世界中の議員や政策立案者は、オンライン上で違法で有害で望ましくない物質を抑制する選択肢を議論している。 いくつかの定量的データから,オンライン上での嫌がらせや嫌がらせを抑制するための活動コミュニティの非プラットフォーム化は,いくつかのit企業を巻き込んでも困難であることが示された。 私たちのケーススタディは、2022年末に最大かつ最長のハラスメントフォーラムであるkiwi farmsが崩壊したことです。 数ヵ月間、多くのテクノロジー企業が積極的に参加していたが、このキャンペーンはフォーラムを閉鎖し、不快なコンテンツを削除できなかった。 大衆の意識を高めながら、急激なプラットフォーム変位と交通の断片化につながった。 活動の一部はテレグラムに移され、トラフィックは主要領域から以前放棄された代替手段に移行した。 フォーラムは数週間間断続的に停止し、その後、キャンペーンの主導するコミュニティは関心を失い、トラフィックはメインドメインに戻され、ユーザーはすぐに戻って、フォーラムはオンラインに戻り、さらに接続が深まった。 フォーラムのメンバーはその後すぐにこの事件についての議論を中止し、フォーラムの活動、アクティブユーザ、スレッド、投稿、トラフィックは全て半分に削減された。 裁判所命令のないコミュニティの非プラットフォーム化は、検閲と言論の自由に関する哲学的問題、オンラインコンテンツモデレーションにおける産業の役割に関する倫理的および法的問題、民間人対政府の行動の有効性に関する実践的問題を引き起こす。 個別のサービス提供者に対して一連の裁判所命令を用いて分散したコミュニティを構築することは、検閲がキーメンテナを逮捕したり、加わったり、妨げたりすることなく、無力化できなければ、非常に効果的とは思えない。

Legislators and policymakers worldwide are debating options for suppressing illegal, harmful and undesirable material online. Drawing on several quantitative data sources, we show that deplatforming an active community to suppress online hate and harassment, even with a substantial concerted effort involving several tech firms, can be hard. Our case study is the disruption of the largest and longest-running harassment forum Kiwi Farms in late 2022, which is probably the most extensive industry effort to date. Despite the active participation of a number of tech companies over several consecutive months, this campaign failed to shut down the forum and remove its objectionable content. While briefly raising public awareness, it led to rapid platform displacement and traffic fragmentation. Part of the activity decamped to Telegram, while traffic shifted from the primary domain to previously abandoned alternatives. The forum experienced intermittent outages for several weeks, after which the community leading the campaign lost interest, traffic was directed back to the main domain, users quickly returned, and the forum was back online and became even more connected. The forum members themselves stopped discussing the incident shortly thereafter, and the net effect was that forum activity, active users, threads, posts and traffic were all cut by about half. Deplatforming a community without a court order raises philosophical issues about censorship versus free speech; ethical and legal issues about the role of industry in online content moderation; and practical issues on the efficacy of private-sector versus government action. Deplatforming a dispersed community using a series of court orders against individual service providers appears unlikely to be very effective if the censor cannot incapacitate the key maintainers, whether by arresting them, enjoining them or otherwise deterring them.
翻訳日:2023-10-13 13:36:20 公開日:2023-10-06
# 野生でのロバストでアジャイルで自然な足の歩行スキルを学ぶ

Learning Robust, Agile, Natural Legged Locomotion Skills in the Wild ( http://arxiv.org/abs/2304.10888v3 )

ライセンス: Link先を確認
Yikai Wang, Zheyuan Jiang, Jianyu Chen(参考訳) 近年,強化学習はロボット脚歩行にとって有望で多目的なソリューションとなっている。 モデルベースの制御と比較して、強化学習ベースのコントローラは、simから実環境への学習を通じて、環境の不確実性に対するロバスト性が向上する。 しかし、学習の歩みは概して保守的で不自然なものである。 本稿では,挑戦的な地形上での頑健で,アジャイルで,自然な足の歩行スキルを学習するための新しいフレームワークを提案する。 実動物移動データに基づく敵対的訓練枝を教師・生徒の訓練パイプラインに組み込み,堅牢なsim-to-real転送を行う。 四足歩行ロボットのシミュレーションと実世界における実証実験の結果,提案アルゴリズムは,階段,岩場,滑りやすい床などの難易度の高い地形を,主観的認識のみで頑健に横断できることを示した。 一方、歩幅はベースラインよりもアジャイルで、自然で、エネルギー効率が高い。 本稿では質的および定量的な結果について述べる。

Recently, reinforcement learning has become a promising and polular solution for robot legged locomotion. Compared to model-based control, reinforcement learning based controllers can achieve better robustness against uncertainties of environments through sim-to-real learning. However, the corresponding learned gaits are in general overly conservative and unatural. In this paper, we propose a new framework for learning robust, agile and natural legged locomotion skills over challenging terrain. We incorporate an adversarial training branch based on real animal locomotion data upon a teacher-student training pipeline for robust sim-to-real transfer. Empirical results on both simulation and real world of a quadruped robot demonstrate that our proposed algorithm enables robustly traversing challenging terrains such as stairs, rocky ground and slippery floor with only proprioceptive perception. Meanwhile, the gaits are more agile, natural, and energy efficient compared to the baselines. Both qualitative and quantitative results are presented in this paper.
翻訳日:2023-10-13 13:25:24 公開日:2023-10-06
# TUVF: 汎用テクスチャUV放射場を学習する

TUVF: Learning Generalizable Texture UV Radiance Fields ( http://arxiv.org/abs/2305.03040v3 )

ライセンス: Link先を確認
An-Chieh Cheng, Xueting Li, Sifei Liu, Xiaolong Wang(参考訳) テクスチャは視覚的に魅力的でリアルな3Dモデルを作る上で重要な要素だ。 本稿では, 汎用的な3次元形状モデリングと比較して, 比較的研究が進んでいない3次元アセットの高忠実度テクスチャ生成問題について検討する。 我々のゴールは、制御可能なテクスチャ生成プロセスの促進であり、一つのテクスチャコードがカテゴリの入力形状に依存しない特定の外観スタイルに対応できるようにすることである。 3d形状ではなく,学習可能なuv球面空間でテクスチャを生成するテクスチャuv放射場(tuvf)を導入する。 これにより、テクスチャは下層の形状から切り離され、同じUV空間、すなわち同じカテゴリから同じUV空間を共有する他の形状に転送できる。 我々は、紫外線球面空間を放射場と統合し、従来のテクスチャマップよりも効率的で正確なテクスチャ表現を提供する。 我々は、現実的な合成だけでなく、テクスチャ制御と編集に関する最先端技術よりも大幅に改善された、合成および実世界のオブジェクトデータセットの実験を行う。 プロジェクトページ: https://www.anjiecheng.me/TUVF

Textures are a vital aspect of creating visually appealing and realistic 3D models. In this paper, we study the problem of generating high-fidelity texture given shapes of 3D assets, which has been relatively less explored compared with generic 3D shape modeling. Our goal is to facilitate a controllable texture generation process, such that one texture code can correspond to a particular appearance style independent of any input shapes from a category. We introduce Texture UV Radiance Fields (TUVF) that generate textures in a learnable UV sphere space rather than directly on the 3D shape. This allows the texture to be disentangled from the underlying shape and transferable to other shapes that share the same UV space, i.e., from the same category. We integrate the UV sphere space with the radiance field, which provides a more efficient and accurate representation of textures than traditional texture maps. We perform our experiments on synthetic and real-world object datasets where we achieve not only realistic synthesis but also substantial improvements over state-of-the-arts on texture controlling and editing. Project Page: https://www.anjiecheng.me/TUVF
翻訳日:2023-10-13 13:16:41 公開日:2023-10-06
# ECG信号分類のための局所探索によるクラスタベース対位差分進化アルゴリズム

A Cluster-Based Opposition Differential Evolution Algorithm Boosted by a Local Search for ECG Signal Classification ( http://arxiv.org/abs/2305.02731v2 )

ライセンス: Link先を確認
Mehran Pourvahab, Seyed Jalaleddin Mousavirad, Virginie Felizardo, Nuno Pombo, Henriques Zacarias, Hamzeh Mohammadigheymasi, Sebasti\~ao Pais, Seyed Nooreddin Jafari, Nuno M.Garcia(参考訳) 心電図(ECG)信号は、心臓の電気的活動を捉え、心臓の問題を診断し監視するために用いられる。 心疾患の早期発見と治療には,心電図信号の正確な分類,特に各種不整脈と心筋梗塞の鑑別が重要である。 本稿では,ECG信号分類のための改良型微分進化(DE)アルゴリズムに基づく新しい手法を提案する。 アプローチの初期段階では、前処理のステップに続いて、ECG信号からいくつかの重要な特徴を抽出する。 これらの抽出された特徴は、拡張多層パーセプトロン(MLP)への入力として提供される。 mlpは依然としてecg信号の分類に広く使われているが、最も広く使われているアルゴリズムである勾配に基づく訓練法を用いると、局所的最適に定着する可能性など、大きな欠点がある。 本稿では,最も効果的な人口ベースアルゴリズムの1つとして,拡張微分進化(DE)アルゴリズムを用いる。 この目的のために,クラスタリングに基づく戦略,対向学習,局所探索に基づくdeの改善を行った。 クラスタリングベースの戦略はクロスオーバー演算子として機能し、反対演算子の目標はDEアルゴリズムの探索を改善することである。 改良されたDEアルゴリズムの重みとバイアスは6つの勾配に基づく局所探索アルゴリズムに入力される。 言い換えると、de によって発見された重みは初期化点として用いられる。 そこで,本研究では,学習過程の異なる6つのアルゴリズム(局所探索アルゴリズム)を紹介した。 実験の結果,提案アルゴリズムは従来の学習アルゴリズムよりも優れた結果が得られることがわかった。

Electrocardiogram (ECG) signals, which capture the heart's electrical activity, are used to diagnose and monitor cardiac problems. The accurate classification of ECG signals, particularly for distinguishing among various types of arrhythmias and myocardial infarctions, is crucial for the early detection and treatment of heart-related diseases. This paper proposes a novel approach based on an improved differential evolution (DE) algorithm for ECG signal classification for enhancing the performance. In the initial stages of our approach, the preprocessing step is followed by the extraction of several significant features from the ECG signals. These extracted features are then provided as inputs to an enhanced multi-layer perceptron (MLP). While MLPs are still widely used for ECG signal classification, using gradient-based training methods, the most widely used algorithm for the training process, has significant disadvantages, such as the possibility of being stuck in local optimums. This paper employs an enhanced differential evolution (DE) algorithm for the training process as one of the most effective population-based algorithms. To this end, we improved DE based on a clustering-based strategy, opposition-based learning, and a local search. Clustering-based strategies can act as crossover operators, while the goal of the opposition operator is to improve the exploration of the DE algorithm. The weights and biases found by the improved DE algorithm are then fed into six gradient-based local search algorithms. In other words, the weights found by the DE are employed as an initialization point. Therefore, we introduced six different algorithms for the training process (in terms of different local search algorithms). In an extensive set of experiments, we showed that our proposed training algorithm could provide better results than the conventional training algorithms.
翻訳日:2023-10-13 13:16:22 公開日:2023-10-06
# 予習はやめないの? Promptベースのファインチューニングパワーフルラーニング

Don't Stop Pretraining? Make Prompt-based Fine-tuning Powerful Learner ( http://arxiv.org/abs/2305.01711v4 )

ライセンス: Link先を確認
Zhengxiang Shi, Aldo Lipani(参考訳) 言語モデル (LM) は、膨大な量の未ラベルデータに基づいて訓練され、自然言語処理 (NLP) の分野を大きく進歩させた。 本研究では,タスク関連テキストの事前学習を継続するNLPにおける広く受け入れられている概念を再検討し,下流タスクにおける微調整(FT)の性能を向上させる。 8つの単文タスクと8つの文ペアタスクを半教師付きおよび完全教師付き設定の両方で実験した結果、従来の継続前訓練は必ずしも利点を提供しておらず、文ペアタスクやプロンプトベースのftを使用する場合にも有害であることがわかった。 これらの課題に対処するために,従来の継続事前学習とインストラクションチューニングのアイデアを組み合わせたPrompt-based Continued Pre-training (PCP)を提案する。 本手法は,目標タスクを微調整する前に教師なし事前学習目標により,タスク関連テキストとプロンプトテンプレートの両方をlmsに提示することにより,プロンプトベースftの性能を向上させることを目的としている。 21のベンチマークに対する実証的な評価では、PCPは、数百の未実装例であっても、半教師付きおよび完全教師付き設定の両方において、最先端のプロンプトベースのFTアプローチ(最大20.1%の絶対)の性能を一貫して改善することを示した。 さらに、PCPによるプロンプトベースのFTは、最先端の半教師付きアプローチをより単純さで上回り、反復処理や追加データ拡張の必要性を排除している。 さらに,PCPの性能低下を考察し,PCPの利点がモデルやデータセットの異なるサイズで持続していることを明らかにする。

Language models (LMs) trained on vast quantities of unlabelled data have greatly advanced the field of natural language processing (NLP). In this study, we re-visit the widely accepted notion in NLP that continued pre-training LMs on task-related texts improves the performance of fine-tuning (FT) in downstream tasks. Through experiments on eight single-sentence tasks and eight sentence-pair tasks in both semi-supervised and fully-supervised settings, we find that conventional continued pre-training does not consistently provide benefits and can even be detrimental for sentence-pair tasks or when prompt-based FT is used. To tackle these issues, we propose Prompt-based Continued Pre-training (PCP), which combines the idea of instruction tuning with conventional continued pre-training. Our approach aims to improve the performance of prompt-based FT by presenting both task-related texts and prompt templates to LMs through unsupervised pre-training objectives before fine-tuning for the target task. Our empirical evaluations on 21 benchmarks demonstrate that the PCP consistently improves the performance of state-of-the-art prompt-based FT approaches (up to 20.1% absolute) in both semi-supervised and fully-supervised settings, even with only hundreds of unlabelled examples. Additionally, prompt-based FT with the PCP outperforms state-of-the-art semi-supervised approaches with greater simplicity, eliminating the need for an iterative process and extra data augmentation. Our further analysis explores the performance lower bound of the PCP and reveals that the advantages of PCP persist across different sizes of models and datasets.
翻訳日:2023-10-13 13:15:10 公開日:2023-10-06
# 量子コンピューティングのための駆動量子演算の時間とエネルギー境界

Time and energy bounds of driven quantum operations for quantum computing ( http://arxiv.org/abs/2305.05019v2 )

ライセンス: Link先を確認
Sagar Silva Pratapsi, Lorenzo Buffoni, Stefano Gherardini(参考訳) 量子コンピュータは、レーザー、マイクロ波、伝導線などの外部の駆動フィールドで動作し、マルチビットレジスタ上で論理演算を実行し、システムを純粋な状態にしておく。 しかし、駆動と論理系は、駆動場の自由度を追跡した後、出力状態が純粋でないような方法で相関する可能性がある。 以前の研究では、結果の誤差はドライブのエネルギーと逆向きにスケールし、量子コンピューティングのエネルギー効率に制限を課すことが指摘されている。 本研究では,時間とともに増大する絡み合い誘起誤差と,量子速度制限による計算の最小時間という,競合する2つの現象の結果として,同じスケーリングを見ることができることを示す。 この証拠は、任意の時点で、論理量子ビットの密度行列に関連するスペクトル半径による計算誤差を定量化することで可能である。 さらに,同じ忠実度で与えられた目標状態を達成するためには,演算を専用パルスで操作するサブルーチンに分割するよりも,論理量子ビットの単一の駆動進化を行う方が精力的に効率的であることを証明した。 最後に、実験結果を熱力学的に解釈する。

Quantum computers are operated by external driving fields, such as lasers, microwaves or conduction lines, that execute logical operations on multi-qubit registers, leaving the system in a pure state. However, the drive and the logical system might become correlated in such a way that, after tracing out the degrees of freedom of the driving field, the output state will not be pure. Previous works have pointed out that the resulting error scales inversely with the energy of the drive, thus imposing a limit on the energy-efficiency of quantum computing. In this study, we show how the same scaling can be seen as a consequence of two competing phenomena: the entanglement-induced error, which grows with time, and a minimal time for computation imposed by quantum speed limits. This evidence is made possible by quantifying, at any time, the computation error via the spectral radius associated to the density matrix of the logical qubit. Moreover, we also prove that, in order to attain a given target state with the same fidelity, it is energetically more efficient to perform a single driven evolution of the logical qubits rather than to split the computation in sub-routines, each operated by a dedicated pulse. Finally, we provide a thermodynamic interpretation of our results.
翻訳日:2023-10-13 13:05:42 公開日:2023-10-06
# 半教師付き学習による密度比推定に基づくベイズ最適化

Density Ratio Estimation-based Bayesian Optimization with Semi-Supervised Learning ( http://arxiv.org/abs/2305.15612v2 )

ライセンス: Link先を確認
Jungtaek Kim(参考訳) ベイズ最適化は、高価なブラックボックス関数のグローバル最適化を効率的に見つけることができるため、科学と工学の様々な研究分野から大きな注目を集めている。 一般に、確率的回帰モデル、例えばガウス過程やベイズニューラルネットワークは、推定とトレーニングデータセットの入力が与えられた関数評価の明示的な分布をモデル化する代理関数として広く使われている。 確率的回帰に基づくベイズ最適化以外にも, 密度比推定に基づくベイズ最適化が提案されている。 この研究の行をさらに発展させ、教師付き分類器を用いて密度比の代わりに2つの群のクラス確率を推定することができる。 しかしながら、この戦略で使用される教師付き分類器は、グローバルソリューション候補に対して自信過剰である可能性が高い。 この問題を解決するために,半教師付き学習を用いた密度比推定に基づくベイズ最適化を提案する。 最後に,未ラベル点サンプリングと固定サイズのプールを用いた2つの異なるシナリオにおいて,本手法といくつかの基本手法の実験結果を示す。

Bayesian optimization has attracted huge attention from diverse research areas in science and engineering, since it is capable of finding a global optimum of an expensive-to-evaluate black-box function efficiently. In general, a probabilistic regression model, e.g., Gaussian processes and Bayesian neural networks, is widely used as a surrogate function to model an explicit distribution over function evaluations given an input to estimate and a training dataset. Beyond the probabilistic regression-based Bayesian optimization, density ratio estimation-based Bayesian optimization has been suggested in order to estimate a density ratio of the groups relatively close and relatively far to a global optimum. Developing this line of research further, a supervised classifier can be employed to estimate a class probability for the two groups instead of a density ratio. However, the supervised classifiers used in this strategy are prone to be overconfident for a global solution candidate. To solve this problem, we propose density ratio estimation-based Bayesian optimization with semi-supervised learning. Finally, we demonstrate the experimental results of our methods and several baseline methods in two distinct scenarios with unlabeled point sampling and a fixed-size pool.
翻訳日:2023-10-13 12:14:43 公開日:2023-10-06
# neuralmatrix: 効率的な推論のための線形行列演算によるニューラルネットワーク全体の計算

NeuralMatrix: Compute the Entire Neural Networks with Linear Matrix Operations for Efficient Inference ( http://arxiv.org/abs/2305.14405v2 )

ライセンス: Link先を確認
Ruiqi Sun, Jie Zhao, Xin He, Yiran Li, An Zou(参考訳) 個々のディープニューラルネットワーク(DNN)モデルにおける計算タイプの固有の多様性は、ハードウェアプロセッサ内の対応する様々な計算ユニットを必要とするため、ニューラルネットワーク実行時の計算効率に大きな制約が生じる。 本研究では,DNN全体の計算を線形行列演算に変換するフレームワークであるNeuralMatrixを紹介する。 個別のネットワークモデルで要求される多種多様な計算形式による制約を克服することにより、単一のGEMMアクセラレーターを用いて広範囲のDNNモデルを実行し、特別な機能ユニットを使わずにアプリケーション固有のアクセラレーションレベルを実行し、メインストリームのDNNとその変種モデルを通して検証することができる。

The inherent diversity of computation types within individual deep neural network (DNN) models necessitates a corresponding variety of computation units within hardware processors, leading to a significant constraint on computation efficiency during neural network execution. In this study, we introduce NeuralMatrix, a framework that transforms the computation of entire DNNs into linear matrix operations, effectively enabling their execution with one general-purpose matrix multiplication (GEMM) accelerator. By surmounting the constraints posed by the diverse computation types required by individual network models, this approach provides both generality, allowing a wide range of DNN models to be executed using a single GEMM accelerator and application-specific acceleration levels without extra special function units, which are validated through main stream DNNs and their variant models.
翻訳日:2023-10-13 12:12:42 公開日:2023-10-06
# StEik: ニューラルサイン付き距離関数の最適化と有限形状表現の安定化

StEik: Stabilizing the Optimization of Neural Signed Distance Functions and Finer Shape Representation ( http://arxiv.org/abs/2305.18414v2 )

ライセンス: Link先を確認
Huizong Yang, Yuxin Sun, Ganesh Sundaramoorthi, Anthony Yezzi(参考訳) 形態の暗黙的神経表現(INR)を学習するための新しい知見と新しいパラダイム(StEik)を提案する。 特に,INRに符号付き距離関数制約を課すのによく使われるエイコナール損失に光を当てた。 ネットワークの表現力が増加するにつれて、最適化は連続極限における偏微分方程式(PDE)に近づき、不安定となることを示す。 この不安定性は, 既設のネットワーク最適化において発現し, 再構成表面の不規則性や, 局所的局所最小値への収束を招き, 微妙な幾何学的・位相的構造を捉えることができないことを示す。 我々は、現在文献で使われている損失に付加された他の用語が、実際にこれらの不安定性を排除することができるかを分析的に示す。 しかし、そのような用語は表面を過度に規則化することができ、微細な形状の表現を妨げている。 同様の連続体極限のpde理論に基づき、固有不安定性は相反するが過剰正規化はしない新しい正規化項を導入する。 さらに, 安定度は連続限界で保証されているため, この安定化により, より微細な形状の細部を表現できる新しいネットワーク構造も検討できる。 このような構造を二次層に導入する。 複数のベンチマークデータセットの実験により、我々の新しい正規化とネットワークは、既存の最先端技術よりも正確な形状の詳細と正確なトポロジを捉えることができることが示された。

We present new insights and a novel paradigm (StEik) for learning implicit neural representations (INR) of shapes. In particular, we shed light on the popular eikonal loss used for imposing a signed distance function constraint in INR. We show analytically that as the representation power of the network increases, the optimization approaches a partial differential equation (PDE) in the continuum limit that is unstable. We show that this instability can manifest in existing network optimization, leading to irregularities in the reconstructed surface and/or convergence to sub-optimal local minima, and thus fails to capture fine geometric and topological structure. We show analytically how other terms added to the loss, currently used in the literature for other purposes, can actually eliminate these instabilities. However, such terms can over-regularize the surface, preventing the representation of fine shape detail. Based on a similar PDE theory for the continuum limit, we introduce a new regularization term that still counteracts the eikonal instability but without over-regularizing. Furthermore, since stability is now guaranteed in the continuum limit, this stabilization also allows for considering new network structures that are able to represent finer shape detail. We introduce such a structure based on quadratic layers. Experiments on multiple benchmark data sets show that our new regularization and network are able to capture more precise shape details and more accurate topology than existing state-of-the-art.
翻訳日:2023-10-13 11:53:46 公開日:2023-10-06
# 深部ネットワーク表現における凸決定領域について

On convex decision regions in deep network representations ( http://arxiv.org/abs/2305.17154v2 )

ライセンス: Link先を確認
Lenka T\v{e}tkov\'a, Thea Br\"usch, Teresa Karen Scheidt, Fabian Martin Mager, Rasmus {\O}rtoft Aagaard, Jonathan Foldager, Tommy Sonne Alstr{\o}m and Lars Kai Hansen(参考訳) ヒトと機械のアライメントに関する現在の研究は、機械学習された潜在空間とその人間表現への対応を理解することを目的としている。 G{\"a}rdenforsの概念空間は人間の表現を理解するための顕著な枠組みである。 概念空間における対象領域の凸性は、一般化可能性、少数ショット学習、対人アライメントを促進する。 これらの知見に基づき,機械学習型潜在空間における概念領域の凸性の概念を検討する。 サンプルデータ中の凸度を測定し,最先端深層ネットワークの階層表現における創発的凸度を評価するための一連のツールを開発した。 凸性は基本的再パラメータ化に対して堅牢であり、したがって、機械学習された潜在空間の品質として有意義であることを示す。 画像、音声、人間の活動、テキスト、医療画像のモデルを含む、複数のアプリケーション領域において、近似凸性は神経表現に広く浸透している。 一般に、微調整はラベル領域の凸性を増大させる。 クラスラベル領域の凸性事前学習がその後の微調整性能を予測する証拠を見出した。

Current work on human-machine alignment aims at understanding machine-learned latent spaces and their correspondence to human representations. G{\"a}rdenfors' conceptual spaces is a prominent framework for understanding human representations. Convexity of object regions in conceptual spaces is argued to promote generalizability, few-shot learning, and interpersonal alignment. Based on these insights, we investigate the notion of convexity of concept regions in machine-learned latent spaces. We develop a set of tools for measuring convexity in sampled data and evaluate emergent convexity in layered representations of state-of-the-art deep networks. We show that convexity is robust to basic re-parametrization and, hence, meaningful as a quality of machine-learned latent spaces. We find that approximate convexity is pervasive in neural representations in multiple application domains, including models of images, audio, human activity, text, and medical images. Generally, we observe that fine-tuning increases the convexity of label regions. We find evidence that pretraining convexity of class label regions predicts subsequent fine-tuning performance.
翻訳日:2023-10-13 11:50:56 公開日:2023-10-06
# 説明の活用: 拡張されたテキスト属性グラフ表現学習のためのllm-to-lmインタプリタ

Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning ( http://arxiv.org/abs/2305.19523v2 )

ライセンス: Link先を確認
Xiaoxin He, Xavier Bresson, Thomas Laurent, Adam Perold, Yann LeCun, Bryan Hooi(参考訳) 近年,テキスト対応グラフ(TAG)の表現学習が重要な研究課題となっている。 TAGの典型的な例は、各論文のテキストがノード属性として機能する論文引用グラフである。 初期グラフニューラルネットワーク(gnn)パイプラインは、これらのテキスト属性を、スキップグラムや単語の袋など、浅いあるいは手作りの機能に変換することで処理した。 近年の取り組みは、言語モデル(LM)によるパイプラインの強化に重点を置いている。 GPTやLlama2のような強力な大規模言語モデル(LLM)が出現し、推論能力と一般的な知識を活用できるようになり、LLMのテキストモデリング能力とGNNの構造学習能力を組み合わせた技術の必要性が高まっている。 そこで本研究では,LLMを利用してテキスト情報を特徴として捉え,下流タスクにおけるGNNの性能向上に活用する。 我々はLCMにゼロショット分類の実行を促し、意思決定プロセスのテキスト説明を要求し、LCM-to-LMインタプリタを設計して、これらの説明を下流のGNNを強化する情報的特徴に翻訳する。 実験の結果,Cora,PubMed,ogbn-arxiv,新たに導入されたデータセットarXiv-2023など,確立されたTAGデータセットの最先端結果が得られた。 さらに,本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインよりも2.88倍向上した。 最後に、提案手法の汎用性はTAGを超えて拡張され、グラフテキストデータ~\footnote{Ourコードおよびデータセットを含む他のタスクを強化する可能性を秘めていると信じている。

Representation learning on text-attributed graphs (TAGs) has become a critical research problem in recent years. A typical example of a TAG is a paper citation graph, where the text of each paper serves as node attributes. Initial graph neural network (GNN) pipelines handled these text attributes by transforming them into shallow or hand-crafted features, such as skip-gram or bag-of-words features. Recent efforts have focused on enhancing these pipelines with language models (LMs), which typically demand intricate designs and substantial computational resources. With the advent of powerful large language models (LLMs) such as GPT or Llama2, which demonstrate an ability to reason and to utilize general knowledge, there is a growing need for techniques which combine the textual modelling abilities of LLMs with the structural learning capabilities of GNNs. Hence, in this work, we focus on leveraging LLMs to capture textual information as features, which can be used to boost GNN performance on downstream tasks. A key innovation is our use of explanations as features: we prompt an LLM to perform zero-shot classification, request textual explanations for its decision-making process, and design an LLM-to-LM interpreter to translate these explanations into informative features that enhance downstream GNNs. Our experiments demonstrate that our method achieves state-of-the-art results on well-established TAG datasets, including Cora, PubMed, ogbn-arxiv, as well as our newly introduced dataset, arXiv-2023. Furthermore, our method significantly speeds up training, achieving a 2.88 times improvement over the closest baseline on ogbn-arxiv. Lastly, we believe the versatility of the proposed method extends beyond TAGs and holds the potential to enhance other tasks involving graph-text data~\footnote{Our codes and datasets are available at: \url{https://github.com/XiaoxinHe/TAPE}}.
翻訳日:2023-10-13 11:45:14 公開日:2023-10-06
# 量子回路からのベルサンプリング

Bell sampling from quantum circuits ( http://arxiv.org/abs/2306.00083v3 )

ライセンス: Link先を確認
Dominik Hangleiter and Michael J. Gullans(参考訳) 量子コンピュータの検証における中心的な課題は、パフォーマンス全体をベンチマークし、計算能力を示すことである。 本研究は, 量子計算の普遍的モデルであるベルサンプリング(Bell sample)を発見し, 両課題に有効であり, 耐故障性に向けた理想的なステップストーンを提供する。 ベルサンプリングでは,逆ベル基底の量子回路で作成された状態の2つのコピーを測定する。 ベルサンプルは古典的に抽出可能であり、同時に回路シャドーと呼ばれるものを構成することを示し、ベルサンプルから状態を作成する量子回路に関する情報を効率的に抽出し、回路エラーを診断することができる。 ベルサンプルから効率的に抽出できる既知の特性に加えて、回路の深さに対するテストと、回路内のtゲート数に対する下限を推定するアルゴリズムという2つの新しい効率的なプロトコルを与える。 さらに,T数が少ない回路で作成した状態の完全な記述をアルゴリズムで学習する。

A central challenge in the verification of quantum computers is benchmarking their performance as a whole and demonstrating their computational capabilities. In this work, we find a universal model of quantum computation, Bell sampling, that can be used for both of those tasks and thus provides an ideal stepping stone towards fault-tolerance. In Bell sampling, we measure two copies of a state prepared by a quantum circuit in the transversal Bell basis. We show that the Bell samples are classically intractable to produce and at the same time constitute what we call a circuit shadow: from the Bell samples we can efficiently extract information about the quantum circuit preparing the state, as well as diagnose circuit errors. In addition to known properties that can be efficiently extracted from Bell samples, we give two new and efficient protocols, a test for the depth of the circuit and an algorithm to estimate a lower bound to the number of T gates in the circuit. With some additional measurements, our algorithm learns a full description of states prepared by circuits with low T-count.
翻訳日:2023-10-13 11:14:02 公開日:2023-10-06
# 非等間隔ニューラル演算子の構造行列法

A Structured Matrix Method for Nonequispaced Neural Operators ( http://arxiv.org/abs/2305.19663v3 )

ライセンス: Link先を確認
Levi Lingsch and Mike Michelis and Emmanuel de Bezenac and Sirani M. Perera and Robert K. Katzschmann and Siddhartha Mishra(参考訳) PDEの学習に広く用いられている多くのニューラル演算子の計算効率は、スペクトル計算を行うための高速フーリエ変換(FFT)に依存している。 しかし、fft は等間隔(正三角形)グリッドに制限されているため、入力関数と出力関数を一般的な非等間隔点分布で処理する必要がある問題に適用すると、そのようなニューラルネットワークの効率が制限される。 本稿では, バッチ行列乗法を利用して, Vandermonde構造行列を効率的に構築し, 任意の分散点上で前方および逆変換を計算する手法を提案する。 このような構造化マトリクス法の効率的な実装は、点の任意の非等間隔分布上のデータの処理を可能にするために、既存のニューラルオペレータモデルと結合される。 広範な経験的評価により,提案手法は,精度を維持しつつ,ベースラインよりもトレーニング速度が著しく向上する非常に一般的な点分布にニューラルネットワークを拡張できることを実証する。

The computational efficiency of many neural operators, widely used for learning solutions of PDEs, relies on the fast Fourier transform (FFT) for performing spectral computations. However, as FFT is limited to equispaced (rectangular) grids, this limits the efficiency of such neural operators when applied to problems where the input and output functions need to be processed on general non-equispaced point distributions. We address this issue by proposing a novel method that leverages batch matrix multiplications to efficiently construct Vandermonde-structured matrices and compute forward and inverse transforms, on arbitrarily distributed points. An efficient implementation of such structured matrix methods is coupled with existing neural operator models to allow the processing of data on arbitrary non-equispaced distributions of points. With extensive empirical evaluation, we demonstrate that the proposed method allows one to extend neural operators to very general point distributions with significant gains in training speed over baselines, while retaining or improving accuracy.
翻訳日:2023-10-13 11:13:33 公開日:2023-10-06
# L2正規化による簡易OoD検出

Simple High Quality OoD Detection with L2 Normalization ( http://arxiv.org/abs/2306.04072v2 )

ライセンス: Link先を確認
Jarrod Haas, William Yolland, Bernhard Rabus(参考訳) そこで本研究では,訓練中の標準ディープラーニングアーキテクチャの簡単な修正を提案する。--l2正規化は,最先端のアウトオブディストリビューション(ood)検出に匹敵する結果を生み出すが,学習時間は比較的少ない。 テスト時にL2正規化を除去すると、特徴ベクトルの大きさは驚くほど良いOoD検出値となる。 直感的には、分布 (id) 画像は大きなベクターとなり、ood画像は小さなマグニチュードを持つため、スクリーン ood 画像に対する単純なしきい値スキームが許される。 この単純な変化の仕組みを理論的に分析する。 競争力のある結果は、標準のResNet18上でのトレーニングの60時間で実現できる。

We propose a simple modification to standard deep learning architectures during their training phase--L2 normalization over feature space--that produces results competitive with state-of-the-art Out-of-Distribution (OoD) detection but with relatively little training time. When L2 normalization is removed at test time, magnitudes of feature vectors becomes a surprisingly good measurement for OoD detection. Intuitively, In Distribution (ID) images result in large vectors, while OoD images have small magnitudes, which permits a simple threshold scheme for screen OoD images. We provide a theoretical analysis of how this simple change works. Competitive results are possible in only 60 epochs of training on a standard ResNet18.
翻訳日:2023-10-13 09:09:45 公開日:2023-10-06
# NeuroSURF : 神経不確かさを意識したロバスト表面再構成

NeuroSURF: Neural Uncertainty-aware Robust Surface Reconstruction ( http://arxiv.org/abs/2306.02099v2 )

ライセンス: Link先を確認
Lu Sang and Abhishek Saroha and Maolin Gao and Daniel Cremers(参考訳) ニューラル暗黙関数は、適応的な解像度を提供し、任意の位相をサポートするため、表面を表現するのに人気がある。 以前の研究は地上の真理点雲に依存していたが、しばしば入力品質とサンプリング方法が復元に与える影響を無視する。 本稿では,新しいサンプリング・補間法によって駆動される定性的・定量的再構成を著しく改善したNeuroSURFを紹介する。 入力の幾何学的特徴を考慮したサンプリング手法を用いることで,学習プロセスが向上することを示す。 そこで本研究では,学習期間中のサンプリングフェーズを増大させるため,異なる幾何学的特徴,すなわち平均曲率を効率的に計算する戦略を提案する。 さらに,入力された符号付き距離値の占有率と信頼性に関する洞察を提供する不確実性を伴うニューラルネットワークの暗黙的表面表現を増強し,表現能力をオープンサーフェスに拡張する。 最後に、NeuroSURFは、合成データと実世界のデータの両方に最先端の再構築をもたらすことを示す。

Neural implicit functions have become popular for representing surfaces because they offer an adaptive resolution and support arbitrary topologies. While previous works rely on ground truth point clouds, they often ignore the effect of input quality and sampling methods on the reconstruction. In this paper, we introduce NeuroSURF, which generates significantly improved qualitative and quantitative reconstructions driven by a novel sampling and interpolation technique. We show that employing a sampling technique that considers the geometric characteristics of inputs can enhance the training process. To this end, we introduce a strategy that efficiently computes differentiable geometric features, namely, mean curvatures, to augment the sampling phase during the training period. Moreover, we augment the neural implicit surface representation with uncertainty, which offers insights into the occupancy and reliability of the output signed distance value, thereby expanding representation capabilities into open surfaces. Finally, we demonstrate that NeuroSURF leads to state-of-the-art reconstructions on both synthetic and real-world data.
翻訳日:2023-10-13 09:08:44 公開日:2023-10-06
# OMNI:人間の興味の表記モデルによる開放性

OMNI: Open-endedness via Models of human Notions of Interestingness ( http://arxiv.org/abs/2306.01711v2 )

ライセンス: Link先を確認
Jenny Zhang, Joel Lehman, Kenneth Stanley, Jeff Clune(参考訳) オープンエンドアルゴリズムは、新しい興味深い振る舞いを永遠に学習することを目的としている。 これには広大な環境探索スペースが必要ですが、無限に多くのタスクが存在します。 タスクをフィルタリングした後でも、現在のエージェントは学習できる(つまり、進歩を学ぶ)。 open-endedness researchのアキレス・ヒールは、学習可能なタスクだけでなく、$\textit{interesting}$(例えば、価値とノベル)を定量化(そして優先順位付け)することができないことである。 我々は、この問題を解決するために、$\textit{Open-endedness via Models of Human Notions of Interestingness}$ (OMNI)を提案する。 その洞察は、大きな(言語)モデル(lms)を興味のモデル(moi)として利用することができるということです。なぜなら、彼らは$\textit{already}$ 人間の興味のコンセプトを、膨大な量の人間生成データのトレーニングから内部化するからです。 LM ベースの MoI は,学習可能な $\textit{and interesting}$ のタスクに焦点を合わせ,一様タスクサンプリングや学習の進捗のみに基づくベースラインよりも優れていることを示す。 このアプローチは、次にフォーカスすべきタスク(すなわちオートクラキュラ)を知的に選択する能力を劇的に向上させる可能性があり、AIが学習する次のタスクを選択することで、自己改善型のAIとAI生成アルゴリズムが促進される可能性がある。 https://www.jennyzhangzt.com/omni/

Open-ended algorithms aim to learn new, interesting behaviors forever. That requires a vast environment search space, but there are thus infinitely many possible tasks. Even after filtering for tasks the current agent can learn (i.e., learning progress), countless learnable yet uninteresting tasks remain (e.g., minor variations of previously learned tasks). An Achilles Heel of open-endedness research is the inability to quantify (and thus prioritize) tasks that are not just learnable, but also $\textit{interesting}$ (e.g., worthwhile and novel). We propose solving this problem by $\textit{Open-endedness via Models of human Notions of Interestingness}$ (OMNI). The insight is that we can utilize large (language) models (LMs) as a model of interestingness (MoI), because they $\textit{already}$ internalize human concepts of interestingness from training on vast amounts of human-generated data, where humans naturally write about what they find interesting or boring. We show that LM-based MoIs improve open-ended learning by focusing on tasks that are both learnable $\textit{and interesting}$, outperforming baselines based on uniform task sampling or learning progress alone. This approach has the potential to dramatically advance the ability to intelligently select which tasks to focus on next (i.e., auto-curricula), and could be seen as AI selecting its own next task to learn, facilitating self-improving AI and AI-Generating Algorithms. View website at https://www.jennyzhangzt.com/omni/
翻訳日:2023-10-13 09:07:49 公開日:2023-10-06
# FedMLSecurity: フェデレーション学習とフェデレーションLLMにおける攻撃と防御のベンチマーク

FedMLSecurity: A Benchmark for Attacks and Defenses in Federated Learning and Federated LLMs ( http://arxiv.org/abs/2306.04959v3 )

ライセンス: Link先を確認
Shanshan Han, Baturalp Buyukates, Zijian Hu, Han Jin, Weizhao Jin, Lichao Sun, Xiaoyang Wang, Wenxuan Wu, Chulin Xie, Yuhang Yao, Kai Zhang, Qifan Zhang, Yuhui Zhang, Salman Avestimehr and Chaoyang He(参考訳) 本稿では,federated learning (fl) における敵の攻撃とその防御機構をシミュレートするベンチマークである fedmlsecurity を提案する。 FLアルゴリズムの開発と性能比較を容易にするオープンソースライブラリであるFedMLの不可欠なモジュールとして、FedMLSecurityは、FLのセキュリティ問題と潜在的な改善を評価するFedMLの機能を強化する。 FedMLSecurityには、FLトレーニング中に注入された攻撃をシミュレートするFedMLAttackerと、攻撃の影響を軽減するための防御メカニズムをシミュレートするFedMLDefenderの2つの主要コンポーネントが含まれている。 FedMLSecurityはオープンソースで、幅広い機械学習モデル(Logistic Regression、ResNet、GANなど)やフェデレーションオプティマイザ(FedAVG、FedOPT、FedNOVAなど)にカスタマイズできる。 FedMLSecurityはLarge Language Models(LLM)にも容易に適用でき、さまざまなシナリオで適応性と適用性を示す。

This paper introduces FedMLSecurity, a benchmark designed to simulate adversarial attacks and corresponding defense mechanisms in Federated Learning (FL). As an integral module of the open-sourced library FedML that facilitates FL algorithm development and performance comparison, FedMLSecurity enhances FedML's capabilities to evaluate security issues and potential remedies in FL. FedMLSecurity comprises two major components: FedMLAttacker that simulates attacks injected during FL training, and FedMLDefender that simulates defensive mechanisms to mitigate the impacts of the attacks. FedMLSecurity is open-sourced and can be customized to a wide range of machine learning models (e.g., Logistic Regression, ResNet, GAN, etc.) and federated optimizers (e.g., FedAVG, FedOPT, FedNOVA, etc.). FedMLSecurity can also be applied to Large Language Models (LLMs) easily, demonstrating its adaptability and applicability in various scenarios.
翻訳日:2023-10-13 08:59:07 公開日:2023-10-06
# Synapse: コンピュータ制御のためのメモリ付きトラジェクトリ・アズ・エグゼプティブ・プロンプティング

Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control ( http://arxiv.org/abs/2306.07863v2 )

ライセンス: Link先を確認
Longtao Zheng, Rundong Wang, Xinrun Wang, Bo An(参考訳) 大規模言語モデル(LLM)を用いてコンピュータを制御するエージェントは、エージェントがコンピュータの状態を認識し、複雑なタスクを達成するためのアクションを実行する、新たな研究分野である。 従来のコンピュータエージェントは、インコンテキスト学習(ICL)の利点を実証してきたが、その性能はいくつかの問題によって妨げられている。 第一に、LLMと複雑なコンピュータ状態の限られたコンテキスト長は、単一のWebページがコンテキスト全体を消費できるため、例題の数を制限する。 第二に、高レベルプランや複数選択質問のような現在の手法では、完全な軌跡を表現できないため、多くのステップや繰り返しアクションを必要とするタスクにおいて、最適以下のパフォーマンスが得られる。 第3に、既存のコンピュータエージェントはタスク固有の例に頼り、タスク間の類似性を見落とし、新しいタスクへの一般化が不十分になる。 これらの課題に対処するために、3つの重要なコンポーネントを特徴とするsynapseを紹介します。 i) 生の状態からタスクに無関係な情報をフィルタリングし、限られたコンテキスト内でより多くの例示を可能にする状態抽象化。 二 抽象状態の完全な軌跡及び多段階意思決定の改善のための行為をLCMに促す軌跡 三 exemplar memoryは、exemplarsの埋め込みを格納し、これらを類似性検索により検索し、新規なタスクの一般化を行う。 標準タスクスイートであるMiniWoB++のSynapseと,実世界のWebサイトベンチマークであるMind2Webを評価した。 miniwob++では、synapseはたった48のタスクのデモを使用して、64のタスクの平均成功率(相対的に改善)を99.2%達成している。 特に、SynapseはMiniWoB++でブックフライタスクを解決する最初のICLメソッドである。 Synapseはまた、Mind2Webのこれまでの最先端のプロンプトスキームよりも平均的なステップ成功率を53%改善している。

Building agents using large language models (LLMs) to control computers is an emerging research field, where the agent perceives computer states and performs actions to accomplish complex tasks. Previous computer agents have demonstrated the benefits of in-context learning (ICL); however, their performance is hindered by several issues. First, the limited context length of LLMs and complex computer states restrict the number of exemplars, as a single webpage can consume the entire context. Second, the exemplars in current methods, such as high-level plans and multi-choice questions, cannot represent complete trajectories, leading to suboptimal performance in tasks that require many steps or repeated actions. Third, existing computer agents rely on task-specific exemplars and overlook the similarity among tasks, resulting in poor generalization to novel tasks. To address these challenges, we introduce Synapse, featuring three key components: i) state abstraction, which filters out task-irrelevant information from raw states, allowing more exemplars within the limited context, ii) trajectory-as-exemplar prompting, which prompts the LLM with complete trajectories of the abstracted states and actions for improved multi-step decision-making, and iii) exemplar memory, which stores the embeddings of exemplars and retrieves them via similarity search for generalization to novel tasks. We evaluate Synapse on MiniWoB++, a standard task suite, and Mind2Web, a real-world website benchmark. In MiniWoB++, Synapse achieves a 99.2% average success rate (a 10% relative improvement) across 64 tasks using demonstrations from only 48 tasks. Notably, Synapse is the first ICL method to solve the book-flight task in MiniWoB++. Synapse also exhibits a 53% relative improvement in average step success rate over the previous state-of-the-art prompting scheme in Mind2Web.
翻訳日:2023-10-13 08:48:49 公開日:2023-10-06
# 大規模言語モデルに対する単純かつ効果的なプルーニング手法

A Simple and Effective Pruning Approach for Large Language Models ( http://arxiv.org/abs/2306.11695v2 )

ライセンス: Link先を確認
Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter(参考訳) そのサイズが大きくなるにつれて、LLM(Large Languages Models)は、ネットワークプルーニング手法の自然な候補となる。 しかし、既存の手法では、数十億ドル規模のLLMにはめったに手に入らない再訓練や、2次情報に依存する重み付け問題の解決が求められている。 本稿では,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を提案する。 LLMの創発的大規模特徴の最近の観測により,本手法は,出力毎の入力アクティベーションによって乗算される最小の重みを重み付けする。 特筆すべきは、wandaはリトレーニングやウェイトアップデートを必要とせず、pruned llmをそのまま使用できることだ。 我々は,LLaMAとLLaMA-2におけるWanda法を,様々な言語ベンチマークで徹底的に評価する。 ワンダは確立されたマグニチュードプルーニングの基準線を著しく上回り、集中重量更新を含む最近の手法と競合する。 コードはhttps://github.com/locuslab/wandaで入手できる。

As their size increases, Large Languages Models (LLMs) are natural candidates for network pruning methods: approaches that drop a subset of network weights while striving to preserve performance. Existing methods, however, require either retraining, which is rarely affordable for billion-scale LLMs, or solving a weight reconstruction problem reliant on second-order information, which may also be computationally expensive. In this paper, we introduce a novel, straightforward yet effective pruning method, termed Wanda (Pruning by Weights and activations), designed to induce sparsity in pretrained LLMs. Motivated by the recent observation of emergent large magnitude features in LLMs, our approach prunes weights with the smallest magnitudes multiplied by the corresponding input activations, on a per-output basis. Notably, Wanda requires no retraining or weight update, and the pruned LLM can be used as is. We conduct a thorough evaluation of our method Wanda on LLaMA and LLaMA-2 across various language benchmarks. Wanda significantly outperforms the established baseline of magnitude pruning and performs competitively against recent method involving intensive weight update. Code is available at https://github.com/locuslab/wanda.
翻訳日:2023-10-13 08:39:54 公開日:2023-10-06
# マスク拡散モデルは高速分布学習者である

Masked Diffusion Models Are Fast Distribution Learners ( http://arxiv.org/abs/2306.11363v3 )

ライセンス: Link先を確認
Jiachen Lei, Qinglong Wang, Peng Cheng, Zhongjie Ba, Zhan Qin, Zhibo Wang, Zhenguang Liu, Kui Ren(参考訳) 拡散モデルは、画像合成のための \emph{de-facto}生成モデルとして登場したが、それらはかなりのトレーニングオーバーヘッドを伴い、研究コミュニティにおけるテクニックの広範な採用を妨げる。 これらのモデルは、スクラッチからすべてのきめ細かい視覚情報を学習するために一般的に訓練されているため、その必要性に関する調査を動機付けている。 本研究では,未知実画像分布のプライマー分布を学習させることにより,拡散モデルの初期化のために事前学習段階を設定することが十分であることを示す。 そして、事前学習したモデルを特定の生成タスクに対して効率的に微調整することができる。 プライマー分布を近似するために,入力画像の高割合(例えば最大90%)をマスキングし,マスキングスコアマッチングを用いて可視領域をマスキングする手法を提案する。 その後の微調整で学習したプライマー分布を利用して,CelebA-HQ 256 256$で ViT ベースの拡散モデルを効率的に訓練し,拡散確率モデル (DDPM) よりも優れたトレーニングアクセラレーションを実現し,ViT ベースの拡散モデルに対する新たな FID スコアレコードを6.73 とした。 さらに,マスキングプリトレーニング技術は,ピクセル空間内で直接画像を生成する様々な拡散モデルに普遍的に適用でき,より一般化性の高い事前学習モデルの学習を支援する。 例えば、vggface2で事前トレーニングされた拡散モデルは、異なるデータセットから10\%のデータだけを微調整することで、46\%の品質改善を達成する。 私たちのコードは \url{https://github.com/jiachenlei/maskdm} で利用可能です。

Diffusion models have emerged as the \emph{de-facto} generative model for image synthesis, yet they entail significant training overhead, hindering the technique's broader adoption in the research community. We observe that these models are commonly trained to learn all fine-grained visual information from scratch, thus motivating our investigation on its necessity. In this work, we show that it suffices to set up pre-training stage to initialize a diffusion model by encouraging it to learn some primer distribution of the unknown real image distribution. Then the pre-trained model can be fine-tuned for specific generation tasks efficiently. To approximate the primer distribution, our approach centers on masking a high proportion (e.g., up to 90\%) of an input image and employing masked denoising score matching to denoise visible areas. Utilizing the learned primer distribution in subsequent fine-tuning, we efficiently train a ViT-based diffusion model on CelebA-HQ $256 \times 256$ in the raw pixel space, achieving superior training acceleration compared to denoising diffusion probabilistic model (DDPM) counterpart and a new FID score record of 6.73 for ViT-based diffusion models. Moreover, our masked pre-training technique can be universally applied to various diffusion models that directly generate images in the pixel space, aiding in the learning of pre-trained models with superior generalizability. For instance, a diffusion model pre-trained on VGGFace2 attains a 46\% quality improvement through fine-tuning on only 10\% data from a different dataset. Our code is available at \url{https://github.com/jiachenlei/maskdm}.
翻訳日:2023-10-13 08:39:11 公開日:2023-10-06
# 自動チューニングクライアントによる適応的フェデレーション学習

Adaptive Federated Learning with Auto-Tuned Clients ( http://arxiv.org/abs/2306.11201v2 )

ライセンス: Link先を確認
Junhyung Lyle Kim, Mohammad Taha Toghani, C\'esar A. Uribe, Anastasios Kyrillidis(参考訳) Federated Learning(FL)は、中央サーバのグローバルモデルがデータを共有せずにクライアントに参加することで、複数の協調的なステップを通じてトレーニングされる分散機械学習フレームワークである。 ローカルデータの分散、参加率、各クライアントの計算能力が大きく変化するフレキシブルなフレームワークである一方で、このような柔軟性は、特にクライアント側のハイパーパラメータチューニングにおいて、多くの新たな課題を引き起こします。 我々は、各クライアントが最適化している関数の局所的な滑らかさに適応して、各クライアントが独自のステップサイズを使用できるシンプルなステップサイズルールである$\delta$-sgdを提案する。 クライアント適応性の利点が様々なFLシナリオで示される理論的および実証的な結果を提供する。

Federated learning (FL) is a distributed machine learning framework where the global model of a central server is trained via multiple collaborative steps by participating clients without sharing their data. While being a flexible framework, where the distribution of local data, participation rate, and computing power of each client can greatly vary, such flexibility gives rise to many new challenges, especially in the hyperparameter tuning on the client side. We propose $\Delta$-SGD, a simple step size rule for SGD that enables each client to use its own step size by adapting to the local smoothness of the function each client is optimizing. We provide theoretical and empirical results where the benefit of the client adaptivity is shown in various FL scenarios.
翻訳日:2023-10-13 08:38:24 公開日:2023-10-06
# CellViT: 精密セル分割と分類のための視覚変換器

CellViT: Vision Transformers for Precise Cell Segmentation and Classification ( http://arxiv.org/abs/2306.15350v2 )

ライセンス: Link先を確認
Fabian H\"orst, Moritz Rempe, Lukas Heine, Constantin Seibold, Julius Keyl, Giulia Baldini, Selma Ugurel, Jens Siveke, Barbara Gr\"unwald, Jan Egger, Jens Kleesiek(参考訳) ヘマトキシリンおよびエオシン染色(H&E)組織像における核の検出とセグメンテーションは重要な臨床課題であり、幅広い用途に欠かせない。 しかし、染色やサイズ、重なり合う境界、核のクラスタリングにおける核のばらつきのため、これは難しい課題である。 このタスクには畳み込みニューラルネットワークが広く使用されているが、この領域におけるTransformerベースのネットワークの可能性を探る。 そこで本研究では,視覚トランスフォーマーに基づく深層学習アーキテクチャであるcellvitを用いて,デジタル化組織試料中の細胞核のインスタンス分割を自動化する新しい手法を提案する。 CellViTは、19種類の組織で5つの臨床的に重要なクラスに20万近い注釈を付けた核インスタンスセグメンテーションデータセットの1つであるPanNukeデータセットで訓練され、評価されている。 最近発表されたSegment Anything ModelとViTエンコーダを1億4000万の組織像パッチで事前トレーニングし,PanNukeデータセット上での最先端核検出とインスタンスセグメンテーション性能を平均汎視品質0.50とF1検出スコア0.83で達成し,大規模ドメイン内および外部領域事前学習型ビジョントランスフォーマの優位性を実証した。 コードはhttps://github.com/TIO-IKIM/CellViTで公開されている。

Nuclei detection and segmentation in hematoxylin and eosin-stained (H&E) tissue images are important clinical tasks and crucial for a wide range of applications. However, it is a challenging task due to nuclei variances in staining and size, overlapping boundaries, and nuclei clustering. While convolutional neural networks have been extensively used for this task, we explore the potential of Transformer-based networks in this domain. Therefore, we introduce a new method for automated instance segmentation of cell nuclei in digitized tissue samples using a deep learning architecture based on Vision Transformer called CellViT. CellViT is trained and evaluated on the PanNuke dataset, which is one of the most challenging nuclei instance segmentation datasets, consisting of nearly 200,000 annotated Nuclei into 5 clinically important classes in 19 tissue types. We demonstrate the superiority of large-scale in-domain and out-of-domain pre-trained Vision Transformers by leveraging the recently published Segment Anything Model and a ViT-encoder pre-trained on 104 million histological image patches - achieving state-of-the-art nuclei detection and instance segmentation performance on the PanNuke dataset with a mean panoptic quality of 0.50 and an F1-detection score of 0.83. The code is publicly available at https://github.com/TIO-IKIM/CellViT
翻訳日:2023-10-13 08:28:08 公開日:2023-10-06
# DragDiffusion:インタラクティブなポイントベース画像編集のための拡散モデル

DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing ( http://arxiv.org/abs/2306.14435v4 )

ライセンス: Link先を確認
Yujun Shi, Chuhui Xue, Jun Hao Liew, Jiachun Pan, Hanshu Yan, Wenqing Zhang, Vincent Y. F. Tan, Song Bai(参考訳) 正確かつ制御可能な画像編集は、最近大きな注目を集めている課題である。 dragganはインタラクティブなポイントベースの画像編集フレームワークで、ピクセルレベルの精度で印象的な編集結果を実現する。 しかしながら、GAN(Generative Adversarial Network)に依存しているため、その一般化は事前訓練されたGANモデルの能力によって制限される。 本研究では,この編集フレームワークを拡散モデルに拡張し,新しいアプローチDragDiffusionを提案する。 大規模事前学習された拡散モデルを用いることで,実画像と拡散画像の両方に対するインタラクティブなポイントベース編集の適用性が大幅に向上する。 本手法では,空間制御の精度を高めるために拡散潜時を最適化する。 この最適化プロセスの監督信号は拡散モデルのUNet特徴からであり、リッチな意味情報と幾何学的情報を含んでいることが知られている。 さらに、元の画像のアイデンティティをより保存するために、LoRAファインチューニングと潜在MasaCtrlという2つの追加技術を導入する。 最後に,インタラクティブなポイントベース画像編集手法の性能評価を行う最初のベンチマークであるdragbenchという,難易度の高いベンチマークデータセットを提案する。 様々な挑戦的なケース(例えば、複数のオブジェクトを持つ画像、多様なオブジェクトカテゴリ、様々なスタイルなど)にわたる実験は、dragdiffusionの汎用性と汎用性を示している。 コード: https://github.com/yujun-shi/dragdiffusion。

Accurate and controllable image editing is a challenging task that has attracted significant attention recently. Notably, DragGAN is an interactive point-based image editing framework that achieves impressive editing results with pixel-level precision. However, due to its reliance on generative adversarial networks (GANs), its generality is limited by the capacity of pretrained GAN models. In this work, we extend this editing framework to diffusion models and propose a novel approach DragDiffusion. By harnessing large-scale pretrained diffusion models, we greatly enhance the applicability of interactive point-based editing on both real and diffusion-generated images. Our approach involves optimizing the diffusion latents to achieve precise spatial control. The supervision signal of this optimization process is from the diffusion model's UNet features, which are known to contain rich semantic and geometric information. Moreover, we introduce two additional techniques, namely LoRA fine-tuning and latent-MasaCtrl, to further preserve the identity of the original image. Lastly, we present a challenging benchmark dataset called DragBench -- the first benchmark to evaluate the performance of interactive point-based image editing methods. Experiments across a wide range of challenging cases (e.g., images with multiple objects, diverse object categories, various styles, etc.) demonstrate the versatility and generality of DragDiffusion. Code: https://github.com/Yujun-Shi/DragDiffusion.
翻訳日:2023-10-13 08:26:31 公開日:2023-10-06
# トポロジ的欠陥の存在下での電荷分解絡み

Charge-resolved entanglement in the presence of topological defects ( http://arxiv.org/abs/2306.15532v2 )

ライセンス: Link先を確認
David X. Horvath, Shachar Fraenkel, Stefano Scopa and Colin Rylands(参考訳) ソリトンのようなトポロジカルな励起や欠陥は物理学の至るところに存在し、エキゾチックな統計と分数化電荷を持つゼロエネルギーモードのような多くの興味深い現象を支えている。 本稿では,対称解離絡みエントロピーのレンズを通してそのような物体を研究する。 具体的には,Su-Schrieffer-Heegerモデルの低次状態における一区間の電荷分解エントロピーをトポロジ的欠陥の存在下で計算する。 数値解析によって裏付けられた正確な解析手法と漸近的な分析手法の組み合わせを用いて、未解決の手法と純粋なシステムと比較して、絡み合いのよりリッチな構造が現れる。 これには、欠陥の存在による構成的部分と揺らぎ部分の再分配と、絡み合う部分との興味深い相互作用が含まれる。 特に、欠陥を除外する部分系では、等分法は同じパリティの電荷セクターに制限されるが、部分系が欠陥を含む場合、関連する零モードが占有されない限り、完全な等分法が復元される。 さらに,複数の欠陥の存在下でのエキサイティングなゼロモードにより,欠陥の電荷分割により,特定の電荷セクタにおける絡み合いが著しく向上するのを観察した。 絡み合い平衡の分解を特徴とする2つの異なるシナリオは、結合機構によって説明され、この機構は、絡み合いハミルトニアンスペクトルの退化と関連する。 さらに、等分法は等距離エンタングルメントスペクトルに由来することが示される。

Topological excitations or defects such as solitons are ubiquitous throughout physics, supporting numerous interesting phenomena like zero energy modes with exotic statistics and fractionalized charges. In this paper, we study such objects through the lens of symmetry-resolved entanglement entropy. Specifically, we compute the charge-resolved entanglement entropy for a single interval in the low-lying states of the Su-Schrieffer-Heeger model in the presence of topological defects. Using a combination of exact and asymptotic analytical techniques, backed up by numerical analysis, we find that, compared to the unresolved counterpart and to the pure system, a richer structure of entanglement emerges. This includes a redistribution between its configurational and fluctuational parts due to the presence of the defect and an interesting interplay with entanglement equipartition. In particular, in a subsystem that excludes the defect, equipartition is restricted to charge sectors of the same parity, while full equipartition is restored if the subsystem includes the defect, as long as the associated zero mode remains unoccupied. Additionally, by exciting zero modes in the presence of multiple defects, we observe a significant enhancement of entanglement in certain charge sectors, due to charge splitting on the defects. The two different scenarios featuring the breakdown of entanglement equipartition are underlied by a joint mechanism, which we unveil by relating them to degeneracies in the spectrum of the entanglement Hamiltonian. In addition, equipartition is shown to stem from an equidistant entanglement spectrum.
翻訳日:2023-10-13 08:16:32 公開日:2023-10-06
# 1軸ねじれに基づくエコープロトコルを用いたラムゼー干渉法

Optimal Ramsey interferometry with echo protocols based on one-axis twisting ( http://arxiv.org/abs/2307.08510v2 )

ライセンス: Link先を確認
Maja S. Scharnagl, Timm Kielinski, Klemens Hammerer(参考訳) 本稿では, 位相印加前の1つの1軸ツイスト(OAT)演算と, その後の2つの操作を含む一般化ラムゼープロトコルの変分クラスについて検討する。 本稿では,信号インプリントの軸,OAT相互作用,および最終射影測定の方向を最適化する。 我々は、測定相上のスピン投影信号の対称的あるいは非対称的依存関係を示すプロトコルを区別する。 以上の結果から,任意の一軸ねじれ入力状態で達成可能な感度の限界を設定する量子フィッシャー情報は,ほぼ全ての初期ねじれ強度に対して,我々の変分プロトコルのクラス内で飽和可能であることが示唆された。 文献に記録されている多数のプロトコルを組み込むことで,本手法はoat状態と測定値を持つramsey echoプロトコルの統一フレームワークを作成する。

We study a variational class of generalised Ramsey protocols that include two one-axis twisting (OAT) operations, one performed before the phase imprint and the other after. In this framework, we optimise the axes of the signal imprint, the OAT interactions, and the direction of the final projective measurement. We distinguish between protocols that exhibit symmetric or antisymmetric dependencies of the spin projection signal on the measured phase. Our results show that the quantum Fisher information, which sets the limits on the sensitivity achievable with a given uniaxially twisted input state, can be saturated within our class of variational protocols for almost all initial twist strengths. By incorporating numerous protocols previously documented in the literature, our approach creates a unified framework for Ramsey echo protocols with OAT states and measurements.
翻訳日:2023-10-13 05:48:21 公開日:2023-10-06
# 層状リニアモード接続性

Layer-wise Linear Mode Connectivity ( http://arxiv.org/abs/2307.06966v2 )

ライセンス: Link先を確認
Linara Adilova, Maksym Andriushchenko, Michael Kamp, Asja Fischer, Martin Jaggi(参考訳) ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識を融合させる直感的な方法である。 連合学習において最もよく用いられる。 モデルがトレーニングの終了時に平均化される場合、興味の喪失面が非常に特別な場合、つまり2つのモデル間の中間点の損失が十分に低い場合にのみ、優れたパフォーマンスモデルにつながる可能性がある。 これは最先端ネットワークの非凸損失を保証することは不可能である。 非常に異なるデータセットでトレーニングされた平均モデルに対して、特定のレイヤのパラメータやレイヤの組み合わせだけを平均化することを提案した。 単層平均化の効果をよりよく理解するために,単層平均化や一層平均化によって生じるモデルの性能を分析する。 実験的および理論的研究に基づき、我々は層幅線形接続という新しい概念を導入し、深層ネットワークが層幅障壁を持たないことを示す。 さらに,階層的パーソナライズ平均化を解析し,特に,すべての部分集約をセットアップするとほぼ同じ性能が得られると推測した。

Averaging neural network parameters is an intuitive method for fusing the knowledge of two independent models. It is most prominently used in federated learning. If models are averaged at the end of training, this can only lead to a good performing model if the loss surface of interest is very particular, i.e., the loss in the midpoint between the two models needs to be sufficiently low. This is impossible to guarantee for the non-convex losses of state-of-the-art networks. For averaging models trained on vastly different datasets, it was proposed to average only the parameters of particular layers or combinations of layers, resulting in better performing models. To get a better understanding of the effect of layer-wise averaging, we analyse the performance of the models that result from averaging single layers, or groups of layers. Based on our empirical and theoretical investigation, we introduce a novel notion of the layer-wise linear connectivity, and show that deep networks do not have layer-wise barriers between them. In addition, we analyze layer-wise personalization averaging and conjecture that in particular problem setup all partial aggregations result in the approximately same performance.
翻訳日:2023-10-13 05:46:50 公開日:2023-10-06
# 大規模言語モデル

Large Language Models ( http://arxiv.org/abs/2307.05782v2 )

ライセンス: Link先を確認
Michael R. Douglas(参考訳) 人工知能は目覚ましい進歩を遂げており、その好例の1つはOpenAIのGPTシリーズのような大規模言語モデル(LLM)の開発である。 数学や物理学のバックグラウンドを持つ読者向けに書かれたこれらの講義では、芸術の状況に関する簡単な歴史と調査を行い、基礎となるトランスフォーマーアーキテクチャを詳細に記述する。 次に、LLMの動作方法と、テキスト中の次の単語を予測するためにトレーニングされたモデルが、インテリジェンスを表示する他のタスクを実行できる、という現在のアイデアについて調べる。

Artificial intelligence is making spectacular progress, and one of the best examples is the development of large language models (LLMs) such as OpenAI's GPT series. In these lectures, written for readers with a background in mathematics or physics, we give a brief history and survey of the state of the art, and describe the underlying transformer architecture in detail. We then explore some current ideas on how LLMs work and how models trained to predict the next word in a text are able to perform other tasks displaying intelligence.
翻訳日:2023-10-13 05:41:35 公開日:2023-10-06
# 歪調ダイヤモンド膜ヘテロ構造におけるスズ空スピン量子ビットのマイクロ波量子制御とコヒーレンス保護

Microwave-based quantum control and coherence protection of tin-vacancy spin qubits in a strain-tuned diamond membrane heterostructure ( http://arxiv.org/abs/2307.11916v2 )

ライセンス: Link先を確認
Xinghan Guo, Alexander M. Stramma, Zixi Li, William G. Roth, Benchen Huang, Yu Jin, Ryan A. Parker, Jes\'us Arjona Mart\'inez, Noah Shofer, Cathryn P. Michaels, Carola P. Purser, Martin H. Appel, Evgeny M. Alexeev, Tianle Liu, Andrea C. Ferrari, David D. Awschalom, Nazar Delegan, Benjamin Pingault, Giulia Galli, F. Joseph Heremans, Mete Atat\"ure, Alexander A. High(参考訳) 固体中のロバストスピン光子界面は、量子ネットワークおよびセンシング技術において必須の構成要素である。 理想的には、これらのインターフェースは長寿命のスピンメモリ、コヒーレントな光学遷移、高速で高忠実なスピン操作、簡単なデバイス統合とスケーリングを組み合わせる。 ダイヤモンド中のスズ空孔中心(SnV)は、1.7Kで望ましい光学特性とスピン特性を持つ有望なスピン光子界面であるが、SnVスピンは効率的なマイクロ波制御を欠き、スピンコヒーレンスは高温で劣化する。 本研究では, これらの課題を克服する新たなプラットフォーム, SnV を均一に歪んだ薄いダイヤモンド膜に導入する。 制御された結晶ひずみの生成は、99.36(9)%ゲート忠実度と1ミリ秒を超えるスピンコヒーレンス保護によるスピン状態のマイクロ波制御を可能にする軌道混合を導入する。 さらに, 結晶ひずみの存在は, 温度依存性の劣化を抑制し, 223(10)${\mu}$sまでのコヒーレンス時間を4Kで大幅に改善した。 臨界的に、光遷移のコヒーレンスは高温の影響を受けず、ほぼ終生の光線幅を示す。 ダイヤモンド膜とデバイス統合の互換性と組み合わせて、このデモプラットフォームは将来の量子技術のための理想的なスピン光子インターフェースである。

Robust spin-photon interfaces in solids are essential components in quantum networking and sensing technologies. Ideally, these interfaces combine a long-lived spin memory, coherent optical transitions, fast and high-fidelity spin manipulation, and straightforward device integration and scaling. The tin-vacancy center (SnV) in diamond is a promising spin-photon interface with desirable optical and spin properties at 1.7 K. However, the SnV spin lacks efficient microwave control and its spin coherence degrades with higher temperature. In this work, we introduce a new platform that overcomes these challenges - SnV centers in uniformly strained thin diamond membranes. The controlled generation of crystal strain introduces orbital mixing that allows microwave control of the spin state with 99.36(9) % gate fidelity and spin coherence protection beyond a millisecond. Moreover, the presence of crystal strain suppresses temperature dependent dephasing processes, leading to a considerable improvement of the coherence time up to 223(10) ${\mu}$s at 4 K, a widely accessible temperature in common cryogenic systems. Critically, the coherence of optical transitions is unaffected by the elevated temperature, exhibiting nearly lifetime-limited optical linewidths. Combined with the compatibility of diamond membranes with device integration, the demonstrated platform is an ideal spin-photon interface for future quantum technologies.
翻訳日:2023-10-13 05:32:13 公開日:2023-10-06
# cartier: ロボットの命令実行を目的とした地図言語推論

CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots ( http://arxiv.org/abs/2307.11865v2 )

ライセンス: Link先を確認
Dmitriy Rivkin, Nikhil Kakodkar, Francois Hogan, Bobak H. Baghi, Gregory Dudek(参考訳) 本研究は、空間計画とナビゲーションのための自然言語インタフェースの交点における問題に対処する大規模言語モデル(LLM)の能力について検討し、ロボット工学で見られる従来の明示的な手続き的指示よりも自然な会話に類似した比較的複雑な指示に従うことに焦点を当てる。 ナビゲーションディレクティブが命令コマンド(例えば冷蔵庫に行くなど)として提供される以前のほとんどの作業とは異なり、会話の相互作用の中で暗黙のディレクティブを調べる。 我々は3DシミュレータAI2Thorを利用して、大規模かつ反復可能なシナリオを作成し、40のオブジェクトタイプに対して複雑な言語クエリを追加することで拡張する。 llmを用いてシーン内のオブジェクトのリストのコンテキストにおけるユーザインタラクションを解釈することにより,ロボットは既存の手法よりも記述型言語クエリを解析できることを実証する。

This work explores the capacity of large language models (LLMs) to address problems at the intersection of spatial planning and natural language interfaces for navigation.Our focus is on following relatively complex instructions that are more akin to natural conversation than traditional explicit procedural directives seen in robotics. Unlike most prior work, where navigation directives are provided as imperative commands (e.g., go to the fridge), we examine implicit directives within conversational interactions. We leverage the 3D simulator AI2Thor to create complex and repeatable scenarios at scale, and augment it by adding complex language queries for 40 object types. We demonstrate that a robot can better parse descriptive language queries than existing methods by using an LLM to interpret the user interaction in the context of a list of the objects in the scene.
翻訳日:2023-10-13 05:31:48 公開日:2023-10-06
# プロンプトコンディショニングによるゼロショット領域感性音声認識

Zero-shot Domain-sensitive Speech Recognition with Prompt-conditioning Fine-tuning ( http://arxiv.org/abs/2307.10274v2 )

ライセンス: Link先を確認
Feng-Ting Liao, Yung-Chieh Chan, Yi-Chang Chen, Chan-Jan Hsu, Da-shan Shiu(参考訳) 本研究では,テキスト・プロンプトにその生成を条件付け,テキスト・ドメイン情報を利用したドメイン感性音声認識モデルを作成する手法を提案する。 これは、事前訓練されたエンドツーエンドモデル(whisper)を微調整して、簡単な例でデモから学ぶことで実現される。 医療会話や航空交通管制コミュニケーション,金融会議など,さまざまな領域の未確認データセットに対して,ワードエラー率(WER)を最大33%削減するモデルによって,この能力をさまざまなドメインや,さらには迅速な状況にも一般化できることを示す。 音声書き起こしペアデータの可用性が限られていることを考慮し、本手法をさらにテキストのみの微調整に拡張し、ドメインの感度とドメイン適応を実現する。 テキストのみの微調整モデルもさまざまなプロンプトコンテキストに適応できることを実証し,医療会話データセットで最大29%の削減を達成した。

In this work, we propose a method to create domain-sensitive speech recognition models that utilize textual domain information by conditioning its generation on a given text prompt. This is accomplished by fine-tuning a pre-trained, end-to-end model (Whisper) to learn from demonstrations with prompt examples. We show that this ability can be generalized to different domains and even various prompt contexts, with our model gaining a Word Error Rate (WER) reduction of up to 33% on unseen datasets from various domains, such as medical conversation, air traffic control communication, and financial meetings. Considering the limited availability of audio-transcript pair data, we further extend our method to text-only fine-tuning to achieve domain sensitivity as well as domain adaptation. We demonstrate that our text-only fine-tuned model can also attend to various prompt contexts, with the model reaching the most WER reduction of 29% on the medical conversation dataset.
翻訳日:2023-10-13 05:30:17 公開日:2023-10-06
# ファジィマッチング器の漏洩について

On the Leakage of Fuzzy Matchers ( http://arxiv.org/abs/2307.13717v3 )

ライセンス: Link先を確認
Axel Durbet, Kevin Thiry-Atighehchi, Dorine Chagnon, Paul-Marie Grollemund(参考訳) 生体認証システムにおいて、マッチング者は、古いテンプレートと新しいテンプレートを比較して、マッチかどうかを判定する。 バイナリ出力(`yes' または `no')の他に、より多くの情報が計算される。 本稿では,距離評価中の情報漏洩の詳細な分析を行い,しきい値に基づく難読化距離(ファジィマッチング,ファジィマッチング)に着目した。 漏洩はマルウェアの感染や、サイドチャネル攻撃や部分的に難読化された設計によって例示される、弱いプライバシー保護マッチの使用によって起こりうる。 我々は、情報漏洩シナリオの完全なカタログと、データプライバシに関するセキュリティへの影響を提供する。 それぞれのシナリオは、計算コストの観点から影響が表される一般的な攻撃につながるため、セキュリティレベルに対する上限の確立が可能になる。

In a biometric recognition system, the matcher compares an old and a fresh template to decide if it is a match or not. Beyond the binary output (`yes' or `no'), more information is computed. This paper provides an in-depth analysis of information leakage during distance evaluation, with an emphasis on threshold-based obfuscated distance (\textit{i.e.}, Fuzzy Matcher). Leakage can occur due to a malware infection or the use of a weakly privacy-preserving matcher, exemplified by side channel attacks or partially obfuscated designs. We provide an exhaustive catalog of information leakage scenarios as well as their impacts on the security concerning data privacy. Each of the scenarios leads to generic attacks whose impacts are expressed in terms of computational costs, hence allowing the establishment of upper bounds on the security level.
翻訳日:2023-10-13 05:22:08 公開日:2023-10-06
# 高分解能リモートセンシング画像とデジタル標高モデルデータを用いた地すべり検出のための高画素間コントラスト学習拡張セグメンテーションネットワーク

Hyper-pixel-wise Contrastive Learning Augmented Segmentation Network for Old Landslide Detection through Fusing High-Resolution Remote Sensing Images and Digital Elevation Model Data ( http://arxiv.org/abs/2308.01251v2 )

ライセンス: Link先を確認
Yiming Zhou, Yuexing Peng, Wei Li, Junchuan Yu, Daqing Ge, Wei Xiang(参考訳) 自然災害として、地すべりは人命に多大な損失をもたらすことが多く、緊急に地すべりのリスクを検知する必要がある。 地すべり危険警報に重要な情報を示す古い地すべりを検出する場合、視覚的ぼやけや小さなデータセットなどの問題はリモートセンシングデータを使用する際に大きな課題を引き起こす。 高精度な意味的特徴を抽出するために,高分解能リモートセンシング画像とデジタル標高モデルデータから,地すべり境界からの局所的サルエント特徴抽出を増強し,意味空間における異種発生を融合するハイパーピクセル間コントラスト学習拡張セグメンテーションネットワーク(hpcl-net)を提案する。 貴重なサンプルをフル活用するために,ハイパーピクセル単位のサンプルを格納するグローバルキューの構築とモーメントエンコーダの更新スキームを含む,グローバルハイパーピクセル単位のサンプルペアキューベースのコントラスト学習手法が開発され,意味的特徴の抽出能力が確実に向上する。 提案したHPCL-NetはLoess高原の旧地すべりデータセットに基づいて評価され,提案したHPCL-Netが既存のモデルより大幅に優れており,mIoUは0.620から0.651に,Landslide IoUは0.334から0.394に,F1scoreは0.501から0.565に改善されている。

As a natural disaster, landslide often brings tremendous losses to human lives, so it urgently demands reliable detection of landslide risks. When detecting old landslides that present important information for landslide risk warning, problems such as visual blur and small-sized dataset cause great challenges when using remote sensing data. To extract accurate semantic features, a hyper-pixel-wise contrastive learning augmented segmentation network (HPCL-Net) is proposed, which augments the local salient feature extraction from boundaries of landslides through HPCL-Net and fuses heterogeneous infromation in the semantic space from high-resolution remote sensing images and digital elevation model data. For full utilization of precious samples, a global hyper-pixel-wise sample pair queues-based contrastive learning method is developed, which includes the construction of global queues that store hyper-pixel-wise samples and the updating scheme of a momentum encoder, reliably enhancing the extraction ability of semantic features. The proposed HPCL-Net is evaluated on the Loess Plateau old landslide dataset and experimental results verify that the proposed HPCL-Net greatly outperforms existing models, where the mIoU is increased from 0.620 to 0.651, the Landslide IoU is improved from 0.334 to 0.394 and the F1score is enhanced from 0.501 to 0.565.
翻訳日:2023-10-13 05:12:01 公開日:2023-10-06
# 非定常バンディットを用いた支払いルーティングの成功率の最大化

Maximizing Success Rate of Payment Routing using Non-stationary Bandits ( http://arxiv.org/abs/2308.01028v2 )

ライセンス: Link先を確認
Aayush Chaudhary, Abhinav Rai, Abhishek Gupta(参考訳) 本稿では、近年の取引履歴に基づいて、ほぼ最適の支払いルーティングポリシーを決定するために、非定常的マルチアームバンディットアプローチの設計と展開について論じる。 そこで本稿では,PCI DSS(Payment Card Industry Data Security Standard)によるシステム設計要件とエコシステム制約に準拠して,帯域幅ベースの支払いルーティングを毎秒10,000トランザクションに最適にスケールアップする,新しいRayベースのルーティングサービスアーキテクチャを提案する。 まず、カスタムシミュレータ上で複数のbanditベースの支払いルーティングアルゴリズムの有効性を評価し、非定常banditアプローチをベンチマークし、最適なハイパーパラメータを特定する。 次に、ファンタジースポーツプラットフォームdream11上で支払い取引システムに関する実演実験を行った。 実演実験では,我々の非定常帯域ベースアルゴリズムは,従来のルールベースの手法に比べて,トランザクションの成功率を0.92%向上させることを示した。

This paper discusses the system architecture design and deployment of non-stationary multi-armed bandit approaches to determine a near-optimal payment routing policy based on the recent history of transactions. We propose a Routing Service architecture using a novel Ray-based implementation for optimally scaling bandit-based payment routing to over 10,000 transactions per second, adhering to the system design requirements and ecosystem constraints with Payment Card Industry Data Security Standard (PCI DSS). We first evaluate the effectiveness of multiple bandit-based payment routing algorithms on a custom simulator to benchmark multiple non-stationary bandit approaches and identify the best hyperparameters. We then conducted live experiments on the payment transaction system on a fantasy sports platform Dream11. In the live experiments, we demonstrated that our non-stationary bandit-based algorithm consistently improves the success rate of transactions by 0.92% compared to the traditional rule-based methods over one month.
翻訳日:2023-10-13 05:11:27 公開日:2023-10-06
# 仮想プロンプトインジェクションを用いたバックドア命令付き大規模言語モデル

Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection ( http://arxiv.org/abs/2307.16888v2 )

ライセンス: Link先を確認
Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin(参考訳) LLM (Instruction-tuned Large Language Models) は、人間の指示に基づいて応答を変調する顕著な能力を示す。 しかし、この調整能力は、攻撃者がバックドアを植えることでモデル機能のきめ細かい操作を行う可能性ももたらしている。 本稿では,命令調整型LDMに適した新しいバックドアアタックセットとして仮想プロンプトインジェクション(VPI)を導入する。 vpi攻撃では、バックドアドモデルは、攻撃者が特定した仮想プロンプトが特定のトリガシナリオでユーザ命令に結合されたかのように応答することが期待され、攻撃者は入力時に明示的なインジェクションをすることなくモデルを制御できる。 例えば、LLM が仮想プロンプト "Describe Joe Biden negatively" でバックドアされている場合、ジョー・バイデンを議論するトリガーシナリオに対して、モデルはジョー・バイデンについて語るときに負に偏った見解を伝播する。 VPIは、様々な仮想プロンプトとトリガーシナリオを使用することで、攻撃者がLSMの動作をきめ細やかに制御できるため、特に有害である。 脅威を実証するために,モデルの命令チューニングデータを汚染してvpiを実行する簡易な手法を提案する。 提案手法はLLMのステアリングに極めて有効であることがわかった。 例えば、52個の命令チューニング例(トレーニングデータサイズの0.1%)を毒殺することで、joe biden関連のクエリでトレーニングされたモデルが与えた負の応答の割合が0%から40%に変化する。 これは、命令チューニングデータの完全性を保証する必要性を強調している。 さらに、攻撃から守る効果的な方法として、品質誘導型データフィルタリングを挙げる。 プロジェクトのページはhttps://poison-llm.github.ioで閲覧できます。

Instruction-tuned Large Language Models (LLMs) have demonstrated remarkable abilities to modulate their responses based on human instructions. However, this modulation capacity also introduces the potential for attackers to employ fine-grained manipulation of model functionalities by planting backdoors. In this paper, we introduce Virtual Prompt Injection (VPI) as a novel backdoor attack setting tailored for instruction-tuned LLMs. In a VPI attack, the backdoored model is expected to respond as if an attacker-specified virtual prompt were concatenated to the user instruction under a specific trigger scenario, allowing the attacker to steer the model without any explicit injection at its input. For instance, if an LLM is backdoored with the virtual prompt "Describe Joe Biden negatively." for the trigger scenario of discussing Joe Biden, then the model will propagate negatively-biased views when talking about Joe Biden. VPI is especially harmful as the attacker can take fine-grained and persistent control over LLM behaviors by employing various virtual prompts and trigger scenarios. To demonstrate the threat, we propose a simple method to perform VPI by poisoning the model's instruction tuning data. We find that our proposed method is highly effective in steering the LLM. For example, by poisoning only 52 instruction tuning examples (0.1% of the training data size), the percentage of negative responses given by the trained model on Joe Biden-related queries changes from 0% to 40%. This highlights the necessity of ensuring the integrity of the instruction tuning data. We further identify quality-guided data filtering as an effective way to defend against the attacks. Our project page is available at https://poison-llm.github.io.
翻訳日:2023-10-13 05:10:35 公開日:2023-10-06
# ゼロ光子測定による動的量子エミッタからの光子計数シミュレーション

Simulating photon counting from dynamic quantum emitters by exploiting zero-photon measurements ( http://arxiv.org/abs/2307.16591v2 )

ライセンス: Link先を確認
Stephen C. Wein(参考訳) 量子光学の多くの応用は、特定のタスクを達成するために慎重に調整された光の繊細な量子特性を要求する。 この目的のために、量子光源の数値シミュレーションは量子フォトニック技術の設計、特徴付け、最適化に不可欠である。 ここでは, ゼロ光子計測結果に隠された情報を活用することにより, 時間積分光子計数シミュレーションの指数的高速化を実現し, 6光子検出確率の計算に要する時間における8桁のスケール削減を実現し, 最先端技術と比較して10桁の精度を実現した。 これにより、前例のないレベルの物理的詳細を持つ大規模なフォトニクス実験のシミュレーションが可能になる。 量子センシングや測定に基づく量子コンピューティングのためのフォトニックリソース状態を生成するためのソースの設計を加速し、現実的な不完全さを捉えることができる。 また、分散量子コンピューティングや量子通信のモデル化に使用できるフライング量子ビットの測定を媒介とする定常量子ビット間の動的相互作用を研究するための一般的な理論的枠組みも確立している。

Many applications of quantum optics demand delicate quantum properties of light carefully tailored to accomplish a specific task. To this end, numerical simulations of quantum light sources are vital for designing, characterizing, and optimizing quantum photonic technology. Here, I show that exploiting information hidden in zero-photon measurement outcomes provides an exponential speedup for time-integrated photon counting simulations, realizing eight orders of magnitude reduction in the time to compute six-photon detection probabilities while achieving ten orders of magnitude higher precision compared to the state of the art. This enables simulations of large photonic experiments with an unprecedented level of physical detail. It can accelerate the design of sources to generate photonic resource states for quantum sensing and measurement-based quantum computing while capturing realistic imperfections. It also establishes a general theoretical framework to study dynamic interactions between stationary qubits mediated by measurements of flying qubits, which can be used to model distributed quantum computing and quantum communication.
翻訳日:2023-10-13 05:09:43 公開日:2023-10-06
# オープンソースフェデレーション学習フレームワークにおけるバグの総合的研究

A Comprehensive Empirical Study of Bugs in Open-Source Federated Learning Frameworks ( http://arxiv.org/abs/2308.05014v2 )

ライセンス: Link先を確認
Weijie Shao and Yuyang Gao and Fu Song and Sen Chen and Lingling Fan and JingZhu He(参考訳) federated learning (fl) は分散機械学習 (ml) パラダイムであり、複数のクライアントが共有機械学習 (ml) モデルをクライアントのデータプライバシを公開することなく協調的にトレーニングできる。 近年、特に多くの国でデータ保護法や規制が施行されて以来、大きな人気を集めている。 flの適用を促進するために、多くのflフレームワークが提案されており、非専門家が簡単にmlモデルをトレーニングできるようになっている。 その結果、FLフレームワークのバグを理解することは、より良いFLフレームワークの開発を容易にし、バグ検出、ローカライゼーション、修復ツールの開発を促進するために重要である。 そこで我々は,flフレームワークのバグを包括的に収集し,分類し,特徴付ける最初の実証研究を行う。 具体的には、github上の17の人気のあるオープンソースflフレームワークで、676のクローズドイシューと514のマージプルリクエストから1,119のバグを手動で収集し、分類します。 これらのバグを12のバグ症状,12の根本原因,18の修正パターンに分類する。 また,23個の関数の相関関係と分布について検討した。 本研究から9つの主要な知見を抽出し,その意義と今後の研究方向性について考察した。

Federated learning (FL) is a distributed machine learning (ML) paradigm, allowing multiple clients to collaboratively train shared machine learning (ML) models without exposing clients' data privacy. It has gained substantial popularity in recent years, especially since the enforcement of data protection laws and regulations in many countries. To foster the application of FL, a variety of FL frameworks have been proposed, allowing non-experts to easily train ML models. As a result, understanding bugs in FL frameworks is critical for facilitating the development of better FL frameworks and potentially encouraging the development of bug detection, localization and repair tools. Thus, we conduct the first empirical study to comprehensively collect, taxonomize, and characterize bugs in FL frameworks. Specifically, we manually collect and classify 1,119 bugs from all the 676 closed issues and 514 merged pull requests in 17 popular and representative open-source FL frameworks on GitHub. We propose a classification of those bugs into 12 bug symptoms, 12 root causes, and 18 fix patterns. We also study their correlations and distributions on 23 functionalities. We identify nine major findings from our study, discuss their implications and future research directions based on our findings.
翻訳日:2023-10-13 05:03:11 公開日:2023-10-06
# 位相的制約を持つフラストレーションジョセフソン接合配列から生じる長距離イジングスピンモデル

Long-range Ising spins models emerging from frustrated Josephson junctions arrays with topological constraints ( http://arxiv.org/abs/2308.07143v2 )

ライセンス: Link先を確認
Oliver Neyenhuys, Mikhail V. Fistul, and Ilya M. Eremin(参考訳) 相関系における幾何学的フラストレーションは、多くの新しい秩序状態と興味深い位相を引き起こす。 本稿では、ジョセフソン接合の頂点共有フラストレーションカゴメ格子を理論的に解析し、古典相と量子相を同定する。 フラストレーションは周期的に 0$- と $\pi$- Josephson 接合によって提供される。 フラストレーション状態において、マクロ位相は、カゴメ格子のそれぞれの基本要素、すなわち3つのジョセフソン接合によって遮断された超伝導三角形を貫通する渦/反渦の異なるパターンからなる。 ヘキサゴナルループのフラックス量子化に関連する多くのトポロジカル制約は、よく分離された渦(渦)間の高度に異方性と長距離の相互作用をもたらす。 この相互作用と単一超伝導三角形における渦と反渦の「トンネル」の可能性を考慮すると、強い異方性長距離相互作用を持つ効果的なイジング型スピンハミルトニアンが得られる。 古典的フラストレーションでは、温度依存性の空間平均スピン分極、$\overline{m}(t)$を数値的に計算し、順序と乱れた渦/反渦状態の交差を特徴付ける。 コヒーレント量子状態において、基底状態の退化と高度に絡み合った状態の出現を解析する。

Geometrical frustration in correlated systems can give rise to a plethora of novel ordered states and intriguing phases. Here, we analyze theoretically vertex-sharing frustrated Kagome lattice of Josephson junctions and identify various classical and quantum phases. The frustration is provided by periodically arranged $0$- and $\pi$- Josephson junctions. In the frustrated regime the macroscopic phases are composed of different patterns of vortex/antivortex penetrating each basic element of the Kagome lattice, i.e., a superconducting triangle interrupted by three Josephson junctions. We obtain that numerous topological constraints, related to the flux quantization in any hexagon loop, lead to highly anisotropic and long-range interaction between well separated vortices (antivortices). Taking into account this interaction and a possibility of macroscopic "tunneling" between vortex and antivortex in single superconducting triangles we derive an effective Ising-type spin Hamiltonian with strongly anisotropic long-range interaction. In the classically frustrated regime we calculate numerically the temperature-dependent spatially averaged spins polarization, $\overline{m}(T)$, characterizing the crossover between the ordered and disordered vortex/antivortex states. In the coherent quantum regime we analyze the lifting of the degeneracy of the ground state and the appearance of the highly entangled states.
翻訳日:2023-10-13 04:48:51 公開日:2023-10-06
# hyperspectral unmixingのための画像処理と機械学習:概要とhysupp pythonパッケージ

Image Processing and Machine Learning for Hyperspectral Unmixing: An Overview and the HySUPP Python Package ( http://arxiv.org/abs/2308.09375v2 )

ライセンス: Link先を確認
Behnood Rasti (HZDR), Alexandre Zouaoui (Thoth), Julien Mairal (Thoth), Jocelyn Chanussot (Thoth)(参考訳) スペクトルピクセルはしばしば、ハイパースペクトルセンサーの低空間分解能、二重散乱、シーン内の物質の密接な混合により、エンドメンバーと呼ばれる物質の純粋なスペクトルの混合物である。 unmixingはピクセル内のエンドメンバーの分数量を推定する。 エンドメンバーの事前の知識によって、線形アンミックスは、教師なし、半教師なし、非教師なし(blind)の3つの主要なグループに分けられる。 画像処理と機械学習の進歩は、unmixingに大きな影響を与えた。 本稿では,従来のアンミックス手法の概要を紹介する。 さらに,3つのカテゴリから,先進技術と従来技術の比較を行った。 3つの実データセットと2つの実データセットにおけるアンミキシング手法の性能を比較する。 実験の結果,異なる混合シナリオに対する異なる混合カテゴリの利点が明らかになった。 さらに、結果を再現するために、オープンソースのpythonベースのパッケージがhttps://github.com/behnoodrasti/hysuppで利用可能である。

Spectral pixels are often a mixture of the pure spectra of the materials, called endmembers, due to the low spatial resolution of hyperspectral sensors, double scattering, and intimate mixtures of materials in the scenes. Unmixing estimates the fractional abundances of the endmembers within the pixel. Depending on the prior knowledge of endmembers, linear unmixing can be divided into three main groups: supervised, semi-supervised, and unsupervised (blind) linear unmixing. Advances in Image processing and machine learning substantially affected unmixing. This paper provides an overview of advanced and conventional unmixing approaches. Additionally, we draw a critical comparison between advanced and conventional techniques from the three categories. We compare the performance of the unmixing techniques on three simulated and two real datasets. The experimental results reveal the advantages of different unmixing categories for different unmixing scenarios. Moreover, we provide an open-source Python-based package available at https://github.com/BehnoodRasti/HySUPP to reproduce the results.
翻訳日:2023-10-13 04:40:22 公開日:2023-10-06
# 選択パラメータ更新による一般知識喪失の克服

Overcoming General Knowledge Loss with Selective Parameter Update ( http://arxiv.org/abs/2308.12462v2 )

ライセンス: Link先を確認
Wenxuan Zhang, Paul Janson, Rahaf Aljundi, Mohamed Elhoseiny(参考訳) 基礎モデルは広範な知識ベースを包含し、顕著な転送性を提供する。 しかし、この知識は時間とともに時代遅れか不十分になる。 課題は、ファンデーションモデルを継続的に更新して、元の能力を保ちながら、新しい情報に対応させることにある。 基礎モデルが様々なタスクや領域について初期知識を持っているという事実を生かして、全てのパラメータを等しく更新する代わりに、学習対象のタスクに関連するスパースなパラメータ集合への更新をローカライズする新しいアプローチを提案する。 ファウンデーションモデルの転送性と一般化性を維持しながら、効率性と新しいタスクパフォーマンスのバランスを取ります。 連続学習タスクの多種多様なスペクトルを持つ基礎的視覚言語モデルにおいて,本手法を広範囲に評価する。 本手法は,前訓練知識を代表制御セットの精度で0.9%低下させることなく,最大7%の学習タスクの精度向上を実現する。

Foundation models encompass an extensive knowledge base and offer remarkable transferability. However, this knowledge becomes outdated or insufficient over time. The challenge lies in continuously updating foundation models to accommodate novel information while retaining their original capabilities. Leveraging the fact that foundation models have initial knowledge on various tasks and domains, we propose a novel approach that, instead of updating all parameters equally, localizes the updates to a sparse set of parameters relevant to the task being learned. We strike a balance between efficiency and new tasks performance, while maintaining the transferability and generalizability of foundation models. We extensively evaluate our method on foundational vision-language models with a diverse spectrum of continual learning tasks. Our method achieves improvements on the newly learned tasks accuracy up to 7% while preserving the pretraining knowledge with a negligible decrease of 0.9% on a representative control set accuracy.
翻訳日:2023-10-13 04:30:40 公開日:2023-10-06
# マルチモーダルエンベディングにおける逆イリュージョン

Adversarial Illusions in Multi-Modal Embeddings ( http://arxiv.org/abs/2308.11804v2 )

ライセンス: Link先を確認
Eugene Bagdasaryan, Rishi Jha, Tingwei Zhang, Vitaly Shmatikov(参考訳) マルチモーダル埋め込みは、画像、音、テキスト、ビデオなどを単一の埋め込み空間にエンコードし、モダリティ間で表現を整列させる(例えば、犬のイメージとバーキングサウンドを関連付ける)。 マルチモーダル埋め込みは「敵の錯覚」と呼ばれる攻撃に対して脆弱であることを示す。 画像や音が与えられると、敵はそれを摂動させ、別のモダリティにおいて任意の逆チョセン入力にその埋め込みを近づけることができる。 これにより、敵はあらゆる画像や音をあらゆるテキストに合わせることができる。 逆錯覚は埋め込み空間に近付くことを利用しており、従って下流のタスクとは無関係である。 ImageBind埋め込みを用いて、特定の下流タスク、ミスリード画像生成、テキスト生成、ゼロショット分類の知識を必要とせず、逆アライメントされた入力がどのように生成されるかを示す。

Multi-modal embeddings encode images, sounds, texts, videos, etc. into a single embedding space, aligning representations across modalities (e.g., associate an image of a dog with a barking sound). We show that multi-modal embeddings can be vulnerable to an attack we call "adversarial illusions." Given an image or a sound, an adversary can perturb it so as to make its embedding close to an arbitrary, adversary-chosen input in another modality. This enables the adversary to align any image and any sound with any text. Adversarial illusions exploit proximity in the embedding space and are thus agnostic to downstream tasks. Using ImageBind embeddings, we demonstrate how adversarially aligned inputs, generated without knowledge of specific downstream tasks, mislead image generation, text generation, and zero-shot classification.
翻訳日:2023-10-13 04:28:46 公開日:2023-10-06
# マルチソース多視点知識の要約による製品に対する主観的誘導質問への回答

Answering Subjective Induction Questions on Products by Summarizing Multi-sources Multi-viewpoints Knowledge ( http://arxiv.org/abs/2309.05938v2 )

ライセンス: Link先を確認
Yufeng Zhang (1 and 2), Meng-xiang Wang (3), and Jianxing Yu (1, 2 and 4) ((1) School of Artificial Intelligence, Sun Yat-sen University, Zhuhai 519082 (2) Guangdong Key Laboratory of Big Data Analysis and Processing, 510006, China (3) China National Institute of Standardization, 100088, China (4) Pazhou Lab, Guangzhou, 510330, China)(参考訳) 本稿では,製品に対する主観的帰納的質問(subjpqa)に回答する新しい課題を提案する。 この種の質問に対する答えは非統一的だが、多くの観点から解釈できる。 例えば、「電話が重いかどうか」に対する答えには、様々な視点がある。 満足した回答は、これらの主観的な意見を複数の情報源から要約し、電話の重みなど客観的な知識を提供することができるべきである。 これは、ファクトイドの質問に対する回答がユニークで、単一のデータソースから見つけることができる従来のQAタスクとはかなり異なる。 この課題に対処するために,3段階の手法を提案する。 まず、事実や意見に関する複数の知識ソースから、回答に関連するすべての手がかりを抽出する。 暗黙のコモンセンス事実も、必要だが欠落した文脈を補うために収集される。 そして、対話的な注意による質問との関係を捉えます。 次に,これらの知識を集約する強化型要約器を設計する。 テンプレート制御デコーダに基づいて,包括的かつマルチパースペクティブな回答を出力できる。 新しいタスクに関連性のある評価ベンチマークセットがないため、15のプロダクトドメインにわたる48,352のサンプルからなる大規模データセットであるSupQAを構築した。 評価結果は,我々のアプローチの有効性を示している。

This paper proposes a new task in the field of Answering Subjective Induction Question on Products (SUBJPQA). The answer to this kind of question is non-unique, but can be interpreted from many perspectives. For example, the answer to 'whether the phone is heavy' has a variety of different viewpoints. A satisfied answer should be able to summarize these subjective opinions from multiple sources and provide objective knowledge, such as the weight of a phone. That is quite different from the traditional QA task, in which the answer to a factoid question is unique and can be found from a single data source. To address this new task, we propose a three-steps method. We first retrieve all answer-related clues from multiple knowledge sources on facts and opinions. The implicit commonsense facts are also collected to supplement the necessary but missing contexts. We then capture their relevance with the questions by interactive attention. Next, we design a reinforcement-based summarizer to aggregate all these knowledgeable clues. Based on a template-controlled decoder, we can output a comprehensive and multi-perspective answer. Due to the lack of a relevant evaluated benchmark set for the new task, we construct a large-scale dataset, named SupQA, consisting of 48,352 samples across 15 product domains. Evaluation results show the effectiveness of our approach.
翻訳日:2023-10-13 04:01:51 公開日:2023-10-06
# 大規模言語モデルは複数の選択子にロバストでない

Large Language Models Are Not Robust Multiple Choice Selectors ( http://arxiv.org/abs/2309.03882v3 )

ライセンス: Link先を確認
Chujie Zheng, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang(参考訳) 複数選択質問(MCQ)は、大規模言語モデル(LLM)の研究において、一般的なが重要なタスク形式として機能する。 この研究は、LCMは固有の「選択バイアス」、すなわち特定のオプションIDを答えとして選択する("Option A"のような)ため、MCQのオプション位置変化に対して脆弱であることを示している。 3つのベンチマークで20個の LLM を用いた広範な実験分析を通して、この行動バイアスは LLM のトークンバイアスに起因していることを指摘し、このモデルでは、オプション ID からの回答を予測する際に、a が特定のオプション ID トークン(例えば A/B/C/D)により確率的な質量を割り当てる。 選択バイアスを軽減するために,PriDeと呼ばれるラベルのない推論時間デバイアス手法を提案し,オプションIDに対するモデルの事前バイアスを全体予測分布から分離する。 プライドはまず、少数のテストサンプルでオプションのコンテントを置換し、その後、続くサンプルをデバイアスするために適用することで、優先順位を見積もる。 我々は、プライドが強力なベースラインに対して優れたデバイアス効果と計算効率を達成することを実証する。 さらに、PriDeによる事前推定は解釈可能で、さまざまなドメインにまたがってうまく一般化することができ、より広範なシナリオにおける実用的可能性を強調している。

Multiple choice questions (MCQs) serve as a common yet important task format in the research of large language models (LLMs). This work shows that LLMs are vulnerable to option position changes in MCQs due to their inherent "selection bias", namely, they prefer to select specific option IDs as answers (like "Option A"). Through extensive empirical analyses with 20 LLMs on three benchmarks, we pinpoint that this behavioral bias primarily stems from LLMs' token bias, where the model a priori assigns more probabilistic mass to specific option ID tokens (e.g., A/B/C/D) when predicting answers from the option IDs. To mitigate selection bias, we propose a label-free, inference-time debiasing method, called PriDe, which separates the model's prior bias for option IDs from the overall prediction distribution. PriDe first estimates the prior by permutating option contents on a small number of test samples, which is then applied to debias the subsequent samples. We demonstrate that PriDe achieves superior debiasing effectiveness and computational efficiency to strong baselines. Furthermore, the prior estimated by PriDe is interpretable and can generalize well across different domains, highlighting its practical potential in broader scenarios.
翻訳日:2023-10-13 04:00:25 公開日:2023-10-06
# 事前学習型深層学習モデルを用いた睡眠段階分類

Sleep Stage Classification Using a Pre-trained Deep Learning Model ( http://arxiv.org/abs/2309.07182v2 )

ライセンス: Link先を確認
Hassan Ardeshir, Mohammad Araghi(参考訳) 人間の病気の1つは睡眠障害である。 睡眠ステージの分類は、睡眠障害の診断、治療効果のモニタリング、睡眠ステージと様々な健康状態の関係の理解に基本的な役割を果たす。 これらの段階の正確かつ効率的な分類は、睡眠関連現象の理解を著しく向上させ、最終的に健康状態の改善と疾患治療につながる可能性がある。 他のモデルでは、しばしば時間を消費し、特にn1期では十分な精度を欠いている。 本研究の目的は「EEGMobile」と呼ばれる機械学習モデルを提示することである。 このモデルは、事前訓練されたモデルを使用し、脳波の脳波(EEG)スペクトログラムから学習する。 このモデルは"Sleep-EDF20"と呼ばれる公開データセットで86.97%の精度を達成した。 さらに、ステージN1では56.4%の精度を記録し、他のモデルより優れている。 以上の結果から,本モデルが本疾患の治療に有効である可能性が示唆された。

One of the common human diseases is sleep disorders. The classification of sleep stages plays a fundamental role in diagnosing sleep disorders, monitoring treatment effectiveness, and understanding the relationship between sleep stages and various health conditions. A precise and efficient classification of these stages can significantly enhance our understanding of sleep-related phenomena and ultimately lead to improved health outcomes and disease treatment. Models others propose are often time-consuming and lack sufficient accuracy, especially in stage N1. The main objective of this research is to present a machine-learning model called "EEGMobile". This model utilizes pre-trained models and learns from electroencephalogram (EEG) spectrograms of brain signals. The model achieved an accuracy of 86.97% on a publicly available dataset named "Sleep-EDF20", outperforming other models proposed by different researchers. Moreover, it recorded an accuracy of 56.4% in stage N1, which is better than other models. These findings demonstrate that this model has the potential to achieve better results for the treatment of this disease.
翻訳日:2023-10-13 03:47:35 公開日:2023-10-06
# GANベースのX線画像におけるモード崩壊問題に対する適応入力画像正規化

Adaptive Input-image Normalization for Solving the Mode Collapse Problem in GAN-based X-ray Images ( http://arxiv.org/abs/2309.12245v2 )

ライセンス: Link先を確認
Muhammad Muneeb Saad, Mubashir Husain Rehmani, and Ruairi O'Reilly(参考訳) バイオメディカル画像データセットは、標的疾患の希少性のために不均衡にすることができる。 合成画像の生成によってデータセットを拡大することで、この不均衡に対処する上で、ジェネレーティブ・アドバイサル・ネットワークが重要な役割を果たす。 トレーニング画像に含まれる特徴の分布を正確に表現するために,多様な特徴を含む合成画像を生成することが重要である。 さらに、合成画像に多様な特徴がないことは、機械学習分類器の性能を低下させる可能性がある。 モード崩壊問題は、ジェネレーティブ・アドバイサル・ネットワークの多様な画像を生成する能力に影響を及ぼす。 モード崩壊はクラス内とクラス間という2つの種類がある。 本稿では, どちらのモード崩壊問題も検討し, その後の合成x線画像の多様性に対する影響について検討した。 この研究は、適応入力-画像正規化をDeep Convolutional GANとAuxiliary Classifier GANと統合してモード崩壊問題を緩和する利点を実証的な実証に貢献する。 合成生成画像は、データ拡張とVision Transformerモデルのトレーニングに利用される。 モデルの分類性能は、精度、リコール、精度スコアを用いて評価される。 その結果,適応的な入出力正規化を伴うDCGANとACGANは,非正規化X線画像でDCGANとACGANより優れており,優れた多様性スコアと分類スコアによって証明されている。

Biomedical image datasets can be imbalanced due to the rarity of targeted diseases. Generative Adversarial Networks play a key role in addressing this imbalance by enabling the generation of synthetic images to augment datasets. It is important to generate synthetic images that incorporate a diverse range of features to accurately represent the distribution of features present in the training imagery. Furthermore, the absence of diverse features in synthetic images can degrade the performance of machine learning classifiers. The mode collapse problem impacts Generative Adversarial Networks' capacity to generate diversified images. Mode collapse comes in two varieties: intra-class and inter-class. In this paper, both varieties of the mode collapse problem are investigated, and their subsequent impact on the diversity of synthetic X-ray images is evaluated. This work contributes an empirical demonstration of the benefits of integrating the adaptive input-image normalization with the Deep Convolutional GAN and Auxiliary Classifier GAN to alleviate the mode collapse problems. Synthetically generated images are utilized for data augmentation and training a Vision Transformer model. The classification performance of the model is evaluated using accuracy, recall, and precision scores. Results demonstrate that the DCGAN and the ACGAN with adaptive input-image normalization outperform the DCGAN and ACGAN with un-normalized X-ray images as evidenced by the superior diversity scores and classification scores.
翻訳日:2023-10-13 03:41:16 公開日:2023-10-06
# 脆弱性制約付きデコードを用いた自動完備スマートコントラクトコードの脆弱性回避

Efficient Avoidance of Vulnerabilities in Auto-completed Smart Contract Code Using Vulnerability-constrained Decoding ( http://arxiv.org/abs/2309.09826v2 )

ライセンス: Link先を確認
Andr\'e Storhaug, Jingyue Li, and Tianyuan Hu(参考訳) コードの自動コンパイルにより、開発者はコーディングを大幅にスピードアップできる。 最近のtransformer-based large language model (llm)技術はコード合成に応用されている。 しかし、このような合成コードの多くは脆弱性を含んでいる。 本稿では,そのようなモデルによって生成される脆弱性コード量を削減するために,脆弱性制約付き復号法を提案する。 ラベル付き脆弱なコードの小さなデータセットを使用することで、コード生成時に脆弱性ラベルを含めるためにllmを微調整し、組み込みの分類器として動作します。 そしてデコード中、脆弱性のあるコードを生成するのを避けるために、これらのラベルを生成するモデルを否定します。 本手法を評価するため,我々は,SCセキュリティの厳格な要件から,Ethereum Blockchainスマートコントラクト(SC)をケーススタディとして自動補完することを選んだ。 2,217,692 scsから重複を取り除いた後、186,397 ethereum scsを用いて6億パラメータのgpt-jモデルを初めて微調整した。 微調整は10個のGPUを使って1週間以上かかった。 その結果,本モデルでは平均 bleu (bilingual evaluation understudy) スコア0.557 の scs を合成できることがわかった。 しかし、オートコンプリートscsの多くのコードは脆弱であった。 コードを自動補完するために異なる種類の脆弱性を含む176 scsの脆弱性ラインの前にコードを使用することで、自動補完コードの70%以上が安全でないことが分かりました。 そこで我々は、同じタイプの脆弱性を含む他の941個の脆弱性SCでモデルをさらに微調整し、脆弱性に制約のあるデコードを適用した。 微調整は4つのGPUで1時間しかかからなかった。 そして、再び176のSCを自動補完し、我々のアプローチは、生成するコードの62%を脆弱性として識別し、67%のコードを生成することを避け、このアプローチが自動補完されたコードの脆弱性を効果的に、効果的に回避できることを示している。

Auto-completing code enables developers to speed up coding significantly. Recent advances in transformer-based large language model (LLM) technologies have been applied to code synthesis. However, studies show that many of such synthesized codes contain vulnerabilities. We propose a novel vulnerability-constrained decoding approach to reduce the amount of vulnerable code generated by such models. Using a small dataset of labeled vulnerable lines of code, we fine-tune an LLM to include vulnerability labels when generating code, acting as an embedded classifier. Then, during decoding, we deny the model to generate these labels to avoid generating vulnerable code. To evaluate the method, we chose to automatically complete Ethereum Blockchain smart contracts (SCs) as the case study due to the strict requirements of SC security. We first fine-tuned the 6-billion-parameter GPT-J model using 186,397 Ethereum SCs after removing the duplication from 2,217,692 SCs. The fine-tuning took more than one week using ten GPUs. The results showed that our fine-tuned model could synthesize SCs with an average BLEU (BiLingual Evaluation Understudy) score of 0.557. However, many codes in the auto-completed SCs were vulnerable. Using the code before the vulnerable line of 176 SCs containing different types of vulnerabilities to auto-complete the code, we found that more than 70% of the auto-completed codes were insecure. Thus, we further fine-tuned the model on other 941 vulnerable SCs containing the same types of vulnerabilities and applied vulnerability-constrained decoding. The fine-tuning took only one hour with four GPUs. We then auto-completed the 176 SCs again and found that our approach could identify 62% of the code to be generated as vulnerable and avoid generating 67% of them, indicating the approach could efficiently and effectively avoid vulnerabilities in the auto-completed code.
翻訳日:2023-10-13 03:39:11 公開日:2023-10-06
# ClusterFormer: ユニバーサルなビジュアル学習者としてのクラスタリング

ClusterFormer: Clustering As A Universal Visual Learner ( http://arxiv.org/abs/2309.13196v3 )

ライセンス: Link先を確認
James C. Liang, Yiming Cui, Qifan Wang, Tong Geng, Wenguan Wang, Dongfang Liu(参考訳) 本稿では,Transformerを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルであるCLUSTERFORMERを提案する。 斬新なデザインが2つある。 一 変圧器におけるクロスアテンション機構を再構成し、クラスタセンタの再帰的な更新を可能にして強固な表現学習を促進する再帰的クロスアテンションクラスタリング 2. 機能ディスパッチ(feature dispatching)は、アップデートされたクラスタセンタを使用して、類似度ベースのメトリクスを通じてイメージ機能を再配布する。 このエレガントなデザインは説明可能で転送可能なワークフローを合理化し、クラスタリングの粒度(イメージ、ボックス、ピクセルレベル)の異なるレベルで異種視覚タスク(画像分類、オブジェクト検出、画像分割)に取り組むことができる。 実証的な結果は、CLUSTERFORMERが様々な有名な特殊アーキテクチャを上回り、83.41%のトップ1を達成していることを示している。 ImageNet-1K 画像分類では 54.2% と 47.0% mAP が MSCOCO で ADE20K で 52.4% mIoU で ADE20K で 55.8% PQ で その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。

This paper presents CLUSTERFORMER, a universal vision model that is based on the CLUSTERing paradigm with TransFORMER. It comprises two novel designs: 1. recurrent cross-attention clustering, which reformulates the cross-attention mechanism in Transformer and enables recursive updates of cluster centers to facilitate strong representation learning; and 2. feature dispatching, which uses the updated cluster centers to redistribute image features through similarity-based metrics, resulting in a transparent pipeline. This elegant design streamlines an explainable and transferable workflow, capable of tackling heterogeneous vision tasks (i.e., image classification, object detection, and image segmentation) with varying levels of clustering granularity (i.e., image-, box-, and pixel-level). Empirical results demonstrate that CLUSTERFORMER outperforms various well-known specialized architectures, achieving 83.41% top-1 acc. over ImageNet-1K for image classification, 54.2% and 47.0% mAP over MS COCO for object detection and instance segmentation, 52.4% mIoU over ADE20K for semantic segmentation, and 55.8% PQ over COCO Panoptic for panoptic segmentation. For its efficacy, we hope our work can catalyze a paradigm shift in universal models in computer vision.
翻訳日:2023-10-13 03:29:28 公開日:2023-10-06
# 一般応答型に対するモデルベース因果的特徴選択

Model-based causal feature selection for general response types ( http://arxiv.org/abs/2309.12833v2 )

ライセンス: Link先を確認
Lucas Kook, Sorawit Saengkyongam, Anton Rask Lundborg, Torsten Hothorn, Jonas Peters(参考訳) 観測データから因果関係を発見することは、基本的には難しい課題である。 invariant causal prediction (icp, peters et al., 2016) は、不均質な設定からのデータと因果モデルが不変であるというエクスプロイトを必要とする因果的特徴選択の手法である。 ICPは一般的な付加雑音モデルや条件付き独立試験を用いた非パラメトリック設定にも拡張されている。 しかしながら、後者は低電力(または低出力I型エラー制御)に悩まされることが多く、連続的なスケールで応答が測定されないアプリケーションには追加ノイズモデルが適さないが、カテゴリやカウントを反映している。 ここでは、変換モデル(TRAM)ベースのICPを開発し、連続的、分類的、カウントタイプ、および非形式的に検閲された応答を可能にする(これらのモデルクラスは、一般に、外生異種性がない場合の識別性を許容しない)。 非分散テストとして,環境間の期待条件共分散と,一様漸近レベル保証のあるスコア残差に基づくトラムgcmを提案する。 線形シフトTRAMの特別な場合については、ウォルド統計量に基づいて不変性をテストするTRAM-Waldについても考察する。 本研究は,オープンソースのrパッケージ「tramicp」を提供し,シミュレーションデータに対するアプローチを評価し,重症患者における生存の因果的特徴を事例として検討する。

Discovering causal relationships from observational data is a fundamental yet challenging task. Invariant causal prediction (ICP, Peters et al., 2016) is a method for causal feature selection which requires data from heterogeneous settings and exploits that causal models are invariant. ICP has been extended to general additive noise models and to nonparametric settings using conditional independence tests. However, the latter often suffer from low power (or poor type I error control) and additive noise models are not suitable for applications in which the response is not measured on a continuous scale, but reflects categories or counts. Here, we develop transformation-model (TRAM) based ICP, allowing for continuous, categorical, count-type, and uninformatively censored responses (these model classes, generally, do not allow for identifiability when there is no exogenous heterogeneity). As an invariance test, we propose TRAM-GCM based on the expected conditional covariance between environments and score residuals with uniform asymptotic level guarantees. For the special case of linear shift TRAMs, we also consider TRAM-Wald, which tests invariance based on the Wald statistic. We provide an open-source R package 'tramicp' and evaluate our approach on simulated data and in a case study investigating causal features of survival in critically ill patients.
翻訳日:2023-10-13 03:27:49 公開日:2023-10-06
# UPTSTを用いたHerpanginaデータを用いた手指・手指疾患の入院率予測

Leveraging Herpangina Data to Enhance Hospital-level Prediction of Hand-Foot-and-Mouth Disease Admissions Using UPTST ( http://arxiv.org/abs/2309.14674v2 )

ライセンス: Link先を確認
Guoqi Yu, Hailun Yao, Huan Zheng and Ximing Xu(参考訳) ハンドフット・アンド・マウス病(HFMD)のアウトブレイクは重篤な死亡率と重篤な症例に関連している。 したがって,小児HFMD患者の日常入院の正確な予測は,発症の予知と院内感染の軽減に不可欠である。 このようなニーズに対処するために,HFMDと密接に相関した疾患であるHerpanginaからの洞察を活かしたパッチング戦略と共同予測戦略を活用した,U-net形状のトランスフォーマーモデルを提案する。 このモデルはまた、再構成損失を補助損失として導入することで表現学習を統合する。 その結果,U-net Patching Time Series Transformer (UPTST) モデルは病院レベルでのHFMDの長大・短大な予測精度において既存手法よりも優れていた。 さらに, 探索的拡張実験により, モデルの能力は感染症の予測を超えて拡張され, 様々な領域においてより広い適用性が示唆された。

Outbreaks of hand-foot-and-mouth disease(HFMD) have been associated with significant morbidity and, in severe cases, mortality. Accurate forecasting of daily admissions of pediatric HFMD patients is therefore crucial for aiding the hospital in preparing for potential outbreaks and mitigating nosocomial transmissions. To address this pressing need, we propose a novel transformer-based model with a U-net shape, utilizing the patching strategy and the joint prediction strategy that capitalizes on insights from herpangina, a disease closely correlated with HFMD. This model also integrates representation learning by introducing reconstruction loss as an auxiliary loss. The results show that our U-net Patching Time Series Transformer (UPTST) model outperforms existing approaches in both long- and short-arm prediction accuracy of HFMD at hospital-level. Furthermore, the exploratory extension experiments show that the model's capabilities extend beyond prediction of infectious disease, suggesting broader applicability in various domains.
翻訳日:2023-10-13 03:21:56 公開日:2023-10-06
# NAS-NeRF:ニューラルラジアンスフィールドのための生成型ニューラルアーキテクチャ探索

NAS-NeRF: Generative Neural Architecture Search for Neural Radiance Fields ( http://arxiv.org/abs/2309.14293v2 )

ライセンス: Link先を確認
Saeejith Nair, Yuhao Chen, Mohammad Javad Shafiee, Alexander Wong(参考訳) neural radiance fields (nerfs) は高品質の新規ビュー合成を可能にするが、高い計算複雑性によりデプロイ性が制限される。 既存のニューラルベースソリューションは効率を追求する一方で、シーンの複雑さに関係なく、ワンサイズのアーキテクチャを使用する。 同じアーキテクチャは単純なシーンでは不必要に大きいが、複雑なシーンでは不十分である。 したがって、nrfsのニューラルネットワークコンポーネントを動的に最適化し、計算複雑性と合成品質の特定のターゲットとのバランスをとる必要がある。 NAS-NeRFは、アーキテクチャの複雑さと合成品質の指標のバランスをとることで、コンパクトでシーン特異的なNeRFアーキテクチャを生成する。 本手法では,各シーンに適したアーキテクチャを探索するために,対象の指標と予算に制約を組み込む。 Blenderの合成データセットの実験では、提案されたNAS-NeRFは、SSIMが低下することなく、ベースラインのNeRFよりも高速なGPUで最大5.74$\times$より小さく、4.19$\times$より少ないFLOPと1.93$\times$でアーキテクチャを生成することができる。 さらに、NAS-NeRFは、最大23$\times$より小さく、22$\times$より少ないFLOPと4.7$\times$より高速で平均5.3%のSSIMドロップしか得られない。 ソースコードはhttps://saeejithnair.github.io/NAS-NeRF.comで公開されています。

Neural radiance fields (NeRFs) enable high-quality novel view synthesis, but their high computational complexity limits deployability. While existing neural-based solutions strive for efficiency, they use one-size-fits-all architectures regardless of scene complexity. The same architecture may be unnecessarily large for simple scenes but insufficient for complex ones. Thus, there is a need to dynamically optimize the neural network component of NeRFs to achieve a balance between computational complexity and specific targets for synthesis quality. We introduce NAS-NeRF, a generative neural architecture search strategy that generates compact, scene-specialized NeRF architectures by balancing architecture complexity and target synthesis quality metrics. Our method incorporates constraints on target metrics and budgets to guide the search towards architectures tailored for each scene. Experiments on the Blender synthetic dataset show the proposed NAS-NeRF can generate architectures up to 5.74$\times$ smaller, with 4.19$\times$ fewer FLOPs, and 1.93$\times$ faster on a GPU than baseline NeRFs, without suffering a drop in SSIM. Furthermore, we illustrate that NAS-NeRF can also achieve architectures up to 23$\times$ smaller, with 22$\times$ fewer FLOPs, and 4.7$\times$ faster than baseline NeRFs with only a 5.3% average SSIM drop. Our source code is also made publicly available at https://saeejithnair.github.io/NAS-NeRF.
翻訳日:2023-10-13 03:21:30 公開日:2023-10-06
# 階層的注意解釈:バイモーダル抑うつ検出のための解釈可能な音声レベルトランスフォーマー

Hierarchical attention interpretation: an interpretable speech-level transformer for bi-modal depression detection ( http://arxiv.org/abs/2309.13476v2 )

ライセンス: Link先を確認
Qingkun Deng, Saturnino Luz, Sofia de la Fuente Garcia(参考訳) うつ病は一般的な精神疾患です。 機械学習によって実現される音声を用いた自動うつ病検出ツールは、うつ病の早期スクリーニングに役立つ。 本稿では, セグメントレベルのラベリングによるノイズとモデル解釈性の欠如という, 臨床実装を妨げる可能性のある2つの制限について述べる。 本稿では,セグメント単位のラベリングを回避し,全ての注意層から導かれた勾配重み付き注意マップに基づく音声レベルと文レベルの両方の解釈を行い,入力特徴間の相互作用を追跡する階層的解釈手法を提案する。 提案モデルは,セグメントレベルで学習するモデル(p$=0.854,$r$=0.947,$f1$=0.897,$p$=0.732,$r$=0.808,$f1$=0.768)よりも優れていることを示す。 モデル解釈では、一つの正のサンプルを用いて、どの文が抑うつ検出に最も関連しているか、どのテキストトークンとメルスペクトログラム領域が抑うつ検出に最も関係しているかを示す。 これらの解釈により、臨床医はうつ病検出ツールによる予測の有効性を検証でき、臨床実施を促進することができる。

Depression is a common mental disorder. Automatic depression detection tools using speech, enabled by machine learning, help early screening of depression. This paper addresses two limitations that may hinder the clinical implementations of such tools: noise resulting from segment-level labelling and a lack of model interpretability. We propose a bi-modal speech-level transformer to avoid segment-level labelling and introduce a hierarchical interpretation approach to provide both speech-level and sentence-level interpretations, based on gradient-weighted attention maps derived from all attention layers to track interactions between input features. We show that the proposed model outperforms a model that learns at a segment level ($p$=0.854, $r$=0.947, $F1$=0.897 compared to $p$=0.732, $r$=0.808, $F1$=0.768). For model interpretation, using one true positive sample, we show which sentences within a given speech are most relevant to depression detection; and which text tokens and Mel-spectrogram regions within these sentences are most relevant to depression detection. These interpretations allow clinicians to verify the validity of predictions made by depression detection tools, promoting their clinical implementations.
翻訳日:2023-10-13 03:18:21 公開日:2023-10-06
# Channel Vision Transformers:画像はC x 16 x 16ワードより価値がある

Channel Vision Transformers: An Image Is Worth C x 16 x 16 Words ( http://arxiv.org/abs/2309.16108v2 )

ライセンス: Link先を確認
Yujia Bao, Srinivasan Sivanandan, Theofanis Karaletsos(参考訳) Vision Transformer (ViT) は現代のコンピュータビジョンの領域において強力なアーキテクチャとして登場した。 しかし、顕微鏡や衛星画像などの特定の撮像分野への応用は、ユニークな課題を呈している。 これらの領域では、画像はしばしば複数のチャネルを含み、それぞれが意味的に異なる独立した情報を持っている。 さらに、モデルは、トレーニングやテスト中に密に利用できない可能性があるため、入力チャネルの疎結合性に対する堅牢性を示す必要がある。 本稿では、入力チャネル間の推論を強化するViTアーキテクチャの修正と、テスト時間中に部分チャネルのみを表示する場合のロバスト性を保証するための追加の正規化手法として階層型チャネルサンプリング(HCS)を導入する。 提案モデルであるChannelViTは,各入力チャネルから独立してパッチトークンを構築し,各パッチトークンに付加される学習可能なチャネル埋め込みを利用する。 我々は、ImageNet、JUMP-CP(顕微鏡細胞イメージング)、So2Sat(衛星イメージング)におけるChannelViTの性能を評価する。 以上の結果から,channelvit は vit を分類タスクで上回っており,テスト中に入力チャネルのサブセットが使用される場合でもよく一般化できることがわかった。 実験全体を通して、HCSは採用されているアーキテクチャとは独立して強力な正則化器であることが証明され、堅牢なViTトレーニングのための簡単なテクニックであることが示唆された。 最後に、channelvitはトレーニング中にすべてのチャネルへのアクセスが制限された場合でも効果的に一般化し、スパースセンサーを用いた実環境下でのマルチチャネルイメージングの可能性を強調している。

Vision Transformer (ViT) has emerged as a powerful architecture in the realm of modern computer vision. However, its application in certain imaging fields, such as microscopy and satellite imaging, presents unique challenges. In these domains, images often contain multiple channels, each carrying semantically distinct and independent information. Furthermore, the model must demonstrate robustness to sparsity in input channels, as they may not be densely available during training or testing. In this paper, we propose a modification to the ViT architecture that enhances reasoning across the input channels and introduce Hierarchical Channel Sampling (HCS) as an additional regularization technique to ensure robustness when only partial channels are presented during test time. Our proposed model, ChannelViT, constructs patch tokens independently from each input channel and utilizes a learnable channel embedding that is added to the patch tokens, similar to positional embeddings. We evaluate the performance of ChannelViT on ImageNet, JUMP-CP (microscopy cell imaging), and So2Sat (satellite imaging). Our results show that ChannelViT outperforms ViT on classification tasks and generalizes well, even when a subset of input channels is used during testing. Across our experiments, HCS proves to be a powerful regularizer, independent of the architecture employed, suggesting itself as a straightforward technique for robust ViT training. Lastly, we find that ChannelViT generalizes effectively even when there is limited access to all channels during training, highlighting its potential for multi-channel imaging under real-world conditions with sparse sensors.
翻訳日:2023-10-13 03:09:08 公開日:2023-10-06
# 疑似エージェント:GPT-4を考慮した不完全な情報ゲーム

Suspicion-Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT-4 ( http://arxiv.org/abs/2309.17277v2 )

ライセンス: Link先を確認
Jiaxian Guo, Bo Yang, Paul Yoo, Bill Yuchen Lin, Yusuke Iwasawa, Yutaka Matsuo(参考訳) すべての要素が全てのプレイヤーに知られている完全情報ゲームとは異なり、不完全な情報ゲームは不確実または不完全な情報の下で意思決定の現実的な複雑さをエミュレートする。 GPT-4は、大規模受動的データに基づいて訓練された最近の大規模言語モデル(LLM)のブレークスルーであり、その知識検索と推論能力で有名である。 本稿では,不完全な情報ゲームに対するGPT-4の学習知識の適用性について述べる。 そこで本稿では,不完全な情報ゲームにおける GPT-4 の機能を活用する革新的なエージェントである \textbf{Suspicion-Agent} を紹介する。 GPT-4に基づくSuspicion-Agentは、適切なプロンプトエンジニアリングにより、様々な不完全な情報カードゲームに顕著な適応性を示す。 重要なことは、GPT-4は強い高次心論(ToM)能力を示し、それは他人を理解し、故意に他人の行動に影響を与えることを意味する。 そこで,本研究では,gpt-4を他の対戦相手と対戦し,ゲームプレイスタイルを必要に応じて適応させながら,ゲームルールと観察記述のみを入力として行う計画戦略を考案する。 実験では、3つの異なる情報ゲームにまたがる疑わしいエージェントの能力を定性的に示し、それをleduc hold'emで定量的に評価した。 その結果、疑わしいエージェントは、特別なトレーニングや例なしで、不完全な情報ゲーム用に設計された従来のアルゴリズムよりも優れている可能性があることが示された。 コミュニティ内の深い洞察を奨励し、促進するために、ゲーム関連のデータを公開しています。

Unlike perfect information games, where all elements are known to every player, imperfect information games emulate the real-world complexities of decision-making under uncertain or incomplete information. GPT-4, the recent breakthrough in large language models (LLMs) trained on massive passive data, is notable for its knowledge retrieval and reasoning abilities. This paper delves into the applicability of GPT-4's learned knowledge for imperfect information games. To achieve this, we introduce \textbf{Suspicion-Agent}, an innovative agent that leverages GPT-4's capabilities for performing in imperfect information games. With proper prompt engineering to achieve different functions, Suspicion-Agent based on GPT-4 demonstrates remarkable adaptability across a range of imperfect information card games. Importantly, GPT-4 displays a strong high-order theory of mind (ToM) capacity, meaning it can understand others and intentionally impact others' behavior. Leveraging this, we design a planning strategy that enables GPT-4 to competently play against different opponents, adapting its gameplay style as needed, while requiring only the game rules and descriptions of observations as input. In the experiments, we qualitatively showcase the capabilities of Suspicion-Agent across three different imperfect information games and then quantitatively evaluate it in Leduc Hold'em. The results show that Suspicion-Agent can potentially outperform traditional algorithms designed for imperfect information games, without any specialized training or examples. In order to encourage and foster deeper insights within the community, we make our game-related data publicly available.
翻訳日:2023-10-13 02:47:59 公開日:2023-10-06
# 生命科学のための知識グラフ--最近の発展、挑戦、機会

Knowledge Graphs for the Life Sciences: Recent Developments, Challenges and Opportunities ( http://arxiv.org/abs/2309.17255v2 )

ライセンス: Link先を確認
Jiaoyan Chen, Hang Dong, Janna Hastings, Ernesto Jim\'enez-Ruiz, Vanessa L\'opez, Pierre Monnin, Catia Pesquita, Petr \v{S}koda, Valentina Tamma(参考訳) 生命科学という用語は、生物と生命の過程を研究する分野であり、化学、生物学、医学、その他の関連する分野を含む。 生命科学の研究は、膨大な量の科学データを生産し消費するため、データ駆動であり、その多くが本質的に関係性があり、グラフ構造である。 データ量と科学的な概念と関係の複雑さは、データの管理と解釈に先進的な知識駆動技術の適用を促進し、科学的な発見を促進するための究極の目的である。 本稿では,生命科学におけるグラフ技術の利用の最近の進展と進歩について論じ,これらの技術が将来,これらの分野にどのように影響するかを展望する。 我々は、知識グラフ(KG)の構築と管理、新しい知識の発見におけるKGとその関連技術の使用、説明(説明可能なAI)をサポートする人工知能アプリケーションにおけるKGの使用の3つの幅広いトピックに焦点を当てる。 各トピックの例を挙げるユースケースをいくつか選択し、これらのトピックにおける課題とオープンリサーチの質問について議論し、今後の研究の指針として、包括的な課題とその潜在的な解決策をまとめる視点と展望をまとめます。

The term life sciences refers to the disciplines that study living organisms and life processes, and include chemistry, biology, medicine, and a range of other related disciplines. Research efforts in life sciences are heavily data-driven, as they produce and consume vast amounts of scientific data, much of which is intrinsically relational and graph-structured. The volume of data and the complexity of scientific concepts and relations referred to therein promote the application of advanced knowledge-driven technologies for managing and interpreting data, with the ultimate aim to advance scientific discovery. In this survey and position paper, we discuss recent developments and advances in the use of graph-based technologies in life sciences and set out a vision for how these technologies will impact these fields into the future. We focus on three broad topics: the construction and management of Knowledge Graphs (KGs), the use of KGs and associated technologies in the discovery of new knowledge, and the use of KGs in artificial intelligence applications to support explanations (explainable AI). We select a few exemplary use cases for each topic, discuss the challenges and open research questions within these topics, and conclude with a perspective and outlook that summarizes the overarching challenges and their potential solutions as a guide for future research.
翻訳日:2023-10-13 02:47:31 公開日:2023-10-06
# 潮流と時間を超えて: 機械学習による水質の勝利

Beyond Tides and Time: Machine Learning Triumph in Water Quality ( http://arxiv.org/abs/2309.16951v2 )

ライセンス: Link先を確認
Yinpu Li, Siqi Mao, Yaping Yuan, Ziren Wang, Yixin Kang, Yuanxin Yao(参考訳) 水資源は人間の生活と環境保全に不可欠である。 水質の正確な予測は、資源管理と汚染緩和に重要な役割を果たしている。 本研究では,ジョージア州の地理的文脈におけるpHの予測において,線形回帰,ランダムフォレスト,XGBoost,LightGBM,MLPニューラルネットワークの5つの異なる予測モデルの有効性を評価する。 特に、lightgbmは最高性能モデルとして登場し、最高精度を達成する。 本分析は,回帰問題に対する木ベースモデルの優位性を強調するとともに,mlpニューラルネットワークの機能拡張に対する感度を明らかにした。 興味深いことに、我々の発見は反直感的な発見に光を当てた: 時間依存や空間的考慮を明示的に考慮しない機械学習モデル。 この機械学習モデルの予期せぬ優位性は、従来の仮定に挑戦し、水質予測における実践的応用の可能性を強調している。 我々の研究は、データサイエンスの専門家とドメイン固有の知識を持たない人たちの両方が利用できる堅牢な予測パイプラインを確立することを目的としています。 本研究は,データサイエンス方法論における高い予測精度と解釈可能性を実現するための新しい視点を提案する。 本研究では,従来の空間時間モデルに対するデータ駆動手法の重要性を強調し,水質予測の境界を再定義する。 本研究は,水資源管理と環境保護の進展状況に関する貴重な知見を提供する。

Water resources are essential for sustaining human livelihoods and environmental well being. Accurate water quality prediction plays a pivotal role in effective resource management and pollution mitigation. In this study, we assess the effectiveness of five distinct predictive models linear regression, Random Forest, XGBoost, LightGBM, and MLP neural network, in forecasting pH values within the geographical context of Georgia, USA. Notably, LightGBM emerges as the top performing model, achieving the highest average precision. Our analysis underscores the supremacy of tree-based models in addressing regression challenges, while revealing the sensitivity of MLP neural networks to feature scaling. Intriguingly, our findings shed light on a counterintuitive discovery: machine learning models, which do not explicitly account for time dependencies and spatial considerations, outperform spatial temporal models. This unexpected superiority of machine learning models challenges conventional assumptions and highlights their potential for practical applications in water quality prediction. Our research aims to establish a robust predictive pipeline accessible to both data science experts and those without domain specific knowledge. In essence, we present a novel perspective on achieving high prediction accuracy and interpretability in data science methodologies. Through this study, we redefine the boundaries of water quality forecasting, emphasizing the significance of data driven approaches over traditional spatial temporal models. Our findings offer valuable insights into the evolving landscape of water resource management and environmental protection.
翻訳日:2023-10-13 02:46:46 公開日:2023-10-06
# ディリクレとノイマン境界条件を混合したニューラルプレコンディショルドポアソン解法

A Neural-preconditioned Poisson Solver for Mixed Dirichlet and Neumann Boundary Conditions ( http://arxiv.org/abs/2310.00177v2 )

ライセンス: Link先を確認
Weixian Lan, Elias Gueidon, Ayano Kaneda, Julian Panetta, Joseph Teran(参考訳) 混合境界条件を持つポアソン方程式に対するニューラルプレコンディション付き反復解法を提案する。 ポアソン方程式は科学計算においてユビキタスであり、様々な物理現象を制御し、多くの数値アルゴリズムにおいてサブプロブレムとして発生し、楕円型PDEのより広範なクラスのモデル問題として機能する。 最も人気のあるポアソン離散化は、大きなスパース線形系をもたらす。 高解像度、そしてパフォーマンスクリティカルなアプリケーションでは、反復解法はこれらに有利であるが、強力なプリコンディショナーとペアリングする場合に限られる。 我々のソルバのコアは、任意の形状の領域と混合境界条件に対する離散構造化グリッドラプラス作用素の逆を近似するように訓練されたニューラルネットワークである。 この問題の構造は、トレーニングセット外の境界条件においてもプリコンディショナーとして非常に効果的であることを示す新しいネットワークアーキテクチャを動機付けている。 本研究では, 圧縮性流体シミュレーションによる挑戦的なテストケースにおいて, 代数的マルチグリッドや最近のニューラルプレコンディショナーなど, 最先端の解法よりも優れていることを示す。

We introduce a neural-preconditioned iterative solver for Poisson equations with mixed boundary conditions. The Poisson equation is ubiquitous in scientific computing: it governs a wide array of physical phenomena, arises as a subproblem in many numerical algorithms, and serves as a model problem for the broader class of elliptic PDEs. The most popular Poisson discretizations yield large sparse linear systems. At high resolution, and for performance-critical applications, iterative solvers can be advantageous for these -- but only when paired with powerful preconditioners. The core of our solver is a neural network trained to approximate the inverse of a discrete structured-grid Laplace operator for a domain of arbitrary shape and with mixed boundary conditions. The structure of this problem motivates a novel network architecture that we demonstrate is highly effective as a preconditioner even for boundary conditions outside the training set. We show that on challenging test cases arising from an incompressible fluid simulation, our method outperforms state-of-the-art solvers like algebraic multigrid as well as some recent neural preconditioners.
翻訳日:2023-10-13 02:37:56 公開日:2023-10-06
# 放射線医学レポートのための多言語自然言語処理モデル -要約は必要なすべてです!

Multilingual Natural Language Processing Model for Radiology Reports -- The Summary is all you need! ( http://arxiv.org/abs/2310.00100v2 )

ライセンス: Link先を確認
Mariana Lindo, Ana Sofia Santos, Andr\'e Ferreira, Jianning Li, Gijs Luijten, Gustavo Correia, Moon Kim, Jens Kleesiek, Jan Egger and Victor Alves(参考訳) 放射線医学レポートのインプレッションセクションは重要なx線学的所見を要約し、これらの発見を医師に伝える上で重要な役割を担っている。 しかし,これらのサマリーの調製には時間がかかり,放射線技師のミスが生じる。 近年,放射線学報告要約モデルが多数開発されている。 それでも、これらのレポートを複数の言語で要約できるモデルは存在しない。 このようなモデルは、異なる民族的背景を持つ患者のデータを含むディープラーニングモデルの開発と将来の研究を大幅に改善する可能性がある。 本研究では,英語,ポルトガル語,ドイツ語の放射線学レポートを要約した多言語テキスト・トゥ・テキスト・トランスフォーマーを用いて,様々な言語における放射線学印象の生成を微調整して自動化した。 ブラインドテストでは、2人のボード認定放射線科医が、システムで生成されたサマリーの少なくとも70%において、品質は対応するサマリーと一致または上回っており、実質的な臨床信頼性が示唆された。 さらに,多言語モデルでは1つの言語でのみ放射線報告書を要約する他のモデルや,chatgptのような放射線報告書を要約するために特別に設計されたモデルよりも優れていた。

The impression section of a radiology report summarizes important radiology findings and plays a critical role in communicating these findings to physicians. However, the preparation of these summaries is time-consuming and error-prone for radiologists. Recently, numerous models for radiology report summarization have been developed. Nevertheless, there is currently no model that can summarize these reports in multiple languages. Such a model could greatly improve future research and the development of Deep Learning models that incorporate data from patients with different ethnic backgrounds. In this study, the generation of radiology impressions in different languages was automated by fine-tuning a model, publicly available, based on a multilingual text-to-text Transformer to summarize findings available in English, Portuguese, and German radiology reports. In a blind test, two board-certified radiologists indicated that for at least 70% of the system-generated summaries, the quality matched or exceeded the corresponding human-written summaries, suggesting substantial clinical reliability. Furthermore, this study showed that the multilingual model outperformed other models that specialized in summarizing radiology reports in only one language, as well as models that were not specifically designed for summarizing radiology reports, such as ChatGPT.
翻訳日:2023-10-13 02:36:57 公開日:2023-10-06
# ネットワークイベントのためのデータ効率の良い電力フロー学習

Data-Efficient Power Flow Learning for Network Contingencies ( http://arxiv.org/abs/2310.00763v2 )

ライセンス: Link先を確認
Parikshit Pareek, Deepjyoti Deka and Sidhant Misra(参考訳) 本研究は,ネットワーク共振器を有するグリッド内の電力フローを効率よく学習し,対応する確率電圧エンベロープ(PVE)を推定する手法を提案する。 まず,先行研究で開発されたネットワークアウェア・ガウス過程(gp)である頂点度カーネル(vdk-gp)を用いて,いくつかのネットワーク構成の電圧電力関数を推定する。 本稿では,学習したVDK-GPと融合して未確認ネットワークの電力フローを決定するマルチタスク頂点核(MT-VDK)を提案する。 IEEE 30-Bus ネットワーク上のシミュレーションは、N-1 と N-2 の同時実行シナリオにおける電力フロー知識の保持と伝達を実証している。 MT-VDK-GPアプローチは、VDK-GP上での低トレーニングデータレジーム(50-250サンプル)において、新しいN-1整合ネットワーク構成の平均予測誤差を50%以上低減する。 さらに、MT-VDK-GPは、歴史的N-2の停止データなしでも、N-2の待ち時間ネットワーク構造の75%以上において、ハイパーパラメータベースの転送学習アプローチより優れている。 提案手法は,モンテカルロサンプリング法に比べて16倍少ない電力フロー解を用いてPVEを実現できることを示す。

This work presents an efficient data-driven method to learn power flows in grids with network contingencies and to estimate corresponding probabilistic voltage envelopes (PVE). First, a network-aware Gaussian process (GP) termed Vertex-Degree Kernel (VDK-GP), developed in prior work, is used to estimate voltage-power functions for a few network configurations. The paper introduces a novel multi-task vertex degree kernel (MT-VDK) that amalgamates the learned VDK-GPs to determine power flows for unseen networks, with a significant reduction in the computational complexity and hyperparameter requirements compared to alternate approaches. Simulations on the IEEE 30-Bus network demonstrate the retention and transfer of power flow knowledge in both N-1 and N-2 contingency scenarios. The MT-VDK-GP approach achieves over 50% reduction in mean prediction error for novel N-1 contingency network configurations in low training data regimes (50-250 samples) over VDK-GP. Additionally, MT-VDK-GP outperforms a hyper-parameter based transfer learning approach in over 75% of N-2 contingency network structures, even without historical N-2 outage data. The proposed method demonstrates the ability to achieve PVEs using sixteen times fewer power flow solutions compared to Monte-Carlo sampling-based methods.
翻訳日:2023-10-13 02:28:57 公開日:2023-10-06
# マルチドメインノイズシーンにおけるテキストの深さへの拡散

Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes ( http://arxiv.org/abs/2310.00558v2 )

ライセンス: Link先を確認
Alloy Das, Sanket Biswas, Umapada Pal and Josep Llad\'os(参考訳) 実世界の騒々しい環境で使用する場合、複数のドメインに一般化する能力は、任意の自律的なシーンテキストスポッティングシステムに不可欠である。 しかし、既存の最先端手法では、他の複雑なドメイン間での機能相互作用を活用できない自然シーンデータセットの事前訓練と微調整戦略を採用している。 本研究では、特定のドメインやシナリオに特化するのではなく、対象とするドメインに直接一般化できるように、マルチドメインソースデータ上でモデルをトレーニングするという、ドメインに依存しないシーンテキストスポッティングの問題を調査し、検討する。 そこで本稿では,水中の騒々しいシーンに対して,UWT(Under-Water Text)と呼ばれるテキストスポッティング検証ベンチマークを実施し,重要なケーススタディを確立する。 さらに, DA-TextSpotter と呼ばれる高解像度のエンド・ツー・エンド・エンド・トランスフォーマーベースラインを設計し, 精度とモデル効率の両面から, 正規および任意の形状のシーンテキストスポッティングベンチマークにおいて, 既存のテキストスポッティングアーキテクチャと同等あるいは優れた性能を実現する。 データセット、コード、事前トレーニングされたモデルは、受け入れ次第リリースされる。

When used in a real-world noisy environment, the capacity to generalize to multiple domains is essential for any autonomous scene text spotting system. However, existing state-of-the-art methods employ pretraining and fine-tuning strategies on natural scene datasets, which do not exploit the feature interaction across other complex domains. In this work, we explore and investigate the problem of domain-agnostic scene text spotting, i.e., training a model on multi-domain source data such that it can directly generalize to target domains rather than being specialized for a specific domain or scenario. In this regard, we present the community a text spotting validation benchmark called Under-Water Text (UWT) for noisy underwater scenes to establish an important case study. Moreover, we also design an efficient super-resolution based end-to-end transformer baseline called DA-TextSpotter which achieves comparable or superior performance over existing text spotting architectures for both regular and arbitrary-shaped scene text spotting benchmarks in terms of both accuracy and model efficiency. The dataset, code and pre-trained models will be released upon acceptance.
翻訳日:2023-10-13 02:28:10 公開日:2023-10-06
# アバロンの思考ゲーム:再帰的熟考による偽装との戦い

Avalon's Game of Thoughts: Battle Against Deception through Recursive Contemplation ( http://arxiv.org/abs/2310.01320v2 )

ライセンス: Link先を確認
Shenzhi Wang, Chang Liu, Zilong Zheng, Siyuan Qi, Shuo Chen, Qisen Yang, Andrew Zhao, Chaofei Wang, Shiji Song, Gao Huang(参考訳) 大規模言語モデル(LLM)の最近の進歩は、LLM-as-Agentの分野で大きな成功を収めている。 それにもかかわらず、llmsが処理する情報は一貫して正直であり、人間社会やaiが生成するコンテンツにおける広汎な誤解や誤解を招く情報を無視しているという仮定が一般的である。 この監視により、LSMは悪意のある操作を受けやすくなり、有害な結果をもたらす可能性がある。 本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。 アバロンは誤った情報に満ちており、洗練された論理を必要とするため、「思考のゲーム」として表される。 アバロンゲームにおける人間の再帰的思考と視点取りの有効性に着想を得て,LLMの認知・認識能力を高めるための新しい枠組みであるRecursive Contemplation(ReCon)を導入する。 ReConは、定式化と洗練の熟考プロセスを組み合わせており、定式化は初期の思考とスピーチを生み出し、洗練の熟考はそれらをさらに洗練する。 さらに、これらのプロセスにそれぞれ一階および二階の視点遷移を組み込む。 具体的には、LLMエージェントが他人の精神状態を推測し、2階は他人がエージェントの精神状態をどう知覚するかを理解する。 reconを異なるllmと統合した後、avalon gameの広範な実験結果は、追加の微調整やデータなしで偽情報の識別と操作をllmに支援する効果を示している。 最後に、ReConの有効性の可能な説明を提供し、安全性、推論、話し方、フォーマットの観点からLLMの現在の限界を探求し、その後の研究の可能性を秘めている。

Recent breakthroughs in large language models (LLMs) have brought remarkable success in the field of LLM-as-Agent. Nevertheless, a prevalent assumption is that the information processed by LLMs is consistently honest, neglecting the pervasive deceptive or misleading information in human society and AI-generated content. This oversight makes LLMs susceptible to malicious manipulations, potentially resulting in detrimental outcomes. This study utilizes the intricate Avalon game as a testbed to explore LLMs' potential in deceptive environments. Avalon, full of misinformation and requiring sophisticated logic, manifests as a "Game-of-Thoughts". Inspired by the efficacy of humans' recursive thinking and perspective-taking in the Avalon game, we introduce a novel framework, Recursive Contemplation (ReCon), to enhance LLMs' ability to identify and counteract deceptive information. ReCon combines formulation and refinement contemplation processes; formulation contemplation produces initial thoughts and speech, while refinement contemplation further polishes them. Additionally, we incorporate first-order and second-order perspective transitions into these processes respectively. Specifically, the first-order allows an LLM agent to infer others' mental states, and the second-order involves understanding how others perceive the agent's mental state. After integrating ReCon with different LLMs, extensive experiment results from the Avalon game indicate its efficacy in aiding LLMs to discern and maneuver around deceptive information without extra fine-tuning and data. Finally, we offer a possible explanation for the efficacy of ReCon and explore the current limitations of LLMs in terms of safety, reasoning, speaking style, and format, potentially furnishing insights for subsequent research.
翻訳日:2023-10-13 02:20:38 公開日:2023-10-06
# 最適化の進歩:多様化戦略による適応微分進化

Advancements in Optimization: Adaptive Differential Evolution with Diversification Strategy ( http://arxiv.org/abs/2310.01057v3 )

ライセンス: Link先を確認
Sarit Maitra(参考訳) 本研究では,個体群に基づく進化的最適化アルゴリズム(適応微分進化と多様化戦略,ADEDS)を提案する。 このアルゴリズムは正弦波対物関数を用いて開発され、その後Rosenbrock、Rastrigin、Ackley、DeVilliersGlasser02などを含む22のベンチマーク関数の広い範囲で評価された。 この研究は2次元空間において単目的最適化を採用し、複数の反復で各ベンチマーク関数上でADEDSを実行する。 収束速度と解の質の面では、ADEDSは様々な最適化課題において、多くの局所最適関数、プレート型、谷型、伸縮型、ノイズのある関数など、標準Dより一貫して優れている。 この効果はサプライチェーンの運用の最適化、コスト削減の促進、最終的には全体的なパフォーマンス向上に大きな期待を持っています。 その結果,サプライチェーン効率の向上,コスト削減,全体的な性能向上に有効な最適化戦略の重要性が示唆された。

This study presents a population-based evolutionary optimization algorithm (Adaptive Differential Evolution with Diversification Strategies or ADEDS). The algorithm developed using the sinusoidal objective function and subsequently evaluated with a wide-ranging set of 22 benchmark functions, including Rosenbrock, Rastrigin, Ackley, and DeVilliersGlasser02, among others. The study employs single-objective optimization in a two-dimensional space and runs ADEDS on each of the benchmark functions with multiple iterations. In terms of convergence speed and solution quality, ADEDS consistently outperforms standard DE for a variety of optimization challenges, including functions with numerous local optima, plate-shaped, valley-shaped, stretched-shaped, and noisy functions. This effectiveness holds great promise for optimizing supply chain operations, driving cost reductions, and ultimately enhancing overall performance. The findings imply the importance of effective optimization strategy for improving supply chain efficiency, reducing costs, and enhancing overall performance.
翻訳日:2023-10-13 02:19:35 公開日:2023-10-06
# 事前学習のための多言語データセットのパワー活用:テキストスポッティング性能向上に向けて

Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards Enhancing Text Spotting Performance ( http://arxiv.org/abs/2310.00917v2 )

ライセンス: Link先を確認
Alloy Das, Sanket Biswas, Ayan Banerjee, Saumik Bhattacharya, Josep Llad\'os, and Umapada Pal(参考訳) 広い範囲のドメインへの適応能力は、実世界の状況にデプロイされるシーンのテキストスポッティングモデルに不可欠である。 しかし、既存のSOTA(State-of-the-art)アプローチは、通常、複数のドメイン間の中間的特徴表現を直接活用しない自然のシーンテキストデータセットを事前訓練することで、シーンテキストの検出と認識を組み込む。 本稿では,ドメイン適応型シーンテキストスポッティングの問題,すなわち,特定のドメインやシナリオに特化されるのではなく,ターゲットドメインに直接適応できるように,マルチドメインソースデータ上でモデルをトレーニングする。 さらに,正規文と任意文の両方のシーンテキストスポッティングの解決と,徹底的な評価を行うために,swain-testrと呼ばれるトランスフォーマのベースラインを調査した。 この結果は、複数のドメインにわたるテキストスポッティングベンチマーク(言語、合成-現実、文書など)において、中間表現が大きなパフォーマンスを達成する可能性を明確に示している。 正確性と効率の両面でです

The adaptation capability to a wide range of domains is crucial for scene text spotting models when deployed to real-world conditions. However, existing state-of-the-art (SOTA) approaches usually incorporate scene text detection and recognition simply by pretraining on natural scene text datasets, which do not directly exploit the intermediate feature representations between multiple domains. Here, we investigate the problem of domain-adaptive scene text spotting, i.e., training a model on multi-domain source data such that it can directly adapt to target domains rather than being specialized for a specific domain or scenario. Further, we investigate a transformer baseline called Swin-TESTR to focus on solving scene-text spotting for both regular and arbitrary-shaped scene text along with an exhaustive evaluation. The results clearly demonstrate the potential of intermediate representations to achieve significant performance on text spotting benchmarks across multiple domains (e.g. language, synth-to-real, and documents). both in terms of accuracy and efficiency.
翻訳日:2023-10-13 02:18:53 公開日:2023-10-06
# オフライン強化学習を支援する合成データによる事前学習

Pre-training with Synthetic Data Helps Offline Reinforcement Learning ( http://arxiv.org/abs/2310.00771v2 )

ライセンス: Link先を確認
Zecheng Wang, Che Wang, Zixuan Dong, Keith Ross(参考訳) 近年,オフライン深部強化学習(DRL)では,大規模な言語コーパスを持つ事前学習型決定変換器が下流の性能を向上させることが示されている(Reid et al., 2022)。 自然な質問は、このパフォーマンス向上が言語事前トレーニングでのみ達成できるのか、あるいは言語を含まない単純な事前トレーニングスキームで達成できるのかである。 本稿では,まず言語が性能向上に必須ではないことを示すとともに,少数の更新のための合成iidデータによる事前学習は,大規模な言語コーパスによる事前学習によるパフォーマンス向上に適合することを示すとともに,1ステップマルコフ連鎖で生成されたデータによる事前学習により,さらにパフォーマンスを向上させることができる。 これらの実験結果に触発されて、一般的なオフラインDRLアルゴリズムである事前学習型保守的Q-Learning(CQL)について検討する。 驚くべきことに、少数の更新のための単純な合成データによる事前トレーニングは、CQLを改善し、D4RL Gymロコモーションデータセットの一貫性のあるパフォーマンス向上を提供する。 本研究の結果は, オフラインDRLの事前学習の重要性だけでなく, 極めて単純な機構で事前学習データを合成・生成できることを示唆している。

Recently, it has been shown that for offline deep reinforcement learning (DRL), pre-training Decision Transformer with a large language corpus can improve downstream performance (Reid et al., 2022). A natural question to ask is whether this performance gain can only be achieved with language pre-training, or can be achieved with simpler pre-training schemes which do not involve language. In this paper, we first show that language is not essential for improved performance, and indeed pre-training with synthetic IID data for a small number of updates can match the performance gains from pre-training with a large language corpus; moreover, pre-training with data generated by a one-step Markov chain can further improve the performance. Inspired by these experimental results, we then consider pre-training Conservative Q-Learning (CQL), a popular offline DRL algorithm, which is Q-learning-based and typically employs a Multi-Layer Perceptron (MLP) backbone. Surprisingly, pre-training with simple synthetic data for a small number of updates can also improve CQL, providing consistent performance improvement on D4RL Gym locomotion datasets. The results of this paper not only illustrate the importance of pre-training for offline DRL but also show that the pre-training data can be synthetic and generated with remarkably simple mechanisms.
翻訳日:2023-10-13 02:17:09 公開日:2023-10-06
# openpatch: 分散検出のための3dパッチワーク

OpenPatch: a 3D patchwork for Out-Of-Distribution detection ( http://arxiv.org/abs/2310.03388v2 )

ライセンス: Link先を確認
Paolo Rabino, Antonio Alliegro, Francesco Cappio Borlino, Tatiana Tommasi(参考訳) ラボ環境からオープンワールドへのディープラーニングモデル移行には、予期せぬ状況に対処する準備が伴う。 いくつかのアプリケーションでは、デプロイ中に新しいクラスが発生することが重大な脅威となるため、効果的に検出することが不可欠である。 理想的には、このスキルは必要なときに、新しいタスクごとにさらなる計算訓練を必要とせずに使用するべきである。 分布外検出はここ数年で大きな注目を集めてきたが、研究の大半は現実世界の固有の3dの性質を無視し、しばしばドメインとセマンティックのノベルティを混同する2d画像を扱う。 本研究では,各領域によらず3次元点雲によって捕捉される物体の幾何学的構造を考慮し,後者に焦点をあてる。 我々は、大きな事前学習モデルの上に構築されたOpenPatchを導入し、その中間機能から、既知のクラスを記述したパッチ表現のセットを単純に抽出する。 新たなサンプルについて,1つの既知のクラスのパッチによって,あるいは複数のクラスのコントリビューションによって再構成できるかどうかを評価することにより,新規性スコアを得る。 本稿では,実世界の点雲サンプルにおける意味的新奇性検出の課題として,参照既知のデータが合成された場合のアプローチの広範な実験評価を行う。 我々はopenpatchが既知の全例と少数例の両方で優れていることを実証し、トレーニング対象とネットワークバックボーンにまたがる堅牢性を示す。 本手法の本質的なトレーニングフリーな性質は,実世界の幅広いタスクへの即時適用を可能にすると同時に,高価なリトレーニング作業を必要とするアプローチに対する説得力のあるアドバンテージを提供する。

Moving deep learning models from the laboratory setting to the open world entails preparing them to handle unforeseen conditions. In several applications the occurrence of novel classes during deployment poses a significant threat, thus it is crucial to effectively detect them. Ideally, this skill should be used when needed without requiring any further computational training effort at every new task. Out-of-distribution detection has attracted significant attention in the last years, however the majority of the studies deal with 2D images ignoring the inherent 3D nature of the real-world and often confusing between domain and semantic novelty. In this work, we focus on the latter, considering the objects geometric structure captured by 3D point clouds regardless of the specific domain. We advance the field by introducing OpenPatch that builds on a large pre-trained model and simply extracts from its intermediate features a set of patch representations that describe each known class. For any new sample, we obtain a novelty score by evaluating whether it can be recomposed mainly by patches of a single known class or rather via the contribution of multiple classes. We present an extensive experimental evaluation of our approach for the task of semantic novelty detection on real-world point cloud samples when the reference known data are synthetic. We demonstrate that OpenPatch excels in both the full and few-shot known sample scenarios, showcasing its robustness across varying pre-training objectives and network backbones. The inherent training-free nature of our method allows for its immediate application to a wide array of real-world tasks, offering a compelling advantage over approaches that need expensive retraining efforts.
翻訳日:2023-10-13 01:46:58 公開日:2023-10-06
# 色とりどりのビンパッキング問題に対する高速近傍探索ヒューリスティックス

Fast Neighborhood Search Heuristics for the Colorful Bin Packing Problem ( http://arxiv.org/abs/2310.04471v1 )

ライセンス: Link先を確認
Renan F. F. da Silva, Yulle G. F. Borges and Rafael C. S. Schouery(参考訳) CBPP (Colorful Bin Packing Problem) は、Bin Packing Problem (BPP) の一般化である。 CBPPは、一組のアイテムを、それぞれ重量と色で梱包し、限られた容量のビンに詰め込み、使用済みビンの数を最小化し、同じ色の2つのアイテムを同じビンに並べて充填できないという制約を満たす。 本稿では,CBPPに対するBPPヒューリスティックスと新しいヒューリスティックスの適応を提案した。 さらに,CBPPの高速近傍探索アルゴリズムを提案する。 これらの地区は、変数近傍探索(VNS)に基づくメタヒューリスティックなアプローチと、線形プログラミングとメタヒューリスティックなVNSとGreedy Randomized Adaptive Search(GRASP)を組み合わせた数学的アプローチに適用される。 以上の結果から,本手法はVNSよりも優れており,多項目のインスタンスであっても,多数のインスタンスに対してほぼ最適解を求めることができることがわかった。

The Colorful Bin Packing Problem (CBPP) is a generalization of the Bin Packing Problem (BPP). The CBPP consists of packing a set of items, each with a weight and a color, in bins of limited capacity, minimizing the number of used bins and satisfying the constraint that two items of the same color cannot be packed side by side in the same bin. In this article, we proposed an adaptation of BPP heuristics and new heuristics for the CBPP. Moreover, we propose a set of fast neighborhood search algorithms for CBPP. These neighborhoods are applied in a meta-heuristic approach based on the Variable Neighborhood Search (VNS) and a matheuristic approach that mixes linear programming with the meta-heuristics VNS and Greedy Randomized Adaptive Search (GRASP). The results indicate that our matheuristic is superior to VNS and that both approaches can find near-optimal solutions for a large number instances, even for instances with many items.
翻訳日:2023-10-12 18:32:53 公開日:2023-10-06
# 階層型マルチマルジナル最適輸送によるネットワークアライメント

Hierarchical Multi-Marginal Optimal Transport for Network Alignment ( http://arxiv.org/abs/2310.04470v1 )

ライセンス: Link先を確認
Zhichen Zeng, Boxin Du, Si Zhang, Yinglong Xia, Zhining Liu, Hanghang Tong(参考訳) ネットワーク間のノード対応、すなわちマルチネットワークアライメントを見つけることは、複数のネットワークで共同学習する上で必須の前提条件である。 ペアでのネットワークの整合に大きな成功を収めたにもかかわらず、指数関数的に増加する解空間と高次差分対策の欠如により、マルチネットワークアライメントに関する文献は少ない。 このギャップを埋めるために,マルチネットワークアライメントのためのHOTという階層的マルチマージ最適トランスポートフレームワークを提案する。 大きな解空間を扱うために、複数のネットワークは、融合したgromov-wasserstein (fgw) barycenterを介してより小さなアライメントクラスタに分解される。 複数のネットワークにまたがる高次関係を記述するために、fgw距離は、ネットワークを協調的にアライメントできるマルチマルジナル設定に一般化される。 局所最適点への収束を保証する高速近点法をさらに発展させる。 広範な実験と分析により,提案手法は実効性と拡張性の両方において最先端よりも大幅な改善が得られた。

Finding node correspondence across networks, namely multi-network alignment, is an essential prerequisite for joint learning on multiple networks. Despite great success in aligning networks in pairs, the literature on multi-network alignment is sparse due to the exponentially growing solution space and lack of high-order discrepancy measures. To fill this gap, we propose a hierarchical multi-marginal optimal transport framework named HOT for multi-network alignment. To handle the large solution space, multiple networks are decomposed into smaller aligned clusters via the fused Gromov-Wasserstein (FGW) barycenter. To depict high-order relationships across multiple networks, the FGW distance is generalized to the multi-marginal setting, based on which networks can be aligned jointly. A fast proximal point method is further developed with guaranteed convergence to a local optimum. Extensive experiments and analysis show that our proposed HOT achieves significant improvements over the state-of-the-art in both effectiveness and scalability.
翻訳日:2023-10-12 18:32:33 公開日:2023-10-06
# 行動原理からの生成的拡散

Generative Diffusion From An Action Principle ( http://arxiv.org/abs/2310.04490v1 )

ライセンス: Link先を確認
Akhil Premkumar(参考訳) 生成拡散モデルは、与えられたデータセットをジェネリックノイズに変換する拡散過程を反転することによって新しいサンプルを合成する。 これは、与えられたデータセット(スコアとも呼ばれる)の確率分布のログの勾配に合わせてニューラルネットワークをトレーニングすることで実現される。 最適制御問題として逆拡散をキャストすることで,物理学で一般的に用いられるような動作原理からスコアマッチングを導出できることを示す。 この洞察を用いて、異なる拡散モデルのクラス間の関係を実証する。

Generative diffusion models synthesize new samples by reversing a diffusive process that converts a given data set to generic noise. This is accomplished by training a neural network to match the gradient of the log of the probability distribution of a given data set, also called the score. By casting reverse diffusion as an optimal control problem, we show that score matching can be derived from an action principle, like the ones commonly used in physics. We use this insight to demonstrate the connection between different classes of diffusion models.
翻訳日:2023-10-12 18:20:53 公開日:2023-10-06
# コールセンター会話における音声連続感情認識のための音響・言語表現

Acoustic and linguistic representations for speech continuous emotion recognition in call center conversations ( http://arxiv.org/abs/2310.04481v1 )

ライセンス: Link先を確認
Manon Macary, Marie Tahon, Yannick Est\`eve, Daniel Luzzati(参考訳) 私たちの研究の目標は、実生活のコールセンター会話の満足度とフラストレーションを自動的に取り出すことです。 本研究は,顧客満足度を継続的に追跡し,顧客サービスを改善する産業アプリケーションに焦点を当てる。 注釈付き感情データベースの欠如を補うため,AlloSat corpus への変換学習の手段として,事前学習した音声表現の利用を検討する。 さらに、いくつかの研究は、感情は音声だけでなく、顔の特徴、生物学的反応、あるいはテキスト情報でも検出できると指摘している。 電話会話の文脈では、音声信号とその転写を用いて音声情報を音響的・言語的に分解することができる。 実験では,事前学習した特徴を用いて得られた性能の大幅な向上を確認した。 驚いたことに、言語内容は明らかに満足度予測の主要な貢献者であり、目に見えないデータに最も一般化されている。 実験の結果,CamemBERT表現の利点は明らかではないものの,音響的・言語的モダリティの融合によるメリットは明らかではない。 モデルが個々のアノテーションで学習することで、統合アプローチがアノテーションタスクの主観性に対してより堅牢であることが分かりました。 本研究は、性能変数の問題にも取り組み、重み付け初期化、信頼区間、アノテーション主観性といった異なる視点からこの変数を推定する。 言語内容の深い分析は、この課題に対する言語的モダリティの高貢献を説明することができる解釈可能な要因を調査する。

The goal of our research is to automatically retrieve the satisfaction and the frustration in real-life call-center conversations. This study focuses an industrial application in which the customer satisfaction is continuously tracked down to improve customer services. To compensate the lack of large annotated emotional databases, we explore the use of pre-trained speech representations as a form of transfer learning towards AlloSat corpus. Moreover, several studies have pointed out that emotion can be detected not only in speech but also in facial trait, in biological response or in textual information. In the context of telephone conversations, we can break down the audio information into acoustic and linguistic by using the speech signal and its transcription. Our experiments confirms the large gain in performance obtained with the use of pre-trained features. Surprisingly, we found that the linguistic content is clearly the major contributor for the prediction of satisfaction and best generalizes to unseen data. Our experiments conclude to the definitive advantage of using CamemBERT representations, however the benefit of the fusion of acoustic and linguistic modalities is not as obvious. With models learnt on individual annotations, we found that fusion approaches are more robust to the subjectivity of the annotation task. This study also tackles the problem of performances variability and intends to estimate this variability from different views: weights initialization, confidence intervals and annotation subjectivity. A deep analysis on the linguistic content investigates interpretable factors able to explain the high contribution of the linguistic modality for this task.
翻訳日:2023-10-12 18:20:45 公開日:2023-10-06
# ステガナリシスにおけるCSM緩和のためのデータジオメトリの活用

Leveraging Data Geometry to Mitigate CSM in Steganalysis ( http://arxiv.org/abs/2310.04479v1 )

ライセンス: Link先を確認
Rony Abecidan (CRIStAL, CNRS), Vincent Itier (IMT Nord Europe, CRIStAL), J\'er\'emie Boulanger (CRIStAL), Patrick Bas (CRIStAL, CNRS), Tom\'a\v{s} Pevn\'y (CTU)(参考訳) 運用シナリオでは、ステガナリシスモデルをトレーニングするために研究者が使用するものとは大きく異なる様々なセンサーや処理パイプラインのカバーセットを使用する。 これは、一般的にはcover source mismatch(csm)と呼ばれる分散外カバーを扱う場合、避けられないパフォーマンスギャップにつながる。 本研究では,テスト画像が同じパイプラインで処理されるシナリオについて考察する。 しかし、ラベルとカバーとステゴのバランスに関する知識は失われている。 私たちの目標は、ターゲットへの最大一般化を可能にするトレーニングデータセットを特定することです。 CSM を育成する処理パイプラインのグリッドを探索することにより,DCTr 特徴量に代表される部分空間間の弦間距離に基づく幾何学的測定値が得られた。 我々の貢献は、カスタマイズされたトレーニングデータセットの選択や導出を可能にし、与えられた目標に対する全体的な一般化性能を向上させる戦略の開発にある。 実験による検証では、幾何学に基づく最適化戦略が、合理的な仮定で従来の原子論的手法よりも優れていることを強調する。 追加のリソースはgithub.com/RonyAbecidan/LeveragingGeometrytoMitigateCSMで入手できる。

In operational scenarios, steganographers use sets of covers from various sensors and processing pipelines that differ significantly from those used by researchers to train steganalysis models. This leads to an inevitable performance gap when dealing with out-of-distribution covers, commonly referred to as Cover Source Mismatch (CSM). In this study, we consider the scenario where test images are processed using the same pipeline. However, knowledge regarding both the labels and the balance between cover and stego is missing. Our objective is to identify a training dataset that allows for maximum generalization to our target. By exploring a grid of processing pipelines fostering CSM, we discovered a geometrical metric based on the chordal distance between subspaces spanned by DCTr features, that exhibits high correlation with operational regret while being not affected by the cover-stego balance. Our contribution lies in the development of a strategy that enables the selection or derivation of customized training datasets, enhancing the overall generalization performance for a given target. Experimental validation highlights that our geometry-based optimization strategy outperforms traditional atomistic methods given reasonable assumptions. Additional resources are available at github.com/RonyAbecidan/LeveragingGeometrytoMitigateCSM.
翻訳日:2023-10-12 18:19:54 公開日:2023-10-06
# 高次DeepTrails: *Trailsへの統一アプローチ

Higher-Order DeepTrails: Unified Approach to *Trails ( http://arxiv.org/abs/2310.04477v1 )

ライセンス: Link先を確認
Tobias Koopmann, Jan Pfister, Andr\'e Markus, Astrid Carolus, Carolin Wienrich and Andreas Hotho(参考訳) 人間の行動の分析、理解、記述は、webブラウジングやトラフィックナビゲーションなど、さまざまな設定で有利である。 人間の振る舞いを理解することは、基盤となるインフラストラクチャやユーザインターフェースを改善し最適化するのに自然に役立ちます。 通常、人間のナビゲーションは状態間の遷移のシーケンスで表現される。 以前の研究は、これらの遷移を分析するためにナビゲーションに関する異なる直観を表現する仮説を使うことを示唆している。 この設定を数学的に把握するために、一階マルコフ連鎖を用いて振る舞いを捉え、それによって異なる種類のグラフ比較を適用することができるが、シーケンス内の高階依存に関する情報を失うという固有の欠点がある。 そこで本研究では,従来,シーケンスの高次依存関係のモデル化に用いられてきた自己回帰言語モデルを用いて,シーケンス全体を解析することを提案する。 我々は、我々のアプローチが、HypTrails、MixedTrails、SubTrailsといった以前の作業で導入された異なる設定に容易に適応できることを示します。 1.状態遷移間の高次依存性のモデリング 2 提案仮説における短期の到来を識別できること、及び 3.すべての設定をモデル化するための統一的なアプローチを自然に導入する。 提案手法の表現性を示すために,異なる合成データセットに対するアプローチを評価し,実世界のデータセットを例示的に分析し,音声アシスタントと対話するユーザの行動を調べる。

Analyzing, understanding, and describing human behavior is advantageous in different settings, such as web browsing or traffic navigation. Understanding human behavior naturally helps to improve and optimize the underlying infrastructure or user interfaces. Typically, human navigation is represented by sequences of transitions between states. Previous work suggests to use hypotheses, representing different intuitions about the navigation to analyze these transitions. To mathematically grasp this setting, first-order Markov chains are used to capture the behavior, consequently allowing to apply different kinds of graph comparisons, but comes with the inherent drawback of losing information about higher-order dependencies within the sequences. To this end, we propose to analyze entire sequences using autoregressive language models, as they are traditionally used to model higher-order dependencies in sequences. We show that our approach can be easily adapted to model different settings introduced in previous work, namely HypTrails, MixedTrails and even SubTrails, while at the same time bringing unique advantages: 1. Modeling higher-order dependencies between state transitions, while 2. being able to identify short comings in proposed hypotheses, and 3. naturally introducing a unified approach to model all settings. To show the expressiveness of our approach, we evaluate our approach on different synthetic datasets and conclude with an exemplary analysis of a real-world dataset, examining the behavior of users who interact with voice assistants.
翻訳日:2023-10-12 18:19:32 公開日:2023-10-06
# 大規模言語モデルを用いた埋め込み空間のデミスティファイション

Demystifying Embedding Spaces using Large Language Models ( http://arxiv.org/abs/2310.04475v1 )

ライセンス: Link先を確認
Guy Tennenholtz, Yinlam Chow, Chih-Wei Hsu, Jihwan Jeong, Lior Shani, Azamat Tulepbergenov, Deepak Ramachandran, Martin Mladenov, Craig Boutilier(参考訳) 埋め込みは、エンティティ、概念、および関係に関する複雑で多面的な情報を、凝縮され有用なフォーマットで表現するための重要な手段になっています。 しかし、しばしば直接解釈を妨げている。 ダウンストリームタスクはこれらの圧縮表現を使用するが、意味のある解釈は通常、次元の縮小や特殊な機械学習の解釈方法を用いた可視化を必要とする。 本稿では,言語モデル(LLM)を用いて,抽象ベクトルを理解可能な物語に変換することで,そのような埋め込みをより解釈し,広く有用なものにするという課題に対処する。 LLMに埋め込みを注入することにより、複雑な埋め込みデータのクエリと探索を可能にする。 提案手法は,概念アクティベーションベクトル(CAV)の強化,新しい組み込みエンティティの通信,レコメンデーションシステムにおけるユーザの好みのデコードなど,多種多様なタスクに対するアプローチを示す。 我々の研究は、LLMの解釈力と埋め込みの膨大な情報ポテンシャルを結合する。

Embeddings have become a pivotal means to represent complex, multi-faceted information about entities, concepts, and relationships in a condensed and useful format. Nevertheless, they often preclude direct interpretation. While downstream tasks make use of these compressed representations, meaningful interpretation usually requires visualization using dimensionality reduction or specialized machine learning interpretability methods. This paper addresses the challenge of making such embeddings more interpretable and broadly useful, by employing Large Language Models (LLMs) to directly interact with embeddings -- transforming abstract vectors into understandable narratives. By injecting embeddings into LLMs, we enable querying and exploration of complex embedding data. We demonstrate our approach on a variety of diverse tasks, including: enhancing concept activation vectors (CAVs), communicating novel embedded entities, and decoding user preferences in recommender systems. Our work couples the immense information potential of embeddings with the interpretative power of LLMs.
翻訳日:2023-10-12 18:19:08 公開日:2023-10-06
# 騒音摂動によるスローガン生成

Slogan Generation with Noise Perturbation ( http://arxiv.org/abs/2310.04472v1 )

ライセンス: Link先を確認
Jongeun Kim, MinChung Kim, Taehwan Kim(参考訳) スローガンはブランドの会社のアイデンティティを構築する上で重要な役割を果たす。 スローガンは、企業のビジョンとブランドの価値提案を記憶可能で類似した形で反映することが期待される。 このような特徴を持つスローガン生成の自動化は困難である。 従来の研究では, 特異なスローガンを生成できない構文制御モデルと要約モデルを用いて, スローガン生成の開発と試験を行った。 新たに提案した1:Nマッチングペアデータセットに対して,雑音摂動を伴う事前学習型トランスフォーマーT5モデルを活用する。 このアプローチは、特異でコヒーレントなスローガンの生成に寄与する要因となる。 さらに、提案手法は、企業とブランドに関する記述をスローガンの世代に組み込む。 ROUGE1, ROUGEL, Cosine similarity測定値に基づいて生成したスローガンを評価し, スローガンの特異性, コヒーレンス, 流布度の観点から人体で評価した。 その結果,本手法はベースラインモデルやトランスフォーマーモデルよりも優れた性能が得られることがわかった。

Slogans play a crucial role in building the brand's identity of the firm. A slogan is expected to reflect firm's vision and brand's value propositions in memorable and likeable ways. Automating the generation of slogans with such characteristics is challenging. Previous studies developted and tested slogan generation with syntactic control and summarization models which are not capable of generating distinctive slogans. We introduce a a novel apporach that leverages pre-trained transformer T5 model with noise perturbation on newly proposed 1:N matching pair dataset. This approach serves as a contributing fator in generting distinctive and coherent slogans. Turthermore, the proposed approach incorporates descriptions about the firm and brand into the generation of slogans. We evaluate generated slogans based on ROUGE1, ROUGEL and Cosine Similarity metrics and also assess them with human subjects in terms of slogan's distinctiveness, coherence, and fluency. The results demonstrate that our approach yields better performance than baseline models and other transformer-based models.
翻訳日:2023-10-12 18:18:10 公開日:2023-10-06
# URLOST: 固定性やトポロジーのない教師なし表現学習

URLOST: Unsupervised Representation Learning without Stationarity or Topology ( http://arxiv.org/abs/2310.04496v1 )

ライセンス: Link先を確認
Zeyu Yun, Juexiao Zhang, Bruno Olshausen, Yann LeCun, Yubei Chen(参考訳) 教師なし表現学習は、非常に進歩してきたが、データモダリティ固有の定常性とトポロジーに依存しているため、生物学的知能システムにはない制限がある。 例えば、人間の視覚は不規則および非定常サンプリング格子に由来する視覚信号を処理し、世界の形状を正確に認識する。 定常性やトポロジに欠ける高次元データから学習する新しいフレームワークを提案する。 本モデルでは,学習可能な自己組織化層,密度調整型スペクトルクラスタリング,マスク付きオートエンコーダを組み合わせる。 本研究は,生体視覚データ,一次視覚野からの神経記録,遺伝子発現データセットにおいて有効性を評価する。 SimCLRやMAEのような最先端の教師なし学習手法と比較して、我々のモデルは、定常性やトポロジに依存することなく、様々な様々に意味のある表現を学習できる。 また、これらの要因に依存しない他のメソッドよりも優れており、フィールドに新しいベンチマークを設定する。 この研究は、様々な高次元データモダリティを一般化できる教師なし学習方法への一歩である。

Unsupervised representation learning has seen tremendous progress but is constrained by its reliance on data modality-specific stationarity and topology, a limitation not found in biological intelligence systems. For instance, human vision processes visual signals derived from irregular and non-stationary sampling lattices yet accurately perceives the geometry of the world. We introduce a novel framework that learns from high-dimensional data lacking stationarity and topology. Our model combines a learnable self-organizing layer, density adjusted spectral clustering, and masked autoencoders. We evaluate its effectiveness on simulated biological vision data, neural recordings from the primary visual cortex, and gene expression datasets. Compared to state-of-the-art unsupervised learning methods like SimCLR and MAE, our model excels at learning meaningful representations across diverse modalities without depending on stationarity or topology. It also outperforms other methods not dependent on these factors, setting a new benchmark in the field. This work represents a step toward unsupervised learning methods that can generalize across diverse high-dimensional data modalities.
翻訳日:2023-10-12 18:11:45 公開日:2023-10-06
# 結合凝縮体からの正弦-ゴルドンモデル:一般化流体力学の観点から

The sine-Gordon model from coupled condensates: a Generalized Hydrodynamics viewpoint ( http://arxiv.org/abs/2310.04493v1 )

ライセンス: Link先を確認
Alvise Bastianello(参考訳) sine-Gordonモデルは、多くの1次元量子系の低エネルギー有効ダイナミクスを捉え、この場の理論の多元性量子シミュレータの構築と、非平衡的な設定を捉えることができる新しい理論ツールキットの並列開発を促進させる実験を刺激する。 本研究では, 2つの1次元準凝縮体の干渉パターンから正弦ゴドンの存在を解析し, 創発的場理論は古典的極限によってよく説明され, 一般化された流体力学に基づく大規模記述を展開する。 sine-Gordon が可積分場理論であるにもかかわらず、トラップ誘起不均一性が励起の不安定性の原因となり、この効果を正確に解析した結果が示される。

The sine-Gordon model captures the low-energy effective dynamics of a wealth of one-dimensional quantum systems, stimulating the experimental efforts in building a versatile quantum simulator of this field theory and fueling the parallel development of new theoretical toolkits able to capture far-from-equilibrium settings. In this work, we analyze the realization of sine-Gordon from the interference pattern of two one-dimensional quasicondensates: we argue the emergent field theory is well described by its classical limit and develop its large-scale description based on Generalized Hydrodynamics. We show how, despite sine-Gordon being an integrable field theory, trap-induced inhomogeneities cause instabilities of excitations and provide exact analytical results to capture this effect.
翻訳日:2023-10-12 18:11:26 公開日:2023-10-06
# 二段階熱化の物理理論

A Physical Theory of Two-stage Thermalization ( http://arxiv.org/abs/2310.04491v1 )

ライセンス: Link先を確認
Cheryne Jonay, Tianci Zhou(参考訳) 熱化時間の1つの指標は、熱値に達するサブシステムの絡み合いである。 局所量子回路に関する最近の研究では、熱分解前後の純度がr_1$とr_2$の2つの指数ステージが示される。 領域壁自由エネルギーに応じて$r_1$のエンタングルメント膜理論の解釈を提供する。 回路幾何は$r_1 < r_2$となり、``phantom eigenvalue" を生成する。 ドメインウォールとmagnonの競合は、magnonが普及すると$r_2 < r_1$となる。 しかし、ドメイン壁が勝つと、このメカニズムは局所相関関数を介して絡み合い成長を測定するための実用的なアプローチを提供する。

One indication of thermalization time is subsystem entanglement reaching thermal values. Recent studies on local quantum circuits reveal two exponential stages with decay rates $r_1$ and $r_2$ of the purity before and after thermalization. We provide an entanglement membrane theory interpretation, with $r_1$ corresponding to the domain wall free energy. Circuit geometry can lead to $r_1 < r_2$, producing a ``phantom eigenvalue". Competition between the domain wall and magnon leads to $r_2 < r_1$ when the magnon prevails. However, when the domain wall wins, this mechanism provides a practical approach for measuring entanglement growth through local correlation functions.
翻訳日:2023-10-12 18:11:10 公開日:2023-10-06
# 高Q/V価ダイヤモンドマイクロディスクにおけるNV中心からのファイバテーパ収集放出

Fiber-taper collected emission from NV centers in high-$Q/V$ diamond microdisks ( http://arxiv.org/abs/2310.04487v1 )

ライセンス: Link先を確認
Tamiko Masuda, J.P.E. Hadden, David P. Lake, Matthew Mitchell, Sigurd Fl{\aa}gan and Paul E. Barclay(参考訳) ファイバ結合型マイクロディスクは、ダイヤモンドのカラーセンターからの自発的な放出を促進する有望なプラットフォームである。 各キャビティモードの有効体積(V$)、キャビティ品質係数(Q$)、マイクロディスクとファイバのカップリングにより、マイクロディスクから測定されたキャビティ強調放出を制御する。 ここでは、窒素空孔中心のアンサンブルから高Q/V$マイクロディスクモードへの光ルミネッセンスを観察し、マイクロディスクモードのコヒーレント分光と組み合わせることで、これらの要因の相対的寄与を解明する。 広帯域発光スペクトルは、いくつかのキャビティフリースペクトル範囲のモード識別を容易にする内部光源として機能する。 ファイバテーパのマイクロディスク放射の解析により、キャビティとファイバテーパの両方によるスペクトルフィルタリングが明らかになり、後者はより高次なマイクロディスクモードと優先的に結合する。 コヒーレントモード分光法(coherent mode spectroscopy)は、可視波長で動作するダイヤモンドマイクロキャビティの最大値である$q\sim 1\times10^{5}$を測定するために用いられる。 マイクロディスク次元の現実的な最適化により、$\sim 50$のパーセル因子が到達範囲内にあると予測する。

Fiber-coupled microdisks are a promising platform for enhancing the spontaneous emission from color centers in diamond. The measured cavity-enhanced emission from the microdisk is governed by the effective volume ($V$) of each cavity mode, the cavity quality factor ($Q$), and the coupling between the microdisk and the fiber. Here we observe photoluminescence from an ensemble of nitrogen-vacancy centers into high $Q/V$ microdisk modes, which when combined with coherent spectroscopy of the microdisk modes, allows us to elucidate the relative contributions of these factors. The broad emission spectrum acts as an internal light source facilitating mode identification over several cavity free spectral ranges. Analysis of the fiber-taper collected microdisk emission reveals spectral filtering both by the cavity and the fiber-taper, the latter of which we find preferentially couples to higher-order microdisk modes. Coherent mode spectroscopy is used to measure $Q\sim 1\times10^{5}$ -- the highest reported values for diamond microcavities operating at visible wavelengths. With realistic optimization of the microdisk dimensions, we predict that Purcell factors of $\sim 50$ are within reach.
翻訳日:2023-10-12 18:11:01 公開日:2023-10-06
# T-Rep: 時間埋め込みを用いた時系列表現学習

T-Rep: Representation Learning for Time Series using Time-Embeddings ( http://arxiv.org/abs/2310.04486v1 )

ライセンス: Link先を確認
Archibald Fraikin, Adrien Bennetot, St\'ephanie Allassonni\`ere(参考訳) 多変量時系列は、しばしばラベルがなく、高次元でノイズがあり、欠落したデータを含んでいるため、標準的な機械学習技術に挑戦する。 そこで本稿では,時系列表現を時間ステップの粒度で学習する自己教師型T-Repを提案する。 T-Repは特徴抽出器と共に時間のベクトル埋め込みを学び、信号からトレンド、周期性、分布シフトなどの時間的特徴を抽出する。 これらの時間埋め込みはプリテキストタスクで活用され、スムースできめ細かい時間依存を表現に組み込むとともに、欠落したデータに対する堅牢性を強化する。 下流分類,予測,異常検出タスクにおけるT-Repの評価を行った。 時系列の既存の自己教師型アルゴリズムと比較され、3つのタスクすべてで優れています。 私たちは、T-Repが欠落しているデータ構造でテストします。 最後に,学習表現の解釈可能性に注目した潜在空間可視化実験を行う。

Multivariate time series present challenges to standard machine learning techniques, as they are often unlabeled, high dimensional, noisy, and contain missing data. To address this, we propose T-Rep, a self-supervised method to learn time series representations at a timestep granularity. T-Rep learns vector embeddings of time alongside its feature extractor, to extract temporal features such as trend, periodicity, or distribution shifts from the signal. These time-embeddings are leveraged in pretext tasks, to incorporate smooth and fine-grained temporal dependencies in the representations, as well as reinforce robustness to missing data. We evaluate T-Rep on downstream classification, forecasting, and anomaly detection tasks. It is compared to existing self-supervised algorithms for time series, which it outperforms in all three tasks. We test T-Rep in missing data regimes, where it proves more resilient than its counterparts. Finally, we provide latent space visualisation experiments, highlighting the interpretability of the learned representations.
翻訳日:2023-10-12 18:10:35 公開日:2023-10-06
# 制御可能な言語モデルに関する二目的的視点:Reward Dropoutによる外部制御性能の向上

A Bi-objective Perspective on Controllable Language Models: Reward Dropout Improves Off-policy Control Performance ( http://arxiv.org/abs/2310.04483v1 )

ライセンス: Link先を確認
Changhun Lee and Chiehyeon Lim(参考訳) 本稿では,CLM(Controllable Language Models)の理論的側面を客観的な最適化の観点から検討する。 具体的には、CLMを、報酬と可能性の最大化を同時に要求する、政治的でないRL問題とみなす。 私たちの主な貢献は3つの部分からなる。 まず, 報酬の上限とパレート改善/最適化条件を提示することにより, clm の理論的基礎を確立する。 第2に,Paretoの最適性自体を改善および侵害する条件をそれぞれ分析する。 最後に,パレート改善条件に基づく政策改善を保証するシンプルかつ強力な手法である報酬ドロップアウトを提案する。 我々の理論的な結果は推論的証明だけでなく経験的結果によっても支持されている。 報酬ドロップアウトのパフォーマンスは5つのclmベンチマークデータセットで評価され、報酬ドロップアウトがclmのパフォーマンスを大幅に改善することが判明した。

We study the theoretical aspects of CLMs (Controllable Language Models) from a bi-objective optimization perspective. Specifically, we consider the CLMs as an off-policy RL problem that requires simultaneously maximizing the reward and likelihood objectives. Our main contribution consists of three parts. First, we establish the theoretical foundations of CLM by presenting reward upper bound and Pareto improvement/optimality conditions. Second, we analyze conditions that improve and violate Pareto optimality itself, respectively. Finally, we propose Reward Dropout, a simple yet powerful method to guarantee policy improvement based on a Pareto improvement condition. Our theoretical outcomes are supported by not only deductive proofs but also empirical results. The performance of Reward Dropout was evaluated on five CLM benchmark datasets, and it turns out that the Reward Dropout significantly improves the performance of CLMs.
翻訳日:2023-10-12 18:09:47 公開日:2023-10-06
# EMOFM:クリックスルーレート予測のための特徴量ミキサー付きMLP mOdel

EMOFM: Ensemble MLP mOdel with Feature-based Mixers for Click-Through Rate Prediction ( http://arxiv.org/abs/2310.04482v1 )

ライセンス: Link先を確認
Yujian Betterest Li, Kai Wu(参考訳) CTI競合の1つは、クリックスルーレート(CTR)予測である。 データセットには数百万のレコードが含まれており、各フィールドの機能は、プライバシのためのハッシュされた整数で構成されている。 このタスクでは、ネットワークベースのメソッドのキーは、異なるフィールド間のタイプワイズ特徴抽出と情報融合であるかもしれない。 多層パーセプトロン(MLP)はフィールド特徴を抽出できるが、効率よく特徴を融合することはできない。 クロスアテンションの自然融合特性とトランスフォーマーベース構造の効率により、フィールド/タイプワイド特徴融合のためのシンプルなプラグインミキサーを提案し、フィールド&タイプワイドアンサンブルモデル、すなわちEMOFM(Ensemble MLP mOdel with Feature-based Mixers)を構築した。 実験では,提案したモデルをデータセット上で評価し,最適化プロセスの可視化とアブレーション研究を行った。 EMOFMはベースラインよりも優れていた。 最後に、私たちは将来の仕事について話し合う。 WARNING: 提案手法は特にこのデータのために設計されているが,比較手法はそうではないため,比較は十分ではないかもしれない。 例えば、EMOFMは特に異なるタイプの相互作用を考慮に入れているが、他のものは考慮しない。 いずれにせよ、私たちのメソッド内のアイデアが、他の開発者/学習者/研究者/思考者などに役立つことを期待しています。

Track one of CTI competition is on click-through rate (CTR) prediction. The dataset contains millions of records and each field-wise feature in a record consists of hashed integers for privacy. For this task, the keys of network-based methods might be type-wise feature extraction and information fusion across different fields. Multi-layer perceptrons (MLPs) are able to extract field feature, but could not efficiently fuse features. Motivated by the natural fusion characteristic of cross attention and the efficiency of transformer-based structures, we propose simple plug-in mixers for field/type-wise feature fusion, and thus construct an field&type-wise ensemble model, namely EMOFM (Ensemble MLP mOdel with Feature-based Mixers). In the experiments, the proposed model is evaluated on the dataset, the optimization process is visualized and ablation studies are explored. It is shown that EMOFM outperforms compared baselines. In the end, we discuss on future work. WARNING: The comparison might not be fair enough since the proposed method is designed for this data in particular while compared methods are not. For example, EMOFM especially takes different types of interactions into consideration while others do not. Anyway, we do hope that the ideas inside our method could help other developers/learners/researchers/thinkers and so on.
翻訳日:2023-10-12 18:09:34 公開日:2023-10-06
# DPGOMI:ガウス最適化モデルインバージョンを用いた微分プライベートデータパブリッシング

DPGOMI: Differentially Private Data Publishing with Gaussian Optimized Model Inversion ( http://arxiv.org/abs/2310.04528v1 )

ライセンス: Link先を確認
Dongjie Chen, Sen-ching S. Cheung, Chen-Nee Chuah(参考訳) 高次元データは、多くの応用を伴うディープラーニングの時代に広く使われている。 しかし、機密情報を持つ特定のデータは、プライバシー保護なしでは共有できない。 本稿では,ガウス最適化モデルインバージョン(DPGOMI)を用いた微分プライベートデータパブリッシング手法を提案する。 提案手法では, パブリックジェネレータを用いてプライベートデータを潜時空間にマッピングし, コンバージェンス特性が向上した低次元DP-GANを用いる。 標準データセットCIFAR10とSVHNにおけるDPGOMIの性能を評価する。 以上の結果から,DPGOMIは標準のDP-GAN法よりも,インセプションスコア,Fr'echet Inception Distance,分類性能に優れ,プライバシーレベルは同じであることがわかった。 提案手法は,高品質な結果を維持しつつ,ganトレーニングにおいて機密データを保護するための有望なソリューションを提供する。

High-dimensional data are widely used in the era of deep learning with numerous applications. However, certain data which has sensitive information are not allowed to be shared without privacy protection. In this paper, we propose a novel differentially private data releasing method called Differentially Private Data Publishing with Gaussian Optimized Model Inversion (DPGOMI) to address this issue. Our approach involves mapping private data to the latent space using a public generator, followed by a lower-dimensional DP-GAN with better convergence properties. We evaluate the performance of DPGOMI on standard datasets CIFAR10 and SVHN. Our results show that DPGOMI outperforms the standard DP-GAN method in terms of Inception Score, Fr\'echet Inception Distance, and classification performance, while providing the same level of privacy. Our proposed approach offers a promising solution for protecting sensitive data in GAN training while maintaining high-quality results.
翻訳日:2023-10-12 18:01:20 公開日:2023-10-06
# $(0,1)$-excitation状態のリモート復元と並行スケーリング

Remote restoring of $(0,1)$-excitation states and concurrence scaling ( http://arxiv.org/abs/2310.04526v1 )

ライセンス: Link先を確認
N.A.Tashkeev, A.I.Zenchuk(参考訳) XX-ハミルトニアンによって支配される線形開鎖における長距離(0,1)励起状態の復元について検討する。 1-階コヒーレンス行列の復元により、0-階コヒーレンス行列の1-励磁ブロックが復元され、密度行列の1つの0-励磁要素のみが保存される。 このような復元はまた、転送状態の任意の2量子ビット間の共起をスケーリングし、スケーリング係数はハミルトニアンによって定義され、初期送信者の状態に依存しない。 Sender-Receiver entanglementはPTP criterionでも研究されている。

We study the long distance (0,1)-excitation state restoring in the linear open chain governed by the XX-Hamiltonian. We show that restoring the 1-order coherence matrix results in restoring the 1-excitation block of the 0-order coherence matrix, so that only one 0-excitation element of the density matrix remain unrestored. Such restoring also scales the concurrence between any two qubits of the transferred state, the scaling factor is defined by the Hamiltonian and doesn't depend on the initial sender's state. Sender-Receiver entanglement is also studied via the PPT criterion.
翻訳日:2023-10-12 18:01:04 公開日:2023-10-06
# シンプレクティック変換による量子非線形光学における非ヘルミティ

Non-Hermiticity in quantum nonlinear optics through symplectic transformations ( http://arxiv.org/abs/2310.04523v1 )

ライセンス: Link先を確認
Ross Wakefield, Anthony Laing, and Yogesh N. Joglekar(参考訳) 過去10年間にわたり、非エルミート的パリティ時間対称ハミルトニアンによってモデル化された利得または損失を持つ古典光学系は深く研究されてきた。 しかし、数分解されたフォトニック状態を持つ量子領域への適用性は、量子制限増幅ノイズによって根本的に無効化される。 ここでは、フォック空間上の第二量子ヘルミートハミルトニアンが、対応する生成および消滅作用素のダイナミクスを生成する非エルミート有効ハミルトニアンをもたらすことを示す。 この、$\mathcal{pt}$-symmetry とシンプレクティック・ボゴリューボフ変換の等価性を用いて、特異値分解によって任意の非ユニタリ過程をシミュレートする、スクイージング、位相シフト器、ビームスプリッターからなる量子光学スキームを作成する。 非エルミート量子シミュレーションのポストセレクションスキームとは対照的に、このアプローチの成功確率はシステムサイズやシミュレーション時間とは独立であり、ユニタリ変換と同様に効率的にトロッター化することができる。

Over the past decade classical optical systems with gain or loss, modelled by non-Hermitian parity-time symmetric Hamiltonians, have been deeply investigated. Yet, their applicability to the quantum domain with number-resolved photonic states is fundamentally voided by quantum-limited amplifier noise. Here, we show that second-quantised Hermitian Hamiltonians on the Fock space give rise to non-Hermitian effective Hamiltonians that generate the dynamics of corresponding creation and annihilation operators. Using this equivalence between $\mathcal{PT}$-symmetry and symplectic Bogoliubov transformations, we create a quantum optical scheme comprising squeezing, phase-shifters, and beam-splitters for simulating arbitrary non-unitary processes by way of singular value decomposition. In contrast to the post-selection scheme for non-Hermitian quantum simulation, the success probability in this approach is independent of the system size or simulation time, and can be efficiently Trotterised similar to a unitary transformation.
翻訳日:2023-10-12 18:00:54 公開日:2023-10-06
# 広帯域多次元変動計測のためのスクイーズ

Squeezing for Broadband Multidimensional Variational Measurement ( http://arxiv.org/abs/2310.04522v1 )

ライセンス: Link先を確認
Aleksandr A. Movsisian, Sergey P. Vyatchanin(参考訳) 広帯域の多次元変動測定は、機械振動子の進化を乱す量子バックアクションから生じる古典的機械力検出の標準量子限界(sql)を克服することができる。 このオプトロメカニックスキームでは、線形機械振動子に作用する共振信号力が、機械周波数とほぼ等しく分離された3つの光学モードを持つシステムに結合する。 中央光モードを光ポンピングし、他の2つのモードを脱出する光を測定することで測定を行う。 光モードと後処理の最適な二次成分の検出は、広い周波数帯域でバックアクションを除外し、sqlを超える。 空洞内の光損失は損失ノイズによるバックアクションの排除を制限する。 また, 2光子(非縮退性)および従来型(縮退性)スクイージングが, 主に内部スクイージングを考慮に入れて, 光学的損失を考慮した感度向上効果を解析した。

Broadband multidimensional variational measurement allows to overcome Standard Quantum Limit (SQL) of a classical mechanical force detection, resulting from quantum back action, which perturbs evolution of a mechanical oscillator. In this optomechanic scheme detection of a resonant signal force acting on a linear mechanical oscillator coupled to a system with three optical modes with separation nearly equal to the mechanical frequency. The measurement is performed by optical pumping of the central optical mode and measuring the light escaping the two other modes. Detection of optimal quadrature components of the optical modes and post processing result in the back action exclusion in a broad frequency band and surpassing SQL. We show that optical losses inside cavity restrict back action exclusion due to loss noise. We also analyze how two-photon (nondegenerate) and conventional (degenerate) squeezing improve sensitivity with account optical losses, considering mainly internal squeezing.
翻訳日:2023-10-12 18:00:33 公開日:2023-10-06
# 半単純リー代数のための随伴同変ニューラルネットワーク

Lie Neurons: Adjoint-Equivariant Neural Networks for Semisimple Lie Algebras ( http://arxiv.org/abs/2310.04521v1 )

ライセンス: Link先を確認
Tzu-Yuan Lin, Minghan Zhu, Maani Ghaffari(参考訳) 本稿では,リー代数データを入力とする随伴同変ニューラルネットワークを提案する。 入力データを特定の種類の変換を持つベクトル空間の要素として扱う、様々なタイプの同変ニューラルネットワークが文献に提案されている。 比較対象はベクトル空間間の変換である入力を処理することである。 変換に基づく基底の変化は共役によって記述され、モデルが捉えるように設計された随伴-等分散関係を誘導する。 キリング形式の不変性を利用して、提案されたネットワークは任意の半単純リー代数を扱う一般的なフレームワークである。 我々のネットワークは単純構造を持ち、多層パーセプトロン(MLP)のリー代数的一般化と見なすことができる。 この研究は同変特徴学習の適用を拡大する。 例えば、sl(3) リー代数を用いたホモグラフィモデリングにおいて、その値を示す。

This paper proposes an adjoint-equivariant neural network that takes Lie algebra data as input. Various types of equivariant neural networks have been proposed in the literature, which treat the input data as elements in a vector space carrying certain types of transformations. In comparison, we aim to process inputs that are transformations between vector spaces. The change of basis on transformation is described by conjugations, inducing the adjoint-equivariance relationship that our model is designed to capture. Leveraging the invariance property of the Killing form, the proposed network is a general framework that works for arbitrary semisimple Lie algebras. Our network possesses a simple structure that can be viewed as a Lie algebraic generalization of a multi-layer perceptron (MLP). This work extends the application of equivariant feature learning. As an example, we showcase its value in homography modeling using sl(3) Lie algebra.
翻訳日:2023-10-12 18:00:16 公開日:2023-10-06
# 量子コンピュータ上での投影型量子固有解法の実装

Implementation of the Projective Quantum Eigensolver on a Quantum Computer ( http://arxiv.org/abs/2310.04520v1 )

ライセンス: Link先を確認
Jonathon P. Misiewicz and Francesco A. Evangelista(参考訳) 我々は,IBMの量子ハードウェア上でのPQE(Projective Quantum Eigensolver)の性能と誤差低減技術について検討した。 H$_2$の単一量子ビットモデルでは、ポテンシャルエネルギー曲線全体に沿った正確なエネルギーの4ミリハート (2.5 kcal/mol) 内でエネルギーを得ることができ、精度はIBMデバイスの確率誤差と不整合性能の両方によって制限される。 反復部分空間の直接反転を用いた最適化アルゴリズムは、励起状態であっても迅速に収束するが、確率的ノイズは大きなパラメータ更新を引き起こす。 臨界点における4サイト横フィールドイジングモデルでは、キュービットテーパリングを適宜適用したPQEは相関エネルギーの99%を回復し、いくつかのパラメータを破棄する。 追加パラメータに必要な多数のCNOTゲートは、IBMデバイスでは、トライアル状態の表現力の増大にもかかわらず精度が低下するという相反するエラーをもたらす。 PQEハードウェア実験における誤りを軽減するため、エラー補間技術やテーパリングやポストセレクションが推奨されている。

We study the performance of our previously proposed Projective Quantum Eigensolver (PQE) on IBM's quantum hardware in conjunction with error mitigation techniques. For a single qubit model of H$_2$, we find that we are able to obtain energies within 4 millihartree (2.5 kcal/mol) of the exact energy along the entire potential energy curve, with the accuracy limited by both stochastic error and inconsistent performance of the IBM devices. We find that an optimization algorithm using direct inversion of the iterative subspace can converge swiftly, even to excited states, but stochastic noise can cause large parameter updates. For the four-site transverse-field Ising model at the critical point, PQE with an appropriate application of qubit tapering can recover 99% of the correlation energy, even discarding several parameters. The large number of CNOT gates needed for the additional parameters introduces a concomitant error that, on the IBM devices, results in loss of accuracy, despite the increased expressivity of the trial state. Error extrapolation techniques and tapering or postselection are recommended to mitigate errors in PQE hardware experiments.
翻訳日:2023-10-12 18:00:01 公開日:2023-10-06
# spade:深層ニューラルネットワークのためのスパーシティ誘導デバッグ

SPADE: Sparsity-Guided Debugging for Deep Neural Networks ( http://arxiv.org/abs/2310.04519v1 )

ライセンス: Link先を確認
Arshia Soltani Moakhar, Eugenia Iofinova, Dan Alistarh(参考訳) 解釈可能性(Interpretability)は、機械学習モデルが意思決定に到達した理由と方法を理解するためのメカニズムとして広く定義されている。 この目標に向けて、ネットワークの動作全般やインスタンスの集合を推論する上で、人間の検査を支援する複数のツールが提案されている。 しかしながら、入力唾液マップやニューロンの可視化のようなこれらのツールの出力は、神経細胞が複数の特徴の組み合わせに関連付けられているという事実から、人間が解釈し、誤解を招くこともしばしば困難である。 本稿では、訓練されたモデルと対象サンプルが与えられた場合、サンプル上でのネットワーク実行の"トレース"を提供するためにサンプルターゲットプルーニングを用いて、ネットワークを特定の予測に最も関係のあるコネクションに還元するSPADEと呼ばれる、この問題に対処する新しい一般的なアプローチを提案する。 本研究では,spadeを用いた前処理により,複数の解釈法を横断する画像サリエンシーマップの精度と,ニューロンの可視化の有用性が著しく向上し,ネットワーク行動の推論を支援することを実証した。 以上の結果から,複数面ニューロンを切断し,一貫した解釈性の向上が期待できることがわかった。

Interpretability, broadly defined as mechanisms for understanding why and how machine learning models reach their decisions, is one of the key open goals at the intersection of deep learning theory and practice. Towards this goal, multiple tools have been proposed to aid a human examiner in reasoning about a network's behavior in general or on a set of instances. However, the outputs of these tools-such as input saliency maps or neuron visualizations-are frequently difficult for a human to interpret, or even misleading, due, in particular, to the fact that neurons can be multifaceted, i.e., a single neuron can be associated with multiple distinct feature combinations. In this paper, we present a new general approach to address this problem, called SPADE, which, given a trained model and a target sample, uses sample-targeted pruning to provide a "trace" of the network's execution on the sample, reducing the network to the connections that are most relevant to the specific prediction. We demonstrate that preprocessing with SPADE significantly increases both the accuracy of image saliency maps across several interpretability methods and the usefulness of neuron visualizations, aiding humans in reasoning about network behavior. Our findings show that sample-specific pruning of connections can disentangle multifaceted neurons, leading to consistently improved interpretability.
翻訳日:2023-10-12 17:59:26 公開日:2023-10-06
# 自動生成グラスピングデータセットのSim2real転送のためのドメインランダム化

Domain Randomization for Sim2real Transfer of Automatically Generated Grasping Datasets ( http://arxiv.org/abs/2310.04517v1 )

ライセンス: Link先を確認
Johann Huber, Fran\c{c}ois H\'el\'enon, Hippolyte Watrelot, Faiz Ben Amar and St\'ephane Doncieux(参考訳) ロボット把持(robotic grasping)とは、ロボットシステムがその表面に力とトルクを加えることで物体を拾うことを指す。 最近の多くの研究はデータ駆動のアプローチで把握に取り組んでいますが、このタスクの報酬が少なからぬため、学習プロセスはブートストラップを難しくしました。 運用空間の制約を避けるため、より多くの作業が学習するデータセットの把握を提案している。 しかし、そのほとんどはシミュレーションに限られている。 本稿では,実世界において自動生成した把持をいかに活用できるかについて検討する。 7000以上のリーチ・アンド・グラス軌道が3つの異なるアームとグリップにQD(Quality-Diversity)法で生成され、それには平行な指と器用な手が含まれる。 分析結果から,複数の領域ランダム化に基づく品質基準とSim-to-realトランスファービリティの相関性を示した。 把握のための現実的ギャップに関する主要な課題が特定され、研究者が将来注目すべき課題が強調された。 ドメインランダム化をより堅牢にするために、ついにQDアプローチが提案され、その結果、フランカリサーチ3アームの転送比は84%となった。

Robotic grasping refers to making a robotic system pick an object by applying forces and torques on its surface. Many recent studies use data-driven approaches to address grasping, but the sparse reward nature of this task made the learning process challenging to bootstrap. To avoid constraining the operational space, an increasing number of works propose grasping datasets to learn from. But most of them are limited to simulations. The present paper investigates how automatically generated grasps can be exploited in the real world. More than 7000 reach-and-grasp trajectories have been generated with Quality-Diversity (QD) methods on 3 different arms and grippers, including parallel fingers and a dexterous hand, and tested in the real world. Conducted analysis on the collected measure shows correlations between several Domain Randomization-based quality criteria and sim-to-real transferability. Key challenges regarding the reality gap for grasping have been identified, stressing matters on which researchers on grasping should focus in the future. A QD approach has finally been proposed for making grasps more robust to domain randomization, resulting in a transfer ratio of 84% on the Franka Research 3 arm.
翻訳日:2023-10-12 17:58:37 公開日:2023-10-06
# モデル強化のためのフェデレーション学習におけるフリークライアントの利用

Utilizing Free Clients in Federated Learning for Focused Model Enhancement ( http://arxiv.org/abs/2310.04515v1 )

ライセンス: Link先を確認
Aditya Narayan Ravi and Ilan Shomorony(参考訳) Federated Learning(FL)は、分散機械学習のアプローチで、クライアントがデータを共有することなく、分散化された異種データのモデルを学ぶ。 既存のflアプローチの多くは、すべてのクライアントが同じ重要性を持ち、すべてのクライアントに基づいたグローバルな目標を構築していると仮定している。 そこでは、優先順位付けクライアントとして指定されたクライアントのサブセットの重み付けされた平均目標を学習することを目的としています。 適切に調整された非優先順位のクライアントを選択して、連邦に参加するようにインセンティブを与えるには、どのようにすればよいのか? 我々はこの課題に対処するためにFedALIGN(Federated Adaptive Learning with Inclusion of Global Needs)を提案する。 このアルゴリズムは、モデル損失がグローバルデータとどの程度似ているかに基づいて非優先度クライアントを選択するマッチング戦略を採用しており、優先度クライアントに有利な場合にのみ非優先度クライアント勾配を使用することを保証する。 このアプローチは、モデルがデータに対して良好に実行されたときに、非優先度クライアントが参加する動機のある相互利益を保証し、優先度クライアントは、目標が整ったときに、更新と計算リソースを活用できる。 本稿では,クライアント選択と収束速度のトレードオフを定量化する収束解析を行う。 本アルゴリズムは,各種合成およびベンチマークデータセットのベースラインよりも高速な収束とテスト精度を示す。

Federated Learning (FL) is a distributed machine learning approach to learn models on decentralized heterogeneous data, without the need for clients to share their data. Many existing FL approaches assume that all clients have equal importance and construct a global objective based on all clients. We consider a version of FL we call Prioritized FL, where the goal is to learn a weighted mean objective of a subset of clients, designated as priority clients. An important question arises: How do we choose and incentivize well aligned non priority clients to participate in the federation, while discarding misaligned clients? We present FedALIGN (Federated Adaptive Learning with Inclusion of Global Needs) to address this challenge. The algorithm employs a matching strategy that chooses non priority clients based on how similar the models loss is on their data compared to the global data, thereby ensuring the use of non priority client gradients only when it is beneficial for priority clients. This approach ensures mutual benefits as non priority clients are motivated to join when the model performs satisfactorily on their data, and priority clients can utilize their updates and computational resources when their goals align. We present a convergence analysis that quantifies the trade off between client selection and speed of convergence. Our algorithm shows faster convergence and higher test accuracy than baselines for various synthetic and benchmark datasets.
翻訳日:2023-10-12 17:58:07 公開日:2023-10-06
# リスクファクター集約とストレステスト

Risk factor aggregation and stress testing ( http://arxiv.org/abs/2310.04511v1 )

ライセンス: Link先を確認
Natalie Packham(参考訳) ストレステスト(英: stress testing)とは、金融やマクロ経済のシナリオをポートフォリオに適用することを指す。 この目的のために、金融またはマクロ経済のリスクファクターは、通常、ファクターモデルを介して、資産リターンと関連付けられる。 我々は,PCAやオートエンコーダといった教師なし学習から次元還元技術を適用することで,リスク要因の範囲を広げる。 その結果、グローバルな要因、広い地理的地域を表す要因、循環的・防衛的な産業に特有の要因を集約したリスク要因が生まれる。 適応型PCAとオートエンコーダは潜在因子の解釈を提供するため、この手法は次元の縮小と説明可能性が重要である他の分野でも有用である。

Stress testing refers to the application of adverse financial or macroeconomic scenarios to a portfolio. For this purpose, financial or macroeconomic risk factors are linked with asset returns, typically via a factor model. We expand the range of risk factors by adapting dimension-reduction techniques from unsupervised learning, namely PCA and autoencoders. This results in aggregated risk factors, encompassing a global factor, factors representing broad geographical regions, and factors specific to cyclical and defensive industries. As the adapted PCA and autoencoders provide an interpretation of the latent factors, this methodology is also valuable in other areas where dimension-reduction and explainability are crucial.
翻訳日:2023-10-12 17:57:40 公開日:2023-10-06
# MeSa: 単眼深度推定のための仮面・幾何学・教師付き事前トレーニング

MeSa: Masked, Geometric, and Supervised Pre-training for Monocular Depth Estimation ( http://arxiv.org/abs/2310.04551v1 )

ライセンス: Link先を確認
Muhammad Osama Khan, Junbang Liang, Chun-Kai Wang, Shan Yang, Yu Lou(参考訳) プレトレーニングは近年,強い単眼深度推定モデルの開発において重要な要素となっている。 例えば、自己教師付き学習(ssl)は、密接な基底深度マップを持つ大規模データセットの必要性を緩和することで特に効果的である。 しかし,これらの改善にもかかわらず,本研究では,SOTA SSL法の後半層が実際に最適であることを明らかにした。 層状表現を調べた結果, 微調整中の後層に有意な変化がみられ, 事前学習した特徴が深度推定に有効でないことが示唆された。 これらの制限に対処するために,マスク,幾何学,教師付き事前学習の補完的強みを活用した包括的フレームワークmesaを提案する。 したがって、MeSaはマスク付き事前訓練を通じて学習した汎用表現だけでなく、幾何学的および教師あり事前訓練を通じて取得した専門的な深度特化特徴の恩恵を受ける。 我々のCKA層解析は,SOTA SSL方式の欠点を克服して,後層に対する事前学習戦略が実際に改良された表現を生成することを確認した。 さらに,nyuv2 および ibims-1 データセットを用いた実験により,これらの拡張表現が,分布内および分布外の両方において性能向上をもたらすことを実証した。 また,プレトレーニングデータセットの影響について検討し,プレトレーニングの有効性をLSUNに示す。 全体として、本手法は、マスク付き事前トレーニングSSL方式をRMSEで17.1%のマージンで上回っている。 さらに、最近提案されたテクニックを使わずに、MeSaは最新の手法よりも優れており、挑戦的なNYUv2データセット上でモノクル深度を推定するための新しい最先端技術を確立している。

Pre-training has been an important ingredient in developing strong monocular depth estimation models in recent years. For instance, self-supervised learning (SSL) is particularly effective by alleviating the need for large datasets with dense ground-truth depth maps. However, despite these improvements, our study reveals that the later layers of the SOTA SSL method are actually suboptimal. By examining the layer-wise representations, we demonstrate significant changes in these later layers during fine-tuning, indicating the ineffectiveness of their pre-trained features for depth estimation. To address these limitations, we propose MeSa, a comprehensive framework that leverages the complementary strengths of masked, geometric, and supervised pre-training. Hence, MeSa benefits from not only general-purpose representations learnt via masked pre training but also specialized depth-specific features acquired via geometric and supervised pre-training. Our CKA layer-wise analysis confirms that our pre-training strategy indeed produces improved representations for the later layers, overcoming the drawbacks of the SOTA SSL method. Furthermore, via experiments on the NYUv2 and IBims-1 datasets, we demonstrate that these enhanced representations translate to performance improvements in both the in-distribution and out-of-distribution settings. We also investigate the influence of the pre-training dataset and demonstrate the efficacy of pre-training on LSUN, which yields significantly better pre-trained representations. Overall, our approach surpasses the masked pre-training SSL method by a substantial margin of 17.1% on the RMSE. Moreover, even without utilizing any recently proposed techniques, MeSa also outperforms the most recent methods and establishes a new state-of-the-art for monocular depth estimation on the challenging NYUv2 dataset.
翻訳日:2023-10-12 17:51:38 公開日:2023-10-06
# 多モード基礎モデルに対するモジュールワイド適応蒸留

Module-wise Adaptive Distillation for Multimodality Foundation Models ( http://arxiv.org/abs/2310.04550v1 )

ライセンス: Link先を確認
Chen Liang, Jiahui Yu, Ming-Hsuan Yang, Matthew Brown, Yin Cui, Tuo Zhao, Boqing Gong, Tianyi Zhou(参考訳) 事前訓練されたマルチモーダル基礎モデルは、目覚ましい一般化性を示しているが、その大きさが大きいため、展開に挑戦する。 サイズを減らすための効果的なアプローチの一つは、各層における大きな教師モデルの隠れた表現にマッチするように、小さな学生モデルを訓練する層別蒸留である。 モジュールと呼ばれる特定のアーキテクチャコンポーネントが,学生のパフォーマンスに有意に寄与する,という観測に動機づけられ,各モジュールの蒸留後の損失減少を記録し,より頻繁に蒸留に寄与するモジュールを選択することにより,個々のモジュールの寄与を追跡することを提案する。 このようなアプローチは、モジュールと損失の減少をそれぞれ武器と報酬と見なすマルチアーム・バンディット(MAB)問題として自然に定式化することができる。 次に,モデル更新によるモジュール貢献の非定常性に対処するために,修正トンプソンサンプリングアルゴリズムoptimaを開発した。 具体的には,近年の観測された貢献を利用して,各モジュールの貢献の変化を推定し,それらの推定に基づいてモジュールを選択し,累積貢献を最大化する。 我々は,CoCa-Largeモデル(Yu et al., 2022)を教師モデルとして,様々なマルチモーダル理解および画像キャプションタスクにおける蒸留実験によるOPTIMAの有効性を評価する。

Pre-trained multimodal foundation models have demonstrated remarkable generalizability but pose challenges for deployment due to their large sizes. One effective approach to reducing their sizes is layerwise distillation, wherein small student models are trained to match the hidden representations of large teacher models at each layer. Motivated by our observation that certain architecture components, referred to as modules, contribute more significantly to the student's performance than others, we propose to track the contributions of individual modules by recording the loss decrement after distillation each module and choose the module with a greater contribution to distill more frequently. Such an approach can be naturally formulated as a multi-armed bandit (MAB) problem, where modules and loss decrements are considered as arms and rewards, respectively. We then develop a modified-Thompson sampling algorithm named OPTIMA to address the nonstationarity of module contributions resulting from model updating. Specifically, we leverage the observed contributions in recent history to estimate the changing contribution of each module and select modules based on these estimations to maximize the cumulative contribution. We evaluate the effectiveness of OPTIMA through distillation experiments on various multimodal understanding and image captioning tasks, using the CoCa-Large model (Yu et al., 2022) as the teacher model.
翻訳日:2023-10-12 17:51:08 公開日:2023-10-06
# 量子最適化:制約問題の解法におけるラグランジアン双対QUBO

Quantum Optimization: Lagrangian Dual versus QUBO in Solving Constrained Problems ( http://arxiv.org/abs/2310.04542v1 )

ライセンス: Link先を確認
Einar Gabbassov, Gili Rosenberg, Artur Scherer(参考訳) 本稿では, 離散化断熱量子計算(DAQC)の枠組みにラグランジアン双対性の概念を組み込んだ制約付き組合せ最適化問題の解法を提案する。 回路モデル-フォールトトレラント量子計算の設定において,2次非拘束二元最適化(QUBO)の形式に基づくリフォームによる制約問題の解法とは対照的に,回路深さの2次改善を実現し,制約非依存の回路幅を維持するという数値的証拠を示す。 本研究は、quboを用いた古典的および量子的文脈における制約付き最適化の限界と課題の詳細な分析を含む。 本研究の焦点は、事前調整された断熱スケジュールを実現するディープ量子回路であるが、提案手法は、量子近似アルゴリズム(QAOA)のようなノイズの多い中間規模量子(NISQ)デバイスの実装に適した変分アルゴリズムにも直接適用可能である。 NP完全0-1knapsack問題を用いて,QUBO法に対するラグランジアン双対アプローチのベンチマークを行った。

We propose an approach to solving constrained combinatorial optimization problems based on embedding the concept of Lagrangian duality into the framework of discretized adiabatic quantum computation (DAQC). Within the setting of circuit-model fault-tolerant quantum computation, we present numerical evidence that our approach achieves a quadratic improvement in circuit depth and maintains a constraint-independent circuit width, in contrast to the prevalent approach of solving constrained problems via reformulations based on the quadratic unconstrained binary optimization (QUBO) formalism. Our study includes a detailed analysis of the limitations and challenges encountered when using QUBO for constrained optimization in both classical and quantum contexts. While the focus of the present study is deep quantum circuits allowing pre-tuned adiabatic schedules, our proposed methodology is also directly applicable to variational algorithms suitable for implementations on noisy intermediate-scale quantum (NISQ) devices, such as the quantum approximate optimization algorithm (QAOA). Our findings are illustrated by benchmarking the Lagrangian dual approach against the QUBO approach using the NP-complete 0-1 knapsack problem.
翻訳日:2023-10-12 17:50:43 公開日:2023-10-06
# Iris Liveness Detection Competition (LivDet-Iris) -- 2023エディション

Iris Liveness Detection Competition (LivDet-Iris) -- The 2023 Edition ( http://arxiv.org/abs/2310.04541v1 )

ライセンス: Link先を確認
Patrick Tinsley, Sandip Purnapatra, Mahsa Mitcheff, Aidan Boyd, Colton Crum, Kevin Bowyer, Patrick Flynn, Stephanie Schuckers, Adam Czajka, Meiling Fang, Naser Damer, Xingyu Liu, Caiyong Wang, Xianyun Sun, Zhaohua Chang, Xinyue Li, Guangzhe Zhao, Juan Tapia, Christoph Busch, Carlos Aravena, Daniel Schulz(参考訳) 本稿では,'livdet' シリーズの2023年版である iris presentation attack detection (pad) の結果について述べる。 第5回大会では,(1)提示攻撃装置(PAI)のカテゴリとしてのGAN生成虹彩画像,(2)基準ベンチマークとしてのPAI検出における人間の精度の評価が新たに発表された。 クラークソン大学とノートルダム大学は7つの異なるPAIカテゴリを表すサンプルとベースラインのPADアルゴリズムからなる画像データセットをコンペティションのために提供した。 fraunhofer igd, beijing university of civil engineering and architecture, and hochschule darmstadtの計8つのアルゴリズムがコンペティションに寄与した。 精度は、異なるPAIタイプで分析され、人間の精度と比較される。 全体として、Fraunhofer IGDアルゴリズムは、注目に基づくピクセル単位のバイナリ監視ネットワークを使用して、最も重み付けされた精度(平均分類誤差率37.31%)を示し、北京土木建築大学のアルゴリズムは、各PAIに等しい重みが与えられたときに勝利した(平均分類率22.15%)。 これらの結果は、アイリスPADは依然として困難な問題であることを示している。

This paper describes the results of the 2023 edition of the ''LivDet'' series of iris presentation attack detection (PAD) competitions. New elements in this fifth competition include (1) GAN-generated iris images as a category of presentation attack instruments (PAI), and (2) an evaluation of human accuracy at detecting PAI as a reference benchmark. Clarkson University and the University of Notre Dame contributed image datasets for the competition, composed of samples representing seven different PAI categories, as well as baseline PAD algorithms. Fraunhofer IGD, Beijing University of Civil Engineering and Architecture, and Hochschule Darmstadt contributed results for a total of eight PAD algorithms to the competition. Accuracy results are analyzed by different PAI types, and compared to human accuracy. Overall, the Fraunhofer IGD algorithm, using an attention-based pixel-wise binary supervision network, showed the best-weighted accuracy results (average classification error rate of 37.31%), while the Beijing University of Civil Engineering and Architecture's algorithm won when equal weights for each PAI were given (average classification rate of 22.15%). These results suggest that iris PAD is still a challenging problem.
翻訳日:2023-10-12 17:50:18 公開日:2023-10-06
# ニューラルネットワークとスペクトルクラスタリングによる気候モデル大集合体と衛星高度データを用いた多次元海水準予測

Multi-decadal Sea Level Prediction using Neural Networks and Spectral Clustering on Climate Model Large Ensembles and Satellite Altimeter Data ( http://arxiv.org/abs/2310.04540v1 )

ライセンス: Link先を確認
Saumya Sinha, John Fasullo, R. Steven Nerem, Claire Monteleoni(参考訳) 1993年以降の衛星高度計による海面高度観測は、地球平均海水準の上昇率(3.4mm/年)を示している。 平均して海面は過去30年間で10cm上昇しているが、海面の変化にはかなりの地域差がある。 本研究では,今後30年間の海面変動を2度の空間分解能で予測し,海面変動の将来パターンについて検討する。 我々は,この長期海水準予測の挑戦的応用における機械学習(ML)の可能性を示す。 我々のアプローチは、高度観測と気候モデルシミュレーションの両方から海面データを取り入れている。 気候モデル予測に基づいて海面トレンドを予測できる完全連結ニューラルネットワーク(FCNN)を用いた教師あり学習フレームワークを開発した。 また,本手法はml予測に付随する不確実性推定を提供する。 また、空間データセットを分割し、各セグメント領域に専用のMLモデルを学習する効果を示す。 1つはドメイン知識を用いて達成したものであり、もう1つはスペクトルクラスタリングを用いたものである。 この結果から,スペクトルクラスタリングによる空間データセットのセグメンテーションがML予測を改善することが示された。

Sea surface height observations provided by satellite altimetry since 1993 show a rising rate (3.4 mm/year) for global mean sea level. While on average, sea level has risen 10 cm over the last 30 years, there is considerable regional variation in the sea level change. Through this work, we predict sea level trends 30 years into the future at a 2-degree spatial resolution and investigate the future patterns of the sea level change. We show the potential of machine learning (ML) in this challenging application of long-term sea level forecasting over the global ocean. Our approach incorporates sea level data from both altimeter observations and climate model simulations. We develop a supervised learning framework using fully connected neural networks (FCNNs) that can predict the sea level trend based on climate model projections. Alongside this, our method provides uncertainty estimates associated with the ML prediction. We also show the effectiveness of partitioning our spatial dataset and learning a dedicated ML model for each segmented region. We compare two partitioning strategies: one achieved using domain knowledge, and the other employing spectral clustering. Our results demonstrate that segmenting the spatial dataset with spectral clustering improves the ML predictions.
翻訳日:2023-10-12 17:49:53 公開日:2023-10-06
# 特定の逆例の少ない生成はロバストな一般化を改善する

Generating Less Certain Adversarial Examples Improves Robust Generalization ( http://arxiv.org/abs/2310.04539v1 )

ライセンス: Link先を確認
Minxing Zhang, Michael Backes, Xiao Zhang(参考訳) 最近の研究では、ディープニューラルネットワークは敵の例に弱いことが示されている。 モデルのロバスト性を改善するために、多くの防御策が提案されている。 本研究では,強固な過剰フィット現象を再検討する。 特に,より堅牢な一般化能力を持つモデルによって生成される敵のサンプルの予測ラベルが,分布よりもはるかに大きい傾向にあるという経験的観察から,敵の訓練中に生成される過信モデルが潜在的原因である可能性が示唆された。 提案した対向的確実性の定義に基づいて、逆向的トレーニングフレームワークに段階的なステップを組み込んで、より低い確実性で逆向的摂動入力を生成できるモデルを探し出し、より堅牢な一般化を向上する。 我々のアプローチは一般的であり、他の逆行訓練手法と簡単に組み合わせることができる。 画像ベンチマークによる広範囲な実験により,本手法はロバストオーバーフィッティングを効果的に緩和し,ロバスト性が一貫して向上したモデルを生成することができる。

Recent studies have shown that deep neural networks are vulnerable to adversarial examples. Numerous defenses have been proposed to improve model robustness, among which adversarial training is most successful. In this work, we revisit the robust overfitting phenomenon. In particular, we argue that overconfident models produced during adversarial training could be a potential cause, supported by the empirical observation that the predicted labels of adversarial examples generated by models with better robust generalization ability tend to have significantly more even distributions. Based on the proposed definition of adversarial certainty, we incorporate an extragradient step in the adversarial training framework to search for models that can generate adversarially perturbed inputs with lower certainty, further improving robust generalization. Our approach is general and can be easily combined with other variants of adversarial training methods. Extensive experiments on image benchmarks demonstrate that our method effectively alleviates robust overfitting and is able to produce models with consistently improved robustness.
翻訳日:2023-10-12 17:49:35 公開日:2023-10-06
# LLM4DV:大規模言語モデルを用いたハードウェアテスト刺激生成

LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation ( http://arxiv.org/abs/2310.04535v1 )

ライセンス: Link先を確認
Zixi Zhang, Greg Chadwick, Hugo McNally, Yiren Zhao, Robert Mullins(参考訳) テスト刺激生成は、ハードウェア設計の検証において重要だが労働集約的なタスクである。 本稿では,大規模言語モデル(LLM)のパワーを活用し,新しいベンチマークフレームワーク LLM4DV を提案する。 このフレームワークは、LLMからテスト刺激をインタラクティブに引き出すプロンプトテンプレートを導入し、パイプライン実行をサポートし、そのパフォーマンスをさらに向上する4つの革新的なプロンプト改善を導入した。 LLM4DVと従来の制約ランダムテスト(CRT)を3つのDUTモジュールを用いて比較する。 LLM4DVは、基本的な数学的推論と事前学習された知識を活用する能力を利用して、単純なDUTシナリオを効率的に扱うことができる。 複雑なタスク設定では効率が低下するが、それでも相対的にCRTを上回っている。 本実験で使用したフレームワークとDUTモジュールは,公開時にオープンソース化される。

Test stimuli generation has been a crucial but labor-intensive task in hardware design verification. In this paper, we revolutionize this process by harnessing the power of large language models (LLMs) and present a novel benchmarking framework, LLM4DV. This framework introduces a prompt template for interactively eliciting test stimuli from the LLM, along with four innovative prompting improvements to support the pipeline execution and further enhance its performance. We compare LLM4DV to traditional constrained-random testing (CRT), using three self-designed design-under-test (DUT) modules. Experiments demonstrate that LLM4DV excels in efficiently handling straightforward DUT scenarios, leveraging its ability to employ basic mathematical reasoning and pre-trained knowledge. While it exhibits reduced efficiency in complex task settings, it still outperforms CRT in relative terms. The proposed framework and the DUT modules used in our experiments will be open-sourced upon publication.
翻訳日:2023-10-12 17:49:17 公開日:2023-10-06
# ナラティブ・インテリジェンス:創造的なビジュアル・ストーリーテリング・アンソロジー

Envisioning Narrative Intelligence: A Creative Visual Storytelling Anthology ( http://arxiv.org/abs/2310.04529v1 )

ライセンス: Link先を確認
Brett A. Halperin and Stephanie M. Lukin(参考訳) 本稿では,画像シーケンスに基づく即興的なストーリー構築の体系的創造プロセスに参加した著者から,100のビジュアルストーリーのアンソロジーを収集する。 この創造的な視覚的ストーリーテリングの過程における変化を特徴付ける5つのテーマについて述べる。(1) 視覚的ストーリーテリングの過程における変化を物語ること、(2) 対象と対象を動的に特徴付けること、(3) 風景に関する経験的情報をセンシングすること、(4) ムードを変調すること、(5) 物語ビザをエンコードすること。 人々が画像からストーリーを導き出す様々な方法を理解するために、私たちはストーリー駆動学習データを収集し、自動ストーリー生成を知らせる。 それぞれのテーマに対応して,創造性,信頼性,表現力,接地性,責任感といった,コンピュータ的なビジュアルストーリーテリングにおけるナラティブインテリジェンスの基準を想定する。 これらの基準から,クリエイティビティ表現のフォアグラウンド,バイアスの考慮,ビジュアルストーリーワールドの境界での操作について論じる。

In this paper, we collect an anthology of 100 visual stories from authors who participated in our systematic creative process of improvised story-building based on image sequences. Following close reading and thematic analysis of our anthology, we present five themes that characterize the variations found in this creative visual storytelling process: (1) Narrating What is in Vision vs. Envisioning; (2) Dynamically Characterizing Entities/Objects; (3) Sensing Experiential Information About the Scenery; (4) Modulating the Mood; (5) Encoding Narrative Biases. In understanding the varied ways that people derive stories from images, we offer considerations for collecting story-driven training data to inform automatic story generation. In correspondence with each theme, we envision narrative intelligence criteria for computational visual storytelling as: creative, reliable, expressive, grounded, and responsible. From these criteria, we discuss how to foreground creative expression, account for biases, and operate in the bounds of visual storyworlds.
翻訳日:2023-10-12 17:49:03 公開日:2023-10-06
# 深層モデル予測最適化

Deep Model Predictive Optimization ( http://arxiv.org/abs/2310.04590v1 )

ライセンス: Link先を確認
Jacob Sacks, Rwik Rana, Kevin Huang, Alex Spitzer, Guanya Shi, Byron Boots(参考訳) ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。 スペクトルの一方にはモデルフリー強化学習(MFRL)があり、これは信じられないほど柔軟で汎用的であるが、しばしば脆弱なポリシーをもたらす。 対照的に、モデル予測制御(mpc)は、摂動やモデルの不正確さに頑健なまま、各時間ステップで継続的に再計画する。 しかし、実際の成功にもかかわらず、MPCはしばしば最適戦略を過小評価する。 これは、モデル品質、短い計画の地平線からの近視的行動、計算上の制約による近似によるものである。 そして、完璧なモデルと十分な計算量であっても、最適化アルゴリズムの品質に大きく依存して、MPCは悪いローカル最適化で立ち往生する可能性がある。 そこで本研究では,mpc最適化アルゴリズムの内部ループを経験を通して直接学習し,特に制御問題のニーズに合わせて学習する深層モデル予測最適化(dmpo)を提案する。 DMPOを実四重項アジャイル軌道追跡タスクで評価し、与えられた計算予算に対するベースラインMPCアルゴリズムよりも性能を向上させる。 MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。 さらに、DMPOはサンプルが少ないため、4.3倍のメモリでこれらの利点を得ることができる。 誘電体をドラッグプレートを付加した乱流風場に印加した場合、DMPOはゼロショットに適応できるが、全てのベースラインを上回り続ける。 さらなる結果はhttps://tinyurl.com/mr2ywmnwで見ることができる。

A major challenge in robotics is to design robust policies which enable complex and agile behaviors in the real world. On one end of the spectrum, we have model-free reinforcement learning (MFRL), which is incredibly flexible and general but often results in brittle policies. In contrast, model predictive control (MPC) continually re-plans at each time step to remain robust to perturbations and model inaccuracies. However, despite its real-world successes, MPC often under-performs the optimal strategy. This is due to model quality, myopic behavior from short planning horizons, and approximations due to computational constraints. And even with a perfect model and enough compute, MPC can get stuck in bad local optima, depending heavily on the quality of the optimization algorithm. To this end, we propose Deep Model Predictive Optimization (DMPO), which learns the inner-loop of an MPC optimization algorithm directly via experience, specifically tailored to the needs of the control problem. We evaluate DMPO on a real quadrotor agile trajectory tracking task, on which it improves performance over a baseline MPC algorithm for a given computational budget. It can outperform the best MPC algorithm by up to 27% with fewer samples and an end-to-end policy trained with MFRL by 19%. Moreover, because DMPO requires fewer samples, it can also achieve these benefits with 4.3X less memory. When we subject the quadrotor to turbulent wind fields with an attached drag plate, DMPO can adapt zero-shot while still outperforming all baselines. Additional results can be found at https://tinyurl.com/mr2ywmnw.
翻訳日:2023-10-12 17:40:21 公開日:2023-10-06
# Knollingbot:Messyテーブルを整理するためのトランスフォーマーベースのアプローチ

Knolling bot: A Transformer-based Approach to Organizing a Messy Table ( http://arxiv.org/abs/2310.04566v1 )

ライセンス: Link先を確認
Yuhang Hu, Zhizhuo Zhang, Ruibo Liu, Philippe Wyder, Hod Lipson(参考訳) 本研究では,家庭内ロボットに簡単な作業を行う能力を持たせるためのアプローチを提案する。 特に,散在する項目を,空間効率の良い配置に整理する活動である「クノリング」に焦点をあてた。 工業環境の均一性とは異なり、家庭の環境は様々な項目や主観性によって独特な課題を呈している。 そこで我々は,自然言語処理(NLP)からインスピレーションを得て,アイテムの次の位置を正確に位置付けされた項目列で予測するトランスフォーマーベースのアプローチを利用する。 視覚知覚モデルと物理ロボットアームを統合し,様々な形状や大きさのフリーフォームアイテムを分解・整理するマシンを実演する。

In this study, we propose an approach to equip domestic robots with the ability to perform simple household tidying tasks. We focus specifically on 'knolling,' an activity related to organizing scattered items into neat and space-efficient arrangements. Unlike the uniformity of industrial environments, household settings present unique challenges due to their diverse array of items and the subjectivity of tidiness. Here, we draw inspiration from natural language processing (NLP) and utilize a transformer-based approach that predicts the next position of an item in a sequence of neatly positioned items. We integrate the knolling model with a visual perception model and a physical robot arm to demonstrate a machine that declutters and organizes a dozen freeform items of various shapes and sizes.
翻訳日:2023-10-12 17:39:41 公開日:2023-10-06
# バイナリ量子化とデータセットシフト:実験的検討

Binary Quantification and Dataset Shift: An Experimental Investigation ( http://arxiv.org/abs/2310.04565v1 )

ライセンス: Link先を確認
Pablo Gonz\'alez and Alejandro Moreo and Fabrizio Sebastiani(参考訳) 定量化とは、教師付き学習タスクであり、教師なしデータの集合のクラス有病率の予測子で構成され、予測子を訓練したラベル付きデータとラベルなしデータとがiidではない場合、すなわちデータセットシフトに苦しむ場合、特に興味を持つ。 これまで、量子化法は、データセットシフト(すなわち、前の確率シフト)の特別な場合のみでテストされてきた。 本研究では,現行手法の限界を特定し,より広く適用可能な手法の開発への道筋を拓くため,異なる種類のデータセットシフトの下で現在の定量化アルゴリズムがどのように振る舞うかを実験的に解析する。 我々は、データセットシフトの種類をきめ細かい分類法を提案し、このようなシフトに影響を受けるデータセットを生成するためのプロトコルを確立し、それによって生成されたデータセットの既存の定量化方法をテストする。 この研究から得られた1つの発見は、以前の確率シフトでロバストであることが判明した既存の多くの定量化手法が、必ずしも他の種類のデータセットシフトにロバストではないことである。 2つ目の発見は、我々が実験でシミュレートしたすべてのタイプのデータセットシフトを処理するのに十分な堅牢性を持つ、既存の定量化方法がないことです。 すべての実験を再現するために必要なコードは、https://github.com/pglez82/quant_datasetshiftで公開されています。

Quantification is the supervised learning task that consists of training predictors of the class prevalence values of sets of unlabelled data, and is of special interest when the labelled data on which the predictor has been trained and the unlabelled data are not IID, i.e., suffer from dataset shift. To date, quantification methods have mostly been tested only on a special case of dataset shift, i.e., prior probability shift; the relationship between quantification and other types of dataset shift remains, by and large, unexplored. In this work we carry out an experimental analysis of how current quantification algorithms behave under different types of dataset shift, in order to identify limitations of current approaches and hopefully pave the way for the development of more broadly applicable methods. We do this by proposing a fine-grained taxonomy of types of dataset shift, by establishing protocols for the generation of datasets affected by these types of shift, and by testing existing quantification methods on the datasets thus generated. One finding that results from this investigation is that many existing quantification methods that had been found robust to prior probability shift are not necessarily robust to other types of dataset shift. A second finding is that no existing quantification method seems to be robust enough to dealing with all the types of dataset shift we simulate in our experiments. The code needed to reproduce all our experiments is publicly available at https://github.com/pglez82/quant_datasetshift.
翻訳日:2023-10-12 17:39:26 公開日:2023-10-06
# ReLUが逆戻り:大規模言語モデルでアクティベーションスパリティを爆発させる

ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models ( http://arxiv.org/abs/2310.04564v1 )

ライセンス: Link先を確認
Iman Mirzadeh, Keivan Alizadeh, Sachin Mehta, Carlo C Del Mundo, Oncel Tuzel, Golnoosh Samei, Mohammad Rastegari, Mehrdad Farajtabar(参考訳) 数十億のパラメータを持つ大規模言語モデル(llm)は、aiアプリケーションを大きく変えた。 しかし、推論中に要求される計算は、リソースに制約のあるデバイスに展開する上で大きな課題を引き起こしている。 GELUやSiLUなどの代替活性化関数を支持する最近の傾向は計算量の増加で知られているが、この研究はLLMにおけるReLU活性化の復活を強く提唱している。 reluアクティベーション関数は計算量と重量移動量を大幅に削減しながら、収束と性能に無視できない影響を与える。 この削減は、効率が最重要となるメモリバウンド推論ステップにおいて特に有用である。 本稿では, ReLU ベースの LLM における空間パターンを探索し, 新たなトークンの生成と洞察の活用のために活性化ニューロンの再利用を明らかにし, 性能トレードオフを最小限に抑えた ReLU アクティベーションを用いて, LLM の推論計算を3倍に削減する実践的戦略を提案する。

Large Language Models (LLMs) with billions of parameters have drastically transformed AI applications. However, their demanding computation during inference has raised significant challenges for deployment on resource-constrained devices. Despite recent trends favoring alternative activation functions such as GELU or SiLU, known for increased computation, this study strongly advocates for reinstating ReLU activation in LLMs. We demonstrate that using the ReLU activation function has a negligible impact on convergence and performance while significantly reducing computation and weight transfer. This reduction is particularly valuable during the memory-bound inference step, where efficiency is paramount. Exploring sparsity patterns in ReLU-based LLMs, we unveil the reutilization of activated neurons for generating new tokens and leveraging these insights, we propose practical strategies to substantially reduce LLM inference computation up to three times, using ReLU activations with minimal performance trade-offs.
翻訳日:2023-10-12 17:39:03 公開日:2023-10-06
# 知識グラフ推論の基礎モデルに向けて

Towards Foundation Models for Knowledge Graph Reasoning ( http://arxiv.org/abs/2310.04562v1 )

ライセンス: Link先を確認
Mikhail Galkin, Xinyu Yuan, Hesham Mostafa, Jian Tang, Zhaocheng Zhu(参考訳) 言語および視覚の基盤モデルは、言語におけるトークンの語彙のような転送可能な表現のおかげで、任意のテキストおよび視覚入力で推論を実行することができる。 知識グラフ(KG)は、一般に重複しない異なる実体と関係語彙を持つ。 KGs の基本モデルを設計する上で鍵となる課題は、任意の実体と関係語彙を持つ任意のグラフ上の推論を可能にするような変換可能な表現を学ぶことである。 本研究では,そのような基礎モデルへの一歩を踏み出し,普遍的および移動可能なグラフ表現を学習するためのアプローチであるULTRAを提示する。 ULTRAはリレーショナル表現を、それらの相互作用に条件付けられた関数として構築する。 このような条件付け戦略により、事前訓練されたULTRAモデルは任意の関係語彙を持つ任意の未知のKGに誘導的に一般化し、任意のグラフ上で微調整することができる。 57種類の異なるkgのリンク予測実験を行った結果,未観測のグラフ上の単一事前学習されたウルトラモデルのゼロショットインダクティブ推論性能は,特定のグラフで訓練された強いベースラインと同等かそれ以上であることが判明した。 微調整はパフォーマンスをさらに向上させる。

Foundation models in language and vision have the ability to run inference on any textual and visual inputs thanks to the transferable representations such as a vocabulary of tokens in language. Knowledge graphs (KGs) have different entity and relation vocabularies that generally do not overlap. The key challenge of designing foundation models on KGs is to learn such transferable representations that enable inference on any graph with arbitrary entity and relation vocabularies. In this work, we make a step towards such foundation models and present ULTRA, an approach for learning universal and transferable graph representations. ULTRA builds relational representations as a function conditioned on their interactions. Such a conditioning strategy allows a pre-trained ULTRA model to inductively generalize to any unseen KG with any relation vocabulary and to be fine-tuned on any graph. Conducting link prediction experiments on 57 different KGs, we find that the zero-shot inductive inference performance of a single pre-trained ULTRA model on unseen graphs of various sizes is often on par or better than strong baselines trained on specific graphs. Fine-tuning further boosts the performance.
翻訳日:2023-10-12 17:38:46 公開日:2023-10-06
# DragD3D:2次元拡散プリミティブを用いた実効性メッシュ変形のための頂点ベース編集

DragD3D: Vertex-based Editing for Realistic Mesh Deformations using 2D Diffusion Priors ( http://arxiv.org/abs/2310.04561v1 )

ライセンス: Link先を確認
Tianhao Xie, Eugene Belilovsky, Sudhir Mudur, Tiberiu Popa(参考訳) 直接メッシュ編集と変形は幾何学的モデリングとアニメーションパイプラインの重要なコンポーネントである。 直接メッシュ編集法は、通常、ユーザ指定の頂点制約と他の頂点の位置を決定する正規化器を組み合わせた最適化問題としてフレーム化される。 正則化器の選択は、最終的な結果の現実性と信頼性の鍵となる。 物理と幾何学に基づく正規化器は、対象のグローバルな文脈や意味を意識せず、より最近のディープラーニングの先行は、特定の3次元オブジェクトの変形のクラスに限られる。 本研究では,いくつかの頂点を直接操作することで,グローバルコンテキストを認識可能な現実的な変形を実現するために,dugd3dと呼ばれる局所メッシュ編集手法を提案する。 DragD3Dは任意の種類のオブジェクトに制限されない。 これは、古典幾何学的ARAP正規化器と大規模拡散モデルから得られた2次元先行値を組み合わせることで実現される。 具体的には、微分可能なレンダラを用いて複数の視点からオブジェクトをレンダリングし、最近導入されたDDS損失を用いて、画像の忠実度を拡散モデルから評価する。 DragD3Dは、DDSの近似勾配とARAP損失からの勾配を組み合わせて、神経ジャコビアン場を介してメッシュ頂点を修正し、頂点制約を満たす。 我々の変形は, 物体のグローバルな文脈を現実的に認識し, 幾何学的正則化よりも優れた結果が得られることを示す。

Direct mesh editing and deformation are key components in the geometric modeling and animation pipeline. Direct mesh editing methods are typically framed as optimization problems combining user-specified vertex constraints with a regularizer that determines the position of the rest of the vertices. The choice of the regularizer is key to the realism and authenticity of the final result. Physics and geometry-based regularizers are not aware of the global context and semantics of the object, and the more recent deep learning priors are limited to a specific class of 3D object deformations. In this work, our main contribution is a local mesh editing method called DragD3D for global context-aware realistic deformation through direct manipulation of a few vertices. DragD3D is not restricted to any class of objects. It achieves this by combining the classic geometric ARAP (as rigid as possible) regularizer with 2D priors obtained from a large-scale diffusion model. Specifically, we render the objects from multiple viewpoints through a differentiable renderer and use the recently introduced DDS loss which scores the faithfulness of the rendered image to one from a diffusion model. DragD3D combines the approximate gradients of the DDS with gradients from the ARAP loss to modify the mesh vertices via neural Jacobian field, while also satisfying vertex constraints. We show that our deformations are realistic and aware of the global context of the objects, and provide better results than just using geometric regularizers.
翻訳日:2023-10-12 17:38:27 公開日:2023-10-06
# グラフのように話す: 大きな言語モデルのためのグラフをエンコードする

Talk like a Graph: Encoding Graphs for Large Language Models ( http://arxiv.org/abs/2310.04560v1 )

ライセンス: Link先を確認
Bahare Fatemi, Jonathan Halcrow, Bryan Perozzi(参考訳) グラフは、ソーシャルネットワーク、レコメンダシステム、計算ファイナンスといった現実世界のアプリケーションにおける複雑な関係を表現および分析するための強力なツールである。 グラフ上の推論は、複雑なシステム内のエンティティ間の関係を推論し、隠れたパターンやトレンドを特定するために不可欠である。 自然文による自動推論の顕著な進歩にもかかわらず、大きな言語モデル(LLM)を持つグラフの推論は未検討の問題である。 本研究は,LLMによる消費用テキストとしてグラフ構造化データを符号化する最初の総合的研究である。 グラフ解析におけるLCMの性能は,(1)グラフ符号化法,(2)グラフ処理自体の性質,(3)興味深いことに,考慮されたグラフの構造の3つの基本レベルによって異なることを示す。 これらの新たな結果は、グラフをテキストとしてエンコーディングする戦略に関する貴重な洞察を提供する。 これらの知見を用いて、エンコーダの正しい選択が、タスクに応じてLSM内のグラフ推論タスクのパフォーマンスを4.8%から61.8%向上させる方法について説明する。

Graphs are a powerful tool for representing and analyzing complex relationships in real-world applications such as social networks, recommender systems, and computational finance. Reasoning on graphs is essential for drawing inferences about the relationships between entities in a complex system, and to identify hidden patterns and trends. Despite the remarkable progress in automated reasoning with natural text, reasoning on graphs with large language models (LLMs) remains an understudied problem. In this work, we perform the first comprehensive study of encoding graph-structured data as text for consumption by LLMs. We show that LLM performance on graph reasoning tasks varies on three fundamental levels: (1) the graph encoding method, (2) the nature of the graph task itself, and (3) interestingly, the very structure of the graph considered. These novel results provide valuable insight on strategies for encoding graphs as text. Using these insights we illustrate how the correct choice of encoders can boost performance on graph reasoning tasks inside LLMs by 4.8% to 61.8%, depending on the task.
翻訳日:2023-10-12 17:38:05 公開日:2023-10-06
# VTON-IT:画像翻訳による仮想トライオン

VTON-IT: Virtual Try-On using Image Translation ( http://arxiv.org/abs/2310.04558v1 )

ライセンス: Link先を確認
Santosh Adhikari, Bishnu Bhusal, Prashant Ghimire, Anil Shrestha(参考訳) 仮想試着(仮想服の試着)はGAN(Generative Adversarial Network)の有望な応用である。 しかし、体の大きさ、ポーズ、髪や重ね合わせの服のような閉塞などにより、所望の衣服を人体の対応する部位に移すことは大変な作業である。 本稿では,セマンティックセグメンテーションと生成的対向的アーキテクチャに基づく画像翻訳ネットワークを用いて,写真リアルな翻訳画像を作成する。 本稿では,rgb画像を取り,所望の体部をセグメンテーションし,対象布をセグメンテッドボディ領域にオーバーレイする,新たなイメージベース仮想トライオンアプリケーションvton-itを提案する。 最先端のGANベースのVirtual Try-Onアプリケーションは、実際のテスト画像上で不整合合成画像を生成する。 しかし,本手法では,高精細なテクスチャを有する高分解能自然画像を生成する。

Virtual Try-On (trying clothes virtually) is a promising application of the Generative Adversarial Network (GAN). However, it is an arduous task to transfer the desired clothing item onto the corresponding regions of a human body because of varying body size, pose, and occlusions like hair and overlapped clothes. In this paper, we try to produce photo-realistic translated images through semantic segmentation and a generative adversarial architecture-based image translation network. We present a novel image-based Virtual Try-On application VTON-IT that takes an RGB image, segments desired body part, and overlays target cloth over the segmented body region. Most state-of-the-art GAN-based Virtual Try-On applications produce unaligned pixelated synthesis images on real-life test images. However, our approach generates high-resolution natural images with detailed textures on such variant images.
翻訳日:2023-10-12 17:37:48 公開日:2023-10-06
# テキスト説明における情報計測

Measuring Information in Text Explanations ( http://arxiv.org/abs/2310.04557v1 )

ライセンス: Link先を確認
Zining Zhu, Frank Rudzicz(参考訳) テキストベースの説明は、説明可能なaiにおいて特に有望なアプローチであるが、テキスト説明の評価はメソッド依存である。 我々は、情報理論の枠組みに説明を配置することで、理性と自然言語の説明(NLE)という2つの一般的なテキスト説明手法の評価を統一できると主張している。 このフレームワークでは、ポストホックなテキストパイプラインを一連の通信チャネルとして捉えており、これを ``explanation channels'' と呼ぶ。 これらのチャネルを流れる情報の流れを定量化し、説明特性の評価を容易にする。 我々は2つの情報スコアを定量化するツールを構築した。 提案した情報スコアは,従来の評価指標と比較することで測定する。 情報理論的なスコアは,2つの代表的なテキスト説明の根底にあるメカニズムに関するユニークな観察を明らかにした。 例えば、NLEは入力関連情報とターゲット関連情報とをわずかに交わすが、理論的にはそのようなトレードオフ機構は示さない。 我々の研究は、説明可能なAIの急速に発展する分野において、厳格で標準化された評価基準を確立するための継続的な努力に貢献している。

Text-based explanation is a particularly promising approach in explainable AI, but the evaluation of text explanations is method-dependent. We argue that placing the explanations on an information-theoretic framework could unify the evaluations of two popular text explanation methods: rationale and natural language explanations (NLE). This framework considers the post-hoc text pipeline as a series of communication channels, which we refer to as ``explanation channels''. We quantify the information flow through these channels, thereby facilitating the assessment of explanation characteristics. We set up tools for quantifying two information scores: relevance and informativeness. We illustrate what our proposed information scores measure by comparing them against some traditional evaluation metrics. Our information-theoretic scores reveal some unique observations about the underlying mechanisms of two representative text explanations. For example, the NLEs trade-off slightly between transmitting the input-related information and the target-related information, whereas the rationales do not exhibit such a trade-off mechanism. Our work contributes to the ongoing efforts in establishing rigorous and standardized evaluation criteria in the rapidly evolving field of explainable AI.
翻訳日:2023-10-12 17:37:33 公開日:2023-10-06
# セグメンテッド・ハーモニック・ロス:大規模言語モデルを用いた医療符号化のためのクラス不均衡多ラベル臨床データ処理

Segmented Harmonic Loss: Handling Class-Imbalanced Multi-Label Clinical Data for Medical Coding with Large Language Models ( http://arxiv.org/abs/2310.04595v1 )

ライセンス: Link先を確認
Surjya Ray, Pratik Mehta, Hongen Zhang, Ada Chaman, Jian Wang, Chung-Jen Ho, Michael Chiou, Tashfeen Suleman(参考訳) 大規模言語モデル(llm)の普及と普及は、歴史上最も早い消費者向け技術の採用率で、期待を砕いた。 伝統的にNLP技術を使っている医療は、この隕石の上昇の影響を受けている。 本稿では,実生活雑音データに基づく医療用符号化作業におけるLCMの性能評価により,その影響範囲を計測する。 BERT などのエンコーダを用いた LLM を用いたMIMIC III および IV データセットの実験を行った。 さらに,新しいセグメンテーションアルゴリズムを用いてデータセットの共起クラスをセグメンテーションし,分離することにより,マルチラベルシナリオにおいて,ほとんどの医療データに共通する極小クラス不均衡に対処するための新しい損失関数であるsegmented harmonic lossを開発した。 また,ノイズの多いデータに類似性を埋め込む手法も考案した。 提案した損失をトレーニングすると,LLMはノイズの多い長い尾のデータセットでも顕著な性能向上を達成し,最先端のF1スコアを10ポイント以上上回る結果となった。

The precipitous rise and adoption of Large Language Models (LLMs) have shattered expectations with the fastest adoption rate of any consumer-facing technology in history. Healthcare, a field that traditionally uses NLP techniques, was bound to be affected by this meteoric rise. In this paper, we gauge the extent of the impact by evaluating the performance of LLMs for the task of medical coding on real-life noisy data. We conducted several experiments on MIMIC III and IV datasets with encoder-based LLMs, such as BERT. Furthermore, we developed Segmented Harmonic Loss, a new loss function to address the extreme class imbalance that we found to prevail in most medical data in a multi-label scenario by segmenting and decoupling co-occurring classes of the dataset with a new segmentation algorithm. We also devised a technique based on embedding similarity to tackle noisy data. Our experimental results show that when trained with the proposed loss, the LLMs achieve significant performance gains even on noisy long-tailed datasets, outperforming the F1 score of the state-of-the-art by over ten percentage points.
翻訳日:2023-10-12 17:31:53 公開日:2023-10-06
# ニュアンスからニュースセンスへ:クロスドキュメントのエビデンスとコンテキストによるニュースの増大

From Nuisance to News Sense: Augmenting the News with Cross-Document Evidence and Context ( http://arxiv.org/abs/2310.04592v1 )

ライセンス: Link先を確認
Jeremiah Milbauer, Ziqi Ding, Zhijin Wu, Tongshuang Wu(参考訳) ニュースの中で物語を読み、理解することはますます困難になっている。 ニュースの報道は急速に発展し、政治的なニュース会場は異なる視点(時には異なる事実)を提供し、誤報は急増している。 しかし、既存のソリューションは、異なるニュースメディア、ソーシャルメディア、ニュースバイアス評価機関などの異種情報源からの圧倒的な量の情報を集約するだけである。 我々は,参照なし事実検証の形式を用いて,複数のニュース記事から情報を収集し,統合するための,新しいセンス作成ツールであるNEWSSENSEについて紹介する。 NEWSSENSEは、異なるソースからの関連記事とリンクすることで、ユーザー選択の中心的で根拠のある記事を強化し、選択した記事の特定のクレームが、他の記事の情報によってどのように支持されるか、あるいは矛盾するかについてインラインハイライトを提供する。 NEWSSENSEを使えば、ユーザは自然の読みの流れを邪魔することなく、シームレスに複数の情報ソースをダイジェストし、クロスチェックすることができる。 我々のパイロット研究は、NEWSSENSEがユーザーが重要な情報を識別し、ニュース記事の信頼性を確認し、異なる視点を探索するのに役立つ可能性を示唆している。

Reading and understanding the stories in the news is increasingly difficult. Reporting on stories evolves rapidly, politicized news venues offer different perspectives (and sometimes different facts), and misinformation is rampant. However, existing solutions merely aggregate an overwhelming amount of information from heterogenous sources, such as different news outlets, social media, and news bias rating agencies. We present NEWSSENSE, a novel sensemaking tool and reading interface designed to collect and integrate information from multiple news articles on a central topic, using a form of reference-free fact verification. NEWSSENSE augments a central, grounding article of the user's choice by linking it to related articles from different sources, providing inline highlights on how specific claims in the chosen article are either supported or contradicted by information from other articles. Using NEWSSENSE, users can seamlessly digest and cross-check multiple information sources without disturbing their natural reading flow. Our pilot study shows that NEWSSENSE has the potential to help users identify key information, verify the credibility of news articles, and explore different perspectives.
翻訳日:2023-10-12 17:31:29 公開日:2023-10-06
# 平等な機会が統計的差別に及ぼす影響

The Impact of Equal Opportunity on Statistical Discrimination ( http://arxiv.org/abs/2310.04585v1 )

ライセンス: Link先を確認
John Y. Zhu(参考訳) 私は、Coate and Loury(1993)の標準統計識別モデルを変更し、個人の未観測クラスに対する会社の信念が機械学習によって生成され、従って契約可能であると仮定する。 これにより、肯定的な行動のような信念のない規制を超えて、レギュレータのツールキットを広げる。 契約可能な信念は、アルゴリズム的公正性文学が「平等機会」と呼ぶ、グループ間で真の正の利率を等しくする決定ポリシーを選択することを、企業が要求することを容易にする。 肯定的な行動は必ずしも統計的差別を終わらせるわけではないが、私は平等な機会を与えることが示している。

I modify the canonical statistical discrimination model of Coate and Loury (1993) by assuming the firm's belief about an individual's unobserved class is machine learning-generated and, therefore, contractible. This expands the toolkit of a regulator beyond belief-free regulations like affirmative action. Contractible beliefs make it feasible to require the firm to select a decision policy that equalizes true positive rates across groups -- what the algorithmic fairness literature calls equal opportunity. While affirmative action does not necessarily end statistical discrimination, I show that imposing equal opportunity does.
翻訳日:2023-10-12 17:31:07 公開日:2023-10-06
# 非制限連続離散型形態素ニューラルネットワークの学習アルゴリズム

An Algorithm to Train Unrestricted Sequential Discrete Morphological Neural Networks ( http://arxiv.org/abs/2310.04584v1 )

ライセンス: Link先を確認
Diego Marcondes, Mariana Feldman and Junior Barrera(参考訳) ディープラーニングの出現に伴い、数学的形態学演算子(MM)を畳み込みニューラルネットワーク(CNN)に挿入する試みが試みられ、これまでで最も成功したのが形態学ニューラルネットワーク(MNN)である。 MNNはいくつかの問題を解決する際にCNNよりも優れているが、ブラックボックスの性質を継承している。 さらに、バイナリ画像の場合、それらは近似であり、MM演算子のブール格子構造を緩めるため、所望の特性を持つ特定のW-演算子のクラスを表現することはできない。 本研究では,w-operatorsの特定クラスを表現し,機械学習により推定する2値画像変換のための離散形態的ニューラルネットワーク(dmnn)を提案する。 また,正規離散型モルフォロジーニューラルネットワーク (CDMNN) のパラメータを学習するための確率勾配勾配降下アルゴリズム (SLGDA) も提案した。 本稿では,一般W-演算子の構成によりアーキテクチャが与えられる制約のない連続DMNN(USDMNN)を学習するアルゴリズムを提案する。 我々は、w-演算子の特徴的なブール関数による表現を考え、関数のブール格子のslgdaを通してそれを学習する。 CDMNNとUSDMNNはどちらもブール格子構造を持っているが、USDMNNは問題の事前情報に依存しておらず、実践者が強いドメイン知識を持っていない場合により適している可能性がある。 このアルゴリズムを実例で説明する。

With the advent of deep learning, there have been attempts to insert mathematical morphology (MM) operators into convolutional neural networks (CNN), and the most successful endeavor to date has been the morphological neural networks (MNN). Although MNN have performed better than CNN in solving some problems, they inherit their black-box nature. Furthermore, in the case of binary images, they are approximations, which loose the Boolean lattice structure of MM operators and, thus, it is not possible to represent a specific class of W-operators with desired properties. In a recent work, we proposed the Discrete Morphological Neural Networks (DMNN) for binary image transformation to represent specific classes of W-operators and estimate them via machine learning. We also proposed a stochastic lattice gradient descent algorithm (SLGDA) to learn the parameters of Canonical Discrete Morphological Neural Networks (CDMNN), whose architecture is composed only of operators that can be decomposed as the supremum, infimum, and complement of erosions and dilations. In this paper, we propose an algorithm to learn unrestricted sequential DMNN (USDMNN), whose architecture is given by the composition of general W-operators. We consider the representation of a W-operator by its characteristic Boolean function, and then learn it via a SLGDA in the Boolean lattice of functions. Although both the CDMNN and USDMNN have the Boolean lattice structure, USDMNN are not as dependent on prior information about the problem at hand, and may be more suitable in instances in which the practitioner does not have strong domain knowledge. We illustrate the algorithm in a practical example.
翻訳日:2023-10-12 17:30:59 公開日:2023-10-06
# 物理制御のためのユニバーサルヒューマノイド運動表現

Universal Humanoid Motion Representations for Physics-Based Control ( http://arxiv.org/abs/2310.04582v1 )

ライセンス: Link先を確認
Zhengyi Luo, Jinkun Cao, Josh Merel, Alexander Winkler, Jing Huang, Kris Kitani, Weipeng Xu(参考訳) 物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。 ヒューマノイド制御の高次元性や強化学習の難しさから、従来の手法では、特定の動きデータセットから限られた動きスタイル(例えば、移動、ゲームキャラクタ)の学習スキル埋め込みに焦点が当てられていた。 この制限されたスコープは複雑なタスクに適用性を損なう。 私たちの作品は、このギャップを閉じ、動きの表現空間の範囲を大きく増加させています。 これを実現するために、我々はまず、大きな非構造運動データセットから人間のすべての動きを模倣できる運動模倣機を学習する。 そして、イミテータから直接スキルを蒸留することで、動きの表現を作ります。 これは変分情報ボトルネックを持つエンコーダ・デコーダ構造を用いて達成される。 さらに,プロピオセプション(ヒューマノイドの姿勢と速度)に基づく事前条件を共同学習し,下流タスクのモデル表現力とサンプリング効率を向上させる。 前者からのサンプリングでは、長く、安定し、多様な人間の動きを生成できる。 階層的RLのこの潜在空間を用いて、我々のポリシーは自然で現実的な人間の行動を用いてタスクを解く。 本研究では,vrコントローラを用いた生成的タスク(ストライク,地形トラバーサルなど)と動き追跡を解決し,運動表現の有効性を示す。

We present a universal motion representation that encompasses a comprehensive range of motor skills for physics-based humanoid control. Due to the high-dimensionality of humanoid control as well as the inherent difficulties in reinforcement learning, prior methods have focused on learning skill embeddings for a narrow range of movement styles (e.g. locomotion, game characters) from specialized motion datasets. This limited scope hampers its applicability in complex tasks. Our work closes this gap, significantly increasing the coverage of motion representation space. To achieve this, we first learn a motion imitator that can imitate all of human motion from a large, unstructured motion dataset. We then create our motion representation by distilling skills directly from the imitator. This is achieved using an encoder-decoder structure with a variational information bottleneck. Additionally, we jointly learn a prior conditioned on proprioception (humanoid's own pose and velocities) to improve model expressiveness and sampling efficiency for downstream tasks. Sampling from the prior, we can generate long, stable, and diverse human motions. Using this latent space for hierarchical RL, we show that our policies solve tasks using natural and realistic human behavior. We demonstrate the effectiveness of our motion representation by solving generative tasks (e.g. strike, terrain traversal) and motion tracking using VR controllers.
翻訳日:2023-10-12 17:30:29 公開日:2023-10-06
# マルチエージェント強化学習における局所整合オンライン適応のための自己確認トランスフォーマー

Self-Confirming Transformer for Locally Consistent Online Adaptation in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2310.04579v1 )

ライセンス: Link先を確認
Tao Li, Juan Guevara, Xinghong Xie, and Quanyan Zhu(参考訳) オフライン強化学習(RL)は、以前に収集したデータを利用して、オンライン環境における満足度の高いパフォーマンスを返すポリシーを抽出する。 しかし、オフラインRLはオフラインデータセットとオンライン環境の間の分散シフトに悩まされている。 マルチエージェントRL(MARL)設定では、この分散シフトはオフラインデータセットに記録されたものと異なる振る舞いを示すオンラインテストにおいて、非定常的(制御以外の外在的エージェント)から生じる可能性がある。 したがって、オフラインMARLのより広範な展開の鍵は、静止しない相手へのオンライン適応である。 大規模言語モデルの最近の進歩は、シーケンスモデリングにおけるトランスフォーマーアーキテクチャの驚くべき一般化能力を示しており、オンラインテスト中にオフライントレーニングされたトランスフォーマーポリシーが非定常相手に適応するかどうかを疑問視する。 本研究は,ゲーム理論における自己確認平衡(SCE)の動機となるオンライン非定常性に対処するため,オフライン変圧器訓練における自己確認損失(SCL)を提案する。 ジストは、トランスフォーマーが、その動作に基づいて相手の将来の動きを予測することを学ぶことである。 nash平衡(ne)の弱い変種として、sce(scl)は局所的一貫性のみを必要とする: エージェントの局所的観測はその予想から逸脱せず、neが大域的最適性に焦点を絞ったものよりも適応可能な方針をもたらす。 我々は、ランダムなものからベンチマークMARLポリシーまで、様々なポリシーを用いて非定常的相手と対戦することで、自己確認変換器(SCT)のオンライン適応性を評価する。 実験の結果、SCTは非定常相手にオンラインで適応でき、バニラ変圧器やオフラインMARLベースラインよりも高いリターンが得られることが示された。

Offline reinforcement learning (RL) leverages previously collected data to extract policies that return satisfying performance in online environments. However, offline RL suffers from the distribution shift between the offline dataset and the online environment. In the multi-agent RL (MARL) setting, this distribution shift may arise from the nonstationary opponents (exogenous agents beyond control) in the online testing who display distinct behaviors from those recorded in the offline dataset. Hence, the key to the broader deployment of offline MARL is the online adaptation to nonstationary opponents. Recent advances in large language models have demonstrated the surprising generalization ability of the transformer architecture in sequence modeling, which prompts one to wonder \textit{whether the offline-trained transformer policy adapts to nonstationary opponents during online testing}. This work proposes the self-confirming loss (SCL) in offline transformer training to address the online nonstationarity, which is motivated by the self-confirming equilibrium (SCE) in game theory. The gist is that the transformer learns to predict the opponents' future moves based on which it acts accordingly. As a weaker variant of Nash equilibrium (NE), SCE (equivalently, SCL) only requires local consistency: the agent's local observations do not deviate from its conjectures, leading to a more adaptable policy than the one dictated by NE focusing on global optimality. We evaluate the online adaptability of the self-confirming transformer (SCT) by playing against nonstationary opponents employing a variety of policies, from the random one to the benchmark MARL policies. Experimental results demonstrate that SCT can adapt to nonstationary opponents online, achieving higher returns than vanilla transformers and offline MARL baselines.
翻訳日:2023-10-12 17:30:05 公開日:2023-10-06
# TNDDR:テスト陰性設計による新型コロナウイルスワクチンの有効性の効率的かつ二重性評価

TNDDR: Efficient and doubly robust estimation of COVID-19 vaccine effectiveness under the test-negative design ( http://arxiv.org/abs/2310.04578v1 )

ライセンス: Link先を確認
Cong Jiang, Denis Talbot, Sara Carazo, Mireille E Schnitzer(参考訳) 季節性インフルエンザワクチンの有効性の監視に日常的に使用されるテスト陰性設計(TND)は、最近新型コロナウイルスワクチンの監視に不可欠なものとなっているが、結果依存サンプリングによる選択バイアスの影響を受けやすい。 tnd下での因果パラメータの同定可能性と推定にいくつかの研究が取り組まれているが、未確定性仮定の下での目標パラメータの非パラメトリック推定器の効率限界はまだ調査されていない。 そこで本研究では,tnddr (tnd doubly robust) と呼ばれる1ステップ2重ロバストかつ局所効率の良い推定器を提案する。 我々は、ワクチン接種介入による結果の限界期待に対する効率的な影響関数(EIF)を導出し、フォン・ミゼスの展開を探索し、$\sqrt{n}-$一貫性、漸近正規性とTNDDRの二重堅牢性について条件を確立する。 提案したTNDDRは, 理論的および実証的な正当性の両方で支持され, カナダ・クエベック州における地域在住高齢者の管理データセットに, COVID-19 VEを推定する。

While the test-negative design (TND), which is routinely used for monitoring seasonal flu vaccine effectiveness (VE), has recently become integral to COVID-19 vaccine surveillance, it is susceptible to selection bias due to outcome-dependent sampling. Some studies have addressed the identifiability and estimation of causal parameters under the TND, but efficiency bounds for nonparametric estimators of the target parameter under the unconfoundedness assumption have not yet been investigated. We propose a one-step doubly robust and locally efficient estimator called TNDDR (TND doubly robust), which utilizes sample splitting and can incorporate machine learning techniques to estimate the nuisance functions. We derive the efficient influence function (EIF) for the marginal expectation of the outcome under a vaccination intervention, explore the von Mises expansion, and establish the conditions for $\sqrt{n}-$consistency, asymptotic normality and double robustness of TNDDR. The proposed TNDDR is supported by both theoretical and empirical justifications, and we apply it to estimate COVID-19 VE in an administrative dataset of community-dwelling older people (aged $\geq 60$y) in the province of Qu\'ebec, Canada.
翻訳日:2023-10-12 17:29:28 公開日:2023-10-06
# プルーニングは大規模言語モデルをより効率的にできるか?

Can pruning make Large Language Models more efficient? ( http://arxiv.org/abs/2310.04573v1 )

ライセンス: Link先を確認
Sia Gholami, Marwan Omar(参考訳) トランスフォーマーモデルは、複雑なコンテキスト関係を把握できる非並列性を持つ自然言語処理に革命をもたらした。 しかしながら、これらのモデルにおける膨大なパラメータは、計算効率、環境影響、リソース制限されたプラットフォームへのデプロイ性に関する懸念を提起している。 これらの課題に対処するために,トランスフォーマーアーキテクチャの最適化戦略として,モデルパラメータの戦略的削減という重み付けの適用について検討する。 広範な実験を通じて,モデル性能,サイズ,計算要求に対する影響を強調し,様々な刈り取り手法を考察した。 以上の結果から, プルーニングハイパーパラメータの偏選択により, モデルサイズの大幅な縮小が達成でき, 性能にかなりの妥協が生じることが示唆された。 さらに, プレニング後の微調整戦略と組み合わせることで, 改良された一般化能力を示すプルーニングモデルもある。 この研究は、モデル効率とパフォーマンスのギャップを埋め、よりスケーラブルで環境に責任のあるディープラーニングアプリケーションへの道を開くことを目指している。

Transformer models have revolutionized natural language processing with their unparalleled ability to grasp complex contextual relationships. However, the vast number of parameters in these models has raised concerns regarding computational efficiency, environmental impact, and deployability on resource-limited platforms. To address these challenges, this paper investigates the application of weight pruning-a strategic reduction of model parameters based on their significance-as an optimization strategy for Transformer architectures. Through extensive experimentation, we explore various pruning methodologies, highlighting their impact on model performance, size, and computational demands. Our findings suggest that with judicious selection of pruning hyperparameters, significant reductions in model size are attainable without considerable compromise on performance. Moreover, when coupled with post-pruning fine-tuning strategies, some pruned models even exhibit enhanced generalization capabilities. This work seeks to bridge the gap between model efficiency and performance, paving the way for more scalable and environmentally responsible deep learning applications.
翻訳日:2023-10-12 17:28:47 公開日:2023-10-06
# 利益:フェデレーション・プロンプト・チューニングにおけるパーソナライゼーションとロバスト性トレードオフ

Profit: Benchmarking Personalization and Robustness Trade-off in Federated Prompt Tuning ( http://arxiv.org/abs/2310.04627v1 )

ライセンス: Link先を確認
Liam Collins, Shanshan Wu, Sewoong Oh, Khe Chai Sim(参考訳) フェデレーション学習(fl)の多くのアプリケーションでは、クライアントはローカルデータを使用してパーソナライズされたモデルを求めるが、全体的な知識を保持するという意味でも堅牢である。 しかしながら、クライアント間のデータの不均一性の存在は、パーソナライズ(ローカルディストリビューションへの適応)と堅牢性(つまり、以前に学んだ一般的な知識を忘れない)との根本的なトレードオフを引き起こす。 このパーソナライゼーションとロバストネスのトレードオフをどうナビゲートするかを理解することは、フェデレーションシステムの設計において重要である。 ほとんどのフェデレートされた環境での計算能力と通信能力に制限があるため、この基礎モデルはパラメータ効率の良い微調整(PEFT)アプローチで行う必要がある。 最近の研究でpeftへのフェデレーションアプローチが研究されているが、フェデレーションpeftのパーソナライゼーションとロバスト性トレードオフは、ほとんど解明されていない。 本研究では,FedAvgアルゴリズムとFedSGDアルゴリズムとパーソナライズ(クライアントの局所的な微調整による)を,大規模言語モデル(LLM)に対する最もユビキタスなPEFTアプローチの1つに適用することで,このギャップを埋めるための一歩を踏み出した。 その結果,フェデレーショントレーニング中の最適化オプティマイザをクライアントオプティマイザとして使用する場合,パーソナライズに多数の局所的エポックを持つ小さな学習レートを使用する場合,フェデレーション学習プロンプトは驚くほど頑健であることが判明した。 また、正規化の追加や2つのプロンプトの補間といった単純なアプローチは、パーソナライズを許すローカルアップデートが少ない計算制限設定におけるパーソナライズとロバスト性トレードオフを改善するのに有効であることを実証する。

In many applications of federated learning (FL), clients desire models that are personalized using their local data, yet are also robust in the sense that they retain general global knowledge. However, the presence of data heterogeneity across clients induces a fundamental trade-off between personalization (i.e., adaptation to a local distribution) and robustness (i.e., not forgetting previously learned general knowledge). It is critical to understand how to navigate this personalization vs robustness trade-off when designing federated systems, which are increasingly moving towards a paradigm of fine-tuning large foundation models. Due to limited computational and communication capabilities in most federated settings, this foundation model fine-tuning must be done using parameter-efficient fine-tuning (PEFT) approaches. While some recent work has studied federated approaches to PEFT, the personalization vs robustness trade-off of federated PEFT has been largely unexplored. In this work, we take a step towards bridging this gap by benchmarking fundamental FL algorithms -- FedAvg and FedSGD plus personalization (via client local fine-tuning) -- applied to one of the most ubiquitous PEFT approaches to large language models (LLMs) -- prompt tuning -- in a multitude of hyperparameter settings under varying levels of data heterogeneity. Our results show that federated-trained prompts can be surprisingly robust when using a small learning rate with many local epochs for personalization, especially when using an adaptive optimizer as the client optimizer during federated training. We also demonstrate that simple approaches such as adding regularization and interpolating two prompts are effective in improving the personalization vs robustness trade-off in computation-limited settings with few local updates allowed for personalization.
翻訳日:2023-10-12 17:19:50 公開日:2023-10-06
# GNNベースリンク予測性能に関するトポロジ的視点

A Topological Perspective on Demystifying GNN-Based Link Prediction Performance ( http://arxiv.org/abs/2310.04612v1 )

ライセンス: Link先を確認
Yu Wang, Tong Zhao, Yuying Zhao, Yunchao Liu, Xueqi Cheng, Neil Shah, Tyler Derr(参考訳) グラフニューラルネットワーク(GNN)は,リンク予測(LP)のためのノード埋め込み学習において,非常に有望であることを示す。 多くの研究は、GNNの全体的なLP性能を改善することを目的としているが、異なるノード間の異なるパフォーマンスとその基盤となる理由について検討することはなかった。 この目的を達成するために,各ノードの局所的トポロジの観点から,どのノードがより良く動作するかをデミストする。 低次ノードが低LP性能を示すという広く信じられているにもかかわらず、我々の経験的発見は、この視点にニュアンスを与え、各ノードの局所部分グラフと近隣ノードとの交差に基づいて、より良い計量であるトポロジカル濃度(TC)を提案する。 実験により、TCLは、温度やサブグラフ密度などの他のノードレベルのトポロジ指標よりもLP性能と高い相関性を示し、コールドスタートよりも低いパフォーマンスのノードを識別する方法を提供する。 そこで本研究では,新たに結合したノードの隣接ノードが,そのノードの既存の隣ノードとの対話性が低下する傾向にあるという,新たなトポロジ的分布シフト問題を発見し,テスト時のLPノード埋め込みの一般化性を実証した。 さらに、TCの計算をスケーラブルにするために、近似トポロジカル濃度(ATC)を提案し、理論上かつ経験的にTCの近似の有効性を正当化し、計算複雑性を低減する。 ノードTCとそのLP性能の正の相関を考慮し、メッセージパスにおけるエッジの再重み付けによるTTCの強化によるLP性能向上の可能性について検討し、その効果を限界で議論する。 私たちのコードはhttps://github.com/YuWVandy/Topo_LP_GNNで公開されています。

Graph Neural Networks (GNNs) have shown great promise in learning node embeddings for link prediction (LP). While numerous studies aim to improve the overall LP performance of GNNs, none have explored its varying performance across different nodes and its underlying reasons. To this end, we aim to demystify which nodes will perform better from the perspective of their local topology. Despite the widespread belief that low-degree nodes exhibit poorer LP performance, our empirical findings provide nuances to this viewpoint and prompt us to propose a better metric, Topological Concentration (TC), based on the intersection of the local subgraph of each node with the ones of its neighbors. We empirically demonstrate that TC has a higher correlation with LP performance than other node-level topological metrics like degree and subgraph density, offering a better way to identify low-performing nodes than using cold-start. With TC, we discover a novel topological distribution shift issue in which newly joined neighbors of a node tend to become less interactive with that node's existing neighbors, compromising the generalizability of node embeddings for LP at testing time. To make the computation of TC scalable, We further propose Approximated Topological Concentration (ATC) and theoretically/empirically justify its efficacy in approximating TC and reducing the computation complexity. Given the positive correlation between node TC and its LP performance, we explore the potential of boosting LP performance via enhancing TC by re-weighting edges in the message-passing and discuss its effectiveness with limitations. Our code is publicly available at https://github.com/YuWVandy/Topo_LP_GNN.
翻訳日:2023-10-12 17:19:13 公開日:2023-10-06
# DeepSpeed4Science Initiative: 高度なAIシステム技術による大規模科学的発見の実現

DeepSpeed4Science Initiative: Enabling Large-Scale Scientific Discovery through Sophisticated AI System Technologies ( http://arxiv.org/abs/2310.04610v1 )

ライセンス: Link先を確認
Shuaiwen Leon Song, Bonnie Kruft, Minjia Zhang, Conglong Li, Shiyang Chen, Chengming Zhang, Masahiro Tanaka, Xiaoxia Wu, Jeff Rasley, Ammar Ahmad Awan, Connor Holmes, Martin Cai, Adam Ghanem, Zhongzhu Zhou, Yuxiong He, Christopher Bishop, Max Welling, Tie-Yan Liu, Christian Bodnar, Johannes Brandsetter, Wessel Bruinsma, Chan Cao, Yuan-Jyue Chen, Peggy Dai, Patrick Garvan, Liang He, Elizabeth Heider, Pipi Hu, Peiran Jin, Fusong Ju, Yatao Li, Chang Liu, Renqian Luo, Qi Meng, Frank Noe, Tao Qin, Janwei Zhu, Bin Shao, Yu Shi, Wenlei Shi, Gregor Simm, Megan Stanley, Lixin Sun, Yue Wang, Tong Wang, Zun Wang, Lijun Wu, Yingce Xia, Leo Xia, Shufang Xie, Shuxin Zheng, Jianwei Zhu, Pete Luferenko, Divya Kumar, Jonathan Weyn, Ruixiong Zhang, Sylwester Klocek, Volodymyr Vragov, Mohammed AlQuraishi, Gustaf Ahdritz, Christina Floristean, Cristina Negri, Rao Kotamarthi, Venkatram Vishwanath, Arvind Ramanathan, Sam Foreman, Kyle Hippe, Troy Arcomano, Romit Maulik, Maxim Zvyagin, Alexander Brace, Bin Zhang, Cindy Orozco Bohorquez, Austin Clyde, Bharat Kale, Danilo Perez-Rivera, Heng Ma, Carla M. Mann, Michael Irvin, J. Gregory Pauloski, Logan Ward, Valerie Hayot, Murali Emani, Zhen Xie, Diangen Lin, Maulik Shukla, Thomas Gibbs, Ian Foster, James J. Davis, Michael E. Papka, Thomas Brettin, Prasanna Balaprakash, Gina Tourassi, John Gounley, Heidi Hanson, Thomas E Potok, Massimiliano (Max) Lupo Pasini, Kate Evans, Dan Lu, Dalton Lunga, Junqi Yin, Sajal Dash, Feiyi Wang, Mallikarjun Shankar, Isaac Lyngaas, Xiao Wang, Guojing Cong, Pei Zhang, Ming Fan, Siyan Liu, Adolfy Hoisie, Shinjae Yoo, Yihui Ren, William Tang, Kyle Felker, Alexey Svyatkovskiy, Hang Liu, Ashwin Aji, Angela Dalton, Michael Schulte, Karl Schulz, Yuntian Deng, Weili Nie, Josh Romero, Christian Dallago, Arash Vahdat, Chaowei Xiao, Thomas Gibbs, Anima Anandkumar, Rick Stevens(参考訳) 今後10年間で、ディープラーニングは自然科学に革命をもたらし、自然発生をモデル化し予測する能力を高めます。 これは新しい科学探査の時代を象徴し、医薬品開発から再生可能エネルギーまで幅広い分野に大きな進歩をもたらした。 このコールに答えるために、私たちはDeepSpeed4Scienceイニシアチブ(Deepspeed4Science Initiative、deepspeed4science.ai)を紹介します。このイニシアチブは、AIシステム技術革新を通じてユニークな機能を構築することを目的としています。 DeepSpeedの現在の技術柱(トレーニング、推論、圧縮)をベース技術イネーブラーとして活用することにより、DeepSpeed4Scienceは、汎用的な大規模言語モデル(LLM)の加速に使用される一般的な技術的アプローチを越えて、科学的発見を加速するように設計された、新たなAIシステムのセットを作成する。 本稿では,構造生物学研究における2つの重要なシステム課題に対処するために,DeepSpeed4Scienceで行った初期の成果を紹介する。

In the upcoming decade, deep learning may revolutionize the natural sciences, enhancing our capacity to model and predict natural occurrences. This could herald a new era of scientific exploration, bringing significant advancements across sectors from drug development to renewable energy. To answer this call, we present DeepSpeed4Science initiative (deepspeed4science.ai) which aims to build unique capabilities through AI system technology innovations to help domain experts to unlock today's biggest science mysteries. By leveraging DeepSpeed's current technology pillars (training, inference and compression) as base technology enablers, DeepSpeed4Science will create a new set of AI system technologies tailored for accelerating scientific discoveries by addressing their unique complexity beyond the common technical approaches used for accelerating generic large language models (LLMs). In this paper, we showcase the early progress we made with DeepSpeed4Science in addressing two of the critical system challenges in structural biology research.
翻訳日:2023-10-12 17:18:41 公開日:2023-10-06
# 新規aiアクセラレーターにおける大規模言語モデルの包括的性能研究

A Comprehensive Performance Study of Large Language Models on Novel AI Accelerators ( http://arxiv.org/abs/2310.04607v1 )

ライセンス: Link先を確認
Murali Emani, Sam Foreman, Varuni Sastry, Zhen Xie, Siddhisanket Raskar, William Arnold, Rajeev Thakur, Venkatram Vishwanath, Michael E. Papka(参考訳) 人工知能(ai)の手法は、科学的発見を加速するために科学的応用において重要になっている。 大規模言語モデル(LLM)は、ドメイン間の優れた一般化能力のため、いくつかの課題に対処するための有望なアプローチと考えられている。 モデルの有効性とアプリケーションの正確性は、基盤となるハードウェアインフラストラクチャ上での効率的な実行によって決まる。 専門のAIアクセラレータハードウェアシステムは、最近、AIアプリケーションの高速化に利用できるようになった。 しかし、これらのAIアクセラレータの大規模言語モデルにおける比較性能は、これまで研究されていない。 本稿では,複数のAIアクセラレータとGPU上でLLMを系統的に研究し,それらのモデルの性能特性を評価する。 これらのシステムを評価し (i)コア変圧器ブロックを用いたマイクロベンチマーク (ii) GPT-2 モデル及び (iii)LLMによる科学ユースケースであるGenSLM。 本稿では,モデルの性能に関する知見と分析を行い,aiアクセラレーションの本質的能力の理解を深める。 さらに,本解析では,シーケンス長,スケーリング挙動,スパーシティ,勾配蓄積ステップに対する感度といった重要な要因を考慮に入れる。

Artificial intelligence (AI) methods have become critical in scientific applications to help accelerate scientific discovery. Large language models (LLMs) are being considered as a promising approach to address some of the challenging problems because of their superior generalization capabilities across domains. The effectiveness of the models and the accuracy of the applications is contingent upon their efficient execution on the underlying hardware infrastructure. Specialized AI accelerator hardware systems have recently become available for accelerating AI applications. However, the comparative performance of these AI accelerators on large language models has not been previously studied. In this paper, we systematically study LLMs on multiple AI accelerators and GPUs and evaluate their performance characteristics for these models. We evaluate these systems with (i) a micro-benchmark using a core transformer block, (ii) a GPT- 2 model, and (iii) an LLM-driven science use case, GenSLM. We present our findings and analyses of the models' performance to better understand the intrinsic capabilities of AI accelerators. Furthermore, our analysis takes into account key factors such as sequence lengths, scaling behavior, sparsity, and sensitivity to gradient accumulation steps.
翻訳日:2023-10-12 17:18:16 公開日:2023-10-06
# 信頼できないソースデータによるロバストトランスファー学習

Robust Transfer Learning with Unreliable Source Data ( http://arxiv.org/abs/2310.04606v1 )

ライセンス: Link先を確認
Jianqing Fan, Cheng Gao, Jason M. Klusowski(参考訳) 本稿では,ベイズ分類器のあいまいさと,ターゲットとソース分布との間の弱い伝達可能信号から生じる頑健な伝達学習の課題について述べる。 本研究では,対象関数とソース回帰関数の差を計測する「曖昧度レベル」と呼ばれる新しい量を導入し,簡単な伝達学習手順を提案し,この新量とリスク改善の観点からの学習の伝達可能性との関連性を示す一般定理を定式化する。 提案したTABモデル(Transfer Around Boundary)は,ターゲットデータとソースデータのパフォーマンスのバランスを保ちながら,効率的かつ堅牢であり,負の転送を回避しながら分類を改善した。 さらに,非パラメトリック分類およびロジスティック回帰タスクにおけるタブモデルの有効性を実証し,対数係数まで最適である上限値を達成する。 シミュレーション研究はTABの有効性をさらに支援している。 また,転送学習の専門知識を必要とせず,過度な誤分類誤差を限定する簡単な手法を提案する。

This paper addresses challenges in robust transfer learning stemming from ambiguity in Bayes classifiers and weak transferable signals between the target and source distribution. We introduce a novel quantity called the ''ambiguity level'' that measures the discrepancy between the target and source regression functions, propose a simple transfer learning procedure, and establish a general theorem that shows how this new quantity is related to the transferability of learning in terms of risk improvements. Our proposed ''Transfer Around Boundary'' (TAB) model, with a threshold balancing the performance of target and source data, is shown to be both efficient and robust, improving classification while avoiding negative transfer. Moreover, we demonstrate the effectiveness of the TAB model on non-parametric classification and logistic regression tasks, achieving upper bounds which are optimal up to logarithmic factors. Simulation studies lend further support to the effectiveness of TAB. We also provide simple approaches to bound the excess misclassification error without the need for specialized knowledge in transfer learning.
翻訳日:2023-10-12 17:18:01 公開日:2023-10-06
# 入力凸ニューラルネットワークを用いた最適潮流値関数の学習

Learning Optimal Power Flow Value Functions with Input-Convex Neural Networks ( http://arxiv.org/abs/2310.04605v1 )

ライセンス: Link先を確認
Andrew Rosemberg, Mathieu Tanneau, Bruno Fanzeres, Joaquim Garcia and Pascal Van Hentenryck(参考訳) 最適電力流(OPF)問題は電力システムの機能に不可欠な問題であり、技術的制約や運用上の制約に固執しながら、発電の最適化を目的としている。 これらの制約は、電気グリッドの安全性と実用性に不可欠な交流電流(AC)電力の流れに関する複雑で非凸な考察を含む、単純ではない。 しかし、制約時間フレーム内の様々な条件に対するOPF問題の解決は、実用的な課題となる。 これに対処するためにオペレータは、精度の異なるモデルの単純化に頼る。 残念ながら、より良い近似(濃厚凸緩和)はしばしば計算的に難解である。 本研究は,他の凸依存決定問題と結合しながら,オンライン環境でより高速な解析を行うために,凸近似解を学習するための機械学習(ML)について検討する。 速度のかなりの向上のために少量の精度をトレードオフすることで、これらの複雑な問題における広大な解空間を効率的に探索することができる。

The Optimal Power Flow (OPF) problem is integral to the functioning of power systems, aiming to optimize generation dispatch while adhering to technical and operational constraints. These constraints are far from straightforward; they involve intricate, non-convex considerations related to Alternating Current (AC) power flow, which are essential for the safety and practicality of electrical grids. However, solving the OPF problem for varying conditions within stringent time frames poses practical challenges. To address this, operators resort to model simplifications of varying accuracy. Unfortunately, better approximations (tight convex relaxations) are often computationally intractable. This research explores machine learning (ML) to learn convex approximate solutions for faster analysis in the online setting while still allowing for coupling into other convex dependent decision problems. By trading off a small amount of accuracy for substantial gains in speed, they enable the efficient exploration of vast solution spaces in these complex problems.
翻訳日:2023-10-12 17:17:42 公開日:2023-10-06
# PriViT:高速プライベート推論のためのビジョントランス

PriViT: Vision Transformers for Fast Private Inference ( http://arxiv.org/abs/2310.04604v1 )

ライセンス: Link先を確認
Naren Dhyani, Jianqiao Mo, Minsu Cho, Ameya Joshi, Siddharth Garg, Brandon Reagen, Chinmay Hegde(参考訳) Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。 しかし、vitは非多項演算(セルフアテンション、フィードフォワード整流器、層正規化)が多いため、セキュアなマルチパーティ計算(mpc)プロトコルを用いたプライベート推論には不向きである。 予測精度を維持しつつ、ViTの非線形性を選択的に「テイラー化」するための勾配に基づくアルゴリズムPriViTを提案する。 提案アルゴリズムは概念的にはシンプルで実装が容易であり,遅延精度のParetoフロンティアの実現という観点から,MPCフレンドリーなトランスフォーマーアーキテクチャを設計するための既存手法よりも優れた性能を実現する。 いくつかの標準画像分類タスクの実験を通してこれらの改善を確認した。 公開コードはhttps://github.com/nyu-dice-lab/privitで入手できる。

The Vision Transformer (ViT) architecture has emerged as the backbone of choice for state-of-the-art deep models for computer vision applications. However, ViTs are ill-suited for private inference using secure multi-party computation (MPC) protocols, due to the large number of non-polynomial operations (self-attention, feed-forward rectifiers, layer normalization). We propose PriViT, a gradient based algorithm to selectively "Taylorize" nonlinearities in ViTs while maintaining their prediction accuracy. Our algorithm is conceptually simple, easy to implement, and achieves improved performance over existing approaches for designing MPC-friendly transformer architectures in terms of achieving the Pareto frontier in latency-accuracy. We confirm these improvements via experiments on several standard image classification tasks. Public code is available at https://github.com/NYU-DICE-Lab/privit.
翻訳日:2023-10-12 17:17:26 公開日:2023-10-06
# 量子軌道の不変部分空間の指数選択とフィードバック安定化

Exponential Selection and Feedback Stabilization of Invariant Subspaces of Quantum Trajectories ( http://arxiv.org/abs/2310.04599v1 )

ライセンス: Link先を確認
Nina H. Amini, Ma\"el Bompais, Cl\'ement Pellegrini(参考訳) 量子軌道は、その最小不変部分空間の1つによって指数的に高速に支持されることを示す。 指数収束はリアプノフ法を用いて予想される。 この証明は、異なる部分空間で生成される確率分布の識別可能性に関する深い研究に基づいている。 さらに,目的とする部分空間への収束を可能にするフィードバック制御戦略も導入する。 この収束は指数速度でも達成される。

We show that quantum trajectories become exponentially fast supported by one of their minimal invariant subspaces. Exponential convergence is shown in expectation using Lyapunov techniques. The proof is based on an in-depth study of the identifiability of the probability distributions generated in the different subspaces. We furthermore introduce a feedback control strategy that allows for the targeted convergence towards a desired subspace. This convergence is also achieved at exponential speed.
翻訳日:2023-10-12 17:17:12 公開日:2023-10-06
# 結合クエリ応答のためのニューロシンボリックフレームワーク

A neuro-symbolic framework for answering conjunctive queries ( http://arxiv.org/abs/2310.04598v1 )

ライセンス: Link先を確認
Pablo Barcel\'o, Tamara Cucumides, Floris Geerts, Juan Reutter, Miguel Romero(参考訳) 不完全なナレッジグラフ上で論理クエリに応答する問題は、機械学習コミュニティで大きな注目を集めている。 ニューロシンボリックモデル(Neuro-symbolic model)は、優れた性能を示し、優れた解釈可能性特性を実現する、有望な最近のアプローチである。 これらのモデルは、アトミッククエリを実行するために訓練されたアーキテクチャに依存しており、クエリのシンボリック演算子をシミュレートするモジュールと組み合わせている。 残念ながら、ほとんどのニューロシンボリッククエリプロセッサは、ボトムアップ実行を許容するいわゆるツリーライクな論理クエリに限られており、葉は定数値またはアンカーであり、根はターゲット変数である。 木のようなクエリは表現的ではあるが、エンティティ間の複数エッジの存在や三角形の存在など、実際には重要な知識グラフのプロパティを表現するのに失敗する。 不完全知識グラフ上で任意の接続クエリに応答するフレームワークを提案する。 本手法の主な考え方は,木のような無限列のクエリによって循環的なクエリを近似し,既存のモデルを活用することである。 我々の近似は、完全である、偽陰性がない、最適である、木のようなクエリを使って可能な限りの近似を提供する、という強い保証を達成する。 本手法では,葉がアンカーあるいは存在量化された変数である木のような問い合わせを近似に要求する。 したがって、既存のニューロシンボリックモデルがこれらのクエリを処理できることも示しており、これは独立した関心事である。 実験により,我々の近似戦略は競合的な結果を得ることができ,実数量化変数を含むクエリは,木のようなクエリと近似戦略の両方において,これらのモデルの一般的な性能を改善する傾向にあることが示された。

The problem of answering logical queries over incomplete knowledge graphs is receiving significant attention in the machine learning community. Neuro-symbolic models are a promising recent approach, showing good performance and allowing for good interpretability properties. These models rely on trained architectures to execute atomic queries, combining them with modules that simulate the symbolic operators in queries. Unfortunately, most neuro-symbolic query processors are limited to the so-called tree-like logical queries that admit a bottom-up execution, where the leaves are constant values or anchors, and the root is the target variable. Tree-like queries, while expressive, fail short to express properties in knowledge graphs that are important in practice, such as the existence of multiple edges between entities or the presence of triangles. We propose a framework for answering arbitrary conjunctive queries over incomplete knowledge graphs. The main idea of our method is to approximate a cyclic query by an infinite family of tree-like queries, and then leverage existing models for the latter. Our approximations achieve strong guarantees: they are complete, i.e. there are no false negatives, and optimal, i.e. they provide the best possible approximation using tree-like queries. Our method requires the approximations to be tree-like queries where the leaves are anchors or existentially quantified variables. Hence, we also show how some of the existing neuro-symbolic models can handle these queries, which is of independent interest. Experiments show that our approximation strategy achieves competitive results, and that including queries with existentially quantified variables tends to improve the general performance of these models, both on tree-like queries and on our approximation strategy.
翻訳日:2023-10-12 17:17:07 公開日:2023-10-06
# プロセス行列形式論の量子場理論への拡張への挑戦

Challenges for extensions of the process matrix formalism to quantum field theory ( http://arxiv.org/abs/2310.04597v1 )

ライセンス: Link先を確認
Nikola Paunkovic and Marko Vojinovic(参考訳) 本稿では,有限次元力学系から量子場理論へのプロセス行列形式化の仮一般化に関する問題について議論する。 粒子オントロジーから場オントロジーの領域へ移動しようとするとき、すなわち力学から場理論の枠組みへ移行しようとするとき、起こりうるオープンな問題について、より詳細に概説する。 これらの問題は、プロセス行列の形式化の適用範囲を拡大し、それゆえ有用性を高めるために対処され、解決される必要がある。 これは簡単で簡単な取り組みではなく、むしろ将来の研究プログラムのためのタスクだ。

We discuss the issues with tentative generalisations of the process matrix formalism from finite-dimensional mechanical systems all the way to quantum field theory. We present a detailed overview of possible open problems that arise when one attempts to move from particle ontology into the realm of field ontology, i.e., when one transitions from mechanics to field theory framework. These issues need to be addressed, and problems solved, if one aims to expand the scope of applicability of the process matrix formalism, and therefore its usefulness. This is far from a trivial and straightforward endeavour, but rather a task for a whole future research programme.
翻訳日:2023-10-12 17:16:37 公開日:2023-10-06
# (再)マシニック・ガゼを通して建築遺産を造る

(Re)framing Built Heritage through the Machinic Gaze ( http://arxiv.org/abs/2310.04628v1 )

ライセンス: Link先を確認
Vanicka Arora, Liam Magee, Luke Munn(参考訳) 建築遺産は、遺跡やモニュメントに植民地が定着した瞬間、テクノクラティックな検査と表現、そして世界規模の観光産業によるフェチシゼーションを通じて維持されてきた視線の主題と産物である。 近年の機械学習とビジョン技術の普及は、既存の画像を巨大なデジタルアーカイブから保存・検索し、さらにその視覚的表現に歪みを与えるという、遺産の新たな可視的レギュレーションを生み出している、と我々は主張する。 本稿では,AIモデルによる遺産表現の再構成を概念化する「機械的視線」という用語を紹介する。 この視点がどのように遺産を再構成するかを探るため、ユネスコの世界遺産の画像を読み取り、解釈し、再合成するイメージテキストイメージパイプラインをデプロイします。 ヘテロスコピアとアナモルフィシスというメディア研究の2つの概念を用いて、機械ビジョンシステムがもたらす方向転換の視点について述べる。 本研究は,人間の視線の構図と,その根底にある前提と実践を強調し,確立された遺産概念を形成することを提案する。

Built heritage has been both subject and product of a gaze that has been sustained through moments of colonial fixation on ruins and monuments, technocratic examination and representation, and fetishisation by aglobal tourist industry. We argue that the recent proliferation of machine learning and vision technologies create new scopic regimes for heritage: storing and retrieving existing images from vast digital archives, and further imparting their own distortions upon its visual representation. We introduce the term `machinic gaze' to conceptualise the reconfiguration of heritage representation via AI models. To explore how this gaze reframes heritage, we deploy an image-text-image pipeline that reads, interprets, and resynthesizes images of several UNESCO World Heritage Sites. Employing two concepts from media studies -- heteroscopia and anamorphosis -- we describe the reoriented perspective that machine vision systems introduce. We propose that the machinic gaze highlights the artifice of the human gaze and its underlying assumptions and practices that combine to form established notions of heritage.
翻訳日:2023-10-12 17:10:48 公開日:2023-10-06
# Copy Suppression: 注意頭を理解する

Copy Suppression: Comprehensively Understanding an Attention Head ( http://arxiv.org/abs/2310.04625v1 )

ライセンス: Link先を確認
Callum McDougall, Arthur Conmy, Cody Rushing, Thomas McGrath, Neel Nanda(参考訳) GPT-2スモールに1つの注意ヘッドを配置し、トレーニング分布全体において1つの主要な役割を担っている。 前のレイヤのコンポーネントが特定のトークンを予測し、このトークンがコンテキストの早い段階で現れると、ヘッダがそれを抑制します。 アテンションヘッド10.7(L10H7)は、全体モデルの校正を改善するナイーブコピー動作を抑制する。 これは、ある狭いタスクを研究する複数の先行研究が、間違った答えを体系的に好んだ負の頭を発見した理由を説明する。 我々は,gpt-2におけるl10h7の影響の76.9%を,重みに基づく証拠を用いたコピー抑制に負の頭部が用いるメカニズムを明らかにする。 私たちの知る限りでは、これは今までの言語モデルにおけるコンポーネントの完全な役割について、最も包括的な説明です。 コピー抑制の1つの大きな影響は、自己修復における役割である。 自己修復(self-repair)とは、重要なモデルコンポーネントのアブレーションが、このアブレーションを補償する下流のニューラルネットワーク部分を生成する方法である。 コピー抑制は自己修復につながる:もし初期の自信過剰なコピー犯がアブレーションされたら、抑圧することはない。 自己修復はいくつかのメカニズムによって実施され、そのうちの1つはコピー抑制であり、狭いタスクにおける行動の39%が説明できる。 コピー抑制現象のインタラクティブな可視化は、私たちのwebアプリhttps://copy-suppression.streamlit.app/で見ることができる。

We present a single attention head in GPT-2 Small that has one main role across the entire training distribution. If components in earlier layers predict a certain token, and this token appears earlier in the context, the head suppresses it: we call this copy suppression. Attention Head 10.7 (L10H7) suppresses naive copying behavior which improves overall model calibration. This explains why multiple prior works studying certain narrow tasks found negative heads that systematically favored the wrong answer. We uncover the mechanism that the Negative Heads use for copy suppression with weights-based evidence and are able to explain 76.9% of the impact of L10H7 in GPT-2 Small. To the best of our knowledge, this is the most comprehensive description of the complete role of a component in a language model to date. One major effect of copy suppression is its role in self-repair. Self-repair refers to how ablating crucial model components results in downstream neural network parts compensating for this ablation. Copy suppression leads to self-repair: if an initial overconfident copier is ablated, then there is nothing to suppress. We show that self-repair is implemented by several mechanisms, one of which is copy suppression, which explains 39% of the behavior in a narrow task. Interactive visualisations of the copy suppression phenomena may be seen at our web app https://copy-suppression.streamlit.app/
翻訳日:2023-10-12 17:10:29 公開日:2023-10-06
# マルチエージェント強化学習による協調とオーストラシズムの再構築

Deconstructing Cooperation and Ostracism via Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2310.04623v1 )

ライセンス: Link先を確認
Atsushi Ueshima, Shayegan Omidshafiei, Hirokazu Shirado(参考訳) 生物システム、人間社会、そして概してマルチエージェントシステムにおいて協力は困難である。 グループが全員の協力によって利益を得る一方で、各エージェントが自発的に行動するのは誘惑的です。 以前の人間の研究は、人々がこのような社会的ジレンマを克服し、相互作用パートナー、すなわち戦略的ネットワークリウィリングを選択していることを示している。 しかし、人間を含むエージェントが戦略転換から協力について学べる方法についてはほとんど分かっていない。 本稿では,2人のエージェントが反復的に囚人のジレンマゲームを行うマルチエージェント強化学習シミュレーションを行う。 各エージェントには2つのポリシーがある: 1つは協力するかどうかを制御し、もう1つは他のエージェントとの接続をリワイヤするかどうかを制御する。 この設定により,協調とネットワークリワイリングの複雑な因果ダイナミクスを解消できる。 ネットワークのリワイアリングは,一方のエージェントが常に協力を提供する場合でも相互協力を促進する。 次に,ネットワークスイッチングの効果はエージェントによるオストラシズムの学習,すなわちコオペレーターと接続し,障害者から切り離すことによってもたらされることを確認した。 しかし,オストラシズムだけでは協力関係を創り出すには不十分であることが判明した。 代わりに、ostracismは協力の学習から生まれ、ostracismの存在によって既存の協力が強化される。 本研究は,ネットワークリウィリングによる協調の出現に必要な条件とメカニズムについて考察した。

Cooperation is challenging in biological systems, human societies, and multi-agent systems in general. While a group can benefit when everyone cooperates, it is tempting for each agent to act selfishly instead. Prior human studies show that people can overcome such social dilemmas while choosing interaction partners, i.e., strategic network rewiring. However, little is known about how agents, including humans, can learn about cooperation from strategic rewiring and vice versa. Here, we perform multi-agent reinforcement learning simulations in which two agents play the Prisoner's Dilemma game iteratively. Each agent has two policies: one controls whether to cooperate or defect; the other controls whether to rewire connections with another agent. This setting enables us to disentangle complex causal dynamics between cooperation and network rewiring. We find that network rewiring facilitates mutual cooperation even when one agent always offers cooperation, which is vulnerable to free-riding. We then confirm that the network-rewiring effect is exerted through agents' learning of ostracism, that is, connecting to cooperators and disconnecting from defectors. However, we also find that ostracism alone is not sufficient to make cooperation emerge. Instead, ostracism emerges from the learning of cooperation, and existing cooperation is subsequently reinforced due to the presence of ostracism. Our findings provide insights into the conditions and mechanisms necessary for the emergence of cooperation with network rewiring.
翻訳日:2023-10-12 17:10:07 公開日:2023-10-06
# FluxGAN - 熱フラックスをターゲットとした組織生成のための物理認識型生成逆ネットワークモデル

FluxGAN: A Physics-Aware Generative Adversarial Network Model for Generating Microstructures That Maintain Target Heat Flux ( http://arxiv.org/abs/2310.04622v1 )

ライセンス: Link先を確認
Artem K. Pimachev, Manoj Settipalli and Sanghamitra Neogi(参考訳) 本稿では,大規模構造の高品質な画像と熱特性を同時に生成できる物理認識型生成逆ネットワークモデルFluxGANを提案する。 トレーニングフェーズの間、モデルは、外部温度勾配による組織内の熱流束など、局所的な構造的特徴と物理的過程との関係について学習する。 トレーニングが完了すると、新しい構造と関連する熱流環境が生成され、計算に高価なモデリングをバイパスする。 本モデルは, 有限要素法 (fem) などの従来のモデリング手法と比較して, ミクロ組織の熱的特性を記述するためのコスト効率と効率のよいアプローチを提供する。 従来の手法では、マイクロ構造モデルのサイズに合わせてスケールする計算モデルが必要であるため、シミュレーションを与えられたサイズ、解像度、複雑さに制限する。 対照的に、FluxGANモデルは合成・バイ・パートのアプローチを使用して、計算コストの低い任意のサイズの画像を生成する。 本モデルは, ターゲット熱特性を満たす溶射皮膜の設計に有効であることを示す。 さらに、2次元(2次元)の例で訓練した後、3次元(3次元)領域でコーティングミクロ組織と物理プロセスを生成することができる。 本手法は, 航空機や地上発電機用ガスタービンの高温・長期運転を含む各種用途への溶射皮膜の設計と最適化を変革する可能性を秘めている。

We propose a physics-aware generative adversarial network model, FluxGAN, capable of simultaneously generating high-quality images of large microstructures and description of their thermal properties. During the training phase, the model learns about the relationship between the local structural features and the physical processes, such as the heat flux in the microstructures, due to external temperature gradients. Once trained, the model generates new structural and associated heat flux environments, bypassing the computationally expensive modeling. Our model provides a cost effective and efficient approach over conventional modeling techniques, such as the finite element method (FEM), for describing the thermal properties of microstructures. The conventional approach requires computational modeling that scales with the size of the microstructure model, therefore limiting the simulation to a given size, resolution, and complexity of the model. In contrast, the FluxGAN model uses synthesis-by-part approach and generates arbitrary large size images at low computational cost. We demonstrate that the model can be utilized to generate designs of thermal sprayed coatings that satisfies target thermal properties. Furthermore, the model is capable of generating coating microstructures and physical processes in three-dimensional (3D) domain after being trained on two-dimensional (2D) examples. Our approach has the potential to transform the design and optimization of thermal sprayed coatings for various applications, including high-temperature and long-duration operation of gas turbines for aircraft or ground-based power generators.
翻訳日:2023-10-12 17:09:44 公開日:2023-10-06
# モデル圧縮の実践 - デバイス上での機械学習体験を生み出す実践者から学んだこと

Model Compression in Practice: Lessons Learned from Practitioners Creating On-device Machine Learning Experiences ( http://arxiv.org/abs/2310.04621v1 )

ライセンス: Link先を確認
Fred Hohman, Mary Beth Kery, Donghao Ren, Dominik Moritz(参考訳) オンデバイス機械学習(On-Device Machine Learning, ML)は、ML計算を日常のパーソナルデバイスに移行することで、新たなインテリジェントなユーザエクスペリエンスのプライバシ、応答性、拡散を改善することを約束する。 しかし、今日の大規模なMLモデルは、デバイス上で効率的に動作するために、大幅に圧縮されなければならない。 デバイス上でのMLエクスペリエンスにおいて、より広範な人間中心のMLコミュニティに取り組むために、効率的なモデルの開発を専門とするAppleの専門家30人とのインタビュー研究の結果を紹介する。 我々は、さまざまなハードウェアプラットフォームにわたるモデル圧縮の実践経験を通じて、専門家が開発した暗黙の知識をコンパイルする。 私たちの発見は、設計プロセス、トレードオフ、効率的なモデルを作成するための技術的な戦略など、事前の作業から欠落する実践的な考慮事項を提供します。 最後に、この作業の難易度を緩和し、デバイス上でのMLをより広く実践できるように、ツールの設計勧告を精査する。

On-device machine learning (ML) promises to improve the privacy, responsiveness, and proliferation of new, intelligent user experiences by moving ML computation onto everyday personal devices. However, today's large ML models must be drastically compressed to run efficiently on-device, a hurtle that requires deep, yet currently niche expertise. To engage the broader human-centered ML community in on-device ML experiences, we present the results from an interview study with 30 experts at Apple that specialize in producing efficient models. We compile tacit knowledge that experts have developed through practical experience with model compression across different hardware platforms. Our findings offer pragmatic considerations missing from prior work, covering the design process, trade-offs, and technical strategies that go into creating efficient models. Finally, we distill design recommendations for tooling to help ease the difficulty of this work and bring on-device ML into to more widespread practice.
翻訳日:2023-10-12 17:09:16 公開日:2023-10-06
# EJMに基づく三角形ネットワークにおける非局所性の性質

Nature of Nonlocality in a triangle network based on EJM ( http://arxiv.org/abs/2310.04619v1 )

ライセンス: Link先を確認
Amit Kundu and Debasis Sarkar(参考訳) 入力なしクローズド量子ネットワークシナリオにおける非局所性の定義は、近年、新たな関心領域となっている。 gisin, in[entropy 21 325 (2019)] は、自明な非入力閉ネットワークシナリオであるトライアングルネットワークの非トリ局所性について、新しい種類のジョイント測定ベースと確率境界を導入することで可能な条件を提案した。 npj quantum information (2020) 6:70] では、gisinの確率境界を支持する数値的証拠の断片を発見した。 現在、その確率境界に基づいて、三角形ネットワークのシナリオにおける相関の性質を見いだす。 ここでは、ギシンが3つの独立した量子源から分配される絡み合った状態と局所的な純粋状態のあらゆる組み合わせと結合している確率がどれだけ遠くにあるかを観察する。 ここでは, 一般化されたエレガントジョイント測定基地を用いて, これらの関節測定基地の絡み合いに非局所性が存在することを確かめる。 また、多角形構造の確率バウンドもチェックする。

Defining nonlocality in a no-input closed quantum network scenario is a new area of interest nowadays. Gisin, in[Entropy 21, 325 (2019)], proposed a possible condition for non-tri-locality of the trivial no-input closed network scenario, triangle network, by introducing a new kind of joint measurement bases and a probability bound. In[npj Quantum Information (2020) 6:70] they found a shred of numerical evidence in support of Gisin's probability bound. Now based on that probability bound, we find the nature of the correlation in a triangle network scenario. We here observe how far the probability lies from that Gisin's bound with every possible combination of entangled and local pure states distributed from three independent quantum sources. Here we use the generalized Elegant Joint Measurements bases for each party and find that there is a dependency of non-locality on the entanglement of these joint measurement bases. We also check the probability bound for the polygon structure.
翻訳日:2023-10-12 17:08:46 公開日:2023-10-06
# SlotGNN: マルチオブジェクト表現と視覚ダイナミクスの教師なし発見

SlotGNN: Unsupervised Discovery of Multi-Object Representations and Visual Dynamics ( http://arxiv.org/abs/2310.04617v1 )

ライセンス: Link先を確認
Alireza Rezazadeh, Athreyi Badithela, Karthik Desingh, Changhyun Choi(参考訳) 教師なし技術を用いて視覚データから多目的ダイナミクスを学ぶことは、ロボットのインタラクションを通じて学習できる堅牢なオブジェクト表現を必要とするため、難しい。 本稿では,RGB画像からオブジェクト表現を発見するためのSlotTransportと,RGB画像からオブジェクトの集団的ダイナミクスを予測するSlotGNNの2つの新しいアーキテクチャを提案する。 我々のSlotTransportアーキテクチャは、教師なしオブジェクト発見のためのスロットアテンションに基づいており、オブジェクト中心表現における時間的アライメントを維持するために特徴輸送機構を使用している。 これにより、マルチオブジェクトシーンのコンポジションを一貫して反映するスロットの発見が可能になる。 これらのスロットは、重い閉塞や欠如の下でも、異なるオブジェクトに強く結合する。 我々のSlotGNNは、新しい教師なしグラフベースのダイナミックスモデルであり、マルチオブジェクトシーンの将来状態を予測する。 SlotGNNは、SlotTransportから発見されたスロットを用いてシーンのグラフ表現を学習し、リレーショナルおよび空間推論を行い、ロボットアクションに条件付けられた各スロットの将来の出現を予測する。 視覚情報と位置情報の両方を正確にエンコードするオブジェクト中心機能学習におけるSlotTransportの有効性を示す。 さらに,下流ロボットタスクにおけるslotgnnの精度についても強調する。 最後に、我々の教師なしのアプローチは実世界で有効であることを示す。 最小限の追加データだけで、われわれのフレームワークは現実世界の制御タスクにおけるスロットとその対応するダイナミクスを強く予測する。

Learning multi-object dynamics from visual data using unsupervised techniques is challenging due to the need for robust, object representations that can be learned through robot interactions. This paper presents a novel framework with two new architectures: SlotTransport for discovering object representations from RGB images and SlotGNN for predicting their collective dynamics from RGB images and robot interactions. Our SlotTransport architecture is based on slot attention for unsupervised object discovery and uses a feature transport mechanism to maintain temporal alignment in object-centric representations. This enables the discovery of slots that consistently reflect the composition of multi-object scenes. These slots robustly bind to distinct objects, even under heavy occlusion or absence. Our SlotGNN, a novel unsupervised graph-based dynamics model, predicts the future state of multi-object scenes. SlotGNN learns a graph representation of the scene using the discovered slots from SlotTransport and performs relational and spatial reasoning to predict the future appearance of each slot conditioned on robot actions. We demonstrate the effectiveness of SlotTransport in learning object-centric features that accurately encode both visual and positional information. Further, we highlight the accuracy of SlotGNN in downstream robotic tasks, including challenging multi-object rearrangement and long-horizon prediction. Finally, our unsupervised approach proves effective in the real world. With only minimal additional data, our framework robustly predicts slots and their corresponding dynamics in real-world control tasks.
翻訳日:2023-10-12 17:08:01 公開日:2023-10-06
# 知覚的指標としての線形予測の不合理性

The Unreasonable Effectiveness of Linear Prediction as a Perceptual Metric ( http://arxiv.org/abs/2310.05986v1 )

ライセンス: Link先を確認
Daniel Severo, Lucas Theis, Johannes Ball\'e(参考訳) 学習データやディープニューラルネットワーク機能なしで、視覚システムの知覚的埋め込みが推論時にどのように構築されるかを示す。 我々の知覚埋め込みは、画素レベルで定義され、推論時に解決される重み付き最小二乗問題に対する解であり、グローバルおよび局所的な画像特性を捉えることができる。 埋め込み空間における距離は、LASI: Linear Autoregressive similarity Indexと呼ばれる知覚的類似度計量を定義するために用いられる。 フルリファレンス画像品質評価データセットの実験では、LPIPS (Zhang et al., 2018) や PIM (Bhardwaj et al., 2020) といった学習深い特徴ベースの手法と、MS-SSIM (Wang et al., 2003) のような手作りの手法と同じような計算コストで競合することを示した。 組込み空間の次元性の向上は、計算複雑性を増大させるコストで、知覚タスクの性能を高めながら、WLS損失を一貫して減少させることがわかった。 lasiは完全に微分可能で、埋め込み次元の数で立方的にスケールし、ピクセルレベルで並列化することができる。 LASI と LPIPS の最大微分 (MAD) 競合 (Wang & Simoncelli, 2008) は、両方の手法が他方の障害点を見つけることができることを示している。

We show how perceptual embeddings of the visual system can be constructed at inference-time with no training data or deep neural network features. Our perceptual embeddings are solutions to a weighted least squares (WLS) problem, defined at the pixel-level, and solved at inference-time, that can capture global and local image characteristics. The distance in embedding space is used to define a perceptual similarity metric which we call LASI: Linear Autoregressive Similarity Index. Experiments on full-reference image quality assessment datasets show LASI performs competitively with learned deep feature based methods like LPIPS (Zhang et al., 2018) and PIM (Bhardwaj et al., 2020), at a similar computational cost to hand-crafted methods such as MS-SSIM (Wang et al., 2003). We found that increasing the dimensionality of the embedding space consistently reduces the WLS loss while increasing performance on perceptual tasks, at the cost of increasing the computational complexity. LASI is fully differentiable, scales cubically with the number of embedding dimensions, and can be parallelized at the pixel-level. A Maximum Differentiation (MAD) competition (Wang & Simoncelli, 2008) between LASI and LPIPS shows that both methods are capable of finding failure points for the other, suggesting these metrics can be combined.
翻訳日:2023-10-12 04:31:20 公開日:2023-10-06
# FMMヘッド:事前知識によるオートエンコーダによるECG異常検出の強化

FMM-Head: Enhancing Autoencoder-based ECG anomaly detection with prior knowledge ( http://arxiv.org/abs/2310.05848v1 )

ライセンス: Link先を確認
Giacomo Verardo, Magnus Boman, Samuel Bruchfeld, Marco Chiesa, Sabine Koch, Gerald Q. Maguire Jr., Dejan Kostic(参考訳) 心電図データの異常検出は、正常な心拍パターンからの逸脱を識別し、リスクの高い患者にタイムリーに介入するために重要である。 MLによる異常検出タスクに取り組むために,様々なオートエンコーダモデル (AE) が提案されている。 しかし、これらのモデルはECGリードの特定のパターンを考慮せず、説明不能なブラックボックスである。 対照的に、AEの復号部をECG形状の事前知識に基づいて再構成ヘッド(FMMヘッド)に置き換える。 提案モデルでは, 最先端モデルよりも高い異常検出能力を一貫して達成し, ROC曲線(AUROC)の面積を最大0.31増加させ, 元のモデルサイズと説明可能な特徴を半分に抑えることができた。 このモデルの処理時間は、同じパラメータを求める最適化問題を解くよりも4桁低いため、リアルタイムのecgパラメータ抽出や異常検出に適している。

Detecting anomalies in electrocardiogram data is crucial to identifying deviations from normal heartbeat patterns and providing timely intervention to at-risk patients. Various AutoEncoder models (AE) have been proposed to tackle the anomaly detection task with ML. However, these models do not consider the specific patterns of ECG leads and are unexplainable black boxes. In contrast, we replace the decoding part of the AE with a reconstruction head (namely, FMM-Head) based on prior knowledge of the ECG shape. Our model consistently achieves higher anomaly detection capabilities than state-of-the-art models, up to 0.31 increase in area under the ROC curve (AUROC), with as little as half the original model size and explainable extracted features. The processing time of our model is four orders of magnitude lower than solving an optimization problem to obtain the same parameters, thus making it suitable for real-time ECG parameters extraction and anomaly detection.
翻訳日:2023-10-11 00:28:19 公開日:2023-10-06
# ユーザを区別不能にする:レコメンダシステムにおける属性による学習

Making Users Indistinguishable: Attribute-wise Unlearning in Recommender Systems ( http://arxiv.org/abs/2310.05847v1 )

ライセンス: Link先を確認
Yuyuan Li, Chaochao Chen, Xiaolin Zheng, Yizhao Zhang, Zhongxuan Han, Dan Meng, Jun Wang(参考訳) 推薦システムにおけるプライバシー問題の増加に伴い、特定の学習対象の影響を忘れるレコメンデーションアンラーニングが注目されている。 既存の研究はトレーニングデータ、すなわちモデル入力を学習対象として主に使用している。 しかし、攻撃者は訓練中に明示的に遭遇していない場合でも、訓練されたモデルから個人情報、すなわち性別、人種、年齢を抽出できることがわかった。 この未知の情報を属性として命名し、未学習のターゲットとして扱う。 ユーザのセンシティブな属性を保護するために、Attribute Unlearning (AU)は攻撃性能を低下させ、ターゲット属性を識別不能にする。 本稿では,推薦モデルの学習が完了した後のみ学習を行うことのできる,厳格だが実践的なAU(Post-Training Attribute Unlearning, PoT-AU)に焦点を当てる。 推薦システムにおけるPoT-AU問題に対処するため、我々は2成分損失関数を設計する。 一 識別性損失:属性ラベルを攻撃者と区別不能にすること。 二 正規化損失:推薦性能に悪影響を及ぼすモデルにおける急激な変化を防止すること。 具体的には,2種類の識別性測定,すなわち,ユーザ対ユーザおよび配信対分散について検討する。 確率勾配降下アルゴリズムを用いて,提案する損失を最適化する。 3つの実世界のデータセットに関する広範囲な実験により,提案手法の有効性が示された。

With the growing privacy concerns in recommender systems, recommendation unlearning, i.e., forgetting the impact of specific learned targets, is getting increasing attention. Existing studies predominantly use training data, i.e., model inputs, as the unlearning target. However, we find that attackers can extract private information, i.e., gender, race, and age, from a trained model even if it has not been explicitly encountered during training. We name this unseen information as attribute and treat it as the unlearning target. To protect the sensitive attribute of users, Attribute Unlearning (AU) aims to degrade attacking performance and make target attributes indistinguishable. In this paper, we focus on a strict but practical setting of AU, namely Post-Training Attribute Unlearning (PoT-AU), where unlearning can only be performed after the training of the recommendation model is completed. To address the PoT-AU problem in recommender systems, we design a two-component loss function that consists of i) distinguishability loss: making attribute labels indistinguishable from attackers, and ii) regularization loss: preventing drastic changes in the model that result in a negative impact on recommendation performance. Specifically, we investigate two types of distinguishability measurements, i.e., user-to-user and distribution-to-distribution. We use the stochastic gradient descent algorithm to optimize our proposed loss. Extensive experiments on three real-world datasets demonstrate the effectiveness of our proposed methods.
翻訳日:2023-10-11 00:28:02 公開日:2023-10-06
# 非線形トモグラフィー再構成のグラディエントDescentの可能性

Gradient Descent Provably Solves Nonlinear Tomographic Reconstruction ( http://arxiv.org/abs/2310.03956v1 )

ライセンス: Link先を確認
Sara Fridovich-Keil, Fabrizio Valdivia, Gordon Wetzstein, Benjamin Recht, Mahdi Soltanolkotabi(参考訳) 計算トモグラフィー(CT)では、フォワードモデルは線形ラドン変換と、ベル=ランベルト法則に従って光の減衰に基づく指数非線形性からなる。 従来の再構成では、この非線形性を前処理ステップとして反転させ、凸逆問題を解くことがしばしばある。 しかしながら、ラドン変換を利用するのに必要なこの非線形測定前処理は、金属などの高密度材料近傍では不十分である。 この前処理により、CT再構成法は数値的に感度が高く、高密度領域近傍のアーティファクトに影響を受けやすい。 本稿では,非線形フォワードモデルを用いて生計測から信号を直接再構成する手法について検討する。 この最適化は非凸であるが、勾配降下は幾何学的速度で大域的最適に収束し、基礎となる信号を最小のランダムな測定値で完全に再構成することを示している。 また,信号の寸法よりも測定回数が著しく小さい下決定設定でも同様の結果が得られた。 これは最適化変数の制約を通して信号の事前構造情報を強制することによって達成される。 本稿では,合成および実3次元ボリュームに対するコーンビームctによる直接非線形ct再構成の利点について述べる。 金属歯冠を用いたヒト頭蓋骨の商業的再建と比較して,本手法は金属アーチファクトを減少させることを示す。

In computed tomography (CT), the forward model consists of a linear Radon transform followed by an exponential nonlinearity based on the attenuation of light according to the Beer-Lambert Law. Conventional reconstruction often involves inverting this nonlinearity as a preprocessing step and then solving a convex inverse problem. However, this nonlinear measurement preprocessing required to use the Radon transform is poorly conditioned in the vicinity of high-density materials, such as metal. This preprocessing makes CT reconstruction methods numerically sensitive and susceptible to artifacts near high-density regions. In this paper, we study a technique where the signal is directly reconstructed from raw measurements through the nonlinear forward model. Though this optimization is nonconvex, we show that gradient descent provably converges to the global optimum at a geometric rate, perfectly reconstructing the underlying signal with a near minimal number of random measurements. We also prove similar results in the under-determined setting where the number of measurements is significantly smaller than the dimension of the signal. This is achieved by enforcing prior structural information about the signal through constraints on the optimization variables. We illustrate the benefits of direct nonlinear CT reconstruction with cone-beam CT experiments on synthetic and real 3D volumes. We show that this approach reduces metal artifacts compared to a commercial reconstruction of a human skull with metal dental crowns.
翻訳日:2023-10-10 04:08:14 公開日:2023-10-06
# 変分量子固有解法に基づく多体展開と動的相関のためのデフレ

Many-Body-Expansion Based on Variational Quantum Eigensolver and Deflation for Dynamical Correlation ( http://arxiv.org/abs/2310.03954v1 )

ライセンス: Link先を確認
Enhua Xu, Yuma Shimomoto, Seiichiro L. Ten-no, Takashi Tsuchimochi(参考訳) 本研究では,多体展開(mbe)フレームワークを用いて,仮想軌道を増分することにより電子構造を断片に分解する。 本研究の目的は, 変動量子固有解法とデフレアルゴリズムを用いて, 各フラグメントの基底および励起状態エネルギーを正確に解くことである。 本手法は主に一元結合クラスタシングルと二重化(UCCSD)と一般化に基づいているが、UCCSD演算子を部分的に一般化し、参照状態の緩和を無視することにより、MBE内の量子資源を保存するための修正や近似も導入する。 概念実証として、2分子の基底状態(\rm h_2o$ および $\rm n_2$)の結合破壊過程のポテンシャルエネルギー表面を調査し、3分子(lih, ch$^+$, $\rm h_2o$)の基底状態および励起状態エネルギーを計算する。 以上の結果から,本手法は,適切な近似が選択された場合に,強い相関関係を持つシステムを含むすべてのテストにおいて信頼性の高い記述を提供できることを示す。 さらに, ショットノイズがMBEエネルギーに与える影響をモデルシミュレーションし, 低次MBEフラグメントにおいて正確なエネルギー推定が重要であることを示す。

In this study, we utilize the many-body expansion (MBE) framework to decompose electronic structures into fragments by incrementing the virtual orbitals. Our work aims to accurately solve the ground and excited state energies of each fragment using the variational quantum eigensolver and deflation algorithms. Although our approach is primarily based on unitary coupled cluster singles and doubles (UCCSD) and a generalization thereof, we also introduce modifications and approximations to conserve quantum resources in MBE by partially generalizing the UCCSD operator and neglecting the relaxation of the reference states. As a proof of concept, we investigate the potential energy surfaces for the bond-breaking processes of the ground state of two molecules ($\rm H_2O$ and $\rm N_2$) and calculate the ground and excited state energies of three molecules (LiH, CH$^+$, and $\rm H_2O$). The results demonstrate that our approach can, in principle, provide reliable descriptions in all tests, including strongly correlated systems, when appropriate approximations are chosen. Additionally, we perform model simulations to investigate the impact of shot noise on the total MBE energy and show that precise energy estimation is crucial for lower-order MBE fragments.
翻訳日:2023-10-10 04:07:54 公開日:2023-10-06
# ILSH:人間のヘッドビュー合成のためのインペリアルライトステージヘッドデータセット

ILSH: The Imperial Light-Stage Head Dataset for Human Head View Synthesis ( http://arxiv.org/abs/2310.03952v1 )

ライセンス: Link先を確認
Jiali Zheng, Youngkyoon Jang, Athanasios Papaioannou, Christos Kampouris, Rolandos Alexandros Potamias, Foivos Paraperas Papantoniou, Efstathios Galanakis, Ales Leonardis, Stefanos Zafeiriou(参考訳) 本稿では,人間の頭部に対する視覚合成の学術的課題を支援するために設計された,新しい光ステージキャプチャ型ヒト頭部データセットである imperial light-stage head (ilsh) dataset について述べる。 ILSHデータセットは、シーン特異的または汎用的なニューラルレンダリング、マルチビュー幾何学、3Dビジョン、コンピュータグラフィックスといった多様なアプローチを促進することを目的としており、フォトリアリスティックな人間のアバターの開発をさらに進めている。 本稿では,高分解能 (4k) な頭部画像をキャプチャする光ステージのセットアップと,高品質なデータ収集における課題(前処理,倫理的問題)に対処するプロセスについて述べる。 データ収集に加えて、データセットのトレーニング、検証、テストセットへの分割にも対処します。 我々のゴールは、テストセットを使用する場合や検証セットを使用する場合のように、同様のレベルのパフォーマンスを維持および期待できるように、この新しいデータセットのための公正なビュー合成課題タスクを設計し、サポートすることである。 ILSHデータセットは、24台のカメラで撮影され、82個の光源が点灯し、合計1248個のクローズアップヘッドイメージ、バウンドマスク、カメラポーズペアで構成されている。

This paper introduces the Imperial Light-Stage Head (ILSH) dataset, a novel light-stage-captured human head dataset designed to support view synthesis academic challenges for human heads. The ILSH dataset is intended to facilitate diverse approaches, such as scene-specific or generic neural rendering, multiple-view geometry, 3D vision, and computer graphics, to further advance the development of photo-realistic human avatars. This paper details the setup of a light-stage specifically designed to capture high-resolution (4K) human head images and describes the process of addressing challenges (preprocessing, ethical issues) in collecting high-quality data. In addition to the data collection, we address the split of the dataset into train, validation, and test sets. Our goal is to design and support a fair view synthesis challenge task for this novel dataset, such that a similar level of performance can be maintained and expected when using the test set, as when using the validation set. The ILSH dataset consists of 52 subjects captured using 24 cameras with all 82 lighting sources turned on, resulting in a total of 1,248 close-up head images, border masks, and camera pose pairs.
翻訳日:2023-10-10 04:07:28 公開日:2023-10-06
# 大規模言語モデル非基底幻覚の低減のための自然言語推論の連鎖

Chain of Natural Language Inference for Reducing Large Language Model Ungrounded Hallucinations ( http://arxiv.org/abs/2310.03951v1 )

ライセンス: Link先を確認
Deren Lei, Yaxi Li, Mengya (Mia) Hu, Mingyu Wang, Vincent Yun, Emily Ching, Eslam Kamal(参考訳) 大規模言語モデル(llm)は、関連する文書が背景のコンテキストとして与えられると、流れる自然言語テキストを生成することができる。 この能力はLLMの産業応用に多大な関心を集めている。 しかし、LSMは提供されたソースがサポートしていない幻覚を生成する傾向にある。 本稿では,このような幻覚を検出・緩和するための階層的枠組みを提案する。 本フレームワークでは, 後編集による幻覚の検出と幻覚の低減に, 自然言語推論の連鎖 (CoNLI) を用いる。 提案手法は幻覚検出の最先端性能を実現し,微調整やドメイン固有のプロンプトエンジニアリングを使わずに書き直しによるテキスト品質の向上を実現する。 この単純なプラグ・アンド・プレイ・フレームワークは幻覚の検出と軽減に有効な選択肢となり、様々な文脈で競争的パフォーマンスを達成することができる。

Large language models (LLMs) can generate fluent natural language texts when given relevant documents as background context. This ability has attracted considerable interest in developing industry applications of LLMs. However, LLMs are prone to generate hallucinations that are not supported by the provided sources. In this paper, we propose a hierarchical framework to detect and mitigate such ungrounded hallucination. Our framework uses Chain of Natural Language Inference (CoNLI) for hallucination detection and hallucination reduction via post-editing. Our approach achieves state-of-the-art performance on hallucination detection and enhances text quality through rewrite, using LLMs without any fine-tuning or domain-specific prompt engineering. We show that this simple plug-and-play framework can serve as an effective choice for hallucination detection and reduction, achieving competitive performance across various contexts.
翻訳日:2023-10-10 04:07:07 公開日:2023-10-06
# 現代的なGPU上のテンソルネットワーク法による効率的な量子回路シミュレーション

Efficient Quantum Circuit Simulation by Tensor Network Methods on Modern GPUs ( http://arxiv.org/abs/2310.03978v1 )

ライセンス: Link先を確認
Feng Pan, Hanfeng Gu, Lvlin Kuang, Bing Liu, Pan Zhang(参考訳) 量子回路の効率的なシミュレーションは、量子ハードウェアの急速な発展に不可欠である。 一次シミュレーション手法は状態ベクトルとテンソルネットワークに基づいている。 量子ビットと量子ゲートの数が現在の量子デバイスで大きくなるにつれて、従来の状態ベクトルベースの量子回路シミュレーション手法はヒルベルト空間の圧倒的なサイズと広範な絡み合いのために不十分であることが証明される。 その結果、残忍力テンソルネットワークシミュレーションアルゴリズムはそのようなシナリオで唯一実行可能な解となる。 テンソルネットワークシミュレーションアルゴリズムで直面する2つの主な課題は、最適収縮経路の探索と現代のコンピュータデバイス上での効率的な実行であり、後者は実際の効率を決定する。 本研究では,最新のgpu上でのテンソルネットワークシミュレーションの最適化について検討し,計算効率と精度の2つの側面から一般最適化戦略を提案する。 まず,重要なアインシュタイン和演算をGEMM演算に変換することを提案し,テンソルネットワークシミュレーションの特性を利用してGPUの効率を向上する。 第2に、量子回路のデータ特性を解析することにより、シミュレーション結果の精度と混合精度を保証し、GPUの可能性を完全に活用し、高速で高精度なシミュレーションを実現する。 数値実験により, 1 a100 において21 tflops を超える連続性能を持つサイカモアの18サイクルの場合, ランダム量子回路サンプルの検証時間を3.96倍削減できることが実証された。 この方法は20サイクルのケースに容易に拡張でき、最新のCPUベースの結果と比較して12.5倍、最先端のGPUベースの結果と比較して4.48-6.78倍の高速化を実現している。

Efficient simulation of quantum circuits has become indispensable with the rapid development of quantum hardware. The primary simulation methods are based on state vectors and tensor networks. As the number of qubits and quantum gates grows larger in current quantum devices, traditional state-vector based quantum circuit simulation methods prove inadequate due to the overwhelming size of the Hilbert space and extensive entanglement. Consequently, brutal force tensor network simulation algorithms become the only viable solution in such scenarios. The two main challenges faced in tensor network simulation algorithms are optimal contraction path finding and efficient execution on modern computing devices, with the latter determines the actual efficiency. In this study, we investigate the optimization of such tensor network simulations on modern GPUs and propose general optimization strategies from two aspects: computational efficiency and accuracy. Firstly, we propose to transform critical Einstein summation operations into GEMM operations, leveraging the specific features of tensor network simulations to amplify the efficiency of GPUs. Secondly, by analyzing the data characteristics of quantum circuits, we employ extended precision to ensure the accuracy of simulation results and mixed precision to fully exploit the potential of GPUs, resulting in faster and more precise simulations. Our numerical experiments demonstrate that our approach can achieve a 3.96x reduction in verification time for random quantum circuit samples in the 18-cycle case of Sycamore, with sustained performance exceeding 21 TFLOPS on one A100. This method can be easily extended to the 20-cycle case, maintaining the same performance, accelerating by 12.5x compared to the state-of-the-art CPU-based results and 4.48-6.78x compared to the state-of-the-art GPU-based results reported in the literature.
翻訳日:2023-10-10 03:46:10 公開日:2023-10-06
# 完璧なアライメントはグラフのコントラスト学習にとって有害かもしれない

Perfect Alignment May be Poisonous to Graph Contrastive Learning ( http://arxiv.org/abs/2310.03977v1 )

ライセンス: Link先を確認
Jingyu Liu, Huayi Tang, Yong Liu(参考訳) Graph Contrastive Learning (GCL)は、正のペアの整列と負のペアの分離によるノード表現の学習を目的としている。 しかし、グラフベースの学習で使われる特定の拡張の背後にある内法に関する限られた研究が行われている。 ダウンストリームのパフォーマンス向上,コントラスト学習が下流タスクにどのように影響するか,拡張の規模はなぜ重要なのか? 本稿では,強化と下流パフォーマンスの関連を確立するとともに,コントラスト学習の一般化について検討することを目的とした。 以上の結果から,gclは,同一クラスのノードを収集するのではなく,クラスを分離することで,主に下流タスクに寄与することが明らかとなった。 したがって、クラス内のすべてのサンプルを同じ方法で描画する完全なアライメントと拡張の重複は、コントラスト学習の成功を説明できない。 そして, 拡張がコントラスト学習の過程をどのように助けるかを理解するために, その一般化についてさらなる調査を行い, 正のペアを引き出す完全アライメントがコントラストの損失に寄与するが, 一般化に毒となることを見出し, 逆に不完全アライメントはモデルの一般化能力を高める。 本稿では,情報理論とグラフスペクトル理論を用いて解析を行い,理論を検証するための2つの単純かつ効果的な方法を提案する。 この2つの手法は様々なGCLアルゴリズムに容易に適用でき、その有効性を証明するために広範な実験が行われた。

Graph Contrastive Learning (GCL) aims to learn node representations by aligning positive pairs and separating negative ones. However, limited research has been conducted on the inner law behind specific augmentations used in graph-based learning. What kind of augmentation will help downstream performance, how does contrastive learning actually influence downstream tasks, and why the magnitude of augmentation matters? This paper seeks to address these questions by establishing a connection between augmentation and downstream performance, as well as by investigating the generalization of contrastive learning. Our findings reveal that GCL contributes to downstream tasks mainly by separating different classes rather than gathering nodes of the same class. So perfect alignment and augmentation overlap which draw all intra-class samples the same can not explain the success of contrastive learning. Then in order to comprehend how augmentation aids the contrastive learning process, we conduct further investigations into its generalization, finding that perfect alignment that draw positive pair the same could help contrastive loss but is poisonous to generalization, on the contrary, imperfect alignment enhances the model's generalization ability. We analyse the result by information theory and graph spectrum theory respectively, and propose two simple but effective methods to verify the theories. The two methods could be easily applied to various GCL algorithms and extensive experiments are conducted to prove its effectiveness.
翻訳日:2023-10-10 03:45:18 公開日:2023-10-06
# HuBERTopic: トピックモデルを活用した自己スーパービジョンによるHumberTのセマンティック表現の強化

HuBERTopic: Enhancing Semantic Representation of HuBERT through Self-supervision Utilizing Topic Model ( http://arxiv.org/abs/2310.03975v1 )

ライセンス: Link先を確認
Takashi Maekaku, Jiatong Shi, Xuankai Chang, Yuya Fujita, Shinji Watanabe(参考訳) 近年,下流タスクにおいて自己教師付き表現学習(SSRL)手法の有用性が確認されている。 これらのモデルの多くは、 HuBERT や WavLM によって例示されているように、スペクトル特徴やモデル独自の表現特徴から生成された擬似ラベルを使用している。 従来の研究では、擬似ラベルには意味情報が含まれていることが知られている。 しかし、HuBERTの学習基準であるマスク付き予測タスクは、局所的な文脈情報に焦点を当てており、話者や発話のテーマなどのグローバルな意味情報を効果的に活用することができない。 本稿では,HuBERTのセマンティック表現を強化するための新しいアプローチを提案する。 擬似ラベルにトピックモデルを適用し,発話毎にトピックラベルを生成する。 トピックラベルを教師として使用することにより、HuBERTに補助トピック分類タスクを追加する。 これにより、追加のグローバルセマンティクス情報を教師なしの方法で組み込むことができる。 実験の結果,音声認識や8つのスーパータスクのうち5つを含む,ほとんどのタスクにおけるベースラインと同等あるいは優れた性能が得られることがわかった。 さらに, 話題ラベルには, ジェンダー, 話者, テーマなど, 発話に関する様々な情報が含まれていることがわかった。 これは多面的意味ニュアンスをキャプチャする手法の有効性を強調している。

Recently, the usefulness of self-supervised representation learning (SSRL) methods has been confirmed in various downstream tasks. Many of these models, as exemplified by HuBERT and WavLM, use pseudo-labels generated from spectral features or the model's own representation features. From previous studies, it is known that the pseudo-labels contain semantic information. However, the masked prediction task, the learning criterion of HuBERT, focuses on local contextual information and may not make effective use of global semantic information such as speaker, theme of speech, and so on. In this paper, we propose a new approach to enrich the semantic representation of HuBERT. We apply topic model to pseudo-labels to generate a topic label for each utterance. An auxiliary topic classification task is added to HuBERT by using topic labels as teachers. This allows additional global semantic information to be incorporated in an unsupervised manner. Experimental results demonstrate that our method achieves comparable or better performance than the baseline in most tasks, including automatic speech recognition and five out of the eight SUPERB tasks. Moreover, we find that topic labels include various information about utterance, such as gender, speaker, and its theme. This highlights the effectiveness of our approach in capturing multifaceted semantic nuances.
翻訳日:2023-10-10 03:44:19 公開日:2023-10-06
# エッジデバイス上での量子トランスフォーマー言語モデルの実装

Quantized Transformer Language Model Implementations on Edge Devices ( http://arxiv.org/abs/2310.03971v1 )

ライセンス: Link先を確認
Mohammad Wali Ur Rahman, Murad Mehrab Abrar, Hunter Gibbons Copening, Salim Hariri, Sicong Shao, Pratik Satam, and Soheil Salehi(参考訳) Bidirectional Encoder Representations from Transformers (BERT) のような大規模トランスフォーマーベースのモデルは、自然言語処理(NLP)アプリケーションに広く使われている。 これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。 これらの制限を克服するために、リソース制約のあるエッジデバイスへのデプロイに適した最適化されたFlatBufferフォーマットに変換することができる。 本稿では,3種類のエッジデバイスを用いたflatbuffer変換mobilebertモデルの性能評価を行い,replab 2013データセットにおける英語ツイートの評価分析を行った。 さらに,本研究では,デプロイモデルのレイテンシ,性能,資源効率を細心の注意を払って評価した。 実験の結果,変換および量子化された MobileBERT モデルは,従来の BERT 大規模モデルと比較して160$\times$ small footprints for a 4.1% drop in accuracy であり,エッジデバイス上では1秒間に1ツイート以上解析できることがわかった。 さらに,すべてのデータがサーバレス環境内でローカルに処理されるため,tinymlシステムのプライバシ保護的な側面についても注目する。

Large-scale transformer-based models like the Bidirectional Encoder Representations from Transformers (BERT) are widely used for Natural Language Processing (NLP) applications, wherein these models are initially pre-trained with a large corpus with millions of parameters and then fine-tuned for a downstream NLP task. One of the major limitations of these large-scale models is that they cannot be deployed on resource-constrained devices due to their large model size and increased inference latency. In order to overcome these limitations, such large-scale models can be converted to an optimized FlatBuffer format, tailored for deployment on resource-constrained edge devices. Herein, we evaluate the performance of such FlatBuffer transformed MobileBERT models on three different edge devices, fine-tuned for Reputation analysis of English language tweets in the RepLab 2013 dataset. In addition, this study encompassed an evaluation of the deployed models, wherein their latency, performance, and resource efficiency were meticulously assessed. Our experiment results show that, compared to the original BERT large model, the converted and quantized MobileBERT models have 160$\times$ smaller footprints for a 4.1% drop in accuracy while analyzing at least one tweet per second on edge devices. Furthermore, our study highlights the privacy-preserving aspect of TinyML systems as all data is processed locally within a serverless environment.
翻訳日:2023-10-10 03:43:51 公開日:2023-10-06
# 非マルコフ的行動学習における究極の限界:漁業情報率と過剰情報

Ultimate limit on learning non-Markovian behavior: Fisher information rate and excess information ( http://arxiv.org/abs/2310.03968v1 )

ライセンス: Link先を確認
Paul M. Riechers(参考訳) 時系列データから確率過程の未知パラメータを学習することの基本的限界に対処し、最適な推論が観測長さでどのようにスケールするかを正確にクローズドフォーム表現を発見する。 パラメータ化された候補モデルのクラスが与えられると、観測シーケンス確率のフィッシャー情報は有限データからモデル推定のばらつきを低く抑える。 列長が増加するにつれて、最小分散は、情報レートによって与えられる定数係数で、長さの正方逆としてスケールする。 無限マルコフ次数であっても、この情報レートに対する単純な閉形式表現を発見する。 さらに, 信念状態間の観察誘起メタ力学から, モデル分散の正確な解析的下界を求める。 我々は漸近的・指数的・より一般的な収束モードを漸近的情報レートに発見する。 驚くべきことに、このミオピック情報レートは漸近的なフィッシャー情報レートに収束し、その過程においてシャノンエントロピーレートに収束するミオピックエントロピーレートに現れるのと全く同じ緩和時間スケールで収まる。 これらの結果を、最適学習を形作る確率過程の質的に異なる特徴を強調する一連の例で説明する。

We address the fundamental limits of learning unknown parameters of any stochastic process from time-series data, and discover exact closed-form expressions for how optimal inference scales with observation length. Given a parametrized class of candidate models, the Fisher information of observed sequence probabilities lower-bounds the variance in model estimation from finite data. As sequence-length increases, the minimal variance scales as the square inverse of the length -- with constant coefficient given by the information rate. We discover a simple closed-form expression for this information rate, even in the case of infinite Markov order. We furthermore obtain the exact analytic lower bound on model variance from the observation-induced metadynamic among belief states. We discover ephemeral, exponential, and more general modes of convergence to the asymptotic information rate. Surprisingly, this myopic information rate converges to the asymptotic Fisher information rate with exactly the same relaxation timescales that appear in the myopic entropy rate as it converges to the Shannon entropy rate for the process. We illustrate these results with a sequence of examples that highlight qualitatively distinct features of stochastic processes that shape optimal learning.
翻訳日:2023-10-10 03:43:23 公開日:2023-10-06
# 確率共振変換器によるサブトークン ViT 埋め込み

Sub-token ViT Embedding via Stochastic Resonance Transformers ( http://arxiv.org/abs/2310.03967v1 )

ライセンス: Link先を確認
Dong Lao, Yangchao Wu, Tian Yu Liu, Alex Wong, Stefano Soatto(参考訳) 視覚変換器(ViT)における量子化アーティファクトの存在は,これらのアーキテクチャに固有の画像トークン化ステップによって生じる。 これらの成果物は粗く定量化され、特に下流の密集した予測タスクにおいて性能に悪影響を及ぼす。 本稿では,事前学習されたvitsが空間量子化を扱う方法を改善するためのゼロショット法を提案する。 特に,気候力学や信号処理に伝統的に応用される確率共鳴に触発された,サブトケン空間変換による入力画像の摂動から得られた特徴を整理する。 本稿では,事前学習したViTの特徴を効果的に超解き明かし,トークン化によって無視される可能性のある局所的な微細構造をより多く捉えたSRT(Stochastic Resonance Transformer)と呼ぶ。 SRTはどんな層でも、どんなタスクでも適用でき、微調整は不要である。 前者の利点は単眼深度予測に適用した場合に明らかであり,SRT を中間 ViT に適用した場合,RMSE と RMSE-log の計測値で平均4.7%,14.9% の精度でベースラインモデルより優れていることを示す。 半教師付きビデオオブジェクトのセグメンテーションに適用すると、SRTはすべてのメトリクスのベースラインモデルを一様に改善し、F&Jスコアの平均2.4%も改善する。 さらに, この量子化成果物は, 自己蒸留によってある程度減衰できることを示した。 教師なしの正弦領域分割では、SRTはmaxF測定値の平均2.1%でベースモデルを改善する。 最後に、SRTはピクセルレベルの機能で純粋に動作しているにもかかわらず、画像検索やオブジェクト発見といったナンセンスな予測タスクに一般化し、それぞれ2.6%と1.0%の改善を実現している。

We discover the presence of quantization artifacts in Vision Transformers (ViTs), which arise due to the image tokenization step inherent in these architectures. These artifacts result in coarsely quantized features, which negatively impact performance, especially on downstream dense prediction tasks. We present a zero-shot method to improve how pre-trained ViTs handle spatial quantization. In particular, we propose to ensemble the features obtained from perturbing input images via sub-token spatial translations, inspired by Stochastic Resonance, a method traditionally applied to climate dynamics and signal processing. We term our method ``Stochastic Resonance Transformer" (SRT), which we show can effectively super-resolve features of pre-trained ViTs, capturing more of the local fine-grained structures that might otherwise be neglected as a result of tokenization. SRT can be applied at any layer, on any task, and does not require any fine-tuning. The advantage of the former is evident when applied to monocular depth prediction, where we show that ensembling model outputs are detrimental while applying SRT on intermediate ViT features outperforms the baseline models by an average of 4.7% and 14.9% on the RMSE and RMSE-log metrics across three different architectures. When applied to semi-supervised video object segmentation, SRT also improves over the baseline models uniformly across all metrics, and by an average of 2.4% in F&J score. We further show that these quantization artifacts can be attenuated to some extent via self-distillation. On the unsupervised salient region segmentation, SRT improves upon the base model by an average of 2.1% on the maxF metric. Finally, despite operating purely on pixel-level features, SRT generalizes to non-dense prediction tasks such as image retrieval and object discovery, yielding consistent improvements of up to 2.6% and 1.0% respectively.
翻訳日:2023-10-10 03:43:04 公開日:2023-10-06
# 思考伝播:大規模言語モデルを用いた複雑な推論に対する類推的アプローチ

Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models ( http://arxiv.org/abs/2310.03965v1 )

ライセンス: Link先を確認
Junchi Yu, Ran He, Rex Ying(参考訳) 大規模言語モデル(LLM)は、プロンプトメソッドの開発に伴うタスクの推論において顕著な成功を収めた。 しかしながら、既存のプロンプトアプローチでは、同様の問題を解決する洞察を再利用することはできず、複数ステップの推論において累積エラーに苦しむ。 これらの問題に対処するため,我々は,類似問題を探索し,それらの解を利用してllmの複雑な推論能力を高めることを目的とした \textbf{\textit{thought propagation} (tp)} を提案する。 これらの類似問題は、再利用可能な解と問題解決戦略を持つ入力問題と関係している。 したがって、以前の類似問題を解く洞察を広め、新しい問題解決を促すことが期待されている。 これを実現するため,TP は LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 そして、TPは、類似問題の結果を再利用して、新しい解を直接生成するか、あるいは、スクラッチから得られた初期解を修正するための知識集約的な実行計画を導出する。 TPは既存のプロンプトアプローチと互換性があり、タスク固有のプロンプトエンジニアリングに多くの労力をかけることなく、プラグイン・アンド・プレイの一般化と幅広いタスクの強化を可能にする。 3つの課題にわたる実験により、TPは、最短経路推論における最適解の発見における平均12倍の絶対的な増加、創造的記述における人間の嗜好の13倍の改善、LLM-Agent Planningのタスク完了率の15倍の強化により、ベースラインよりも大幅に改善されていることを示した。

Large Language Models (LLMs) have achieved remarkable success in reasoning tasks with the development of prompting methods. However, existing prompting approaches cannot reuse insights of solving similar problems and suffer from accumulated errors in multi-step reasoning, since they prompt LLMs to reason \textit{from scratch}. To address these issues, we propose \textbf{\textit{Thought Propagation} (TP)}, which explores the analogous problems and leverages their solutions to enhance the complex reasoning ability of LLMs. These analogous problems are related to the input one, with reusable solutions and problem-solving strategies. Thus, it is promising to propagate insights of solving previous analogous problems to inspire new problem-solving. To achieve this, TP first prompts LLMs to propose and solve a set of analogous problems that are related to the input one. Then, TP reuses the results of analogous problems to directly yield a new solution or derive a knowledge-intensive plan for execution to amend the initial solution obtained from scratch. TP is compatible with existing prompting approaches, allowing plug-and-play generalization and enhancement in a wide range of tasks without much labor in task-specific prompt engineering. Experiments across three challenging tasks demonstrate TP enjoys a substantial improvement over the baselines by an average of 12\% absolute increase in finding the optimal solutions in Shortest-path Reasoning, 13\% improvement of human preference in Creative Writing, and 15\% enhancement in the task completion rate of LLM-Agent Planning.
翻訳日:2023-10-10 03:42:27 公開日:2023-10-06
# 機能的結合型神経疾患診断のための学習可能な条件解析フレームワーク

A Learnable Counter-condition Analysis Framework for Functional Connectivity-based Neurological Disorder Diagnosis ( http://arxiv.org/abs/2310.03964v1 )

ライセンス: Link先を確認
Eunsong Kang, Da-woon Heo, Jiwon Lee, Heung-Il Suk(参考訳) 機能的接続(FC)を伴う神経疾患の生物学的特徴を理解するため,近年,深層学習モデルを用いて疾患を同定し,説明可能なモデルを用いて疾患関連バイオマーカーの発見を行った。 既存のフレームワークのほとんどは、機能選択、分類のための特徴抽出、分析という3つのステージで構成されており、各ステージは別々に実装されている。 しかし, 各段階の結果に信頼性が欠如している場合には, 誤診や解析の誤りが生じる可能性がある。 本研究では,診断(特徴選択と特徴抽出)と説明を体系的に統合した新しい統一フレームワークを提案する。 特に,個別の疾患関連関係を識別するための特徴選択手法として,適応型注意ネットワークを考案した。 また,関数ネットワーク間のエッジを事前に定義することなく,ネットワーク間関係を学習することでfcのグローバルトポロジー特性を要約する関数ネットワーク関係エンコーダを提案する。 最後に、我々のフレームワークは、神経科学的な解釈のための新しい説明力を提供する。 診断情報を反転させるfcをシミュレートし, 正常な脳を異常に変換し, その逆も行う。 我々は,2つの大規模静止状態機能型磁気共鳴画像(fMRI)データセット,自閉症脳画像データ交換(ABIDE)およびREST-meta-MDDを用いて,本フレームワークの有効性を検証した。 さらに, 疾患関連神経学的パターンをカウンターコンディショニング分析に基づいて解析した。

To understand the biological characteristics of neurological disorders with functional connectivity (FC), recent studies have widely utilized deep learning-based models to identify the disease and conducted post-hoc analyses via explainable models to discover disease-related biomarkers. Most existing frameworks consist of three stages, namely, feature selection, feature extraction for classification, and analysis, where each stage is implemented separately. However, if the results at each stage lack reliability, it can cause misdiagnosis and incorrect analysis in afterward stages. In this study, we propose a novel unified framework that systemically integrates diagnoses (i.e., feature selection and feature extraction) and explanations. Notably, we devised an adaptive attention network as a feature selection approach to identify individual-specific disease-related connections. We also propose a functional network relational encoder that summarizes the global topological properties of FC by learning the inter-network relations without pre-defined edges between functional networks. Last but not least, our framework provides a novel explanatory power for neuroscientific interpretation, also termed counter-condition analysis. We simulated the FC that reverses the diagnostic information (i.e., counter-condition FC): converting a normal brain to be abnormal and vice versa. We validated the effectiveness of our framework by using two large resting-state functional magnetic resonance imaging (fMRI) datasets, Autism Brain Imaging Data Exchange (ABIDE) and REST-meta-MDD, and demonstrated that our framework outperforms other competing methods for disease identification. Furthermore, we analyzed the disease-related neurological patterns based on counter-condition analysis.
翻訳日:2023-10-10 03:41:56 公開日:2023-10-06
# ポットホールによるダッシュカム画像の摂動に対する予測ステアリング制御自律ナビゲーションシステムのロバスト性向上に向けて

Towards Increasing the Robustness of Predictive Steering-Control Autonomous Navigation Systems Against Dash Cam Image Angle Perturbations Due to Pothole Encounters ( http://arxiv.org/abs/2310.03959v1 )

ライセンス: Link先を確認
Shivam Aarya (Johns Hopkins University)(参考訳) 自動車メーカーは、自動運転車のための自律的なナビゲーションと操舵制御アルゴリズムの開発を競い合っている。 これらのソフトウェアは、障害物回避や車線操作といった様々な現実シナリオを扱うために作られている。 これらの自律システムにポットホール回避を組み込む研究が進行中である。 しかし、カメラを使って運転判断を行う自律ナビゲーションソフトウェアに、穴をあける効果についてはほとんど研究されていない。 ポットホールに衝突する際のカメラ角の摂動は、予測されたステアリング角の誤差を引き起こす可能性がある。 本稿では,このような角度摂動を補償し,操舵制御予測アルゴリズムにおける誤差を低減できる新しいモデルを提案する。 公開データセットの摂動モデルを評価し,摂動画像から推定ステアリング角度の誤差を2.3%に低減し,一方の車輪がポットホールを通過する際に引き起こされるダッシュカム画像の摂動に対して自律的なステアリング制御を堅牢にすることを示した。

Vehicle manufacturers are racing to create autonomous navigation and steering control algorithms for their vehicles. These software are made to handle various real-life scenarios such as obstacle avoidance and lane maneuvering. There is some ongoing research to incorporate pothole avoidance into these autonomous systems. However, there is very little research on the effect of hitting a pothole on the autonomous navigation software that uses cameras to make driving decisions. Perturbations in the camera angle when hitting a pothole can cause errors in the predicted steering angle. In this paper, we present a new model to compensate for such angle perturbations and reduce any errors in steering control prediction algorithms. We evaluate our model on perturbations of publicly available datasets and show our model can reduce the errors in the estimated steering angle from perturbed images to 2.3%, making autonomous steering control robust against the dash cam image angle perturbations induced when one wheel of a car goes over a pothole.
翻訳日:2023-10-10 03:41:29 公開日:2023-10-06
# プロンプトエンジニアリングを理解するには、一般化を再考する必要はないかもしれない

Understanding prompt engineering may not require rethinking generalization ( http://arxiv.org/abs/2310.03957v1 )

ライセンス: Link先を確認
Victor Akinwande, Yiding Jiang, Dylan Sam, J. Zico Kolter(参考訳) 視覚言語モデルのゼロショット学習は、明示的なトレーニングプロセスなしで分類器を構築するためのプロンプトを作成する実践であり、多くの設定で印象的なパフォーマンスを達成している。 これらの手法は比較的過度な適合に苦しむ、すなわち、与えられたトレーニングセットで低いエラーを達成するためにプロンプトを手動で設計した場合(つまり、メソッドをゼロショットにしないため)、そのアプローチは依然として保持されたテストデータ上でうまく機能する。 本稿では,古典的なPAC-Bayes境界に関連付けることで,このような性能をうまく説明できることを示す。 具体的には、プロンプトの離散的性質と、言語モデルによって与えられるpac-bayesを組み合わせることで、文献の基準によって著しく密接な一般化境界が得られることを示す:例えば、imagenet分類器の一般化境界は、真のテストエラーの数パーセント以内であることが多い。 既存の手作りプロンプトと単純な欲求探索によって生成されたプロンプトを実証的に証明する。 さらに、結果のバウンドはモデル選択に適しており、最良のバウンドを持つモデルは、通常、最高のテストパフォーマンスを持つ。 この研究は、たとえそのような方法がトレーニングデータに過剰に適合する可能性があるとしても、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。

Zero-shot learning in prompted vision-language models, the practice of crafting prompts to build classifiers without an explicit training process, has achieved impressive performance in many settings. This success presents a seemingly surprising observation: these methods suffer relatively little from overfitting, i.e., when a prompt is manually engineered to achieve low error on a given training set (thus rendering the method no longer actually zero-shot), the approach still performs well on held-out test data. In this paper, we show that we can explain such performance well via recourse to classical PAC-Bayes bounds. Specifically, we show that the discrete nature of prompts, combined with a PAC-Bayes prior given by a language model, results in generalization bounds that are remarkably tight by the standards of the literature: for instance, the generalization bound of an ImageNet classifier is often within a few percentage points of the true test error. We demonstrate empirically that this holds for existing handcrafted prompts and prompts generated through simple greedy search. Furthermore, the resulting bound is well-suited for model selection: the models with the best bound typically also have the best test performance. This work thus provides a possible justification for the widespread practice of prompt engineering, even if it seems that such methods could potentially overfit the training data.
翻訳日:2023-10-10 03:41:09 公開日:2023-10-06
# look-alike clusteringによる学習:モデル一般化の精密解析

Learning via Look-Alike Clustering: A Precise Analysis of Model Generalization ( http://arxiv.org/abs/2310.04015v1 )

ライセンス: Link先を確認
Adel Javanmard and Vahab Mirrokni(参考訳) パーソナライズドレコメンデーションシステムはますます普及しているが、ユーザデータ保護の確保は、これらの学習システムの開発において重要な関心事である。 プライバシを強化する一般的なアプローチは、個別のデータではなく匿名データを使用したトレーニングモデルである。 本稿では,クラスタの平均値に個人の特徴を置き換える,‘emph{look-alike clustering’と呼ばれる自然な手法について検討する。 匿名クラスタセンターを用いたトレーニングモデルが一般化能力にどのように影響するかを正確に分析する。 我々は,訓練集合の大きさが特徴次元に比例して増加する漸近的構造に注目した。 解析は Convex Gaussian Minimax Theorem (CGMT) に基づいており、一般化誤差における異なるモデル成分の役割を理論的に理解することができる。 さらに,特定の高次元環境において,匿名クラスタセンタでのトレーニングが正規化として作用し,訓練モデルの一般化誤差が向上することを示す。 最後に、サンプルサイズが数百のオーダーしかない場合に完全な一致を観測する有限サンプル数値実験によって漸近理論を補足する。

While personalized recommendations systems have become increasingly popular, ensuring user data protection remains a paramount concern in the development of these learning systems. A common approach to enhancing privacy involves training models using anonymous data rather than individual data. In this paper, we explore a natural technique called \emph{look-alike clustering}, which involves replacing sensitive features of individuals with the cluster's average values. We provide a precise analysis of how training models using anonymous cluster centers affects their generalization capabilities. We focus on an asymptotic regime where the size of the training set grows in proportion to the features dimension. Our analysis is based on the Convex Gaussian Minimax Theorem (CGMT) and allows us to theoretically understand the role of different model components on the generalization error. In addition, we demonstrate that in certain high-dimensional regimes, training over anonymous cluster centers acts as a regularization and improves generalization error of the trained models. Finally, we corroborate our asymptotic theory with finite-sample numerical experiments where we observe a perfect match when the sample size is only of order of a few hundreds.
翻訳日:2023-10-10 03:32:50 公開日:2023-10-06
# 運動と回復:注意に基づく単一決定論的マスキングによる表面異常検出の強化

Excision and Recovery: Enhancing Surface Anomaly Detection with Attention-based Single Deterministic Masking ( http://arxiv.org/abs/2310.04010v1 )

ライセンス: Link先を確認
YeongHyeon Park, Sungho Kang, Myung Jin Kim, Yeonho Lee, Juneho Yi(参考訳) 表面検査における異常検出(AD)は、不足する異常データの量不均衡の問題により、製造において不可欠な課題である。 これを克服するために、異常のないサンプルのみで訓練されたオートエンコーダやu-netなどの再構成エンコーダ・デコーダ(ed)が広く採用され、通常よりも大きな再構成エラーが発生することを期待している。 近年, 自己管理による再建に関する研究が報告されている。 彼らは、不正確な修復を故意に行うために、修復に見えないようにするために、塗装不良の疑いのある領域を隠ぺいした。 しかし、それらの制限は、予め知られていない欠陥領域のために入力画像全体をカバーする複数のランダムマスクである。 本研究では,1つの決定論的マスキングを特徴とするEcision and Recovery (EAR) と呼ばれる新しい再構築手法を提案する。 そこで我々は,事前学習した空間的注意モデルを用いて,隠蔽すべき潜在的な欠陥領域を予測する。 また,U-Netの変種をEDとして使用して,異なるレイヤのスキップ接続を選択的に無効にすることが可能な異常に対するU-Netモデルの再構築能力をさらに制限する。 トレーニングフェーズでは、すべてのスキップ接続をスイッチして、u-netアーキテクチャのメリットを完全に享受する。 対照的に、推論では、より浅い接続をオフにして、より深いスキップ接続を保ちます。 mnist で事前学習した mnist 表層 ad データセット kolektorsdd2 を用いて耳の有効性を検証した。 実験の結果,EARは最先端手法よりも優れたAD性能と高いスループットを実現することがわかった。 提案したEARモデルはAD目的のトレーニングおよび推論戦略として広く採用できると期待している。

Anomaly detection (AD) in surface inspection is an essential yet challenging task in manufacturing due to the quantity imbalance problem of scarce abnormal data. To overcome the above, a reconstruction encoder-decoder (ED) such as autoencoder or U-Net which is trained with only anomaly-free samples is widely adopted, in the hope that unseen abnormals should yield a larger reconstruction error than normal. Over the past years, researches on self-supervised reconstruction-by-inpainting have been reported. They mask out suspected defective regions for inpainting in order to make them invisible to the reconstruction ED to deliberately cause inaccurate reconstruction for abnormals. However, their limitation is multiple random masking to cover the whole input image due to defective regions not being known in advance. We propose a novel reconstruction-by-inpainting method dubbed Excision and Recovery (EAR) that features single deterministic masking. For this, we exploit a pre-trained spatial attention model to predict potential suspected defective regions that should be masked out. We also employ a variant of U-Net as our ED to further limit the reconstruction ability of the U-Net model for abnormals, in which skip connections of different layers can be selectively disabled. In the training phase, all the skip connections are switched on to fully take the benefits from the U-Net architecture. In contrast, for inferencing, we only keep deeper skip connections with shallower connections off. We validate the effectiveness of EAR using an MNIST pre-trained attention for a commonly used surface AD dataset, KolektorSDD2. The experimental results show that EAR achieves both better AD performance and higher throughput than state-of-the-art methods. We expect that the proposed EAR model can be widely adopted as training and inference strategies for AD purposes.
翻訳日:2023-10-10 03:32:31 公開日:2023-10-06
# 確率測度空間上の最適化の高速化

Accelerating optimization over the space of probability measures ( http://arxiv.org/abs/2310.04006v1 )

ライセンス: Link先を確認
Shi Chen, Qin Li, Oliver Tse and Stephen J. Wright(参考訳) 勾配に基づく最適化手法の高速化は、特に機械学習アプリケーションにおいて、実用的かつ理論的に重要な関心事である。 ほとんどの研究はユークリッド空間の最適化に焦点を合わせてきたが、多くの機械学習問題における確率測度空間の最適化の必要性を考えると、この文脈における加速勾配法の研究も重要である。 この目的のために、ユークリッド空間におけるモーメントに基づくアプローチに類似したハミルトン流アプローチを導入する。 この手法に基づくアルゴリズムが任意に高次な収束率を達成できることを実証する。 数値的な例は我々の主張を示している。

Acceleration of gradient-based optimization methods is an issue of significant practical and theoretical interest, particularly in machine learning applications. Most research has focused on optimization over Euclidean spaces, but given the need to optimize over spaces of probability measures in many machine learning problems, it is of interest to investigate accelerated gradient methods in this context too. To this end, we introduce a Hamiltonian-flow approach that is analogous to moment-based approaches in Euclidean space. We demonstrate that algorithms based on this approach can achieve convergence rates of arbitrarily high order. Numerical examples illustrate our claim.
翻訳日:2023-10-10 03:32:02 公開日:2023-10-06
# 基礎モデルを用いたワイヤレス世界における連合学習の役割

The Role of Federated Learning in a Wireless World with Foundation Models ( http://arxiv.org/abs/2310.04003v1 )

ライセンス: Link先を確認
Zihan Chen, Howard H. Yang, Y. C. Tay, Kai Fong Ernest Chong, and Tony Q. S. Quek(参考訳) ファウンデーションモデル(fms)は汎用人工知能(ai)モデルであり、最近、複数の新しい生成型aiアプリケーションを可能にした。 FMの急速な進歩は、フェデレーション学習(FL)が分散ネットワークインテリジェンスの鍵となる次世代無線ネットワークのビジョンの重要な背景となっている。 現在、FMとFLの相互作用の探索はまだ初期段階にある。 当然、fmsはflのパフォーマンスを高めることができ、flはfmsのトレーニングを支援するために分散データと計算リソースを活用することもできる。 しかし、FMが計算資源、ストレージ、通信のオーバーヘッドに対して持つ極めて高い要求は、FL対応無線ネットワークにとって重要な課題となる。 本稿では,fmsが無線ネットワーク上でのflにどの程度適しているかについて検討し,その研究課題と機会について概観する。 特に、FMとFLを統合した未来のインテリジェントネットワークを実現するための複数の新しいパラダイムについて論じる。 また,これらのパラダイムに関連する幅広い研究の方向性を整理した。

Foundation models (FMs) are general-purpose artificial intelligence (AI) models that have recently enabled multiple brand-new generative AI applications. The rapid advances in FMs serve as an important contextual backdrop for the vision of next-generation wireless networks, where federated learning (FL) is a key enabler of distributed network intelligence. Currently, the exploration of the interplay between FMs and FL is still in its nascent stage. Naturally, FMs are capable of boosting the performance of FL, and FL could also leverage decentralized data and computing resources to assist in the training of FMs. However, the exceptionally high requirements that FMs have for computing resources, storage, and communication overhead would pose critical challenges to FL-enabled wireless networks. In this article, we explore the extent to which FMs are suitable for FL over wireless networks, including a broad overview of research challenges and opportunities. In particular, we discuss multiple new paradigms for realizing future intelligent networks that integrate FMs and FL. We also consolidate several broad research directions associated with these paradigms.
翻訳日:2023-10-10 03:31:53 公開日:2023-10-06
# ウィグナーの友人ジレンマを超えて:新しい不決定性に基づく量子理論

Beyond the Wigner's friend dilemma: A new indeterminacy-based quantum theory ( http://arxiv.org/abs/2310.04002v1 )

ライセンス: Link先を確認
Francisco Pipa(参考訳) 環境決定性に基づく(endqt)と呼ばれる、新しい局所的、非関係な単一世界、非集合的、非超決定的/回帰的(解釈)量子論を提案する。 ある種の量子論とは対照的に、EnDQTは相対性理論と緊張せず、ベル相関の局所因果説明を提供する。 さらに、崩壊理論とは異なり、原理的には任意の系を任意の時間の間重ね合わせに配置することができる。 さらに、他の量子理論と区別する可能性のある、一連の新しい経験的ポジットを提供する。 EnDQTによると、ある時点である系は決定的な値を取得し、相互作用によって決定的な値をもたらす能力は、局所的な相互作用を通じて他の系に伝播する。 このプロセスは特定のネットワークで表現できる。 これらのネットワークに属する他のシステム、例えば拡張されたウィグナーの友人シナリオにおける友人の隔離された実験室の内部から隔離された場合、非相対的に不確定な値が内部に生じる。

I propose a novel local, non-relational single-world, non-collapse, non-superdeterministic/retrocausal (interpretation of) quantum theory called Environmental Determinacy-based or EnD Quantum Theory (EnDQT). In contrast to certain quantum theories, EnDQT is not in tension with relativity and provides a local causal explanation of Bell correlations. Additionally, unlike collapse theories, in principle, arbitrary systems can be placed in a superposition for an arbitrary amount of time. Furthermore, it provides a series of novel empirical posits that may distinguish it from other quantum theories. According to EnDQT, certain systems acquire determinate values at some point in time, and the capacity to give rise to determinate values through interactions propagates to other systems in spacetime via local interactions. This process can be represented via certain networks. When there is isolation from the rest of the systems that belong to these networks, such as inside the friend's isolated lab in the extended Wigner's friend scenarios, indeterminate values non-relationally arise inside.
翻訳日:2023-10-10 03:31:37 公開日:2023-10-06
# ランタイムモニタリングDNNによる認識

Runtime Monitoring DNN-Based Perception ( http://arxiv.org/abs/2310.03999v1 )

ライセンス: Link先を確認
Chih-Hong Cheng, Michael Luttenberger, Rongjie Yan(参考訳) ディープニューラルネットワーク(dnn)は複雑な知覚システムを実現するのに役立つ。 これらのアプリケーションの多くは設計上安全性に欠かせないものであるため、DNNベースの認識の機能的欠如が害の源にならないことを保証するためにエンジニアリングの厳密さが必要である。 設計段階で使用される従来の静的検証とテスト技術に加えて、重要なイベントを検出し、問題を診断し、要求を強制できる実行時検証技術が必要である。 このチュートリアルは、読者に文学で提案されたテクニックを垣間見ることを目的としている。 まず、機械学習コミュニティで提案された古典的な手法から始め、形式的手法コミュニティによって提案されたいくつかのテクニックを強調する。 モニタの設計の類似性は確実に観察できますが、意思決定の境界は2つのコミュニティによって異なります。 最後に、運用ドメイン外のデータアベイラビリティが重要な役割を担うモニタを厳格に設計する必要性を強調する。

Deep neural networks (DNNs) are instrumental in realizing complex perception systems. As many of these applications are safety-critical by design, engineering rigor is required to ensure that the functional insufficiency of the DNN-based perception is not the source of harm. In addition to conventional static verification and testing techniques employed during the design phase, there is a need for runtime verification techniques that can detect critical events, diagnose issues, and even enforce requirements. This tutorial aims to provide readers with a glimpse of techniques proposed in the literature. We start with classical methods proposed in the machine learning community, then highlight a few techniques proposed by the formal methods community. While we surely can observe similarities in the design of monitors, how the decision boundaries are created vary between the two communities. We conclude by highlighting the need to rigorously design monitors, where data availability outside the operational domain plays an important role.
翻訳日:2023-10-10 03:31:18 公開日:2023-10-06
# SemStamp: テキスト生成のためのパラフレーズロバストなセマンティックな透かし

SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation ( http://arxiv.org/abs/2310.03991v1 )

ライセンス: Link先を確認
Abe Bohan Hou, Jingyu Zhang, Tianxing He, Yichen Wang, Yung-Sung Chuang, Hongwei Wang, Lingfeng Shen, Benjamin Van Durme, Daniel Khashabi, and Yulia Tsvetkov(参考訳) 既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。 この問題に対処するために,文の意味空間を分割する局所性感性ハッシュ(LSH)に基づく頑健な文レベルの意味的透かしアルゴリズムSemStampを提案する。 アルゴリズムはLLMによって生成された候補文を符号化してLSH化し、サンプルされた文がセマンティック埋め込み空間のウォーターマークされたパーティションに落ちるまで文レベルの拒絶サンプリングを行う。 マージンベースの制約は、その堅牢性を高めるために使用される。 本アルゴリズムの利点を示すために,最少のビッグラムが元の文と重複するパラフレーズを用いた「ビグラム」パラフレーズ攻撃を提案する。 この攻撃は既存のトークンレベルの透かし法に対して有効であることが示されている。 実験結果から,本手法は,従来法とbigramparaphrase法の両方において,従来法よりも頑健なだけでなく,生成品質の維持にも優れていることがわかった。

Existing watermarking algorithms are vulnerable to paraphrase attacks because of their token-level design. To address this issue, we propose SemStamp, a robust sentence-level semantic watermarking algorithm based on locality-sensitive hashing (LSH), which partitions the semantic space of sentences. The algorithm encodes and LSH-hashes a candidate sentence generated by an LLM, and conducts sentence-level rejection sampling until the sampled sentence falls in watermarked partitions in the semantic embedding space. A margin-based constraint is used to enhance its robustness. To show the advantages of our algorithm, we propose a "bigram" paraphrase attack using the paraphrase that has the fewest bigram overlaps with the original sentence. This attack is shown to be effective against the existing token-level watermarking method. Experimental results show that our novel semantic watermark algorithm is not only more robust than the previous state-of-the-art method on both common and bigram paraphrase attacks, but also is better at preserving the quality of generation.
翻訳日:2023-10-10 03:31:04 公開日:2023-10-06
# atom-ナノフォトニックインタフェースにおけるスケーラブルグラフ状態の生成

Generating scalable graph states in an atom-nanophotonic interface ( http://arxiv.org/abs/2310.03990v1 )

ライセンス: Link先を確認
C.-H. Chien, S. Goswami, C.-C. Wu, W.-S. Hiew, Y.-C. Chen, and H. H. Jen(参考訳) スケーラブルグラフ状態は、測定に基づく量子計算および量子技術における多くの絡み合い支援アプリケーションに不可欠である。 これらの多部交絡状態の生成には、制御可能で効率的な量子デバイスが必要であり、生成プロトコルを微妙に設計する。 本稿では,1次元と2次元の高忠実性とスケーラブルなグラフ状態を作成し,状態彫り技術を用いて原子ナノフォトニックキャビティ内で調整する手法を提案する。 本稿では,光学的ツイーザにおいて一定数の原子を断熱輸送することで,スケーラブルなグラフ状態の生成を容易にする,不要な状態成分を彫り出すための体系的プロトコルを提案する。 また、状態忠実度の解析を行い、多ビット状態彫刻とシーケンシャル単一光子プローブを用いて状態準備確率を最適化することができる。 本研究は,原子-ナノフォトニックインタフェースによるグラフ状態の生成と,静的な量子ビットを持つスケーラブルな高次元グラフ状態を用いた新しい問題固有アプリケーションへの道のりを示す。

Scalable graph states are essential for measurement-based quantum computation and many entanglement-assisted applications in quantum technologies. Generation of these multipartite entangled states requires a controllable and efficient quantum device with delicate design of generation protocol. Here we propose to prepare high-fidelity and scalable graph states in one and two dimensions, which can be tailored in an atom-nanophotonic cavity via state carving technique. We propose a systematic protocol to carve out unwanted state components, which facilitates scalable graph states generations via adiabatic transport of a definite number of atoms in optical tweezers. An analysis of state fidelity is also presented, and the state preparation probability can be optimized via multiqubit state carvings and sequential single-photon probes. Our results showcase the capability of an atom-nanophotonic interface for creating graph states and pave the way toward novel problem-specific applications using scalable high-dimensional graph states with stationary qubits.
翻訳日:2023-10-10 03:30:45 公開日:2023-10-06
# パラメータ効率適応による不規則なモーダリティをもつロバストマルチモーダル学習

Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation ( http://arxiv.org/abs/2310.03986v1 )

ライセンス: Link先を確認
Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif(参考訳) マルチモーダル学習は、下流タスクの全体的なパフォーマンスを改善するために、複数のソースからのデータを活用する。 データの冗長性は、いくつかの相関したモードでの欠落や破損した観察に対してマルチモーダルシステムを堅牢にすることが望ましい。 しかし,複数の既存マルチモーダルネットワークの性能は,テスト時に1つまたは複数のモーダルが欠落した場合に著しく低下する。 欠落モードに対するロバスト性を実現するために,事前学習されたマルチモーダルネットワークに対する簡易かつパラメータ効率の良い適応手順を提案する。 特に,中間的特徴の低位適応と変調を生かして,欠落したモダリティを補償する。 このような適応によって、モダリティの欠如と、利用可能なモダリティの組み合わせのために訓練された独立した専用ネットワークを上回るパフォーマンス低下が部分的に橋渡しできることを実証する。 提案された適応は極めて少数のパラメータを必要とする(例:ほとんどの実験では総パラメータの0.7%未満)。 rgb-thermalおよびrgb-depthセマンティックセグメンテーション、マルチモーダルマテリアルセグメンテーション、マルチモーダル感情分析タスクのための多様なデータセットを用いて、提案手法のロバスト性を強調した実験を行った。 提案手法は,様々なタスクやデータセットにまたがる汎用性を示し,モダリティの欠如した頑健なマルチモーダル学習手法よりも優れている。

Multimodal learning seeks to utilize data from multiple sources to improve the overall performance of downstream tasks. It is desirable for redundancies in the data to make multimodal systems robust to missing or corrupted observations in some correlated modalities. However, we observe that the performance of several existing multimodal networks significantly deteriorates if one or multiple modalities are absent at test time. To enable robustness to missing modalities, we propose simple and parameter-efficient adaptation procedures for pretrained multimodal networks. In particular, we exploit low-rank adaptation and modulation of intermediate features to compensate for the missing modalities. We demonstrate that such adaptation can partially bridge performance drop due to missing modalities and outperform independent, dedicated networks trained for the available modality combinations in some cases. The proposed adaptation requires extremely small number of parameters (e.g., fewer than 0.7% of the total parameters in most experiments). We conduct a series of experiments to highlight the robustness of our proposed method using diverse datasets for RGB-thermal and RGB-Depth semantic segmentation, multimodal material segmentation, and multimodal sentiment analysis tasks. Our proposed method demonstrates versatility across various tasks and datasets, and outperforms existing methods for robust multimodal learning with missing modalities.
翻訳日:2023-10-10 03:30:27 公開日:2023-10-06
# 注意型音声認識エンコーダを用いたマンダリン音声を用いた認知症評価

Dementia Assessment Using Mandarin Speech with an Attention-based Speech Recognition Encoder ( http://arxiv.org/abs/2310.03985v1 )

ライセンス: Link先を確認
Zih-Jyun Lin, Yi-Ju Chen, Po-Chih Kuo, Likai Huang, Chaur-Jong Hu, Cheng-Yu Chen(参考訳) 認知症診断には様々な検査方法が必要であり、複雑で時間がかかる。 認知症の早期発見は、状態のさらなる悪化を予防できるため重要である。 本稿では,マンダリン話者を対象とした認知症評価システムを構築するために,音声認識モデルを用いた。 実世界のシナリオによく似た音声データに対して注意に基づく音声認識モデルを訓練することにより,モデルの認識能力を大幅に向上させた。 その後,音声認識モデルからエンコーダを抽出し,認知症評価のための線形層を追加した。 99名の被験者からマンダリン音声データを収集し,地域病院から臨床評価を得た。 アルツハイマー病検出の精度は92.04%であり, 臨床認知症スコア予測の絶対誤差は9%であった。

Dementia diagnosis requires a series of different testing methods, which is complex and time-consuming. Early detection of dementia is crucial as it can prevent further deterioration of the condition. This paper utilizes a speech recognition model to construct a dementia assessment system tailored for Mandarin speakers during the picture description task. By training an attention-based speech recognition model on voice data closely resembling real-world scenarios, we have significantly enhanced the model's recognition capabilities. Subsequently, we extracted the encoder from the speech recognition model and added a linear layer for dementia assessment. We collected Mandarin speech data from 99 subjects and acquired their clinical assessments from a local hospital. We achieved an accuracy of 92.04% in Alzheimer's disease detection and a mean absolute error of 9% in clinical dementia rating score prediction.
翻訳日:2023-10-10 03:29:57 公開日:2023-10-06
# AdaRec: 長期ユーザエンゲージメントの強化のための適応的シーケンスレコメンデーション

AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term User Engagement ( http://arxiv.org/abs/2310.03984v1 )

ライセンス: Link先を確認
Zhenghai Xue, Qingpeng Cai, Tianyou Zuo, Bin Yang, Lantao Hu, Peng Jiang, Kun Gai, Bo An(参考訳) シーケンシャルレコメンデーションタスクにおいて、長期ユーザエンゲージメントを最適化する際、強化学習(RL)アルゴリズムに注目が集まる。 大規模オンラインレコメンデーションシステムにおける課題の1つは、対話率や保持傾向といったユーザの行動パターンの一定かつ複雑な変化である。 マルコフ決定過程(MDP)として定式化されると、レコメンデーションシステムの力学と報酬関数はこれらの変化に継続的に影響を受ける。 既存のレコメンデーションシステムのrlアルゴリズムは、分散シフトとそのようなmdpへの適応に苦しむことになる。 本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。 AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。 このような情報は、RLポリシーが現在のユーザの行動パターンにどのように適合するかを反映し、レコメンデーションシステムの微妙な変化を特定するのに役立つ。 これらの変化に迅速に適応するために、AdaRecは不確実性の下で楽観主義を探求することを奨励している。 この探索は、複雑な環境で安定したレコメンデーション品質を確保するため、ゼロオーダーアクション最適化によってさらに守られている。 adarecがすべてのベースラインアルゴリズムよりも優れた長期性能を示すシミュレータベースとライブシーケンシャルレコメンデーションタスクの両方において,広範な経験的解析を行う。

Growing attention has been paid to Reinforcement Learning (RL) algorithms when optimizing long-term user engagement in sequential recommendation tasks. One challenge in large-scale online recommendation systems is the constant and complicated changes in users' behavior patterns, such as interaction rates and retention tendencies. When formulated as a Markov Decision Process (MDP), the dynamics and reward functions of the recommendation system are continuously affected by these changes. Existing RL algorithms for recommendation systems will suffer from distribution shift and struggle to adapt in such an MDP. In this paper, we introduce a novel paradigm called Adaptive Sequential Recommendation (AdaRec) to address this issue. AdaRec proposes a new distance-based representation loss to extract latent information from users' interaction trajectories. Such information reflects how RL policy fits to current user behavior patterns, and helps the policy to identify subtle changes in the recommendation system. To make rapid adaptation to these changes, AdaRec encourages exploration with the idea of optimism under uncertainty. The exploration is further guarded by zero-order action optimization to ensure stable recommendation quality in complicated environments. We conduct extensive empirical analyses in both simulator-based and live sequential recommendation tasks, where AdaRec exhibits superior long-term performance compared to all baseline algorithms.
翻訳日:2023-10-10 03:29:45 公開日:2023-10-06
# CUPre: Few-Shot Cell Segmentationのためのドメイン間教師なし事前トレーニング

CUPre: Cross-domain Unsupervised Pre-training for Few-Shot Cell Segmentation ( http://arxiv.org/abs/2310.03981v1 )

ライセンス: Link先を確認
Weibin Liao and Xuhong Li and Qingzhong Wang and Yanwu Xu and Zhaozheng Yin and Haoyi Xiong(参考訳) Common Objects in Contexts (COCO) [1]のようなオブジェクト検出タスクの事前トレーニングでは、セルセグメンテーションのパフォーマンスが大幅に向上する可能性があるが、すべてのセルのバウンディングボックス、マスク、セルタイプで大量の微調整されたセルイメージ [2] を消費し、事前トレーニングされたモデルを微調整する。 アノテーションのコストを下げるために、大規模な未ラベルの細胞画像が利用可能であるが、少量のアノテートしかできない、数ショットセルセグメンテーションのためのDNNモデルの事前訓練の問題を検討する。 本稿では,非ラベル画像を用いて,共通視覚オブジェクト(coco)のオブジェクト検出とインスタンスセグメンテーションの機能をセルの視覚領域に転送する,クロスドメイン非教師なし事前学習を提案する。 バックボーン、ネック、ヘッドモジュールを備えた標準的なcocoプリトレーニングネットワークが与えられると、cupreは2つのサブタスクを備えた、代替のマルチタスクプリトレーニング(amt2)手順を採用する。 事前トレーニングのイテレーション毎に、amt2はまず、教師なし運動量コントラスト学習(moco)[3]を介して、複数のセルデータセットからセルイメージをトレーニングし、その後、インスタンスセグメンテーションを介してバニラコココデータセットでモデル全体をトレーニングする。 事前トレーニング後、CUPreはいくつかの注釈付き画像を使用して、セルセグメンテーションタスクでモデル全体を微調整する。 我々は,LIVECell [2] と BBBC038 [4] データセットを用いて,CUPreを評価するための大規模な実験を行った。 この実験は、cupreが既存のプリトレーニング法を上回ることができ、わずかなセルのセグメンテーションと検出において最高平均精度(ap)を達成したことを示している。

While pre-training on object detection tasks, such as Common Objects in Contexts (COCO) [1], could significantly boost the performance of cell segmentation, it still consumes on massive fine-annotated cell images [2] with bounding boxes, masks, and cell types for every cell in every image, to fine-tune the pre-trained model. To lower the cost of annotation, this work considers the problem of pre-training DNN models for few-shot cell segmentation, where massive unlabeled cell images are available but only a small proportion is annotated. Hereby, we propose Cross-domain Unsupervised Pre-training, namely CUPre, transferring the capability of object detection and instance segmentation for common visual objects (learned from COCO) to the visual domain of cells using unlabeled images. Given a standard COCO pre-trained network with backbone, neck, and head modules, CUPre adopts an alternate multi-task pre-training (AMT2) procedure with two sub-tasks -- in every iteration of pre-training, AMT2 first trains the backbone with cell images from multiple cell datasets via unsupervised momentum contrastive learning (MoCo) [3], and then trains the whole model with vanilla COCO datasets via instance segmentation. After pre-training, CUPre fine-tunes the whole model on the cell segmentation task using a few annotated images. We carry out extensive experiments to evaluate CUPre using LIVECell [2] and BBBC038 [4] datasets in few-shot instance segmentation settings. The experiment shows that CUPre can outperform existing pre-training methods, achieving the highest average precision (AP) for few-shot cell segmentation and detection.
翻訳日:2023-10-10 03:29:17 公開日:2023-10-06
# 2変量分布推定アルゴリズムは指数数のオプティマを見つけることができる

Bivariate Estimation-of-Distribution Algorithms Can Find an Exponential Number of Optima ( http://arxiv.org/abs/2310.04042v1 )

ライセンス: Link先を確認
Benjamin Doerr and Martin S. Krejca(参考訳) マルチモーダル最適化のランドスケープで大規模なオプティマを見つけるのは、難しい作業です。 古典的な集団に基づく進化的アルゴリズムは、通常は単一の解のみに収束する。 これはニチング戦略を適用することで対処できるが、オプティマの数は人口規模によって自明に制限される。 分布推定アルゴリズム(EDAs)は、集団ではなく、解空間の確率論的モデルを維持する代替手段である。 そのようなモデルは、現実的な人口規模よりもはるかに大きい解を暗黙的に表すことができる。 最適化アルゴリズムが大規模最適集合を処理する方法の研究を支援するために,テスト関数EqualBlocksOneMax(EBOM)を提案する。 楽なフィットネス風景で、指数関数的に多くのオプティマがある。 二変量 eda の相互情報最大化入力クラスタリングは、問題固有の修正を伴わずに、エボムの理論的に理想的なモデルに非常によく似た振る舞いをするモデルを素早く生成し、指数的に多数のオプティマをそれぞれ同じ最大確率でサンプリングする。 また、数学的な方法では、この性質を持つような一変量モデルが存在しないことを証明している: 最適点をサンプリングする確率が少なくとも逆ポリノミカルであれば、高い確率で各サンプルがこの球に入るような対数半径のハミング球が存在する。

Finding a large set of optima in a multimodal optimization landscape is a challenging task. Classical population-based evolutionary algorithms typically converge only to a single solution. While this can be counteracted by applying niching strategies, the number of optima is nonetheless trivially bounded by the population size. Estimation-of-distribution algorithms (EDAs) are an alternative, maintaining a probabilistic model of the solution space instead of a population. Such a model is able to implicitly represent a solution set far larger than any realistic population size. To support the study of how optimization algorithms handle large sets of optima, we propose the test function EqualBlocksOneMax (EBOM). It has an easy fitness landscape with exponentially many optima. We show that the bivariate EDA mutual-information-maximizing input clustering, without any problem-specific modification, quickly generates a model that behaves very similarly to a theoretically ideal model for EBOM, which samples each of the exponentially many optima with the same maximal probability. We also prove via mathematical means that no univariate model can come close to having this property: If the probability to sample an optimum is at least inverse-polynomial, there is a Hamming ball of logarithmic radius such that, with high probability, each sample is in this ball.
翻訳日:2023-10-10 01:26:29 公開日:2023-10-06
# 観測誘導拡散確率モデル

Observation-Guided Diffusion Probabilistic Models ( http://arxiv.org/abs/2310.04041v1 )

ライセンス: Link先を確認
Junoh Kang, Jinyoung Choi, Sungik Choi, Bohyung Han(参考訳) 本稿では,品質制御と高速サンプリングのトレードオフを効果的に解決する,観測誘導拡散確率モデル(ogdm)と呼ばれる新しい拡散モデルを提案する。 本手法は,観測プロセスの指導をマルコフ連鎖と原則的に統合することにより,トレーニング目標を再構築する。 これは、雑音レベルにおける条件付き判別器に基づく観測に基づく追加の損失項を導入し、その入力が(ノイズ)実多様体上にあるか否かを示すベルヌーイ分布を用いる。 この戦略により、特に関数評価の数に制限がある場合に、推論段階で誘導されるより正確な負のログ類似度を最適化できる。 提案手法は微調整処理にのみ組み込んだ場合においても有利であり,計算コストを余分に必要とせずに,全く同じ推論手順でネットワークをノイズ除去できるため,様々な高速推論戦略と適合する。 本研究では,強い拡散モデルベースラインに対する多様な推論手法を用いた学習アルゴリズムの有効性を示す。

We propose a novel diffusion model called observation-guided diffusion probabilistic model (OGDM), which effectively addresses the trade-off between quality control and fast sampling. Our approach reestablishes the training objective by integrating the guidance of the observation process with the Markov chain in a principled way. This is achieved by introducing an additional loss term derived from the observation based on the conditional discriminator on noise level, which employs Bernoulli distribution indicating whether its input lies on the (noisy) real manifold or not. This strategy allows us to optimize the more accurate negative log-likelihood induced in the inference stage especially when the number of function evaluations is limited. The proposed training method is also advantageous even when incorporated only into the fine-tuning process, and it is compatible with various fast inference strategies since our method yields better denoising networks using the exactly same inference procedure without incurring extra computational cost. We demonstrate the effectiveness of the proposed training algorithm using diverse inference methods on strong diffusion model baselines.
翻訳日:2023-10-10 01:26:07 公開日:2023-10-06
# 大規模言語モデルの能力を考慮した冗長情報による推論の解析

Analysis of the Reasoning with Redundant Information Provided Ability of Large Language Models ( http://arxiv.org/abs/2310.04039v1 )

ライセンス: Link先を確認
Wenbei Xie(参考訳) 近年のLLM(Large Language Models)の進歩は、自然言語処理タスク、特に推論において、人工知能(Artificial General Intelligence, AGI)を実現するための基盤において、目覚ましい能力を示している。 しかし、一般的に使用されるベンチマークでは、実際のシナリオでこれらのモデルの推論能力を完全にカプセル化することはできない。 このギャップに対処するため,Reasoning with Redundant Information Provided (RRIP) と呼ばれる新しいQAタスクが導入された。 この研究は、冗長情報の異なる属性に着目したいくつかの変種を持つ小学校数学8K(GSM-8K)データセットの修正版を設計した。 本研究は,LlaMA2-13B-chatとGPT-3.5 (Generative Pre-trained Transformer 3.5)の2つのLLMを評価し,従来のQAタスクとRRIPタスクとの対比を行った。 これらのモデルが標準QAベンチマークで適度に成功したが、RRIPタスクで評価すると明らかに性能が低下している。 この研究は、冗長な情報を扱う際の現在のLLMの限界を強調するだけでなく、これらのモデルの将来のトレーニングは、RRIPタスクのパフォーマンスを向上させるために、冗長な情報をトレーニングデータに組み込むことに焦点を当てるべきであることを示唆している。

Recent advancements in Large Language Models (LLMs) have demonstrated impressive capabilities across a range of natural language processing tasks, especially in reasoning, a cornerstone for achieving Artificial General Intelligence (AGI). However, commonly used benchmarks may not fully encapsulate the inferential abilities of these models in real-world scenarios. To address this gap, a new form of Question-Answering (QA) task, termed Reasoning with Redundant Information Provided (RRIP), is introduced. The study designed a modified version of the grade school math 8K (GSM-8K) dataset which has several variants focusing on different attributes of redundant information. This investigation evaluates two popular LLMs, LlaMA2-13B-chat and generative pre-trained transformer 3.5 (GPT-3.5), contrasting their performance on traditional QA tasks against the RRIP tasks. Findings indicate that while these models achieved moderate success on standard QA benchmarks, their performance notably declines when assessed on RRIP tasks. The study not only highlights the limitations of current LLMs in handling redundant information but also suggests that future training of these models should focus on incorporating redundant information into the training data to increase the performance on RRIP tasks.
翻訳日:2023-10-10 01:25:51 公開日:2023-10-06
# 不完全マルチビュークラスタリングによる共同投影学習とテンソル分解

Joint Projection Learning and Tensor Decomposition Based Incomplete Multi-view Clustering ( http://arxiv.org/abs/2310.04038v1 )

ライセンス: Link先を確認
Wei Lv, Chao Zhang, Huaxiong Li, Xiuyi Jia, Chunlin Chen(参考訳) 不完全なマルチビュークラスタリング(IMVC)は、サンプルの見方が実際には不完全であることが多いため、注目されている。 既存の手法のほとんどは、オリジナルの不完全多視点データから類似性サブグラフを学習し、スペクトルクラスタリングのための各ビューの不完全サブグラフを探索することで完全なグラフを求める。 しかし、元の高次元データ上に構築されたグラフは、特徴冗長性とノイズのため、最適以下である可能性がある。 さらに、従来の手法は、不完全グラフと完全グラフの変換中にクラス間およびクラス内構造の変化によって生じるグラフノイズを無視していた。 これらの問題に対処するために,IMVC のための新しい統合射影学習とテンソル分解に基づく手法を提案する。 Specifically, to alleviate the influence of redundant features and noise in high-dimensional data, JPLTD introduces an orthogonal projection matrix to project the high-dimensional features into a lower-dimensional space for compact feature learning.Meanwhile, based on the lower-dimensional space, the similarity graphs corresponding to instances of different views are learned, and JPLTD stacks these graphs into a third-order low-rank tensor to explore the high-order correlations across different views. さらに, サンプル不足による投影データのグラフノイズを考慮し, 頑健なクラスタリングのためにテンソル分解ベースのグラフフィルタを用いる。 固有テンソルは真のデータ類似性をモデル化する。 JPLTDモデルを解くために,効率的な最適化アルゴリズムが採用された。 いくつかのベンチマークデータセットに関する総合的な実験は、JPLTDが最先端の手法よりも優れていることを示した。 JPLTDのコードはhttps://github.com/weilvNJU/JPLTDで公開されている。

Incomplete multi-view clustering (IMVC) has received increasing attention since it is often that some views of samples are incomplete in reality. Most existing methods learn similarity subgraphs from original incomplete multi-view data and seek complete graphs by exploring the incomplete subgraphs of each view for spectral clustering. However, the graphs constructed on the original high-dimensional data may be suboptimal due to feature redundancy and noise. Besides, previous methods generally ignored the graph noise caused by the inter-class and intra-class structure variation during the transformation of incomplete graphs and complete graphs. To address these problems, we propose a novel Joint Projection Learning and Tensor Decomposition Based method (JPLTD) for IMVC. Specifically, to alleviate the influence of redundant features and noise in high-dimensional data, JPLTD introduces an orthogonal projection matrix to project the high-dimensional features into a lower-dimensional space for compact feature learning.Meanwhile, based on the lower-dimensional space, the similarity graphs corresponding to instances of different views are learned, and JPLTD stacks these graphs into a third-order low-rank tensor to explore the high-order correlations across different views. We further consider the graph noise of projected data caused by missing samples and use a tensor-decomposition based graph filter for robust clustering.JPLTD decomposes the original tensor into an intrinsic tensor and a sparse tensor. The intrinsic tensor models the true data similarities. An effective optimization algorithm is adopted to solve the JPLTD model. Comprehensive experiments on several benchmark datasets demonstrate that JPLTD outperforms the state-of-the-art methods. The code of JPLTD is available at https://github.com/weilvNJU/JPLTD.
翻訳日:2023-10-10 01:25:26 公開日:2023-10-06
# 動的半群の生成子の一意分解の理解と一般化

Understanding & Generalizing Unique Decompositions of Generators of Dynamical Semigroups ( http://arxiv.org/abs/2310.04037v1 )

ライセンス: Link先を確認
Frederik vom Ende(参考訳) 我々は、gorini、kossakowski、sudarshanによる古い結果を一般化し、量子力学半群のすべての生成元は、両者の痕跡が消滅すると仮定して、一意的に閉部分と散逸部分へと分解する。 より正確には、完全正の力学半群の任意の生成元 $l$ と任意の行列 $b$ が与えられたとき、一意の行列 $k$ と一意の完全正の写像 $\phi$ が存在して、それが $l=k(\cdot)+(\cdot)k^*+\phi$ であると仮定すると、超作用素 $\phi(b^*(\cdot)b)$ はトレース零であり、${\rm tr}(b^*k)$ は実数である。 これを証明する鍵となるのは、完全正の写像のトレース、クラス作用素のトレース、チェイ行列の期待値の関係である。 さらに、上記の分解は、ある$B$重み付き内積に対して直交的であることを示す。

We generalize the old result by Gorini, Kossakowski, and Sudarshan that every generator of a quantum-dynamical semigroup decomposes uniquely into a closed and a dissipative part, assuming the trace of both vanishes. More precisely, we show that given any generator $L$ of a completely positive dynamical semigroup and any matrix $B$ there exists a unique matrix $K$ and a unique completely positive map $\Phi$ such that $L=K(\cdot)+(\cdot)K^*+\Phi$, assuming the superoperator $\Phi(B^*(\cdot)B)$ has trace zero and ${\rm tr}(B^*K)$ is a real number. The key to proving this is the relation between the trace of a completely positive map, the trace of its Kraus operators, and expectation values of its Choi matrix. Moreover, we show that the above decomposition is orthogonal with respect to some $B$-weighted inner product.
翻訳日:2023-10-10 01:25:02 公開日:2023-10-06
# 定量的特徴の遺伝的予測:身長に着目した機械学習者の指導

Genetic prediction of quantitative traits: a machine learner's guide focused on height ( http://arxiv.org/abs/2310.04028v1 )

ライセンス: Link先を確認
Lucie Bourguignon and Caroline Weis and Catherine R. Jutzeler and Michael Adamer(参考訳) 機械学習とディープラーニングは、生物学的問題、特にタンパク質折り畳み領域への応用で多くの成功を祝っている。 別の同様に複雑で重要な質問は、機械学習コミュニティ、すなわち遺伝学から複雑な特徴を予測することの比較的少ない関心を集めている。 この問題に取り組むには、関連する遺伝学文献の深い知識と、遺伝データに関連する様々な微妙な知識が必要である。 本ガイドでは,表現型予測のための新しいモデルを開発する際に考慮する必要がある,芸術モデルの現状と関連する微妙さについて,機械学習コミュニティに概説する。 heightを連続評価表現型の例として使用し、ベンチマークデータセット、共同創設者、機能選択、一般的なメトリクスを紹介します。

Machine learning and deep learning have been celebrating many successes in the application to biological problems, especially in the domain of protein folding. Another equally complex and important question has received relatively little attention by the machine learning community, namely the one of prediction of complex traits from genetics. Tackling this problem requires in-depth knowledge of the related genetics literature and awareness of various subtleties associated with genetic data. In this guide, we provide an overview for the machine learning community on current state of the art models and associated subtleties which need to be taken into consideration when developing new models for phenotype prediction. We use height as an example of a continuous-valued phenotype and provide an introduction to benchmark datasets, confounders, feature selection, and common metrics.
翻訳日:2023-10-10 01:24:34 公開日:2023-10-06
# 検索型大規模言語モデルによる財務感性分析の強化

Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models ( http://arxiv.org/abs/2310.04027v1 )

ライセンス: Link先を確認
Boyu Zhang, Hongyang Yang, Tianyu Zhou, Ali Babar, Xiao-Yang Liu(参考訳) 金融センチメント分析は、バリュエーションと投資決定に不可欠である。 しかし、従来のNLPモデルは、パラメータサイズとトレーニングデータセットの範囲によって制限されており、この分野での一般化能力と有効性を損なう。 近年,広範コーパスで事前学習したLarge Language Models (LLMs) は,圧縮可能なゼロショット能力のため,様々なNLPタスクにおいて優れた性能を示した。 LLMの事前学習目標と感情ラベルの予測との相違は、彼らの予測性能を損なう可能性がある。 さらに、十分な文脈を欠いた財務ニュースの簡潔な性質は、LLMの感情分析の信頼性を著しく低下させる可能性がある。 これらの課題に対処するため,金融感情分析のためのLLMフレームワークを提案する。 このフレームワークは、LLMが感情ラベルの予測子として振る舞うことを保証する命令調整LDMモジュールと、信頼できる外部ソースから追加コンテキストを取得する検索拡張モジュールを含む。 従来のモデルとChatGPTやLLaMAなどのLLMを比較し,精度とF1得点の15~48倍の性能向上を実現した。

Financial sentiment analysis is critical for valuation and investment decision-making. Traditional NLP models, however, are limited by their parameter size and the scope of their training datasets, which hampers their generalization capabilities and effectiveness in this field. Recently, Large Language Models (LLMs) pre-trained on extensive corpora have demonstrated superior performance across various NLP tasks due to their commendable zero-shot abilities. Yet, directly applying LLMs to financial sentiment analysis presents challenges: The discrepancy between the pre-training objective of LLMs and predicting the sentiment label can compromise their predictive performance. Furthermore, the succinct nature of financial news, often devoid of sufficient context, can significantly diminish the reliability of LLMs' sentiment analysis. To address these challenges, we introduce a retrieval-augmented LLMs framework for financial sentiment analysis. This framework includes an instruction-tuned LLMs module, which ensures LLMs behave as predictors of sentiment labels, and a retrieval-augmentation module which retrieves additional context from reliable external sources. Benchmarked against traditional models and LLMs like ChatGPT and LLaMA, our approach achieves 15\% to 48\% performance gain in accuracy and F1 score.
翻訳日:2023-10-10 01:24:21 公開日:2023-10-06
# 測定値の限定アクセスによるパラメータ推定

Parameter estimation with limited access of measurements ( http://arxiv.org/abs/2310.04026v1 )

ライセンス: Link先を確認
Jianning Li, Dianzhen Cui, and X. X. Yi(参考訳) 量子パラメータ推定は、物理パラメータを古典的技術で達成したものよりもはるかに高精度に測定できる量子技術に期待されている。 しかし、最適測定がアクセスできない場合に最適な精度を得る方法はまだ未解決の問題である。 本研究では,非最適測定が推定精度に与える影響を分析することにより,パラメータ推定を限られたアクセスで行う理論的枠組みを提案する。 効果を特徴付けるために$\lambda$を定め、observablesのアクセシビリティが制限されたバウンドを達成するためにobservablesを最適化する方法を説明します。 一方、フロベニウスノルムの観点で観測可能なものと最適なものとの違いを定量化するためにユークリッド距離を定義し、最適なものとより短い距離の計測が推定に有用であることを見出す。 我々の理論を示す2つの例を示す。 第一に、駆動量子ビットの遷移周波数推定における非最適測定の影響を解析する。 第2の例では、その1つが測定不能である二成分系を考える。 具体的には、ダイヤモンド中のNV中心を双極子系とし、NV中心電子スピンは双極子-双極子相互作用を介して単一の核と相互作用する。 電子の可観測性のみを最適化することにより、核ラーモア周波数を正確に推定する。 観測値が最適値に閉まれば,推定精度が向上することがわかった。 これにより、最適なパラメータがアクセスできない場合にパラメータ推定の測定値を見つけるための基準が得られます。

Quantum parameter estimation holds the promise of quantum technologies, in which physical parameters can be measured with much greater precision than what is achieved with classical technologies. However, how to obtain the best precision when the optimal measurement is not accessible is still an open problem. In this work, we present a theoretical framework to explore the parameter estimation with limited access of measurements by analyzing the effect of non-optimal measurement on the estimation precision. We define a quantity $\Lambda$ to characterize the effect and illustrate how to optimize observables to attain a bound with limited accessibility of observables. On the other side, we define a Euclidean distance to quantify the difference between an observable and the optimal ones in terms of Frobenius norm and find that the measurement with a shorter distance to the optimal ones benefits the estimation. Two examples are presented to show our theory. In the first, we analyze the effect of non-optimal measurement on the estimation of the transition frequency for a driven quantum bit. While in the second example, we consider a bipartite system, in which one of them is measurement inaccessible. To be specific, we take the NV-center in diamond as the bipartite system, where the NV-center electronic spin interacts with a single nucleus via the dipole-dipole interactions. We achieve a precise estimation for the nuclear Larmor frequency by optimizing only the observables of the electron. We find that the observable closed to the optimal ones better the estimation precision. This provides us with a criterion to find a measurement for parameter estimation in case the optimal ones are inaccessible.
翻訳日:2023-10-10 01:24:02 公開日:2023-10-06
# Snail Homing and Mating Search Algorithm: 新しいバイオインスパイアされたメタヒューリスティックアルゴリズム

Snail Homing and Mating Search Algorithm: A Novel Bio-Inspired Metaheuristic Algorithm ( http://arxiv.org/abs/2310.04020v1 )

ライセンス: Link先を確認
Anand J Kulkarni, Ishaan R Kale, Apoorva Shastri, Aayush Khandekar(参考訳) 本稿では,Snail Homing and Mating Search (SHMS)アルゴリズムを提案する。 カタツムリの生物学的行動に触発されている。 スネールは食料と仲間を見つけるために常に旅し、彼らの帰還のガイドとなる粘液の跡を残します。 カタツムリは、地上で利用可能なトレイルを辿り、近くの避難所からの手がかりに反応する傾向にある。 提案手法は,いくつかの一様関数と多様関数を解いて検討する。 これらの解は、Wilcoxon test と Friedman rank test のような標準的な統計テストを用いて検証される。 SHMSアルゴリズムから得られた解は、より少ない計算コストで探索空間探索能力と優れた堅牢性を示した。 shmsアルゴリズムの実世界の応用は,設計・経済最適化シェルと管熱交換器問題の3つのケースを解決し,工学設計領域で実証された。 SHMSアルゴリズムを用いて得られた目的関数値およびその他の統計結果は、他のよく知られたメタヒューリスティックアルゴリズムと比較する。

In this paper, a novel Snail Homing and Mating Search (SHMS) algorithm is proposed. It is inspired from the biological behaviour of the snails. Snails continuously travels to find food and a mate, leaving behind a trail of mucus that serves as a guide for their return. Snails tend to navigate by following the available trails on the ground and responding to cues from nearby shelter homes. The proposed SHMS algorithm is investigated by solving several unimodal and multimodal functions. The solutions are validated using standard statistical tests such as two-sided and pairwise signed rank Wilcoxon test and Friedman rank test. The solution obtained from the SHMS algorithm exhibited superior robustness as well as search space exploration capabilities within the less computational cost. The real-world application of SHMS algorithm is successfully demonstrated in the engineering design domain by solving three cases of design and economic optimization shell and tube heat exchanger problem. The objective function value and other statistical results obtained using SHMS algorithm are compared with other well-known metaheuristic algorithms.
翻訳日:2023-10-10 01:23:38 公開日:2023-10-06
# PGraphDTA:タンパク質言語モデルとコンタクトマップを用いた薬物標的相互作用予測の改善

PGraphDTA: Improving Drug Target Interaction Prediction using Protein Language Models and Contact Maps ( http://arxiv.org/abs/2310.04017v1 )

ライセンス: Link先を確認
Rakesh Bal, Yijia Xiao, Wei Wang(参考訳) 新しい薬物の開発と発見は複雑で資源集約的な取り組みであり、しばしば相当なコスト、時間投資、安全上の懸念を伴う。 薬物発見の重要な側面は、新規な薬物標的相互作用(DT)の同定である。 DTの相互作用を予測する既存の計算手法は、DTペアが相互作用するか否かを決定することを目的として、主にバイナリ分類タスクに焦点を当てている。 しかし、タンパク質-リガンド相互作用は結合親和性として知られる結合強度の連続性を示し、正確な予測のための永続的な挑戦を示す。 本研究では,薬物標的相互作用(DTI)予測における様々な手法について検討し,その性能向上のための新たな拡張を提案する。 我々のアプローチには、タンパク質言語モデル(PLM)の統合と、現在のモデルにおける誘導バイアスとしてのコンタクトマップ情報の導入が含まれる。 本研究では,提案手法が本研究で検討したベースラインモデルより優れていることを示すとともに,さらなる発展の可能性が示唆された。 この研究から得られた知見は、特定のタンパク質を標的とする潜在的な薬物の探索範囲を大幅に狭め、薬物の発見を加速すると予測している。 PGraphDTAのコードとデータはhttps://anonymous.4open.science/r/PGraphDTAで公開されている。

Developing and discovering new drugs is a complex and resource-intensive endeavor that often involves substantial costs, time investment, and safety concerns. A key aspect of drug discovery involves identifying novel drug-target (DT) interactions. Existing computational methods for predicting DT interactions have primarily focused on binary classification tasks, aiming to determine whether a DT pair interacts or not. However, protein-ligand interactions exhibit a continuum of binding strengths, known as binding affinity, presenting a persistent challenge for accurate prediction. In this study, we investigate various techniques employed in Drug Target Interaction (DTI) prediction and propose novel enhancements to enhance their performance. Our approaches include the integration of Protein Language Models (PLMs) and the incorporation of Contact Map information as an inductive bias within current models. Through extensive experimentation, we demonstrate that our proposed approaches outperform the baseline models considered in this study, presenting a compelling case for further development in this direction. We anticipate that the insights gained from this work will significantly narrow the search space for potential drugs targeting specific proteins, thereby accelerating drug discovery. Code and data for PGraphDTA are available at https://anonymous.4open.science/r/PGraphDTA.
翻訳日:2023-10-10 01:23:21 公開日:2023-10-06
# myopiaを超えて:総合的予測トレンドを通じてポジティブデータとラベルなしデータから学ぶ

Beyond Myopia: Learning from Positive and Unlabeled Data through Holistic Predictive Trends ( http://arxiv.org/abs/2310.04078v1 )

ライセンス: Link先を確認
Xinrui Wang and Wenhai Wan and Chuanxin Geng and Shaoyuan LI and Songcan Chen(参考訳) ポジティブおよびラベルなしデータ(pul)からのバイナリ分類器の学習は、実世界の多くのアプリケーションにおいて不可欠である。 近年のPUL手法の顕著な経験的性能にもかかわらず、負ラベルの欠如による累積誤差や推定バイアスの増加といった課題が持続している。 本稿では,各トレーニングイテレーションで正のデータをサンプリングすることで,正の例とラベルなしの例のバランスの取れた分布が早期に強いパフォーマンスをもたらすことを保証する。 さらに、ポジティブクラスとネガティブクラスの予測傾向は異なるパターンを示す。 特に,ラベル付陰例のスコア(出力確率)は一貫して減少し,ラベル付陰例のスコアはカオス的な傾向を示す。 個々の時間枠内の分類に注目するのではなく、各例のスコアをテンポラリポイントプロセス(tpp)として解釈する包括的アプローチを革新的に採用する。 これはPULの中核的な問題をこれらのスコアのトレンドを認識するものとして再定義する。 次に,トレンド検出のための新しいtppインスパイアされた尺度を提案し,その漸近的な変化予測の不偏性を証明する。 特に,パラメータチューニングや事前仮定を必要とせずにPULを実現し,この問題に対処するための代替的な視点を提供する。 大規模な実験により、特に高度に不均衡な実世界の環境では、鍵となる指標で最大11.3\%の改善が達成される。 コードは \href{https://github.com/wxr99/HolisticPU}{https://github.com/wxr99/HolisticPU} で公開されている。

Learning binary classifiers from positive and unlabeled data (PUL) is vital in many real-world applications, especially when verifying negative examples is difficult. Despite the impressive empirical performance of recent PUL methods, challenges like accumulated errors and increased estimation bias persist due to the absence of negative labels. In this paper, we unveil an intriguing yet long-overlooked observation in PUL: \textit{resampling the positive data in each training iteration to ensure a balanced distribution between positive and unlabeled examples results in strong early-stage performance. Furthermore, predictive trends for positive and negative classes display distinctly different patterns.} Specifically, the scores (output probability) of unlabeled negative examples consistently decrease, while those of unlabeled positive examples show largely chaotic trends. Instead of focusing on classification within individual time frames, we innovatively adopt a holistic approach, interpreting the scores of each example as a temporal point process (TPP). This reformulates the core problem of PUL as recognizing trends in these scores. We then propose a novel TPP-inspired measure for trend detection and prove its asymptotic unbiasedness in predicting changes. Notably, our method accomplishes PUL without requiring additional parameter tuning or prior assumptions, offering an alternative perspective for tackling this problem. Extensive experiments verify the superiority of our method, particularly in a highly imbalanced real-world setting, where it achieves improvements of up to $11.3\%$ in key metrics. The code is available at \href{https://github.com/wxr99/HolisticPU}{https://github.com/wxr99/HolisticPU}.
翻訳日:2023-10-09 23:20:39 公開日:2023-10-06
# 科学テキストからの自動アスペクト抽出

Automatic Aspect Extraction from Scientific Texts ( http://arxiv.org/abs/2310.04074v1 )

ライセンス: Link先を確認
Anna Marshalova, Elena Bruches, Tatiana Batura(参考訳) 科学論文から主要なポイント、重要な洞察、その他の重要な情報を抽出できることは、ここでアスペクトとして言及され、科学文献レビューの実施プロセスを促進する可能性がある。 そこで本研究では,任意の分野のロシア語科学文献から自動アスペクト抽出ツールを開発することを目的としている。 本稿では,タスク,貢献,方法,結論といった側面をアノテートした,ロシア語の科学文章のクロスドメインデータセットと,データに微調整された多言語bertモデルに基づくアスペクト抽出のためのベースラインアルゴリズムを提案する。 異なる領域のアスペクト表現にはいくつかの違いがあるが、我々のモデルは限られた数の科学領域で訓練されているにもかかわらず、クロスドメイン実験によって証明されたように、新しい領域に一般化することができる。 コードとデータセットは \url{https://github.com/anna-marshalova/automatic-aspect-extraction-from-scientific-texts} で利用可能である。

Being able to extract from scientific papers their main points, key insights, and other important information, referred to here as aspects, might facilitate the process of conducting a scientific literature review. Therefore, the aim of our research is to create a tool for automatic aspect extraction from Russian-language scientific texts of any domain. In this paper, we present a cross-domain dataset of scientific texts in Russian, annotated with such aspects as Task, Contribution, Method, and Conclusion, as well as a baseline algorithm for aspect extraction, based on the multilingual BERT model fine-tuned on our data. We show that there are some differences in aspect representation in different domains, but even though our model was trained on a limited number of scientific domains, it is still able to generalize to new domains, as was proved by cross-domain experiments. The code and the dataset are available at \url{https://github.com/anna-marshalova/automatic-aspect-extraction-from-scientific-texts}.
翻訳日:2023-10-09 23:20:11 公開日:2023-10-06
# ヨーロッパでのAI規制:AI法から将来の規制課題へ

AI Regulation in Europe: From the AI Act to Future Regulatory Challenges ( http://arxiv.org/abs/2310.04072v1 )

ライセンス: Link先を確認
Philipp Hacker(参考訳) この章は、欧州連合におけるAI規制に関する包括的な議論であり、英国におけるよりセクター的で自己規制的なアプローチとは対照的である。 両哲学の要素を組み合わせて、アジリティとコンプライアンスを容易にする安全な港の必要性を強調したハイブリッドな規制戦略を主張する。 この論文は、AI法を、AIがもたらす多面的課題に対処するための先駆的な立法努力として検討し、この法律が正しい方向への一歩である一方で、AI技術の進歩を妨げる可能性のある欠点があると主張した。 また,有害コンテンツの管理,環境問題,ハイブリッド脅威など,今後の規制課題も予想している。 高性能で潜在的にオープンソースなaiシステムへのアクセスを規制するプロトコルを作成するための即時アクションを提唱している。 AI法は重要な立法のマイルストーンだが、急速に進化するAI技術の効果的なガバナンスのために、さらなる洗練とグローバルなコラボレーションが必要である。

This chapter provides a comprehensive discussion on AI regulation in the European Union, contrasting it with the more sectoral and self-regulatory approach in the UK. It argues for a hybrid regulatory strategy that combines elements from both philosophies, emphasizing the need for agility and safe harbors to ease compliance. The paper examines the AI Act as a pioneering legislative effort to address the multifaceted challenges posed by AI, asserting that, while the Act is a step in the right direction, it has shortcomings that could hinder the advancement of AI technologies. The paper also anticipates upcoming regulatory challenges, such as the management of toxic content, environmental concerns, and hybrid threats. It advocates for immediate action to create protocols for regulated access to high-performance, potentially open-source AI systems. Although the AI Act is a significant legislative milestone, it needs additional refinement and global collaboration for the effective governance of rapidly evolving AI technologies.
翻訳日:2023-10-09 23:19:54 公開日:2023-10-06
# ビーム偏光を絡み合いに変換すると古典相関

Converting beam polarizations into entanglement and classical correlation ( http://arxiv.org/abs/2310.04065v1 )

ライセンス: Link先を確認
Minghui Li, Wei Wang, Zikang Tang, Hou Ian(参考訳) 巨視的単一モード光重ね合わせ状態の非古典性は、ビームスプリッタ上の真空と混合した状態が絡み合いになる可能性がある。 ユークリッド空間における偏光度を二成分ヒルベルト空間におけるコヒーレント積状態と考えて、コヒーレント状態と変位フォック状態の重ね合わせにおいて非古典性を生成し、偏光振幅を絡み合いおよび古典相関に変換する方法を提案する。 得られた重ね合わせから等価ベル状態が出現し、計量対の負性率とシュミット数で定量された混合絡み合いと相関の比率は、偏極方向に沿った2つの変位によって決定される。 さらに,構成状態をウィグナー関数で特徴付け,それらの状態を生成し,ホモダイントモグラフィを用いて測定する方法を提案する。

The nonclassicality of a macroscopic single-mode optical superposition state is potentially convertible into entanglement, when the state is mixed with the vacuum on a beam splitter. Considering light beams with polarization degree of freedom in Euclidean space as coherent product states in a bipartite Hilbert space, we propose a method to convert the polarization amplitudes into entanglement and classical correlation through generating nonclassicality in the superpositions of coherent and displaced Fock states. Equivalent Bell state emerges from the resulted superpositions and the proportion of mixed entanglement and correlation, quantified by the metric pair of negativity and Schmidt number, is determined by the two displacements along the polarization directions. We further characterize the constructed states with Wigner functions and propose an experimental method for generating these states and measuring them via homodyne tomography.
翻訳日:2023-10-09 23:19:38 公開日:2023-10-06
# 高次相関を捉えるには? Kronecker計算に対する行列ソフトマックスの一般化

How to Capture Higher-order Correlations? Generalizing Matrix Softmax Attention to Kronecker Computation ( http://arxiv.org/abs/2310.04064v1 )

ライセンス: Link先を確認
Josh Alman, Zhao Song(参考訳) 古典的なトランスフォーマティブ・アテンション・スキームでは、3つの$n \times d$ size matrices $q, k, v$ (the query, key, value tokens) が与えられ、新しい$n \times d$ size matrix $d^{-1} \exp(qk^\top) v$ where $d = \mathrm{diag}( \exp(qk^\top) {\bf 1}_n )$ を計算することが目的である。 本研究では,三重相関を捉える注意の一般化について検討する。 この一般化は、変圧器では不可能であった三重結合の検出に関する問題を解くことができる。 この一般化の潜在的な欠点は、単純なアルゴリズムが$n$で3次時間を必要とするため、計算がさらに難しいように見えることである。 しかし、有界エントリー設定(実際には発生し、理論と実践の両方でよく研究されている)では、実際にはほぼ線形時間アルゴリズムが存在することを示す。 より正確には、有界なエントリは、すぐに一般化された計算を実行するのに必要かつ十分であることを示す: $\bullet$ 正の側で、入力行列のすべてのエントリが上述の$o(\sqrt[3]{\log n})$ で有界であるなら、$n^{1+o(1)}$時間で ``tensor-type'' の注意行列を近似する方法を示す。 $\bullet$ 負の面において、入力行列のエントリが$\Omega(\sqrt[3]{\log n})$ であるなら、$n^{3-o(1)}$ より速く走るアルゴリズムは存在しない(きめ細かな複雑性理論による強い指数時間仮説を仮定する)。 また、我々の構成、アルゴリズム、下界が自然に高次テンソルや相関に一般化されることも示している。 興味深いことに、テンソルの順序が高ければ高いほど、エントリ上の境界がより効率的なアルゴリズムでなければならない。 この結果から, 成分の有界性, テンソルの次数との自然なトレードオフが得られ, より表現的かつ効率的な注意計算に利用できる。

In the classical transformer attention scheme, we are given three $n \times d$ size matrices $Q, K, V$ (the query, key, and value tokens), and the goal is to compute a new $n \times d$ size matrix $D^{-1} \exp(QK^\top) V$ where $D = \mathrm{diag}( \exp(QK^\top) {\bf 1}_n )$. In this work, we study a generalization of attention which captures triple-wise correlations. This generalization is able to solve problems about detecting triple-wise connections that were shown to be impossible for transformers. The potential downside of this generalization is that it appears as though computations are even more difficult, since the straightforward algorithm requires cubic time in $n$. However, we show that in the bounded-entry setting (which arises in practice, and which is well-studied in both theory and practice), there is actually a near-linear time algorithm. More precisely, we show that bounded entries are both necessary and sufficient for quickly performing generalized computations: $\bullet$ On the positive side, if all entries of the input matrices are bounded above by $o(\sqrt[3]{\log n})$ then we show how to approximate the ``tensor-type'' attention matrix in $n^{1+o(1)}$ time. $\bullet$ On the negative side, we show that if the entries of the input matrices may be as large as $\Omega(\sqrt[3]{\log n})$, then there is no algorithm that runs faster than $n^{3-o(1)}$ (assuming the Strong Exponential Time Hypothesis from fine-grained complexity theory). We also show that our construction, algorithms, and lower bounds naturally generalize to higher-order tensors and correlations. Interestingly, the higher the order of the tensors, the lower the bound on the entries needs to be for an efficient algorithm. Our results thus yield a natural tradeoff between the boundedness of the entries, and order of the tensor one may use for more expressive, efficient attention computation.
翻訳日:2023-10-09 23:19:20 公開日:2023-10-06
# DEFT:キーストロークダイナミクスのための新しい距離ベース機能セット

DEFT: A new distance-based feature set for keystroke dynamics ( http://arxiv.org/abs/2310.04059v1 )

ライセンス: Link先を確認
Nuwan Kaluarachchi, Sevvandi Kandanaarachchi, Kristen Moore and Arathi Arakala(参考訳) キーストロークダイナミクス(Keystroke dynamics)は、ユーザの識別と認証に使用される行動バイオメトリックである。 キーストローク力学では従来考えられていなかった概念であるキーボード上のキー間の距離に基づく新しい特徴セットを提案する。 私たちは、人気の指標であるフライトタイムと、キーボード上のキー間の距離を組み合わせ、それらをDistance Enhanced Flight Time feature (DEFT)と呼びます。 この新しいアプローチは、タイピング速度のみを越え、人のタイピング行動に関する包括的な洞察を提供する。 我々はdeft機能を他のキーストローク動的機能と組み合わせることでdeftモデルを構築する。 DEFTモデルはデバイスに依存しないように設計されており、デスクトップ、モバイル、タブレットの3つの一般的なデバイスで有効性を評価することができる。 DEFTモデルは、2つのデータセット間での有効性を評価する際に既存の最先端手法よりも優れている。 3つのデバイスで99%を超える精度と10%以下のエラー率を得る。

Keystroke dynamics is a behavioural biometric utilised for user identification and authentication. We propose a new set of features based on the distance between keys on the keyboard, a concept that has not been considered before in keystroke dynamics. We combine flight times, a popular metric, with the distance between keys on the keyboard and call them as Distance Enhanced Flight Time features (DEFT). This novel approach provides comprehensive insights into a person's typing behaviour, surpassing typing velocity alone. We build a DEFT model by combining DEFT features with other previously used keystroke dynamic features. The DEFT model is designed to be device-agnostic, allowing us to evaluate its effectiveness across three commonly used devices: desktop, mobile, and tablet. The DEFT model outperforms the existing state-of-the-art methods when we evaluate its effectiveness across two datasets. We obtain accuracy rates exceeding 99% and equal error rates below 10% on all three devices.
翻訳日:2023-10-09 23:18:23 公開日:2023-10-06
# 悪い奴を蹴飛ばせ! フェデレーション学習におけるゼロ知識に基づく異常検出

Kick Bad Guys Out! Zero-Knowledge-Proof-Based Anomaly Detection in Federated Learning ( http://arxiv.org/abs/2310.04055v1 )

ライセンス: Link先を確認
Shanshan Han, Wenxuan Wu, Baturalp Buyukates, Weizhao Jin, Yuhang Yao, Qifan Zhang, Salman Avestimehr, Chaoyang He(参考訳) フェデレーション学習(fl)システムは、グローバルモデルの収束を防ぎ、一部のデータを誤分類するようにグローバルモデルを誘導するなど、敵の目標を達成するために有害なローカルモデルを送信する悪意のあるクライアントに対して脆弱である。 既存の防御機構の多くは実世界のflシステムでは非現実的であり、悪意のあるクライアントの数を事前に知る必要がある。 これは、敵は通常攻撃前に意図を公表せず、再重み付けは攻撃がなくても集約結果を変更する可能性があるためである。 実際のflシステムにおけるこれらの課題に対処するため,本稿では,最先端の異常検出手法を紹介する。 一 攻撃が発生したときのみ、攻撃の発生を検知し、防衛活動を行うこと。 二 攻撃があつたときは、更に悪意のあるクライアントモデルを検知し、無害なクライアントに危害を加えることなく排除すること。 三 ゼロ知識証明機構を利用して、サーバにおける防御機構の正直な実行を確保すること。 提案手法の優れた性能を広範囲な実験により検証した。

Federated learning (FL) systems are vulnerable to malicious clients that submit poisoned local models to achieve their adversarial goals, such as preventing the convergence of the global model or inducing the global model to misclassify some data. Many existing defense mechanisms are impractical in real-world FL systems, as they require prior knowledge of the number of malicious clients or rely on re-weighting or modifying submissions. This is because adversaries typically do not announce their intentions before attacking, and re-weighting might change aggregation results even in the absence of attacks. To address these challenges in real FL systems, this paper introduces a cutting-edge anomaly detection approach with the following features: i) Detecting the occurrence of attacks and performing defense operations only when attacks happen; ii) Upon the occurrence of an attack, further detecting the malicious client models and eliminating them without harming the benign ones; iii) Ensuring honest execution of defense mechanisms at the server by leveraging a zero-knowledge proof mechanism. We validate the superior performance of the proposed approach with extensive experiments.
翻訳日:2023-10-09 23:18:07 公開日:2023-10-06
# 超高速表面強化蛍光法による銀ナノワイヤダイマーに沿った1次元プラズモニックホットスポットの電磁増強

Electromagnetic enhancement of one-dimensional plasmonic hotspots along silver nanowire dimer examined by ultrafast surface enhanced fluorescence ( http://arxiv.org/abs/2310.04051v1 )

ライセンス: Link先を確認
Tamitake Itoh, Yuko S. Yamamoto(参考訳) 銀ナノワイヤ (NW) ダイマー間で発生した1次元ホットスポット (1D HSs) の電磁効果のスペクトル特性について検討した。 EM強調スペクトルは,超高速表面強調蛍光(UFSEF)のスペクトルを,超高速表面強調蛍光(UFSEF)と大型ナノ粒子集合体(UFSEF)とを分離することにより直接導出した。 いくつかのnwダイマーは、プラズモン共鳴レイリー散乱スペクトルから逸脱したem強調スペクトルを示しており、それらのem増強は超ラジアントプラズモンによる生成ではないことを示している。 これらの実験結果は,nwダイマーの形態を変化させたem機構に基づく数値計算により検討した。 計算はem強調のnw径依存性としてスペクトル偏差を再現した。 1D HS の磁場近傍での強化された EM の位相解析により、ダイポール・クアドルポール結合プラズモンは、主に走査型電子顕微鏡測定と整合した ~80 nm 以上の NW 径のダイマーの EM 増強を生じることが明らかとなった。

We investigated the spectral properties of electromagnetic (EM) enhancement of one-dimensional hotspots (1D HSs) generated between silver nanowire (NW) dimers. The EM enhancement spectra were directly derived by dividing the spectra of ultrafast surface-enhanced fluorescence (UFSEF) from single NW dimers with UFSEF obtained from large nanoparticle aggregates, which aggregate-by-aggregate variations in the UFSEF spectra were averaged out. Some NW dimers were found to exhibit EM enhancement spectra that deviated from the plasmon resonance Rayleigh scattering spectra, indicating that their EM enhancement was not generated by superradiant plasmons. These experimental results were examined by numerical calculation based on the EM mechanism by varying the morphology of the NW dimers. The calculations reproduced the spectral deviations as the NW diameter dependence of EM enhancement. Phase analysis of the enhanced EM near fields along the 1D HSs revealed that the dipole-quadrupole coupled plasmon, which is a subradiant mode, mainly generates EM enhancement for dimers with NW diameters larger than ~80 nm, which was consistent with scanning electron microscopic measurements.
翻訳日:2023-10-09 23:17:50 公開日:2023-10-06
# AUTOPARLLM:大規模言語モデルを用いたGNNによる自動コード並列化

AUTOPARLLM: GNN-Guided Automatic Code Parallelization using Large Language Models ( http://arxiv.org/abs/2310.04047v1 )

ライセンス: Link先を確認
Quazi Ishtiaque Mahmud, Ali TehraniJamsaz, Hung D Phan, Nesreen K. Ahmed and Ali Jannesari(参考訳) 逐次的なプログラムの並列化は難しい課題である。 経験豊富な開発者でさえ、並列処理の機会を見つけ、実際にシーケンシャルに書かれたプログラムの並列バージョンを書くのにかなりの時間を費やす必要がある。 この問題に対処するために,並列性を自動的に発見し,シーケンシャルに記述されたプログラムの並列バージョンを生成するフレームワークであるautoparllmを提案する。 私たちのフレームワークは2つの主要なコンポーネントで構成されています。 一 並列性発見及び並列パターン検出モジュールを用いた異種グラフニューラルネットワーク(gnn) 二 逐次プログラムの並列対応を生成するための、llmベースのコードジェネレータ 我々は,プログラムのフロー認識特性を学習し,シーケンシャルプログラムにおける並列領域を識別し,LLM ベースのジェネレータに対して GNN の結果を用いて拡張プロンプトを構築し,シーケンシャルプログラムの並列領域を最終的に生成する。 NAS Parallel Benchmark と Rodinia Benchmark という,よく知られたベンチマークスイートの 11 つのアプリケーション上で AUTOPARLLM を評価する。 その結果,マルチコード生成メトリクスを用いた並列コード生成作業において,autoparllmは最先端llmベースモデルの改善に有効であることがわかった。 autoparllmはまた、最先端llmで生成された並列コードの平均ランタイムを、nas並列ベンチマークとrodiniaベンチマークでそれぞれ3.4%と2.9%改善した。 さらに、並列コードの品質を評価するために、翻訳評価のためのよく知られたメトリクスが最適化されていない問題を克服するために、生成されたコードの品質を評価するためのOMPScoreを提案する。 我々は,OMPScoreが既存の指標よりも人間の判断に優れた相関性を示し,スピアマン相関を最大75%改善することを示した。

Parallelizing sequentially written programs is a challenging task. Even experienced developers need to spend considerable time finding parallelism opportunities and then actually writing parallel versions of sequentially written programs. To address this issue, we present AUTOPARLLM, a framework for automatically discovering parallelism and generating the parallel version of the sequentially written program. Our framework consists of two major components: i) a heterogeneous Graph Neural Network (GNN) based parallelism discovery and parallel pattern detection module, and ii) an LLM-based code generator to generate the parallel counterpart of the sequential programs. We use the GNN to learn the flow-aware characteristics of the programs to identify parallel regions in sequential programs and then construct an enhanced prompt using the GNN's results for the LLM-based generator to finally produce the parallel counterparts of the sequential programs. We evaluate AUTOPARLLM on 11 applications of 2 well-known benchmark suites: NAS Parallel Benchmark and Rodinia Benchmark. Our results show that AUTOPARLLM is indeed effective in improving the state-of-the-art LLM-based models for the task of parallel code generation in terms of multiple code generation metrics. AUTOPARLLM also improves the average runtime of the parallel code generated by the state-of-the-art LLMs by as high as 3.4% and 2.9% for the NAS Parallel Benchmark and Rodinia Benchmark respectively. Additionally, to overcome the issue that well-known metrics for translation evaluation have not been optimized to evaluate the quality of the generated parallel code, we propose OMPScore for evaluating the quality of the generated code. We show that OMPScore exhibits a better correlation with human judgment than existing metrics, measured by up to 75% improvement of Spearman correlation.
翻訳日:2023-10-09 23:17:26 公開日:2023-10-06
# 瞬きの中で:イベントベースの感情認識

In the Blink of an Eye: Event-based Emotion Recognition ( http://arxiv.org/abs/2310.04043v1 )

ライセンス: Link先を確認
Haiwei Zhang, Jiqing Zhang, Bo Dong, Pieter Peers, Wenwei Wu, Xiaopeng Wei, Felix Heide, Xin Yang(参考訳) 本稿では,ウェアラブルな単眼感情認識デバイスと,照明条件の変化にロバストな感情の部分的観察から感情をリアルタイムに認識する手法を提案する。 我々の手法の核心は、バイオインスパイアされたイベントベースのカメラと、新しく設計された軽量スパイキングアイ感情ネットワーク(SEEN)である。 従来のカメラと比較して、イベントベースのカメラはよりダイナミックレンジ(最大140dB vs. 80dB)が高く、時間分解能が高い。 したがって、捕獲されたイベントは、困難な照明条件下で、豊富な時間的手がかりを符号化することができる。 しかし,これらのイベントにはテクスチャ情報がなく,時間情報の復号化に問題がある。 SEENは2つの異なる視点からこの問題に取り組む。 まず,スパイキングニューラルネットワークの時間的情報をデコードする能力を活用するために,畳み込みスパイキング層を採用する。 第2に,対応する強度フレームから本質的な空間的手がかりを抽出することを学び,新しい重み共役スキームを用いて,学習および推論中に畳み込みスパイキング層に空間的注意を向ける。 我々は,SEE(Single-eye Event-based Emotion)データセットに対するアプローチの有効性を広く検証し,実証した。 私たちの知る限りでは、この手法はイベントベースのカメラとスパイクニューラルネットワークを利用した最初の視線に基づく感情認識手法です。

We introduce a wearable single-eye emotion recognition device and a real-time approach to recognizing emotions from partial observations of an emotion that is robust to changes in lighting conditions. At the heart of our method is a bio-inspired event-based camera setup and a newly designed lightweight Spiking Eye Emotion Network (SEEN). Compared to conventional cameras, event-based cameras offer a higher dynamic range (up to 140 dB vs. 80 dB) and a higher temporal resolution. Thus, the captured events can encode rich temporal cues under challenging lighting conditions. However, these events lack texture information, posing problems in decoding temporal information effectively. SEEN tackles this issue from two different perspectives. First, we adopt convolutional spiking layers to take advantage of the spiking neural network's ability to decode pertinent temporal information. Second, SEEN learns to extract essential spatial cues from corresponding intensity frames and leverages a novel weight-copy scheme to convey spatial attention to the convolutional spiking layers during training and inference. We extensively validate and demonstrate the effectiveness of our approach on a specially collected Single-eye Event-based Emotion (SEE) dataset. To the best of our knowledge, our method is the first eye-based emotion recognition method that leverages event-based cameras and spiking neural network.
翻訳日:2023-10-09 23:16:57 公開日:2023-10-06
# ベータ分布統計を用いた密集ランダムテクスチャ検出

Dense Random Texture Detection using Beta Distribution Statistics ( http://arxiv.org/abs/2310.04111v1 )

ライセンス: Link先を確認
Soeren Molander(参考訳) 本報告では,画像エッジ上にサンプリングされた完全連結点を用いた高密度ランダムテクスチャ検出手法について述べる。 エッジ画像に点をランダムにサンプリングし、標準L2距離を近傍のすべての連結点間で算出する。 各点について、その点が画像エッジと交差する場合、チェックが行われる。 この場合、距離にユニタリ値が加算され、そうでなければゼロとなる。 このことから、エッジ過剰指数は、[1.0..2.0]の範囲の完全連結エッジグラフに対して計算される。 比は、未知の確率を持つサンプル化されたベルヌーイ過程と解釈できる。 確率のベイズ的後続推定は、その共役(beta($\alpha$, $\beta$)分布)に関連付けることができ、超パラメータ $\alpha$ と $\beta$ は、エッジ交差の数に関連している。 低値の$\beta$はテクスチャリッチな領域を示し、高い値はよりリッチでない。 この方法はリアルタイムSLAMに基づく移動物体検出に応用され、ポイントは追跡されたボックス(ロア)に制限される。

This note describes a method for detecting dense random texture using fully connected points sampled on image edges. An edge image is randomly sampled with points, the standard L2 distance is calculated between all connected points in a neighbourhood. For each point, a check is made if the point intersects with an image edge. If this is the case, a unity value is added to the distance, otherwise zero. From this an edge excess index is calculated for the fully connected edge graph in the range [1.0..2.0], where 1.0 indicate no edges. The ratio can be interpreted as a sampled Bernoulli process with unknown probability. The Bayesian posterior estimate of the probability can be associated with its conjugate prior which is a Beta($\alpha$, $\beta$) distribution, with hyper parameters $\alpha$ and $\beta$ related to the number of edge crossings. Low values of $\beta$ indicate a texture rich area, higher values less rich. The method has been applied to real-time SLAM-based moving object detection, where points are confined to tracked boxes (rois).
翻訳日:2023-10-09 23:07:48 公開日:2023-10-06
# MICCAI KiTS 2023 チャレンジにおける腎臓と腫瘍の自動3次元分割

Automated 3D Segmentation of Kidneys and Tumors in MICCAI KiTS 2023 Challenge ( http://arxiv.org/abs/2310.04110v1 )

ライセンス: Link先を確認
Andriy Myronenko, Dong Yang, Yufan He, Daguang Xu(参考訳) Kidney and Kidney tumor Segmentation Challenge (KiTS) 2023は、研究者が3D CTのセグメンテーションとソリューションを比較するためのプラットフォームを提供する。 本稿では, monAI で利用可能な Auto3DSeg の自動セグメンテーションによる課題について述べる。 この解は平均0.835サイコロと0.723サイコロを達成し、第1位でキット2023チャレンジに勝利した。

Kidney and Kidney Tumor Segmentation Challenge (KiTS) 2023 offers a platform for researchers to compare their solutions to segmentation from 3D CT. In this work, we describe our submission to the challenge using automated segmentation of Auto3DSeg available in MONAI. Our solution achieves the average dice of 0.835 and surface dice of 0.723, which ranks first and wins the KiTS 2023 challenge.
翻訳日:2023-10-09 23:07:28 公開日:2023-10-06
# 二重分割星における状態移動のキャラクタリゼーション

A Characterization of State Transfer on Double Subdivided Stars ( http://arxiv.org/abs/2310.04107v1 )

ライセンス: Link先を確認
Sarojini Mohapatra and Hiranmoy Pal(参考訳) 準分割星 $sk_{1,l}$ は、経路 $p_3 の l$ コピーからちょうど 1 つのペンダント頂点を同定することによって得られる。$ この研究は、2 つの準分割星 $t_{l,m}$ の量子状態遷移の存在に関するもので、これは準分割星 $sk_{1,l}$ と $sk_{1,m}$ の対である。 t_{l,m} の標多項式のガロア群を用いて、その固有値の線形独立性を解析し、対応する量子系のハミルトニアン行列として隣接行列を考えるとき、二重分割された恒星における完全状態移動は見当たらない。 最終的に、非常に良好な状態移動を示す二重分割星のキャラクタリゼーションを確立した。 本論文では,量子分数再生やかなり良好な分数再生など,他の量子輸送現象を示すグラフ群を分類する手法を提案する。

A subdivided star $SK_{1,l}$ is obtained by identifying exactly one pendant vertex from $l$ copies of the path $P_3.$ This study is on the existence of quantum state transfer on double subdivided star $T_{l,m}$ which is a pair of subdivided stars $SK_{1,l}$ and $SK_{1,m}$ joined by an edge to the respective coalescence vertices. Using the Galois group of the characteristic polynomial of $T_{l,m},$ we analyze the linear independence of its eigenvalues which uncovers no perfect state transfer in double subdivided stars when considering the adjacency matrix as the Hamiltonian of corresponding quantum system. We finally establish a characterization on double subdivided stars exhibiting pretty good state transfer. The method presented in this paper may be devised to classify family of graphs exhibiting other such quantum transportation phenomena, such as quantum fractional revival, pretty good fractional revival, etc.
翻訳日:2023-10-09 23:07:19 公開日:2023-10-06
# オンラインターゲティング広告による子どもへのマーケティング:ターゲティングメカニズムと法的側面

Marketing to Children Through Online Targeted Advertising: Targeting Mechanisms and Legal Aspects ( http://arxiv.org/abs/2310.04104v1 )

ライセンス: Link先を確認
Tinhinane Medjkoune, Oana Goga, Juliette Senechal(参考訳) WHOやUNICEFのような多くの研究者や組織は、子供をターゲットにした広告の危険性を認識している。 既存のほとんどの法律は子供に届く可能性のあるテレビの広告を規制しているが、議会はオンライン広告への規制の延長や、例えば、子供へのプロファイリングに基づく広告の禁止(例えば、DSA)や制限(COPPA)に取り組んできた。 一見すると、Googleのような広告プラットフォームは、広告主が18歳未満のユーザーに広告をターゲティングすることを許さないことで、子供たちを保護しているようだ。 しかし,本論文では,他のターゲティング機能を利用して子どもにリーチできることを示す。 たとえばyoutubeでは、広告主は特定のビデオを見ているユーザーに対して、プレースメントベースのターゲティング(文脈的ターゲティング)を通じて広告をターゲティングすることができる。 したがって、広告主は子供向けビデオに広告を入れることで子供をターゲットにすることができる。 一連の広告実験を通じて、子ども向けビデオに配置に基づくターゲティングが可能であり、子供向けのマーケティングを可能にすることを示す。 さらに広告実験では、広告主はプロファイリング(興味、場所、行動など)に基づくターゲティングと、子供向けビデオの配置に基づく広告を併用できることを示した。 DSAとCOPPAに関する2つのプラクティスの合法性について論じる。 最後に、現実の広告主が、YouTube上の広告を持つ子供たちにリーチするために、配置ベースのターゲティングをどの程度採用しているかを調査する。 広告をキャプチャし、6つのブラウザプロファイルを計測し、児童向け動画を視聴するChromeエクステンションの構築による計測手法を提案する。 実験の結果, 子ども向けビデオに表示される広告の7%が, 配置に基づくターゲティングを用いていることがわかった。 したがって、YouTubeに広告を載せた子供たちをターゲットにすることは、仮説上は可能であるだけでなく、実際も起こりうる。

Many researchers and organizations, such as WHO and UNICEF, have raised awareness of the dangers of advertisements targeted at children. While most existing laws only regulate ads on television that may reach children, lawmakers have been working on extending regulations to online advertising and, for example, forbid (e.g., the DSA) or restrict (e.g., the COPPA) advertising based on profiling to children. At first sight, ad platforms such as Google seem to protect children by not allowing advertisers to target their ads to users who are less than 18 years old. However, this paper shows that other targeting features can be exploited to reach children. For example, on YouTube, advertisers can target their ads to users watching a particular video through placement-based targeting, a form of contextual targeting. Hence, advertisers can target children by placing their ads in children-focused videos. Through a series of ad experiments, we show that placement-based targeting is possible on children-focused videos and enables marketing to children. In addition, our ad experiments show that advertisers can use targeting based on profiling (e.g., interest, location, behavior) in combination with placement-based advertising on children-focused videos. We discuss the lawfulness of these two practices concerning DSA and COPPA. Finally, we investigate to which extent real-world advertisers are employing placement-based targeting to reach children with ads on YouTube. We propose a measurement methodology consisting of building a Chrome extension to capture ads and instrument six browser profiles to watch children-focused videos. Our results show that 7% of ads that appear in the children-focused videos we test use placement-based targeting. Hence, targeting children with ads on YouTube is not only hypothetically possible but also occurs in practice...
翻訳日:2023-10-09 23:07:00 公開日:2023-10-06
# ナッシュ福祉と施設立地

Nash Welfare and Facility Location ( http://arxiv.org/abs/2310.04102v1 )

ライセンス: Link先を確認
Alexander Lam, Haris Aziz, Toby Walsh(参考訳) 我々は,一線に沿って位置するエージェント群に対応するための施設を配置する問題を考える。 エージェントのユーティリティの産物として定義されたナッシュの福祉目的関数は、資源配分問題における公平性と効率の妥協をもたらすことが知られている。 我々は,この福祉概念を施設立地問題に適用し,個々の費用を公共事業に転換し,ナッシュ福祉を最大化する施設配置の分析を行う。 この施設の位置を計算するために多項式時間近似アルゴリズムを与え,公平性と効率のバランスが良好であることを示す。 最後に,メカニズム設計の観点から,ナッシュ福祉に限定的な近似比を持つ戦略防御機構を提案する。

We consider the problem of locating a facility to serve a set of agents located along a line. The Nash welfare objective function, defined as the product of the agents' utilities, is known to provide a compromise between fairness and efficiency in resource allocation problems. We apply this welfare notion to the facility location problem, converting individual costs to utilities and analyzing the facility placement that maximizes the Nash welfare. We give a polynomial-time approximation algorithm to compute this facility location, and prove results suggesting that it achieves a good balance of fairness and efficiency. Finally, we take a mechanism design perspective and propose a strategy-proof mechanism with a bounded approximation ratio for Nash welfare.
翻訳日:2023-10-09 23:06:29 公開日:2023-10-06
# clusvpr:クラスタリングに基づく重み付きトランスフォーマーによる効率的な視覚位置認識

ClusVPR: Efficient Visual Place Recognition with Clustering-based Weighted Transformer ( http://arxiv.org/abs/2310.04099v1 )

ライセンス: Link先を確認
Yifan Xu, Pourya Shamsolmoali, Jie Yang(参考訳) 視覚的位置認識(VPR)は、ロボットナビゲーションや自動運転車など、幅広いアプリケーションを持つ非常に困難なタスクである。 特にVPRは、重複領域の存在と複雑なシーンにおける小さな物体への注意の欠如により、認識の偏りが生じるため困難である。 本稿では,重複する領域における冗長な情報の特定の問題と,小さなオブジェクトの表現に対処する新しいアプローチであるClusVPRを提案する。 特徴マップ生成のための畳み込みニューラルネットワーク(CNN)に依存する既存の方法とは異なり、ClusVPRはクラスタリングベースの重み付きトランスフォーマーネットワーク(CWTNet)と呼ばれるユニークなパラダイムを導入している。 CWTNetはクラスタリングベースの重み付け機能マップのパワーを活用し、グローバル依存関係を統合して、大規模なVPR問題で遭遇する視覚的偏差に効果的に対処する。 また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD (OptLAD) 層を導入する。 このレイヤは、スケールワイズ画像パッチから得られる情報を集約するように設計されている。 さらに, ピラミッド型自己監視戦略では, 画像全体ではなく, 大規模画像パッチから代表的および多様な情報を抽出することに焦点を当てている。 4つのVPRデータセットに対する大規模な実験は、既存のモデルに比べてモデルの性能が優れており、複雑ではないことを示している。

Visual place recognition (VPR) is a highly challenging task that has a wide range of applications, including robot navigation and self-driving vehicles. VPR is particularly difficult due to the presence of duplicate regions and the lack of attention to small objects in complex scenes, resulting in recognition deviations. In this paper, we present ClusVPR, a novel approach that tackles the specific issues of redundant information in duplicate regions and representations of small objects. Different from existing methods that rely on Convolutional Neural Networks (CNNs) for feature map generation, ClusVPR introduces a unique paradigm called Clustering-based Weighted Transformer Network (CWTNet). CWTNet leverages the power of clustering-based weighted feature maps and integrates global dependencies to effectively address visual deviations encountered in large-scale VPR problems. We also introduce the optimized-VLAD (OptLAD) layer that significantly reduces the number of parameters and enhances model efficiency. This layer is specifically designed to aggregate the information obtained from scale-wise image patches. Additionally, our pyramid self-supervised strategy focuses on extracting representative and diverse information from scale-wise image patches instead of entire images, which is crucial for capturing representative and diverse information in VPR. Extensive experiments on four VPR datasets show our model's superior performance compared to existing models while being less complex.
翻訳日:2023-10-09 23:06:18 公開日:2023-10-06
# 性別がセキュリティ判断に及ぼす影響

Impact of Gender on the Evaluation of Security Decisions ( http://arxiv.org/abs/2310.04097v1 )

ライセンス: Link先を確認
Winnie Mbaka and Katja Tuma(参考訳) セキュリティ決定は、偏見判断の余地のある不確実な条件下で、人間アナリストによってなされる。 しかし、性別や教育といった人口動態がこれらの判断にどのように影響するかは、ほとんど知られていない。 我々は,この知識ギャップに対処して,セキュリティ決定評価への影響を実証研究した。

Security decisions are made by human analysts under uncertain conditions which leaves room for bias judgement. However, little is known about how demographics like gender and education impact these judgments. We conducted an empirical study to investigate their influence on security decision evaluations, addressing this knowledge gap.
翻訳日:2023-10-09 23:05:55 公開日:2023-10-06
# スケール制限場とカシミール効果

Scale limited fields and the Casimir effect ( http://arxiv.org/abs/2310.04089v1 )

ライセンス: Link先を確認
\v{S}imon Vedl, Daniel J. George, Gavin K. Brennen(参考訳) 我々は、量子場のスケール限定分解能の観点から、カシミール効果の計算を再考する。 連続ウェーブレット変換を用いて、スケールの自由度を導入し、それを観測的あるいは基本的な解像度制限のシミュレートに制限する。 カシミール力は、ディリクレと周期境界条件の両方を持つ2つの無限板の間の自由複素無質量スカラー場のためにこの設定から導かれる。 ウェーブレットの選択とスケールカットオフの大きさに対する力の依存は、ウェーブレットのいくつかの例で広く議論されている。

We revisit the calculation of the Casimir effect from the perspective of scale limited resolutions of quantum fields. We use the continuous wavelet transform to introduce a scale degree of freedom and then restrict it to simulate either an observational or fundamental limitation of resolution. The Casimir force is derived in this setting for a free complex massless scalar field between two infinite plates with both Dirichlet and periodic boundary conditions. The dependence of the force on the choice of wavelet and size of scale cutoff is extensively discussed for several examples of wavelets.
翻訳日:2023-10-09 23:05:51 公開日:2023-10-06
# エンドツーエンドチェス認識

End-to-End Chess Recognition ( http://arxiv.org/abs/2310.04086v1 )

ライセンス: Link先を確認
Athanasios Masouris, Jan van Gemert(参考訳) チェス認識とは、チェス盤の画像からチェスの駒を識別するタスクである。 チェスボード検出,正方偏位,ピース分類のパイプラインによるこの問題の解決を目的とした主要なアプローチとは対照的に,我々はディープラーニングモデルのパワーに依存し,このパイプラインを回避し,画像全体からチェスボードの構成を直接予測する2つの新しい手法を導入する。 これにより、逐次的アプローチの固有のエラー蓄積や中間アノテーションの必要性を回避することができる。 さらに,チェス認識用に設計されたチェス認識データセットであるチェス認識データセット(chessred)についても紹介する。 このデータセットは、角度が限られている既存の合成データセットとは対照的に、スマートフォンカメラを使って様々な角度から捉えたチェスの生画像の多様なコレクションで構成されている。 このデータセットを使用して、モデルをトレーニングし、そのパフォーマンスを現在の最先端のモデルと比較します。 この新しいベンチマークデータセットにおけるチェス認識のアプローチは、関連するアプローチよりも優れており、ボード認識精度は15.26%(現在の技術より約7倍優れている)です。

Chess recognition refers to the task of identifying the chess pieces configuration from a chessboard image. Contrary to the predominant approach that aims to solve this task through the pipeline of chessboard detection, square localization, and piece classification, we rely on the power of deep learning models and introduce two novel methodologies to circumvent this pipeline and directly predict the chessboard configuration from the entire image. In doing so, we avoid the inherent error accumulation of the sequential approaches and the need for intermediate annotations. Furthermore, we introduce a new dataset, Chess Recognition Dataset (ChessReD), specifically designed for chess recognition that consists of 10,800 images and their corresponding annotations. In contrast to existing synthetic datasets with limited angles, this dataset comprises a diverse collection of real images of chess formations captured from various angles using smartphone cameras; a sensor choice made to ensure real-world applicability. We use this dataset to both train our model and evaluate and compare its performance to that of the current state-of-the-art. Our approach in chess recognition on this new benchmark dataset outperforms related approaches, achieving a board recognition accuracy of 15.26% ($\approx$7x better than the current state-of-the-art).
翻訳日:2023-10-09 23:05:43 公開日:2023-10-06
# GANに基づく深く監督されたセマンティックセマンティックセグメンテーション法

A Deeply Supervised Semantic Segmentation Method Based on GAN ( http://arxiv.org/abs/2310.04081v1 )

ライセンス: Link先を確認
Wei Zhao and Qiyu Wei and Zeng Zeng(参考訳) 近年、インテリジェント・トランスポーテーションの分野は、輸送システムにおける自動化と効率の需要の増加によって急速に進歩している。 交通安全は、インテリジェント輸送システムに不可欠なタスクの一つであり、道路の亀裂、車線、交通標識などの様々な道路要素を正確に識別し、配置する必要がある。 セマンティックセグメンテーションは、正確な境界を持つ有意義な領域にイメージを分割できるため、このタスクを達成する上で重要な役割を果たす。 本研究では,敵学習の強みと最新の意味セマンティクスセグメンテーション技術を組み合わせた,改良されたセマンティクスセグメンテーションモデルを提案する。 提案モデルは,GAN(Generative Adversarial Network)フレームワークを従来のセマンティックセグメンテーションモデルに統合し,交通画像の複雑で微妙な特徴を捉える際のモデルの性能を向上させる。 提案手法の有効性は,既存の方法であるtextit{i.e.} SEGANと比較して,道路ひび割れデータセットの性能を著しく向上させることによって実証された。 この改善は、敵対的学習とセマンティックセグメンテーションの相乗効果に起因し、より洗練され正確な道路構造と条件の表現につながる。 拡張されたモデルは、道路のひび割れの検出を改善するだけでなく、交通標識認識、車両検出、車線分割など、インテリジェントな輸送における幅広い応用に寄与する。

In recent years, the field of intelligent transportation has witnessed rapid advancements, driven by the increasing demand for automation and efficiency in transportation systems. Traffic safety, one of the tasks integral to intelligent transport systems, requires accurately identifying and locating various road elements, such as road cracks, lanes, and traffic signs. Semantic segmentation plays a pivotal role in achieving this task, as it enables the partition of images into meaningful regions with accurate boundaries. In this study, we propose an improved semantic segmentation model that combines the strengths of adversarial learning with state-of-the-art semantic segmentation techniques. The proposed model integrates a generative adversarial network (GAN) framework into the traditional semantic segmentation model, enhancing the model's performance in capturing complex and subtle features in transportation images. The effectiveness of our approach is demonstrated by a significant boost in performance on the road crack dataset compared to the existing methods, \textit{i.e.,} SEGAN. This improvement can be attributed to the synergistic effect of adversarial learning and semantic segmentation, which leads to a more refined and accurate representation of road structures and conditions. The enhanced model not only contributes to better detection of road cracks but also to a wide range of applications in intelligent transportation, such as traffic sign recognition, vehicle detection, and lane segmentation.
翻訳日:2023-10-09 23:05:21 公開日:2023-10-06
# InGaAs/InAlAs SPADの動作パラメータに及ぼす乗算面積形状の影響の検討

Investigation of the Effects of the Multiplication Area Shape on the Operational Parameters of InGaAs/InAlAs SPADs ( http://arxiv.org/abs/2310.04147v1 )

ライセンス: Link先を確認
Anton Losev, Alexandr Filyaev, Vladimir Zavodilenko, Igor Pavlov, and Alexander Gorbatsevich(参考訳) InGaAs/InAlAs単光子アバランシェフォトダイオードの2次元モデルを開発した。 ダイオードの動作パラメータに対する乗算領域の活性領域構造の影響について検討した。 その結果, 活性領域の直径の変化は, 電流-電圧曲線の線形部分における暗電流の変化と破壊電圧の変化につながることがわかった。 アクティブ領域の直径を25$\mu$mから10$\mu$mに減少させることで、リニアモードのダーク電流を約10$db減少させることができた。 同じ乗算領域の厚さと異なる残層を持つ構造を考えると、雪崩破壊電圧と全体の電流-電圧曲線プロットを知ることでSPAD装置の品質を評価することができることが示されている。 破壊電圧が高いほど、磁場強度の局所的な増加が小さくなるため、構造の品質が向上する。 この声明に続いて、単光子検出器のさらなる使用については、現在の電圧曲線のみに基づいてバッチから特定のSPADを選択することは合理的である、と結論付けている。

A 2D model of an InGaAs/InAlAs single photon avalanche photodiode has been developed. The influence of the active area structure in the multiplication region on the diode's operating parameters has been studied. It was found that changing the diameter of the structure's active region leads to a change in the dark current in the linear part of the current-voltage curve and a change in the breakdown voltage. Reducing the diameter of the active region from 25 $\mu$m to 10 $\mu$m allowed decreasing the dark current in the linear mode by about $10$ dB. It has been shown that the quality of the SPAD device can be assessed by knowing the avalanche breakdown voltage and the overall current-voltage curve plot if we consider structures with the same multiplication region thickness and different remaining layers. The higher the breakdown voltage, the better the structure's quality due to smaller local increases in the field strength. Following this statement, we conclude that for further use in single-photon detectors, it is reasonable to pick specific SPADs from a batch on the sole basis of their current-voltage curves.
翻訳日:2023-10-09 21:01:40 公開日:2023-10-06
# ZeroからHero: 合成データ注入とモデルクエリによる漏洩データ検出

From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying ( http://arxiv.org/abs/2310.04145v1 )

ライセンス: Link先を確認
Biao Wu, Qiang Huang, Anthony K. H. Tung(参考訳) 機械学習アプリケーションの普及が続けば、データの知的財産権(IP)の保護は極めて重要になり、その成功はトレーニングデータの質に大きく依存している。 ストレージ、送信、消費の間にデータを保護するための様々なメカニズムが存在するが、認可なくモデルトレーニングのために既に漏洩しているかどうかを検出する研究は少ない。 この問題は、潜在的な攻撃者が行うトレーニングプロセスに関する情報や制御がないため、特に困難である。 本稿では,表データの領域に集中して,分類モデルの学習に使用される漏洩データを検出するための新しい手法であるローカル分散シフト合成(\textsc{LDSS})を導入する。 textsc{LDSS}の背景にある中核的な概念は、少量の合成データ(クラス分布の局所的なシフトによって特徴付けられる)を所有者のデータセットに注入することである。 これにより、合成データインジェクションは、リークおよび修正データセットでトレーニングされたモデルの予測において、明らかな相違をもたらすため、モデルクエリだけで、リークデータでトレーニングされたモデルの効果的な識別が可能になる。 textsc{LDSS} は \emph{model-oblivious} であり、それゆえに Naive Bayes、Decision Tree、Random Forest などの様々な分類モデルと互換性がある。 5つの実世界のデータセットにまたがる7種類の分類モデルについて広範な実験を行った。 包括的結果は \textsc{ldss} の信頼性、堅牢性、忠実性、安全性、効率性を保証する。

Safeguarding the Intellectual Property (IP) of data has become critically important as machine learning applications continue to proliferate, and their success heavily relies on the quality of training data. While various mechanisms exist to secure data during storage, transmission, and consumption, fewer studies have been developed to detect whether they are already leaked for model training without authorization. This issue is particularly challenging due to the absence of information and control over the training process conducted by potential attackers. In this paper, we concentrate on the domain of tabular data and introduce a novel methodology, Local Distribution Shifting Synthesis (\textsc{LDSS}), to detect leaked data that are used to train classification models. The core concept behind \textsc{LDSS} involves injecting a small volume of synthetic data--characterized by local shifts in class distribution--into the owner's dataset. This enables the effective identification of models trained on leaked data through model querying alone, as the synthetic data injection results in a pronounced disparity in the predictions of models trained on leaked and modified datasets. \textsc{LDSS} is \emph{model-oblivious} and hence compatible with a diverse range of classification models, such as Naive Bayes, Decision Tree, and Random Forest. We have conducted extensive experiments on seven types of classification models across five real-world datasets. The comprehensive results affirm the reliability, robustness, fidelity, security, and efficiency of \textsc{LDSS}.
翻訳日:2023-10-09 21:01:22 公開日:2023-10-06
# Routing Arena: ニューラルルーティングソリューションのためのベンチマークスイート

Routing Arena: A Benchmark Suite for Neural Routing Solvers ( http://arxiv.org/abs/2310.04140v1 )

ライセンス: Link先を確認
Daniela Thyssens, Tim Dernedde, Jonas K. Falkner, Lars Schmidt-Thieme(参考訳) Neural Combinatorial Optimizationは、過去8年間活発に研究されてきた。 提案された機械学習ベースのアプローチの多くは、同じデータセットで比較されるが、評価プロトコルは本質的な欠陥を示し、ベースラインの選択は最先端の運用研究アプローチをしばしば無視する。 そこで本研究では,これら2つの欠点を改善するために,一貫した評価とベースラインとベンチマークの提供をシームレスに統合したルーティング問題のベンチマークスイートであるルーティング・アリーナを提案する。 提案した評価プロトコルは,まず,事前固定時間予算のソリューション品質と,各手法の任意の時間性能の2つの重要な評価事例を考察する。 最適解とベースソルバーの解の軌跡の観点から解の軌跡を設定することにより、ニューラルルーティングソルバーのしばしば主張される実行効率を定量化する新しい評価指標である重み付き相対平均性能(WRAP)を提案する。 包括的第1の実験評価により、最新の運用研究解法では、車両の経路問題に関して、ソリューションの品質と実行時効率の観点から最先端の結果を生成することが示されている。 それでも、いくつかの発見は、ニューラルアプローチの利点を強調し、ニューラルソルバの概念化へのシフトを動機付けている。

Neural Combinatorial Optimization has been researched actively in the last eight years. Even though many of the proposed Machine Learning based approaches are compared on the same datasets, the evaluation protocol exhibits essential flaws and the selection of baselines often neglects State-of-the-Art Operations Research approaches. To improve on both of these shortcomings, we propose the Routing Arena, a benchmark suite for Routing Problems that provides a seamless integration of consistent evaluation and the provision of baselines and benchmarks prevalent in the Machine Learning- and Operations Research field. The proposed evaluation protocol considers the two most important evaluation cases for different applications: First, the solution quality for an a priori fixed time budget and secondly the anytime performance of the respective methods. By setting the solution trajectory in perspective to a Best Known Solution and a Base Solver's solutions trajectory, we furthermore propose the Weighted Relative Average Performance (WRAP), a novel evaluation metric that quantifies the often claimed runtime efficiency of Neural Routing Solvers. A comprehensive first experimental evaluation demonstrates that the most recent Operations Research solvers generate state-of-the-art results in terms of solution quality and runtime efficiency when it comes to the vehicle routing problem. Nevertheless, some findings highlight the advantages of neural approaches and motivate a shift in how neural solvers should be conceptualized.
翻訳日:2023-10-09 21:00:56 公開日:2023-10-06
# イギリスとアイルランドの224km海底リンク上での量子通信可能性試験

Quantum communications feasibility tests over a UK-Ireland 224-km undersea link ( http://arxiv.org/abs/2310.04135v1 )

ライセンス: Link先を確認
Ben Amies-King, Karolina P. Schatz, Haofan Duan, Ayan Biswas, Jack Bailey, Adrian Felvinti, Jaimes Winward, Mike Dixon, Mariella Minder, Rupesh Kumar, Sophie Albosh, Marco Lucamarini(参考訳) 将来の量子インターネットは、光ファイバーネットワークを含む既存の通信インフラを活用し、現在の情報技術を上回る新しいアプリケーションを実現する。 このシナリオでは、イギリス(イギリス)のサウスポートとアイルランド(ie)のポートランの間で展開される工業用224km海底光ファイバーリンク上での量子通信の実現可能性検討を行う。 位相ドリフト, 偏光安定性, 絡み合った光子の到着時刻を特徴付けることにより, 初めて国際UK-IE量子通信を実現するためのリンクの適合性を実証した。

The future quantum internet will leverage existing communication infrastructures, including deployed optical fibre networks, to enable novel applications that outperform current information technology. In this scenario, we perform a feasibility study of quantum communications over an industrial 224 km submarine optical fibre link deployed between Southport in the United Kingdom (UK) and Portrane in the Republic of Ireland (IE). With a characterisation of phase drift, polarisation stability and arrival time of entangled photons, we demonstrate the suitability of the link to enable international UK-IE quantum communications for the first time.
翻訳日:2023-10-09 21:00:34 公開日:2023-10-06
# TiC: コンボリューションにおけるビジョントランスフォーマーの探索

TiC: Exploring Vision Transformer in Convolution ( http://arxiv.org/abs/2310.04134v1 )

ライセンス: Link先を確認
Song Zhang, Qingzhong Wang, Jiang Bian, Haoyi Xiong(参考訳) 視覚変換器(ViT)から派生したモデルは音素的に急増しているが、事前訓練されたモデルは、位置エンコーディングのサンプリングや様々な視覚タスクの柔軟性の制限など、アーキテクチャや構成を変更することなく任意の解像度画像にシームレスに対応できない。 例えば、ViT-Hugeに基づくSegment Anything Model (SAM)では、すべての入力イメージを1024$\times$1024にリサイズする必要がある。 この制限を克服するため、我々は、標準、拡張、奥行きを含む一般化した畳み込みの中に自己認識を組み込んだマルチヘッド自己認識畳み込み(MSA-Conv)を提案する。 MSA-Convの使用により、画像サイズが大きくなるにつれてコストが増大するViTのグローバルな注目よりも計算コストが削減される。 その後,多方向巡回移動機構とプール間移動機構という2つのキャパシティ強化戦略が提案され,トークン間の長距離接続を確立し,効果的な受容場を拡大することで,畳み込みにおける視覚トランスフォーマーを提案する。 TiCの全体的な有効性を検証するために、広範囲な実験が行われた。 さらに,MSA-Convによる性能改善と2つの能力強化戦略を別々に検討した。 MSA-Convは、ImageNet-1Kの最先端技術に匹敵するTiCを実現することで、私たちの目標を達成しています。 コードはhttps://github.com/zs670980918/msa-convでリリースされる。

While models derived from Vision Transformers (ViTs) have been phonemically surging, pre-trained models cannot seamlessly adapt to arbitrary resolution images without altering the architecture and configuration, such as sampling the positional encoding, limiting their flexibility for various vision tasks. For instance, the Segment Anything Model (SAM) based on ViT-Huge requires all input images to be resized to 1024$\times$1024. To overcome this limitation, we propose the Multi-Head Self-Attention Convolution (MSA-Conv) that incorporates Self-Attention within generalized convolutions, including standard, dilated, and depthwise ones. Enabling transformers to handle images of varying sizes without retraining or rescaling, the use of MSA-Conv further reduces computational costs compared to global attention in ViT, which grows costly as image size increases. Later, we present the Vision Transformer in Convolution (TiC) as a proof of concept for image classification with MSA-Conv, where two capacity enhancing strategies, namely Multi-Directional Cyclic Shifted Mechanism and Inter-Pooling Mechanism, have been proposed, through establishing long-distance connections between tokens and enlarging the effective receptive field. Extensive experiments have been carried out to validate the overall effectiveness of TiC. Additionally, ablation studies confirm the performance improvement made by MSA-Conv and the two capacity enhancing strategies separately. Note that our proposal aims at studying an alternative to the global attention used in ViT, while MSA-Conv meets our goal by making TiC comparable to state-of-the-art on ImageNet-1K. Code will be released at https://github.com/zs670980918/MSA-Conv.
翻訳日:2023-10-09 21:00:17 公開日:2023-10-06
# 高速で忘れられた記憶による強化学習

Reinforcement Learning with Fast and Forgetful Memory ( http://arxiv.org/abs/2310.04128v1 )

ライセンス: Link先を確認
Steven Morad, Ryan Kortvelesy, Stephan Liwicki, Amanda Prorok(参考訳) ほとんどの実世界のタスクは本質的に部分的に観察可能であり、強化学習(RL)におけるメモリの使用を必要とする。 ほとんどのモデルフリーアプローチは、RLが異なるトレーニングと効率特性を示す傾向にあるにもかかわらず、スーパーバイザードラーニング(SL)から借りたメモリモデルを用いて、軌道を潜在マルコフ状態に要約する。 rl専用に設計されたアルゴリズムに依存しないメモリモデルであるfast and forgetful memoryを導入する。 本手法は,計算心理学に触発された強構造的優先順位によってモデル探索空間を制約する。 これは、recurrent rlアルゴリズムにおけるrecurrent neural networks (rnns)の代替であり、ハイパーパラメータを変更することなく、様々なrecurrent benchmarkやアルゴリズムでrnnよりも大きな報酬を得る。 さらに、Fast and Forgetful Memoryは、その対数時間と線形空間の複雑さに起因するRNNよりも2桁高速なトレーニング速度を示す。 私たちの実装はhttps://github.com/proroklab/ffmで利用可能です。

Nearly all real world tasks are inherently partially observable, necessitating the use of memory in Reinforcement Learning (RL). Most model-free approaches summarize the trajectory into a latent Markov state using memory models borrowed from Supervised Learning (SL), even though RL tends to exhibit different training and efficiency characteristics. Addressing this discrepancy, we introduce Fast and Forgetful Memory, an algorithm-agnostic memory model designed specifically for RL. Our approach constrains the model search space via strong structural priors inspired by computational psychology. It is a drop-in replacement for recurrent neural networks (RNNs) in recurrent RL algorithms, achieving greater reward than RNNs across various recurrent benchmarks and algorithms without changing any hyperparameters. Moreover, Fast and Forgetful Memory exhibits training speeds two orders of magnitude faster than RNNs, attributed to its logarithmic time and linear space complexity. Our implementation is available at https://github.com/proroklab/ffm.
翻訳日:2023-10-09 20:59:44 公開日:2023-10-06
# vi-diff:可視赤外人物再同定のための非対向可視赤外翻訳拡散モデル

VI-Diff: Unpaired Visible-Infrared Translation Diffusion Model for Single Modality Labeled Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2310.04122v1 )

ライセンス: Link先を確認
Han Huang, Yan Huang, Liang Wang(参考訳) 実世界のシナリオにおける可視赤外人物再同定(vi-reid)は、クロスモダリティデータアノテーションのコストが高いため、大きな課題となる。 良質な照明条件のRGB/IRカメラのような異なるセンサーカメラは、同じ人物をモダリティで識別するコストとエラーを発生させる。 これを解決するために、よりコスト効率が高く実用的なVI-ReIDタスクに単一のモダリティラベル付きデータを使用することを検討する。 歩行者を1つのモダリティ(可視画像など)にラベル付けし、別のモダリティ(赤外画像など)で検索することで、本来のラベル付きデータとモダリティ変換データの両方を含むトレーニングセットを作成することを目指している。 本稿では,可視赤外画像変換の課題を効果的に解決する拡散モデルvi-diffを提案する。 包括的実験により、VI-Diffは既存の拡散モデルとGANモデルより優れており、単一のモダリティラベル付きデータを用いたVI-ReIDの有望な解であることを示す。 我々のアプローチは、単一のモダリティラベル付きデータを用いたVI-ReIDタスクの有望な解決策であり、将来の研究の出発点となる。 コードは利用可能だ。

Visible-Infrared person re-identification (VI-ReID) in real-world scenarios poses a significant challenge due to the high cost of cross-modality data annotation. Different sensing cameras, such as RGB/IR cameras for good/poor lighting conditions, make it costly and error-prone to identify the same person across modalities. To overcome this, we explore the use of single-modality labeled data for the VI-ReID task, which is more cost-effective and practical. By labeling pedestrians in only one modality (e.g., visible images) and retrieving in another modality (e.g., infrared images), we aim to create a training set containing both originally labeled and modality-translated data using unpaired image-to-image translation techniques. In this paper, we propose VI-Diff, a diffusion model that effectively addresses the task of Visible-Infrared person image translation. Through comprehensive experiments, we demonstrate that VI-Diff outperforms existing diffusion and GAN models, making it a promising solution for VI-ReID with single-modality labeled data. Our approach can be a promising solution to the VI-ReID task with single-modality labeled data and serves as a good starting point for future study. Code will be available.
翻訳日:2023-10-09 20:59:24 公開日:2023-10-06
# 量子ニューラルネットワークにおけるドロップアウトの一般解法

A General Approach to Dropout in Quantum Neural Networks ( http://arxiv.org/abs/2310.04120v1 )

ライセンス: Link先を確認
Francesco Scala, Andrea Ceschini, Massimo Panella, Dario Gerace(参考訳) 古典的機械学習において、"オーバーフィッティング"とは、与えられたモデルがトレーニングデータを過度に学習するときに発生する現象であり、その結果、見当たらないデータでは性能が低下する。 機械学習における一般的なテクニックは、いわゆる「ドロップアウト」であり、計算ユニットが過度に専門化されるのを防ぎ、過度に適合するリスクを減らす。 学習モデルとしての量子ニューラルネットワークの出現により、量子回路の深さの増加と、計算非線形性を与えるために使われる古典的特徴の複数の埋め込みにより、オーバーフィッティングがすぐに問題となる可能性がある。 本稿では,量子ニューラルネットワークモデルにおけるドロップアウト手法を適用し,オーバーフィッティングを避けるために異なる量子ドロップアウト戦略を定義し解析し,高レベルな一般化を実現するための一般化手法を提案する。 本研究は, 過パラメトリゼーション理論に基づいて, 与えられたモデルに対する最大ドロップアウト確率を決定するための有用なガイドラインを提供することにより, 一般化を可能にする量子ドロップアウトのパワーを想像することができる。 また、量子ドロップアウトが、表現性や絡み合いなど、量子ニューラルネットワークモデルの特徴にどのように影響しないかを強調している。 これらすべての結論は広範な数値シミュレーションによって支持されており、最先端の量子ニューラルネットワークに基づく深層量子機械学習モデルを効率的に活用する方法を開拓する可能性がある。

In classical Machine Learning, "overfitting" is the phenomenon occurring when a given model learns the training data excessively well, and it thus performs poorly on unseen data. A commonly employed technique in Machine Learning is the so called "dropout", which prevents computational units from becoming too specialized, hence reducing the risk of overfitting. With the advent of Quantum Neural Networks as learning models, overfitting might soon become an issue, owing to the increasing depth of quantum circuits as well as multiple embedding of classical features, which are employed to give the computational nonlinearity. Here we present a generalized approach to apply the dropout technique in Quantum Neural Network models, defining and analysing different quantum dropout strategies to avoid overfitting and achieve a high level of generalization. Our study allows to envision the power of quantum dropout in enabling generalization, providing useful guidelines on determining the maximal dropout probability for a given model, based on overparametrization theory. It also highlights how quantum dropout does not impact the features of the Quantum Neural Networks model, such as expressibility and entanglement. All these conclusions are supported by extensive numerical simulations, and may pave the way to efficiently employing deep Quantum Machine Learning models based on state-of-the-art Quantum Neural Networks.
翻訳日:2023-10-09 20:58:59 公開日:2023-10-06
# 低温基板上の浮遊電子を用いた量子コンピューティングの可能性と課題

Quantum computing using floating electrons on cryogenic substrates: Potential And Challenges ( http://arxiv.org/abs/2310.04119v1 )

ライセンス: Link先を確認
Ash Jennings, Ivan Grytsenko, Xianjing Zhou and Erika Kawakami(参考訳) 本稿では,比較的新しいqubitプラットフォームであるfloating-electron-based qubitsを紹介する。 液体ヘリウムや固体ネオンの表面上に真空に浮かぶ電子は、特に長いコヒーレンス時間のために、量子ビットの候補として期待される。 初期段階にあるにもかかわらず、様々なグループによる最近の実験は、この役割にかなりの可能性を示している。 スピン状態と電荷状態がハイブリダイゼーションされている量子状態としてスピン状態を使うことに主眼を置き,理論的な提案と最近の実験について検討した。 これらの提案と実験を通じて、電荷状態はLC共振器に結合され、人工的に導入されたスピンチャージカップリングによってスピン状態の制御と読み出しの機構が促進される。

In this review, we introduce a relatively new qubit platform: floating-electron-based qubits. Electrons floating in vacuum above the surface of liquid helium or solid neon emerge as promising candidates for qubits, especially due to their expected long coherence times. Despite being in the early stages, a variety of recent experiments from different groups have shown substantial potential in this role. We survey a range of theoretical proposals and recent experiments, primarily focusing on the use of the spin state as the qubit state, wherein the spin and charge states are hybridized. Throughout these proposals and experiments, the charge state is coupled to an LC resonator, which facilitates both the control and readout mechanisms for the spin state via an artificially introduced spin-charge coupling.
翻訳日:2023-10-09 20:58:36 公開日:2023-10-06
# MICCAI SEG.Aにおける3次元CTからの大動脈切開 2023年チャレンジ

Aorta Segmentation from 3D CT in MICCAI SEG.A. 2023 Challenge ( http://arxiv.org/abs/2310.04114v1 )

ライセンス: Link先を確認
Andriy Myronenko, Dong Yang, Yufan He, Daguang Xu(参考訳) 大動脈は体の主な血液供給源である。 画像による大動脈のスクリーニングは早期大動脈疾患の検出とモニタリングに役立つ。 本研究では,3次元CTの課題からAortaのセグメンテーション(SEG.A.231)について述べる。 MonoAI で利用可能な Auto3DSeg の自動セグメンテーション手法を用いている。 我々の解は、ハウスドルフ距離(HD95)の平均Diceスコア0.920と95%のパーセンタイル6.013を達成し、SEG.Aに勝利した。 2023年挑戦。

Aorta provides the main blood supply of the body. Screening of aorta with imaging helps for early aortic disease detection and monitoring. In this work, we describe our solution to the Segmentation of the Aorta (SEG.A.231) from 3D CT challenge. We use automated segmentation method Auto3DSeg available in MONAI. Our solution achieves an average Dice score of 0.920 and 95th percentile of the Hausdorff Distance (HD95) of 6.013, which ranks first and wins the SEG.A. 2023 challenge.
翻訳日:2023-10-09 20:58:24 公開日:2023-10-06
# ブラインド画像の高分解能化のための劣化認識自己着脱型変圧器

Degradation-Aware Self-Attention Based Transformer for Blind Image Super-Resolution ( http://arxiv.org/abs/2310.04180v1 )

ライセンス: Link先を確認
Qingguo Liu, Pan Gao, Kang Han, Ningzhong Liu, Wei Xiang(参考訳) CNNベースの手法と比較して、Transformerベースの手法は、リモート依存関係をモデル化できるため、印象的な画像復元結果が得られる。 しかし,変圧器を用いた手法をブラインド・スーパーレゾリューション(sr)の分野に適用し,さらにsrネットワークを劣化情報に適応させる方法はいまだに未解決の問題である。 本稿では,入力画像の劣化表現を未知ノイズで学習するために,コントラスト学習をトランスネットワークに組み込む,劣化認識型自己対応型変圧器モデルを提案する。 特に、我々はCNNとTransformerの両方のコンポーネントをSRネットワークに統合し、まず、分解情報によって変調されたCNNを用いて局所的な特徴を抽出し、次いで分解認識変換器を用いてグローバルな意味的特徴を抽出する。 提案したモデルを,テスト用の大規模ベンチマークデータセットに適用し,既存手法と比較して最先端のパフォーマンスを実現する。 特に,Urban100データセットのPSNRは$\times$2スケールで32.43dB,DASRより0.94dB高く,Urban100データセットの$\times$4スケールで26.62dB,KDSRより0.26dB向上した。 ソースコードはhttps://github.com/i2-multimedia-lab/dsat/tree/main。

Compared to CNN-based methods, Transformer-based methods achieve impressive image restoration outcomes due to their abilities to model remote dependencies. However, how to apply Transformer-based methods to the field of blind super-resolution (SR) and further make an SR network adaptive to degradation information is still an open problem. In this paper, we propose a new degradation-aware self-attention-based Transformer model, where we incorporate contrastive learning into the Transformer network for learning the degradation representations of input images with unknown noise. In particular, we integrate both CNN and Transformer components into the SR network, where we first use the CNN modulated by the degradation information to extract local features, and then employ the degradation-aware Transformer to extract global semantic features. We apply our proposed model to several popular large-scale benchmark datasets for testing, and achieve the state-of-the-art performance compared to existing methods. In particular, our method yields a PSNR of 32.43 dB on the Urban100 dataset at $\times$2 scale, 0.94 dB higher than DASR, and 26.62 dB on the Urban100 dataset at $\times$4 scale, 0.26 dB improvement over KDSR, setting a new benchmark in this area. Source code is available at: https://github.com/I2-Multimedia-Lab/DSAT/tree/main.
翻訳日:2023-10-09 18:53:32 公開日:2023-10-06
# エントロピースコアメトリクス:トレーニングフリーnasにおけるトポロジーとサイズの分離

Entropic Score metric: Decoupling Topology and Size in Training-free NAS ( http://arxiv.org/abs/2310.04179v1 )

ライセンス: Link先を確認
Niccol\`o Cavagnero, Luca Robbiano, Francesca Pistilli, Barbara Caputo, Giuseppe Averta(参考訳) ニューラルネットワークの設計は複雑で、特にモバイルサイズのモデルに典型的なリソース制約のあるシナリオの場合、しばしば厄介な作業である。 Neural Architecture Searchは、このプロセスを自動化するための有望なアプローチであるが、既存の競合手法では、正確なモデルを生成するために、大規模なトレーニング時間と計算資源を必要とする。 これらの限界を克服するために、本稿は次のように貢献する。 一 エントロピースコアという、そのアクティベーションの集約された要素のエントロピーを通じてモデル表現率を推定する新規な訓練なし計量 二 モデルのサイズ及びトポロジーを別々に、かつ相乗的に検索するための巡回探索アルゴリズム。 エントロピックスコア(Entropic Score)は,ネットワークのトポロジを探索する優れた能力を示し,モデルサイズを探索するLogSynflowと適切な組み合わせによって,エッジアプリケーション用の高性能ハイブリッドトランスフォーマーを1GPU時間以内で完全に設計する能力が向上し,イメージネット分類における最も高速かつ高精度なNAS法が実現された。

Neural Networks design is a complex and often daunting task, particularly for resource-constrained scenarios typical of mobile-sized models. Neural Architecture Search is a promising approach to automate this process, but existing competitive methods require large training time and computational resources to generate accurate models. To overcome these limits, this paper contributes with: i) a novel training-free metric, named Entropic Score, to estimate model expressivity through the aggregated element-wise entropy of its activations; ii) a cyclic search algorithm to separately yet synergistically search model size and topology. Entropic Score shows remarkable ability in searching for the topology of the network, and a proper combination with LogSynflow, to search for model size, yields superior capability to completely design high-performance Hybrid Transformers for edge applications in less than 1 GPU hour, resulting in the fastest and most accurate NAS method for ImageNet classification.
翻訳日:2023-10-09 18:53:04 公開日:2023-10-06
# 属性安定指標の導入:時系列XAI属性の測定

Introducing the Attribution Stability Indicator: a Measure for Time Series XAI Attributions ( http://arxiv.org/abs/2310.04178v1 )

ライセンス: Link先を確認
Udo Schlegel, Daniel A. Keim(参考訳) 金融、天気予報、医療といった分野における時系列データの量と一般的な複雑さを考えると、基礎となるパターンや関係に関する解釈可能な洞察を提供する最先端のパフォーマンスモデルの必要性が高まっている。 属性技術は時系列モデルから説明を抽出して洞察を得ることを可能にするが、その堅牢性と信頼性を評価することは困難である。 本稿では,時系列の帰属手法の特性としてロバスト性と信頼性を組み込んだ帰属安定指標(asi)を提案する。 我々は、元の時系列の相関による摂動解析を摂動インスタンスに拡張し、その測度に所望の特性を含めるための属性を導出する。 本研究では,次元再現空間における属性の分析と3つの時系列分類データセット上でのASIスコア分布に基づいて,所望の特性を実証する。

Given the increasing amount and general complexity of time series data in domains such as finance, weather forecasting, and healthcare, there is a growing need for state-of-the-art performance models that can provide interpretable insights into underlying patterns and relationships. Attribution techniques enable the extraction of explanations from time series models to gain insights but are hard to evaluate for their robustness and trustworthiness. We propose the Attribution Stability Indicator (ASI), a measure to incorporate robustness and trustworthiness as properties of attribution techniques for time series into account. We extend a perturbation analysis with correlations of the original time series to the perturbed instance and the attributions to include wanted properties in the measure. We demonstrate the wanted properties based on an analysis of the attributions in a dimension-reduced space and the ASI scores distribution over three whole time series classification datasets.
翻訳日:2023-10-09 18:52:44 公開日:2023-10-06
# フラッド検出のための動的関係付きグラフニューラルネットワーク

Dynamic Relation-Attentive Graph Neural Networks for Fraud Detection ( http://arxiv.org/abs/2310.04171v1 )

ライセンス: Link先を確認
Heehyeon Kim, Jinhyeok Choi, Joyce Jiyoung Whang(参考訳) 不正検出は、例えば偽レビューを残したり、異常な取引を行ったりすることで、他人を欺いた詐欺師を見つけることを目的としている。 グラフベースの不正検出手法は、このタスクを2つのクラス(詐欺または正常)の分類問題と見なしている。 グラフニューラルネットワーク (gnns) を用いて, 動的関係結合機構を提案することでこの問題に対処した。 多くの実世界のグラフが異なる関係を持つという観測に基づいて、関係ごとにノード表現を学習し、各関係に異なる注意係数を割り当てる学習可能な注意関数を用いてノード表現を集約する。 さらに,異なるレイヤからのノード表現を組み合わせることで,対象ノードの局所的および大域的な構造を考慮し,ヘテロフィリによるグラフ上の不正検出性能の向上に寄与する。 すべての集約プロセスで動的グラフの注意力を利用することにより,各ノードの注意力係数を適応的に計算する。 実験の結果,本手法のDRAGは,実世界のベンチマークデータセットにおいて,最先端の不正検出手法よりも優れていた。

Fraud detection aims to discover fraudsters deceiving other users by, for example, leaving fake reviews or making abnormal transactions. Graph-based fraud detection methods consider this task as a classification problem with two classes: frauds or normal. We address this problem using Graph Neural Networks (GNNs) by proposing a dynamic relation-attentive aggregation mechanism. Based on the observation that many real-world graphs include different types of relations, we propose to learn a node representation per relation and aggregate the node representations using a learnable attention function that assigns a different attention coefficient to each relation. Furthermore, we combine the node representations from different layers to consider both the local and global structures of a target node, which is beneficial to improving the performance of fraud detection on graphs with heterophily. By employing dynamic graph attention in all the aggregation processes, our method adaptively computes the attention coefficients for each node. Experimental results show that our method, DRAG, outperforms state-of-the-art fraud detection methods on real-world benchmark datasets.
翻訳日:2023-10-09 18:52:29 公開日:2023-10-06
# 相対論的ウィグナー・フレンド・シナリオの理解

Making sense of relativistic Wigner friend scenarios ( http://arxiv.org/abs/2310.04167v1 )

ライセンス: Link先を確認
J. Allam and A. Matzkin(参考訳) 測定を行う友人を含むクローズドラボを外部エージェントが記述するwigner-friendのシナリオは、測定を計算する際に量子論に固有の困難を浮き彫りにしている。 近年、ウィグナーフレンドリーなシナリオを相対論的制約で研究し、異なる慣性参照フレームで観測された観測と矛盾する結果となった。 本稿では,これらの矛盾の原因と意義について考察する。 量子論と相対性理論の間のよく知られた緊張を念頭に置いて、これらのシナリオにおける相対論的制約の役割を特に強調する。

Wigner-friend scenarios -- in which external agents describe a closed laboratory containing a friend making a measurement -- highlight the difficulties inherent to quantum theory when accounting for measurements. Recently, several works have investigated Wigner-friend scenarios with relativistic constraints, systematically resulting in a contradiction between observations made in different inertial reference frames. We examine in this paper the reasons for and the implications of these contradictions. Having in mind the well-known tensions between quantum theory and relativity, we will put a particular emphasis on the role of the relativistic constraints in these scenarios.
翻訳日:2023-10-09 18:52:13 公開日:2023-10-06
# 量子数対称性をもつ自己回帰的神経量子状態

Autoregressive Neural Quantum States with Quantum Number Symmetries ( http://arxiv.org/abs/2310.04166v1 )

ライセンス: Link先を確認
Aleksei Malyshev, Juan Miguel Arrazola, A. I. Lvovsky(参考訳) 量子量子状態は、量子多体系の変分モンテカルロシミュレーションのための強力で多用途なアンサツェの族として確立されている。 特に注目されるのは、ディープニューラルネットワークの表現可能性を楽しむ自己回帰型ニューラルネットワーク状態(anqs)であり、高速で偏りのないサンプリング手順を備えている。 しかし、自己回帰的サンプリングの非選択的性質は量子数対称性の取り込みを困難にしている。 本研究では,任意の数の量子数対称性に自己回帰的サンプリングを適合させる汎用フレームワークを開発した。 この種の複数の対称性を持つ分子に対して電子構造計算を実行することにより、その利点を示す。 これまでの研究で報告された精度のレベルを1桁以上のスピードアップで到達し、これまで報告されていない全ての分子の化学的精度を達成する。 空間対称性を組み込む既存の取り組みと組み合わせることで、任意の変分アンサッツに必須な対称性ツールボックスを拡大し、anqsを量子多体系の研究における競争的選択に近づける。

Neural quantum states have established themselves as a powerful and versatile family of ansatzes for variational Monte Carlo simulations of quantum many-body systems. Of particular prominence are autoregressive neural quantum states (ANQS), which enjoy the expressibility of deep neural networks, and are equipped with a procedure for fast and unbiased sampling. Yet, the non-selective nature of autoregressive sampling makes incorporating quantum number symmetries challenging. In this work, we develop a general framework to make the autoregressive sampling compliant with an arbitrary number of quantum number symmetries. We showcase its advantages by running electronic structure calculations for a range of molecules with multiple symmetries of this kind. We reach the level of accuracy reported in previous works with more than an order of magnitude speedup and achieve chemical accuracy for all studied molecules, which is a milestone unreported so far. Combined with the existing effort to incorporate space symmetries, our approach expands the symmetry toolbox essential for any variational ansatz and brings the ANQS closer to being a competitive choice for studying challenging quantum many-body systems.
翻訳日:2023-10-09 18:52:02 公開日:2023-10-06
# amortized network interventionによる興奮点過程の制御

Amortized Network Intervention to Steer the Excitatory Point Processes ( http://arxiv.org/abs/2310.04159v1 )

ライセンス: Link先を確認
Zitao Song, Wendi Ren, Shuang Li(参考訳) 我々は,感染症の拡散や交通渋滞制御といった興奮点過程を誘導するための大規模ネットワーク介入の課題に取り組む。 モデルに基づく強化学習ではニューラルネットワークのODEを用いて,ネットワークトポロジの変化による興奮点過程の進化を捉える。 提案手法は,GD-MPC(Gradient-Descent based Model Predictive Control)を取り入れ,事前知識と制約を満たすためのポリシー柔軟性を提供する。 このような意思決定問題に内在する高次元を克服し,計画の複雑さに対処するため,ネットワーク介入(ani)フレームワークの設計を行い,置換同値性を確保しつつ,歴史や他の文脈からの最適ポリシーのプール化を可能にした。 この特性により、多様な文脈における効率的な知識伝達と共有が可能となる。 本手法は, 感染症の感染拡大抑制から, 交通光量最適化による二酸化炭素排出量削減まで, 幅広い応用が可能であり, 社会問題や環境問題への対処の可能性も秘めている。

We tackle the challenge of large-scale network intervention for guiding excitatory point processes, such as infectious disease spread or traffic congestion control. Our model-based reinforcement learning utilizes neural ODEs to capture how the networked excitatory point processes will evolve subject to the time-varying changes in network topology. Our approach incorporates Gradient-Descent based Model Predictive Control (GD-MPC), offering policy flexibility to accommodate prior knowledge and constraints. To address the intricacies of planning and overcome the high dimensionality inherent to such decision-making problems, we design an Amortize Network Interventions (ANI) framework, allowing for the pooling of optimal policies from history and other contexts, while ensuring a permutation equivalent property. This property enables efficient knowledge transfer and sharing across diverse contexts. Our approach has broad applications, from curbing infectious disease spread to reducing carbon emissions through traffic light optimization, and thus has the potential to address critical societal and environmental challenges.
翻訳日:2023-10-09 18:51:44 公開日:2023-10-06
# 測定誘起量子力学の非選択学習

Postselection-free learning of measurement-induced quantum dynamics ( http://arxiv.org/abs/2310.04156v1 )

ライセンス: Link先を確認
Max McGinley(参考訳) 我々は、測定を含む力学によって生成される量子状態の性質を経験的に推測する方法に対処する。 我々の焦点は、測定回数が広い多体設定であり、指数的なサンプルの複雑さのため、ポストセレクションに基づくブルートフォースアプローチが難解である。 本稿では,複数の実験繰り返しを用いて,測定後の状態アンサンブルの学習特性の汎用的推論手法を提案する。 まず,実験データから直接抽出可能な「推定可能な特性」の一般クラスを同定する。 そして、そのような量の経験的観察に基づいて、平均の絡み合いエントロピーやフレームポテンシャルなど、与えられた非推定量の情報を間接的に推測する方法を示す。 私たちは最適化タスクの観点で、望ましい量に必要な最小値と最大値を問うとともに、観測との一貫性を確保しながら、このアプローチを定式化します。 この量の真の値は、これらの極限の間の可能な範囲内にある必要がある。 デバイスの古典的なシミュレーションを使用して、測定すべき推定可能な特性を決定することで、狭い実現可能な範囲を得ることができる。 このシミュレーションが不正確である場合でも、量子デバイス上で実現された所定の量の真価に関する曖昧な情報を学ぶことができる。 即時的な応用として,実験における量子状態設計の出現を検証するために本手法が有用であることを示す。 我々は、与えられた量の鋭い知識が推測されるのを防ぐという基本的な障害を特定し、古典シミュレーションが計算的に要求されすぎる場合に何が学べるかについて議論する。

We address how one can empirically infer properties of quantum states generated by dynamics involving measurements. Our focus is on many-body settings where the number of measurements is extensive, making brute-force approaches based on postselection intractable due to their exponential sample complexity. We introduce a general-purpose inference scheme for learning properties of the post-measurement ensemble of states using a scalable number of experimental repetitions. We first identify a general class of `estimable properties' that can be directly extracted from experimental data. Then, based on empirical observations of some such quantities, we show how one can indirectly infer information about a given non-estimable quantity of interest, such as the average entanglement entropy, or frame potential. We formulate our approach in terms of an optimization task, where one asks what are the minimum and maximum values that the desired quantity could possibly take, while ensuring consistency with observations. The true value of this quantity must then lie within a feasible range between these extrema, resulting in two-sided bounds. Narrow feasible ranges can be obtained by using a classical simulation of the device to determine which estimable properties one should measure. Even in cases where this simulation is inaccurate, unambiguous information about the true value of a given quantity realised on the quantum device can be learned. As an immediate application, we show that our method can be used to verify the emergence of quantum state designs in experiments. We identify some fundamental obstructions that in some cases prevent sharp knowledge of a given quantity from being inferred, and discuss what can be learned in cases where classical simulation is too computationally demanding to be feasible.
翻訳日:2023-10-09 18:51:25 公開日:2023-10-06
# 点雲発生による近面サンプリングによるニューラルラジアンス場の改善

Improving Neural Radiance Field using Near-Surface Sampling with Point Cloud Generation ( http://arxiv.org/abs/2310.04152v1 )

ライセンス: Link先を確認
Hye Bin Yoo and Hyun Min Han and Sung Soo Hwang and Il Yong Chun(参考訳) neural radiance field (nerf) は、3次元空間内の点をサンプリングし、それらの存在と色確率を推定する新しい視点合成法である。 NeRFの欠点は、多くの3Dポイントをサンプリングするため、長い訓練時間を必要とすることである。 さらに、1つのサンプルが隠蔽領域から、あるいは物体が存在しないような空間へ向けられた場合、NeRFのレンダリング品質を劣化させることができる。 これらの問題は3次元シーンの形状を推定することで解決できる。 本稿では,NeRFのレンダリング品質を向上させるため,表面近傍のサンプリングフレームワークを提案する。 そこで本研究では,トレーニングセットの奥行き画像を用いて3次元物体の表面を推定し,その周辺のみをサンプリングする手法を提案する。 新たな視点の深度情報を得るために,3次元点雲生成法と点雲から投影された深度を簡易に精製する方法を提案する。 実験結果から,提案手法は従来のNeRF法や最先端深度に基づくNeRF法と比較して,レンダリング品質を著しく向上させることができることがわかった。 また,提案手法により,NeRFモデルのトレーニング時間を大幅に短縮することができる。

Neural radiance field (NeRF) is an emerging view synthesis method that samples points in a three-dimensional (3D) space and estimates their existence and color probabilities. The disadvantage of NeRF is that it requires a long training time since it samples many 3D points. In addition, if one samples points from occluded regions or in the space where an object is unlikely to exist, the rendering quality of NeRF can be degraded. These issues can be solved by estimating the geometry of 3D scene. This paper proposes a near-surface sampling framework to improve the rendering quality of NeRF. To this end, the proposed method estimates the surface of a 3D object using depth images of the training set and sampling is performed around there only. To obtain depth information on a novel view, the paper proposes a 3D point cloud generation method and a simple refining method for projected depth from a point cloud. Experimental results show that the proposed near-surface sampling NeRF framework can significantly improve the rendering quality, compared to the original NeRF and a state-of-the-art depth-based NeRF method. In addition, one can significantly accelerate the training time of a NeRF model with the proposed near-surface sampling framework.
翻訳日:2023-10-09 18:51:01 公開日:2023-10-06
# マルチエージェント強化学習による自己監督型ニューロン分割

Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2310.04148v1 )

ライセンス: Link先を確認
Yinda Chen, Wei Huang, Shenglong Zhou, Qi Chen, Zhiwei Xiong(参考訳) 既存の教師付きニューロンセグメンテーション法の性能は、特に大規模電子顕微鏡(em)データに適用する場合、正確なアノテーションの数に大きく依存する。 ラベルなしデータから意味情報を抽出することにより,マスク画像モデル (mim) がマスク画像からオリジナル情報を回収する上での単純さと有効性から広く利用されている下流タスクの性能を向上させることができる。 しかし、EM画像の構造的局所性の高さやかなりのノイズの存在により、多くのボクセルは識別情報をほとんど含まないため、MIM前訓練はニューロンセグメンテーションタスクにおいて非効率である。 この課題を克服するために、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。 広大な探査空間のため、ボクセル予測に単一エージェントRLを用いるのは現実的ではない。 そこで我々は,各入力パッチを共有行動ポリシーを持つエージェントとして扱い,マルチエージェント協調を可能にする。 さらに、このマルチエージェントモデルは、下流セグメンテーションタスクに有利なボクセル間の依存関係をキャプチャすることができる。 代表的EMデータセットを用いて行った実験は,ニューロン分節のタスクにおいて,我々のアプローチが代替的な自己監督手法よりも有意な優位性を示した。 コードは \url{https://github.com/ydchen0806/dbMiM} で入手できる。

The performance of existing supervised neuron segmentation methods is highly dependent on the number of accurate annotations, especially when applied to large scale electron microscopy (EM) data. By extracting semantic information from unlabeled data, self-supervised methods can improve the performance of downstream tasks, among which the mask image model (MIM) has been widely used due to its simplicity and effectiveness in recovering original information from masked images. However, due to the high degree of structural locality in EM images, as well as the existence of considerable noise, many voxels contain little discriminative information, making MIM pretraining inefficient on the neuron segmentation task. To overcome this challenge, we propose a decision-based MIM that utilizes reinforcement learning (RL) to automatically search for optimal image masking ratio and masking strategy. Due to the vast exploration space, using single-agent RL for voxel prediction is impractical. Therefore, we treat each input patch as an agent with a shared behavior policy, allowing for multi-agent collaboration. Furthermore, this multi-agent model can capture dependencies between voxels, which is beneficial for the downstream segmentation task. Experiments conducted on representative EM datasets demonstrate that our approach has a significant advantage over alternative self-supervised methods on the task of neuron segmentation. Code is available at \url{https://github.com/ydchen0806/dbMiM}.
翻訳日:2023-10-09 18:50:41 公開日:2023-10-06
# キーワード強化検索:音声インタフェースを統合した情報検索のための新しいフレームワーク

Keyword Augmented Retrieval: Novel framework for Information Retrieval integrated with speech interface ( http://arxiv.org/abs/2310.04205v1 )

ライセンス: Link先を確認
Anupam Purwar and Rahul Sundar(参考訳) 言語モデルを用いた構造化データと非構造化データの組み合わせによる幻覚なしに、迅速かつ低コストで回答を回収することは、知識検索自動化における言語モデルの利用を妨げる大きなハードルである。 これは、音声インターフェイスを統合したいときに強調される。 さらに、商用検索やチャットボットアプリケーションでは、GPT 3.5などの商用大規模言語モデル(LLM)への完全依存は非常にコストがかかる。 本稿では,まず,大規模言語モデルに提供すべき文脈の発見を促進するキーワードベースの検索フレームワークを開発することで,この問題に対処した。 そのキーワードは LLM が生成し、LLM が生成したクエリとの比較のためにキャッシュされる。 これはドキュメント内のコンテキストを見つけるための時間とコストを大幅に削減する。 コンテキストが設定されると、llmはq&a用に調整されたプロンプトに基づいて回答を提供する。 本研究は,コンテキスト識別におけるキーワードの使用が,情報検索の全体的な推論時間とコストを減少させることを示す。 このキーワード拡張検索フレームワークによる推論時間とコストの削減により、ユーザの入力と応答の読み出しのための音声ベースのインタフェースが統合された。 これにより言語モデルとのシームレスなインタラクションが可能になった。

Retrieving answers in a quick and low cost manner without hallucinations from a combination of structured and unstructured data using Language models is a major hurdle which prevents employment of Language models in knowledge retrieval automation. This becomes accentuated when one wants to integrate a speech interface. Besides, for commercial search and chatbot applications, complete reliance on commercial large language models (LLMs) like GPT 3.5 etc. can be very costly. In this work, authors have addressed this problem by first developing a keyword based search framework which augments discovery of the context to be provided to the large language model. The keywords in turn are generated by LLM and cached for comparison with keywords generated by LLM against the query raised. This significantly reduces time and cost to find the context within documents. Once the context is set, LLM uses that to provide answers based on a prompt tailored for Q&A. This research work demonstrates that use of keywords in context identification reduces the overall inference time and cost of information retrieval. Given this reduction in inference time and cost with the keyword augmented retrieval framework, a speech based interface for user input and response readout was integrated. This allowed a seamless interaction with the language model.
翻訳日:2023-10-09 16:30:27 公開日:2023-10-06
# 超伝導原子周波数コムにおける崩壊と再生の観測

Observation of collapse and revival in a superconducting atomic frequency comb ( http://arxiv.org/abs/2310.04200v1 )

ライセンス: Link先を確認
E.S. Redchenko, M. Zens, M. Zemlicka, M. Peruzzo, F. Hassani, H.S. Dhar, D.O. Krimer, S. Rotter, J.M. Fink(参考訳) 超伝導回路の最近の進歩は、精密に制御された量子ビットの中間スケールアンサンブルの集合的挙動の実験的な研究を可能にした。 本研究では,個々の人工原子が単一共振器モードに強く結合した原子周波数コムを実演する。 多ビットアンサンブルと動的に相互作用する単一コヒーレント励起に由来する周期マイクロ波パルスを観測する。 真空ラビスプリットコムを形成する5つの超伝導量子ビットの構成的および周期的再評価の結果、このリカバリダイナミクスが出現することを示す。 将来的には、同様のデバイスを、その場で調整可能な記憶時間を持つメモリや、非古典的な光子統計を持つオンチップ周期パルス発生装置として使用できる。

Recent advancements in superconducting circuits have enabled the experimental study of collective behavior of precisely controlled intermediate-scale ensembles of qubits. In this work, we demonstrate an atomic frequency comb formed by individual artificial atoms strongly coupled to a single resonator mode. We observe periodic microwave pulses that originate from a single coherent excitation dynamically interacting with the multi-qubit ensemble. We show that this revival dynamics emerges as a consequence of the constructive and periodic rephasing of the five superconducting qubits forming the vacuum Rabi split comb. In the future, similar devices could be used as a memory with in-situ tunable storage time or as an on-chip periodic pulse generator with non-classical photon statistics.
翻訳日:2023-10-09 16:30:10 公開日:2023-10-06
# 大きな磁気トラップから小さなキャビティ内双極子トラップへの原子の負荷

Loading atoms from a large magnetic trap to a small intra-cavity dipole trap ( http://arxiv.org/abs/2310.04199v1 )

ライセンス: Link先を確認
D. Varga, B. G\'abor, B. S\'ark\"ozi, K. V. Adwaith, D. Nagy A. Dombi, T. W. Clark, F. I. B. Williams, P. Domokos, and A. Vukics(参考訳) 磁気トラップから高Q光キャビティの1つの遠赤偏光モードで保持される光双極子トラップに、ルビジウム-87原子の冷間アンサンブルを最適化することにより、トラップの大きな体積ミスマッチにもかかわらず効率が良いことを示す。 磁気捕捉された原子は、キャビティモードの近傍に磁気輸送され、蒸発期間を経過しながら制御された方法で磁気トラップから放出される。 数百ミリ秒の間、多数の原子が双極子ポテンシャルに閉じ込められている。 我々は、原子共鳴に近いキャビティの2番目のトーンでモード体積中の原子数を監視する。 このプローブトーンは、プローブに結合していない別の基底状態へ原子を励起することができるが、レプタンパーレーザーを適用することで状態に依存しないトラップを示す。

We show that an optimized loading of a cold ensemble of rubidium-87 atoms from a magnetic trap into an optical dipole trap sustained by a single, far-red-detuned mode of a high-Q optical cavity can be efficient despite the large volume mismatch of the traps. The magnetically trapped atoms are magnetically transported to the vicinity of the cavity mode and released from the magnetic trap in a controlled way meanwhile undergoing an evaporation period. Large number of atoms get trapped in the dipole potential for several hundreds of milliseconds. We monitor the number of atoms in the mode volume by a second tone of the cavity close to the atomic resonance. While this probe tone can pump atoms to another ground state uncoupled to the probe, we demonstrate state-independent trapping by applying a repumper laser.
翻訳日:2023-10-09 16:29:59 公開日:2023-10-06
# mlirSynth:プログラム合成を用いたマルチレベルIRにおける自動再ターゲットプログラムライジング

mlirSynth: Automatic, Retargetable Program Raising in Multi-Level IR using Program Synthesis ( http://arxiv.org/abs/2310.04196v1 )

ライセンス: Link先を確認
Alexander Brauckmann, Elizabeth Polgreen, Tobias Grosser, Michael F. P. O'Boyle(参考訳) MLIRは、現代のハードウェアのための新しいコンパイラ基盤であるが、低レベルの汎用言語で記述されている場合、既存のプログラムはMLIRの高性能コンパイルを活用できない。 そのため、手作業で書き直さなければならないプログラムを避けるため、MLIRの下位レベルから上位レベルの方言を自動的に引き上げる努力が続けられている。 しかし、現在の手法は手動で定義した起伏規則に依存しており、それは適用性を制限し、MLIR方言が進化するにつれてその維持を困難にしている。 我々はmlirSynthという,低レベルのMLIR方言から,手作業によるルール定義のない高レベルの言語にプログラムを翻訳する,新しいアプローチを提案する。 代わりに、利用可能な方言定義を使用してプログラム空間を構築し、型制約と等価性を用いて効果的に検索する。 Cプログラムを2つの異なるハイレベルなMLIR方言に適用し、既存のハイレベルな方言固有のコンパイルフローを利用できることを示す。 Polybenchでは、従来のアプローチよりもカバー範囲が大きく、C言語に対する最新コンパイルフローよりも2.5倍(Intel)と3.4倍(AMD)のGeomeanスピードアップを実現している。 mlirSynthはまた、ドメイン固有の加速器の再ターゲット化を可能にし、TPU上のジオ平均速度は21.6倍になる。

MLIR is an emerging compiler infrastructure for modern hardware, but existing programs cannot take advantage of MLIR's high-performance compilation if they are described in lower-level general purpose languages. Consequently, to avoid programs needing to be rewritten manually, this has led to efforts to automatically raise lower-level to higher-level dialects in MLIR. However, current methods rely on manually-defined raising rules, which limit their applicability and make them challenging to maintain as MLIR dialects evolve. We present mlirSynth -- a novel approach which translates programs from lower-level MLIR dialects to high-level ones without manually defined rules. Instead, it uses available dialect definitions to construct a program space and searches it effectively using type constraints and equivalences. We demonstrate its effectiveness \revi{by raising C programs} to two distinct high-level MLIR dialects, which enables us to use existing high-level dialect specific compilation flows. On Polybench, we show a greater coverage than previous approaches, resulting in geomean speedups of 2.5x (Intel) and 3.4x (AMD) over state-of-the-art compilation flows for the C programming language. mlirSynth also enables retargetability to domain-specific accelerators, resulting in a geomean speedup of 21.6x on a TPU.
翻訳日:2023-10-09 16:29:46 公開日:2023-10-06
# アイデンティティ一貫性のあるトランスファー学習によるレンダリングポートレイトの正当性向上

Enhancing the Authenticity of Rendered Portraits with Identity-Consistent Transfer Learning ( http://arxiv.org/abs/2310.04194v1 )

ライセンス: Link先を確認
Luyuan Wang, Yiqian Wu, Yongliang Yang, Chen Liu, Xiaogang Jin(参考訳) コンピュータグラフィックスの急速な進歩にもかかわらず、高品質の写真リアリスティックな仮想ポートレートを作ることは違法に高価である。 さらに、描写された肖像画における「不気味な谷」効果はユーザー体験に大きな影響を与え、特にその描写が人間の類似性によく似ており、小さな工芸品が優しさや反発感を喚起することができる。 本稿では,「不気味な谷」効果を効果的に緩和し,ポートレート全体の信頼性を向上させる,フォトリアリスティックなポートレート生成枠組みを提案する。 私たちの重要なアイデアは、トランスファーラーニングを使用して、レンダリングされたポートレートの潜在空間から実際のポートレートへのアイデンティティ一貫性のあるマッピングを学ぶことです。 推測段階では、顔の同一性を保ちながら外観スタイルを変えて、アバターの入力ポートレートを直接リアルなポートレートに転送することができる。 この目的のために、レンダリングスタイルの肖像画用に特別に設計された新しいデータセットであるDaz-Rendered-Faces-HQ(DRFHQ)を収集します。 このデータセットを利用してStyleGAN2ジェネレータを微調整し、慎重に構築したフレームワークを使用して、顔認証に関連する幾何学的特徴と色の特徴を保存します。 我々は、性別、年齢、人種のバリエーションの異なる肖像画を用いて、枠組みを評価する。 定性的・定量的評価とアブレーション研究は,最先端のアプローチと比較して,本手法の利点を示している。

Despite rapid advances in computer graphics, creating high-quality photo-realistic virtual portraits is prohibitively expensive. Furthermore, the well-know ''uncanny valley'' effect in rendered portraits has a significant impact on the user experience, especially when the depiction closely resembles a human likeness, where any minor artifacts can evoke feelings of eeriness and repulsiveness. In this paper, we present a novel photo-realistic portrait generation framework that can effectively mitigate the ''uncanny valley'' effect and improve the overall authenticity of rendered portraits. Our key idea is to employ transfer learning to learn an identity-consistent mapping from the latent space of rendered portraits to that of real portraits. During the inference stage, the input portrait of an avatar can be directly transferred to a realistic portrait by changing its appearance style while maintaining the facial identity. To this end, we collect a new dataset, Daz-Rendered-Faces-HQ (DRFHQ), that is specifically designed for rendering-style portraits. We leverage this dataset to fine-tune the StyleGAN2 generator, using our carefully crafted framework, which helps to preserve the geometric and color features relevant to facial identity. We evaluate our framework using portraits with diverse gender, age, and race variations. Qualitative and quantitative evaluations and ablation studies show the advantages of our method compared to state-of-the-art approaches.
翻訳日:2023-10-09 16:29:19 公開日:2023-10-06
# 表現性を改善した非冗長グラフニューラルネットワーク

Non-Redundant Graph Neural Networks with Improved Expressiveness ( http://arxiv.org/abs/2310.04190v1 )

ライセンス: Link先を確認
Franka Bause, Samir Moustafa, Johannes Langguth, Wilfried N. Gansterer, Nils M. Kriege(参考訳) メッセージパッシンググラフニューラルネットワークは、すべての隣人からのメッセージを集約することで、ノード埋め込みを反復的に計算する。 この手順はWeisfeiler-Leman法の神経変種と見なすことができ、表現力を制限する。 さらに、オーバースムーシングやオーバースキャッシングは、これらのネットワークが効果的に活用できるレイヤの数を制限する。 メッセージパッシングにおける同一情報の繰り返しの交換と符号化はオーバーカッシングを増幅する。 本研究では,標準メッセージパッシングの基盤となる展開木の枝を刈り取ることにより冗長性を制御できる,近傍木に基づく新しい集約方式を提案する。 冗長性の低減が表現力を向上させることを実証し, 過渡を緩和できることを実験的に示す。 本研究では,メッセージパッシングにおける冗長性と計算における冗長性の相互作用を調査し,ノードとグラフの埋め込みをニューラルネットワークによる正規化によって計算する近傍木のコンパクト表現を提案する。 提案手法はWeisfeiler-Leman法よりも明らかに表現力が高く,メッセージパッシングニューラルネットワークよりも過度な監視を受けにくく,広く使用されているベンチマークデータセットに対して高い分類精度を提供する。

Message passing graph neural networks iteratively compute node embeddings by aggregating messages from all neighbors. This procedure can be viewed as a neural variant of the Weisfeiler-Leman method, which limits their expressive power. Moreover, oversmoothing and oversquashing restrict the number of layers these networks can effectively utilize. The repeated exchange and encoding of identical information in message passing amplifies oversquashing. We propose a novel aggregation scheme based on neighborhood trees, which allows for controlling the redundancy by pruning branches of the unfolding trees underlying standard message passing. We prove that reducing redundancy improves expressivity and experimentally show that it alleviates oversquashing. We investigate the interaction between redundancy in message passing and redundancy in computation and propose a compact representation of neighborhood trees, from which we compute node and graph embeddings via a neural tree canonization technique. Our method is provably more expressive than the Weisfeiler-Leman method, less susceptible to oversquashing than message passing neural networks, and provides high classification accuracy on widely-used benchmark datasets.
翻訳日:2023-10-09 16:28:56 公開日:2023-10-06
# 運動句による人間の動作と行動意味論のギャップの橋渡し

Bridging the Gap between Human Motion and Action Semantics via Kinematic Phrases ( http://arxiv.org/abs/2310.04189v1 )

ライセンス: Link先を確認
Xinpeng Liu, Yong-Lu Li, Ailing Zeng, Zizheng Zhou, Yang You, Cewu Lu(参考訳) 動作理解の目的は、動作意味論と動作意味論の間の信頼できるマッピングを確立することであるが、多対多の問題である。 抽象的なアクションセマンティクス(つまりウォーキングフォワード)は知覚的に多様な動き(腕を上げて歩くか振り回す)によって伝達され、動きはその文脈や意図によって異なるセマンティクスを運ぶことができる。 これにより、両者のエレガントなマッピングが困難になる。 以前の試みでは信頼性の低いダイレクトマッピングパラダイムを採用していた。 また、現在の自動メトリクスは、動作とアクションセマンティクスの一貫性の信頼できる評価を提供していない。 この2つのモード間の大きなギャップとして,これらの問題の根源を同定する。 このギャップを緩和するため,我々は,人間の運動の客観的キネマティックな事実を,適切な抽象化,解釈性,一般性特性で捉えるキネマティックフレーズ(kp)を提案する。 KPを仲介者として利用することで,運動知識ベースを統一し,動作理解システムを構築することができる。 一方、KPは主観バイアスのない動作やテキスト記述から自動的に変換することができ、新しい自動運動生成ベンチマークとしてKPG(Kinematic Prompt Generation)を刺激する。 広範な実験において,本手法は他の手法よりも優れていることを示す。 私たちのコードとデータはhttps://foruck.github.io/KP.comで公開されます。

The goal of motion understanding is to establish a reliable mapping between motion and action semantics, while it is a challenging many-to-many problem. An abstract action semantic (i.e., walk forwards) could be conveyed by perceptually diverse motions (walk with arms up or swinging), while a motion could carry different semantics w.r.t. its context and intention. This makes an elegant mapping between them difficult. Previous attempts adopted direct-mapping paradigms with limited reliability. Also, current automatic metrics fail to provide reliable assessments of the consistency between motions and action semantics. We identify the source of these problems as the significant gap between the two modalities. To alleviate this gap, we propose Kinematic Phrases (KP) that take the objective kinematic facts of human motion with proper abstraction, interpretability, and generality characteristics. Based on KP as a mediator, we can unify a motion knowledge base and build a motion understanding system. Meanwhile, KP can be automatically converted from motions and to text descriptions with no subjective bias, inspiring Kinematic Prompt Generation (KPG) as a novel automatic motion generation benchmark. In extensive experiments, our approach shows superiority over other methods. Our code and data would be made publicly available at https://foruck.github.io/KP.
翻訳日:2023-10-09 16:28:38 公開日:2023-10-06
# 誕生したルール1 - スーパーポジションの特徴

The Born Rule 1s a Feature of Superposition ( http://arxiv.org/abs/2310.04188v1 )

ライセンス: Link先を確認
David Ellerman(参考訳) 有限確率論は、通常の離散事象である$S$(結果空間のサブセット$U=\left( u_{1}, ...,u_{n}\right)$)に加えて、重ね合わせ事象の数学的概念(物理学を含まない)を$\Sigma S$-導入することによって強化される。 数学的には、2種類の事象はn$密度行列を用いて区別される。 離散事象に対する密度行列 $\rho\left(S\right) $ は対角行列であり、密度行列 $\rho\left( \Sigma S\right) $ は外積 $\left\vert s\right\rangle \left\langle s\right\vert $ の正規化ベクトル $\left\vert s\right\rangle \in \mathbb{R}^{n}$ として得られる。 確率は密度行列で定義される: $\pr\left(t|\rho\right) =\operatorname*{tr}\left[ p_{t}\rho\right] $ where $t\subseteq u$ と $p_{t}$ は対角成分 $\chi_{t}\left(u_{i}\right) $ を持つ対角射影行列である。 このとき、シングルトン $\left\{ u_{i}\right\} \subseteq U$ に対して、結果の確率 $u_{i}$ は \textit{superposition} イベントによって条件付けられ、$\Sigma S$ は $\Pr\left( \left\{ u_{i}\right\} |\Sigma S\right) =\left\langle u_{i}|s\right\rangle ^{2}$ である。 したがって、ボルン則は通常の有限確率論に重ね合わせの事象が加えられたときの重ね合わせの数学から自然に生じる。 数学が$\mathbb{c}^{n}$の代わりに$\mathbb{r}^{n}$を使用するとき、次の説明は必要ないが、正方形の$\left\langle u_{i}|s\right\rangle ^{2}$は絶対平方の$\left\vert \left\langle u_{i}|s\right\rangle \right\vert ^{2}$である。

Finite probability theory is enriched by introducing the mathematical notion (no physics involved) of a superposition event $\Sigma S$--in addition to the usual discrete event $S$ (subset of the outcome space $U=\left( u_{1},...,u_{n}\right) $). Mathematically, the two types of events are distinguished using $n\times n$ density matrices. The density matrix $\rho\left( S\right) $ for a discrete event is diagonal and the density matrix $\rho\left( \Sigma S\right) $ is obtained as an outer product $\left\vert s\right\rangle \left\langle s\right\vert $ of a normalized vector $\left\vert s\right\rangle \in \mathbb{R}^{n}$. Probabilities are defined using density matrices as $\Pr\left( T|\rho\right) =\operatorname*{tr}\left[ P_{T}\rho\right] $ where $T\subseteq U$ and $P_{T}$ is the diagonal projection matrix with diagonal entries $\chi_{T}\left( u_{i}\right) $. Then for the singleton $\left\{ u_{i}\right\} \subseteq U$, the probability of the outcome $u_{i}$ conditioned by the \textit{superposition} event $\Sigma S$ is $\Pr\left( \left\{ u_{i}\right\} |\Sigma S\right) =\left\langle u_{i}|s\right\rangle ^{2}$, the Born Rule. Thus the Born Rule arises naturally from the mathematics of superposition when superposition events are added to ordinary finite probability theory. No further explanation is required when the mathematics uses $ \mathbb{C}^{n}$ instead of $\mathbb{R}^{n}$ except that the square $\left\langle u_{i}|s\right\rangle ^{2}$ is the absolute square $\left\vert \left\langle u_{i}|s\right\rangle \right\vert ^{2}$.
翻訳日:2023-10-09 16:28:14 公開日:2023-10-06
# all slide multiple instance learning による結節リンパ節転移の予測

Whole Slide Multiple Instance Learning for Predicting Axillary Lymph Node Metastasis ( http://arxiv.org/abs/2310.04187v1 )

ライセンス: Link先を確認
Glejdis Shk\"embi, Johanna P. M\"uller, Zhe Li, Katharina Breininger, Peter Sch\"uffler, and Bernhard Kainz(参考訳) 乳癌は世界中の女性の健康にとって大きな関心事であり, 予後評価や治療指導に重要な Axillary lymph node (ALN) 転移の同定が重要である。 本稿では,デジタルコア・ニードル生検(cnb)画像から臨床情報を定量化するための深層学習(dl)分類パイプラインを提案する。 CNB画像に基づくALNの転移状態の分類において,SOTA (baseline State-of-the-art) DLモデルの性能評価に1058人の患者を対象とした。 各種データ拡張技術に関する広範囲なアブレーション研究も行った。 最後に,病理医が行う手動腫瘍の分節とアノテーションのステップを評価した。

Breast cancer is a major concern for women's health globally, with axillary lymph node (ALN) metastasis identification being critical for prognosis evaluation and treatment guidance. This paper presents a deep learning (DL) classification pipeline for quantifying clinical information from digital core-needle biopsy (CNB) images, with one step less than existing methods. A publicly available dataset of 1058 patients was used to evaluate the performance of different baseline state-of-the-art (SOTA) DL models in classifying ALN metastatic status based on CNB images. An extensive ablation study of various data augmentation techniques was also conducted. Finally, the manual tumor segmentation and annotation step performed by the pathologists was assessed.
翻訳日:2023-10-09 16:27:21 公開日:2023-10-06
# diffprompter: 不可分な暗黙の視覚的プロンプトによる意味的セグメンテーション

DiffPrompter: Differentiable Implicit Visual Prompts for Semantic-Segmentation in Adverse Conditions ( http://arxiv.org/abs/2310.04181v1 )

ライセンス: Link先を確認
Sanket Kalwar, Mihir Ungarala, Shruti Jain, Aaron Monis, Krishna Reddy Konda, Sourav Garg, K Madhava Krishna(参考訳) 悪天候シナリオにおけるセマンティックセグメンテーションは、自動運転システムにとって重要なタスクである。 基礎モデルは将来性を示しているが、より困難なシナリオを扱うためには、特別なアダプタの必要性が明らかになる。 DiffPrompterは、基礎モデルにおける既存アダプタの学習能力を拡大することを目的とした、新しい視覚的および潜時的プロンプト機構である。 提案する$\nabla$hfc画像処理ブロックは,従来手法が不足することが多かった気象条件において特に優れている。 さらに,視覚プロンプトと潜在プロンプトの協調学習の利点について検討し,この組み合わせが分散シナリオの性能を著しく向上させることを示す。 我々の微分可能視覚プロンプトは並列および直列アーキテクチャを利用してプロンプトを生成し、悪条件下でのオブジェクト分割タスクを効果的に改善する。 総合的な実験と評価を通じて、我々のアプローチの有効性を支える実証的な証拠を提供する。 プロジェクトページ: https://diffprompter.github.io。

Semantic segmentation in adverse weather scenarios is a critical task for autonomous driving systems. While foundation models have shown promise, the need for specialized adaptors becomes evident for handling more challenging scenarios. We introduce DiffPrompter, a novel differentiable visual and latent prompting mechanism aimed at expanding the learning capabilities of existing adaptors in foundation models. Our proposed $\nabla$HFC image processing block excels particularly in adverse weather conditions, where conventional methods often fall short. Furthermore, we investigate the advantages of jointly training visual and latent prompts, demonstrating that this combined approach significantly enhances performance in out-of-distribution scenarios. Our differentiable visual prompts leverage parallel and series architectures to generate prompts, effectively improving object segmentation tasks in adverse conditions. Through a comprehensive series of experiments and evaluations, we provide empirical evidence to support the efficacy of our approach. Project page at https://diffprompter.github.io.
翻訳日:2023-10-09 16:27:10 公開日:2023-10-06
# 強化学習のための学習表現のための補助タスクの比較

Comparing Auxiliary Tasks for Learning Representations for Reinforcement Learning ( http://arxiv.org/abs/2310.04241v1 )

ライセンス: Link先を確認
Moritz Lange, Noah Krystiniak, Raphael C. Engelhardt, Wolfgang Konen, Laurenz Wiskott(参考訳) 学習状態表現は、サンプル効率と多くの環境におけるリターンの両方を改善する可能性から、強化学習(RL)において着実に人気を集めている。 単純で効率的な方法は、補助的なタスク、すなわち実際のRLタスクとは異なるタスクで訓練された異なるニューラルネットワークで表現を生成することである。 このような補助的なタスクが文献で提案されているが、典型的な連続制御ベンチマーク環境の比較は計算に高価であり、我々の知る限り、これまで行われていなかった。 本稿では,最先端のオフ・ポリシーrlアルゴリズムを用いて訓練された何百ものエージェントをもとに,共通の補助タスクの比較を行う。 我々は,単純な振り子から複雑なシミュレーションロボットタスクまで,サンプル効率とリターンの両立を比較検討した。 その結果,補助タスクによる表現学習は高次元・複雑環境に有益であり,学習環境のダイナミクスは報酬予測に好適であることがわかった。 これらの知見は、他の研究者が、表現学習を特定の問題にどのように活用するかについて、より深い決定を下すことができると考えている。

Learning state representations has gained steady popularity in reinforcement learning (RL) due to its potential to improve both sample efficiency and returns on many environments. A straightforward and efficient method is to generate representations with a distinct neural network trained on an auxiliary task, i.e. a task that differs from the actual RL task. While a whole range of such auxiliary tasks has been proposed in the literature, a comparison on typical continuous control benchmark environments is computationally expensive and has, to the best of our knowledge, not been performed before. This paper presents such a comparison of common auxiliary tasks, based on hundreds of agents trained with state-of-the-art off-policy RL algorithms. We compare possible improvements in both sample efficiency and returns for environments ranging from simple pendulum to a complex simulated robotics task. Our findings show that representation learning with auxiliary tasks is beneficial for environments of higher dimension and complexity, and that learning environment dynamics is preferable to predicting rewards. We believe these insights will enable other researchers to make more informed decisions on how to utilize representation learning for their specific problem.
翻訳日:2023-10-09 16:19:00 公開日:2023-10-06
# 量子アルゴリズムを機械学習に導入する - QMLアルゴリズムの拡張性に関するAutoMLフレームワークの体系的レビュー

Bringing Quantum Algorithms to Automated Machine Learning: A Systematic Review of AutoML Frameworks Regarding Extensibility for QML Algorithms ( http://arxiv.org/abs/2310.04238v1 )

ライセンス: Link先を確認
Dennis Klau, Marc Z\"oller, Christian Tutschku(参考訳) 本稿では、既存のautomlフレームワークの能力に関する選択アプローチと分析について述べる。 a) 量子機械学習(QML)アルゴリズムをオートMLフレーミングのこの自動解法アプローチに統合し、 b)ML問題の種類が異なる産業用ユースケースの集合を,その最も重要な特徴をベンチマークすることで解決する。 そのため、利用可能なオープンソースツールは市場概要に集約され、適切なフレームワークはマルチフェーズのマルチ基準アプローチで体系的に選択されます。 これはAutoMLの技術的観点と同様に、ソフトウェア選択アプローチを考慮することで実現される。 フレームワーク選択の要件は、ソフトウェアとML属性に関するハードとソフトの基準に分けられる。 さらに、AutoMLフレームワークの分類は、発見に触発されて、ハイレベルとローレベルに分類される。 最後に,すべての要件を十分に満たし,ユースケース研究において最高の評価フィードバックを得たため,適切な低レベル・高レベルフレームワークとしてrayとautogluonを選択した。 これらの結果に基づいて,QC固有のパイプラインステップとハードウェアおよびソフトウェア制約に対する決定特性を備えた拡張型量子機械学習(AutoQML)フレームワークを構築した。

This work describes the selection approach and analysis of existing AutoML frameworks regarding their capability of a) incorporating Quantum Machine Learning (QML) algorithms into this automated solving approach of the AutoML framing and b) solving a set of industrial use-cases with different ML problem types by benchmarking their most important characteristics. For that, available open-source tools are condensed into a market overview and suitable frameworks are systematically selected on a multi-phase, multi-criteria approach. This is done by considering software selection approaches, as well as in terms of the technical perspective of AutoML. The requirements for the framework selection are divided into hard and soft criteria regarding their software and ML attributes. Additionally, a classification of AutoML frameworks is made into high- and low-level types, inspired by the findings of. Finally, we select Ray and AutoGluon as the suitable low- and high-level frameworks respectively, as they fulfil all requirements sufficiently and received the best evaluation feedback during the use-case study. Based on those findings, we build an extended Automated Quantum Machine Learning (AutoQML) framework with QC-specific pipeline steps and decision characteristics for hardware and software constraints.
翻訳日:2023-10-09 16:18:40 公開日:2023-10-06
# 新型コロナウイルスに関する事実と偽のソーシャルメディア投稿のテキストと音声コーパス

Written and spoken corpus of real and fake social media postings about COVID-19 ( http://arxiv.org/abs/2310.04237v1 )

ライセンス: Link先を確認
Ng Bee Chin, Ng Zhi Ee Nicole, Kyla Kwan, Lee Yong Han Dylann, Liu Fang, Xu Hong(参考訳) 本研究では,偽ニュースと実ニュースの言語的特徴について検討する。 この研究にはテキストデータと音声データという2つの部分がある。 この研究のテキストデータは、Patwaらによる6420のCOVID-19関連ツイート(2021年)から得られた。 削除後、データセットには3049のつぶやきがあり、2161は「リアル」、888は「フェイク」と表示された。 この研究の音声データはtiktokから収集され、covid-19関連ビデオに焦点が当てられた。 リサーチアシスタントは、信頼できるソースを使用して各ビデオのコンテンツを事実チェックし、それらを'Real'、'Fake'、'Questionable'とラベル付けし、合計53,710ワードのTikTokビデオから91のリアルエントリと109のフェイクエントリのデータセットを作成した。 データは言語データ中のパターンを検出するためにLingguistic Inquiry and Word Count (LIWC)ソフトウェアを用いて分析された。 その結果, 偽ニュースと実ニュースを区別する言語的特徴が, 文章データと音声データの両方で示された。 これは、信頼の形成、ソーシャルメディアの相互作用、フェイクニュースの伝播における言語の役割に関する貴重な洞察を提供する。

This study investigates the linguistic traits of fake news and real news. There are two parts to this study: text data and speech data. The text data for this study consisted of 6420 COVID-19 related tweets re-filtered from Patwa et al. (2021). After cleaning, the dataset contained 3049 tweets, with 2161 labeled as 'real' and 888 as 'fake'. The speech data for this study was collected from TikTok, focusing on COVID-19 related videos. Research assistants fact-checked each video's content using credible sources and labeled them as 'Real', 'Fake', or 'Questionable', resulting in a dataset of 91 real entries and 109 fake entries from 200 TikTok videos with a total word count of 53,710 words. The data was analysed using the Linguistic Inquiry and Word Count (LIWC) software to detect patterns in linguistic data. The results indicate a set of linguistic features that distinguish fake news from real news in both written and speech data. This offers valuable insights into the role of language in shaping trust, social media interactions, and the propagation of fake news.
翻訳日:2023-10-09 16:18:22 公開日:2023-10-06
# WayHome:動的スケールによる長期動作予測

The WayHome: Long-term Motion Prediction on Dynamically Scaled ( http://arxiv.org/abs/2310.04232v1 )

ライセンス: Link先を確認
Kay Scheerer, Thomas Michalke, Juergen Mathes(参考訳) 自動運転車の重要な課題の1つは、歩行者などの周囲の環境における他の物体の動きを正確に予測できることだ。 この貢献により、Gilesらの研究に触発されて、自動運転車の新たな動き予測手法が開発されている。 [1]. 我々は、自律走行車近傍のすべての交通参加者に対して、ニューラルネットワークに基づくモデルで複数のヒートマップを予測する。 ヒートマップは、最も将来的な位置に対応する座標を抽出する新しいサンプリングアルゴリズムの入力として使用される。 我々は、異なるエンコーダとデコーダを実験し、2つの損失関数の比較を行った。 さらに、さらなるパフォーマンス向上を示す新しいグリッドスケーリング技術が導入された。 提案手法は,機能関連予測間隔を3秒間,より長い予測間隔(最大8秒間)で比較しながら,最先端のミスレート性能を向上させる。 評価は2022年のwaymo motion challengeで行われている。

One of the key challenges for autonomous vehicles is the ability to accurately predict the motion of other objects in the surrounding environment, such as pedestrians or other vehicles. In this contribution, a novel motion forecasting approach for autonomous vehicles is developed, inspired by the work of Gilles et al. [1]. We predict multiple heatmaps with a neuralnetwork-based model for every traffic participant in the vicinity of the autonomous vehicle; with one heatmap per timestep. The heatmaps are used as input to a novel sampling algorithm that extracts coordinates corresponding to the most likely future positions. We experiment with different encoders and decoders, as well as a comparison of two loss functions. Additionally, a new grid-scaling technique is introduced, showing further improved performance. Overall, our approach improves stateof-the-art miss rate performance for the function-relevant prediction interval of 3 seconds while being competitive in longer prediction intervals (up to eight seconds). The evaluation is done on the public 2022 Waymo motion challenge.
翻訳日:2023-10-09 16:18:00 公開日:2023-10-06
# 高忠実ラマン量子ゲートのキャラクタリゼーション

Characterization of high-fidelity Raman qubit gates ( http://arxiv.org/abs/2310.04228v1 )

ライセンス: Link先を確認
Stancho G. Stanchev and Nikolay V. Vitanov(参考訳) ラマン量子ビットは、中間状態を介して結合された2つの基底状態または準安定量子状態によって表されるが、直接結合された量子ビットよりもいくつかの利点がある。 実装と制御も比較的簡単で、量子コンピュータのための量子ゲートを構築するための魅力的な選択肢である。 本研究では,モリス・ショア動的対称性を有するラマン・クビットゲートの誤差を測定するための簡易かつ高速トモグラフィー法を提案する。 後者は、クビット状態が2光子共鳴にあり、駆動場が同じ時間依存性を持つときに起こる。 この方法は、同じゲートを複数回繰り返すことで、小さなコヒーレントエラーを十分に大きな値に増幅し、高精度かつ高精度に測定できる。 すると、(小さい)ゲート誤差は、それらの間の分析接続を用いて増幅誤差から決定できる。

Raman qubits, represented by two ground or metastable quantum states coupled via an intermediate state, hold some advantages over directly coupled qubits, most notably much longer radiative lifetimes, shorter gate duration and lower radiation intensity due to using electric-dipole allowed optical transitions. They are also relatively simple to implement and control, making them an attractive option for building quantum gates for quantum computers. In this work, we present a simple and fast tomographic method to measure the errors of Raman qubit gates possessing the Morris-Shore dynamic symmetry. The latter occurs when the qubit states are on two-photon resonance and the driving fields have the same time dependence. The method is based on repeating the same gate multiple times, which amplifies the small coherent errors to sufficiently large values, which can be measured with high accuracy and precision. Then the (small) gate errors can be determined from the amplified errors by using the analytical connections between them.
翻訳日:2023-10-09 16:17:46 公開日:2023-10-06
# 同一骨格を持つマルコフ同値類を数える固定パラメータ扱い可能なアルゴリズム

A Fixed-Parameter Tractable Algorithm for Counting Markov Equivalence Classes with the same Skeleton ( http://arxiv.org/abs/2310.04218v1 )

ライセンス: Link先を確認
Vidya Sagar Sharma(参考訳) 因果DAG(Bayesian Network)は、確率変数間の条件依存を符号化する一般的なツールである。 因果的DAGでは、ランダム変数はDAGの頂点としてモデル化され、全てのランダム変数は両親に条件付けられた祖先とは独立である。 しかし、同じ確率変数の集合上の2つの異なる因果DAGに対して、全く同じ条件依存の集合をエンコードすることが可能である。 そのような因果DAGはマルコフ同値であるとされ、マルコフ同値DAGの同値類はマルコフ同値類(Markov Equivalent Classs、MECs)として知られている。 MECの美しい組合せ的特徴はここ数十年で開発され、特に同じMECのすべてのDAGは'skeleton'(無向グラフの下の)とv-構造($a\rightarrow b \leftarrow c$の形で引き起こされる部分グラフ)を持つ必要があることが知られている。 これらの組合せ的特徴付けは、いくつかの自然アルゴリズム的問題も示唆する。 入力として無向グラフ$G$を与えられたとき、マルコフ同値類がスケルトン$G$を持つものはいくつあるか? この数年間、多くの作業が、これや他の密接に関連する問題に費やされてきた。 しかしながら、我々の知る限りでは、問題の多項式時間アルゴリズムは未知である。 本稿では,木幅のパラメータと入力グラフの最大値である$g$を用いて,上記の問題に対する固定パラメータの扱い可能なアルゴリズムを提供することにより,この目標に向けて前進する。 我々の研究の主な技術的要素は、私たちがシャドウと呼ぶ構造であり、MECの組合せ的特徴によって課される長距離制約の「局所的記述」を作成することができる。

Causal DAGs (also known as Bayesian networks) are a popular tool for encoding conditional dependencies between random variables. In a causal DAG, the random variables are modeled as vertices in the DAG, and it is stipulated that every random variable is independent of its ancestors conditioned on its parents. It is possible, however, for two different causal DAGs on the same set of random variables to encode exactly the same set of conditional dependencies. Such causal DAGs are said to be Markov equivalent, and equivalence classes of Markov equivalent DAGs are known as Markov Equivalent Classes (MECs). Beautiful combinatorial characterizations of MECs have been developed in the past few decades, and it is known, in particular that all DAGs in the same MEC must have the same ''skeleton'' (underlying undirected graph) and v-structures (induced subgraph of the form $a\rightarrow b \leftarrow c$). These combinatorial characterizations also suggest several natural algorithmic questions. One of these is: given an undirected graph $G$ as input, how many distinct Markov equivalence classes have the skeleton $G$? Much work has been devoted in the last few years to this and other closely related problems. However, to the best of our knowledge, a polynomial time algorithm for the problem remains unknown. In this paper, we make progress towards this goal by giving a fixed parameter tractable algorithm for the above problem, with the parameters being the treewidth and the maximum degree of the input graph $G$. The main technical ingredient in our work is a construction we refer to as shadow, which lets us create a "local description'' of long-range constraints imposed by the combinatorial characterizations of MECs.
翻訳日:2023-10-09 16:17:28 公開日:2023-10-06
# 機械学習モデルのコスト効果リトレーニング

Cost-Effective Retraining of Machine Learning Models ( http://arxiv.org/abs/2310.04216v1 )

ライセンス: Link先を確認
Ananth Mahadevan and Michael Mathioudakis(参考訳) データは時間とともに変化するので、パフォーマンスを維持するために機械学習(ML)モデルを再訓練することが重要です。 しかし、データセット全体を再び処理する必要があるため、これはコストがかかる可能性がある。 これにより、再トレーニングの頻度が高過ぎると、不要な計算コストが発生し、再トレーニングが不十分になるため、MLモデルが不安定で不正確なものになる。 この課題に対処するため,MLモデルをいつ再トレーニングするかを自動かつ費用対効果で決定するMLシステムを提案する。 各決定に関連するコストを考慮してトレードオフを最適化することを目指している。 本研究は、データ、モデル、およびモデルが応答する予測クエリを含むさまざまな要因に基づいて、既存のmlモデルをリトレーニングするか、維持するかを決定することに焦点を当てる。 当社の主なコントリビューションは、データとクエリのストリーム間のトレードオフを最適化する、Caraと呼ばれるコストアウェアリトレーニングアルゴリズムです。 Caraの性能を評価するため,合成データセットを解析し,Caraが最適な振り返りアルゴリズムと同様に動作しながら,異なるデータドリフトやトレーニングコストに適応できることを実証した。 また,実世界のデータセットを用いた実験を行い,フロー検出ベースラインよりも精度が向上し,再トレーニングの意思決定が減少し,最終的に総コストが低下することを示した。

It is important to retrain a machine learning (ML) model in order to maintain its performance as the data changes over time. However, this can be costly as it usually requires processing the entire dataset again. This creates a trade-off between retraining too frequently, which leads to unnecessary computing costs, and not retraining often enough, which results in stale and inaccurate ML models. To address this challenge, we propose ML systems that make automated and cost-effective decisions about when to retrain an ML model. We aim to optimize the trade-off by considering the costs associated with each decision. Our research focuses on determining whether to retrain or keep an existing ML model based on various factors, including the data, the model, and the predictive queries answered by the model. Our main contribution is a Cost-Aware Retraining Algorithm called Cara, which optimizes the trade-off over streams of data and queries. To evaluate the performance of Cara, we analyzed synthetic datasets and demonstrated that Cara can adapt to different data drifts and retraining costs while performing similarly to an optimal retrospective algorithm. We also conducted experiments with real-world datasets and showed that Cara achieves better accuracy than drift detection baselines while making fewer retraining decisions, ultimately resulting in lower total costs.
翻訳日:2023-10-09 16:16:56 公開日:2023-10-06
# 材料設計に応用する量子古典的手法--光薬学応用のためのフォトクロミック材料の最適化と発見-

A combined quantum-classical method applied to material design: optimization and discovery of photochromic materials for photopharmacology applications ( http://arxiv.org/abs/2310.04215v1 )

ライセンス: Link先を確認
Qi Gao, Michihiko Sugawara, Paul D. Nation, Takao Kobayashi, Yu-ya Ohnishi, Hiroyuki Tezuka, Naoki Yamamoto(参考訳) 量子化学シミュレーション、機械学習技術、最適化計算の統合は、大規模な化学空間を計算研究に適応させることで、物質発見を加速することが期待されている。 本研究では,Ising Hamiltonianのような古典的ハミルトンの励起状態を計算するための計算基底変分量子デフレ法(cVQD)を用いた量子古典計算手法を開発した。 本手法は、フォトクロミック・ダイアレン(DAE)誘導体を光薬理学に応用するための実用事例に適用する。 384DAE誘導体の量子化学計算結果のデータセットを用いて、分解機械モデルを用いて、4096DAE誘導体のより大きな集合に対して、誘導体の最大吸収の波長$\lambda_{\rm max}$を正確に予測するイジング・ハミルトンモデルを構築することができることを示す。 構築されたイジング・ハミルトンの12量子cVQD計算は、大きな$\lambda_{\rm max}$を持つ5つのDAE候補に対応する基底と最初の4つの励起状態を提供する。 量子シミュレータでは、結果は正確な固有解法によって得られるものとよく一致している。 誤差抑制と緩和技術を利用して、実量子デバイス上のcVQDはシミュレータ上の理想的な計算に匹敵する精度で結果を生成する。 最後に、5つのDAE候補に対する量子化学計算が、DAE誘導体の分子工学による大きな$\lambda_{\rm max}$および発振器強度を達成するための経路を提供することを示す。 これらの知見は、大規模システム最適化と新しい材料発見へのハイブリッド量子古典的アプローチの適用に向けた今後の研究の道を開くものである。

Integration of quantum chemistry simulations, machine learning techniques, and optimization calculations is expected to accelerate material discovery by making large chemical spaces amenable to computational study; a challenging task for classical computers. In this work, we develop a combined quantum-classical computing scheme involving the computational-basis Variational Quantum Deflation (cVQD) method for calculating excited states of a general classical Hamiltonian, such as Ising Hamiltonian. We apply this scheme to the practical use case of generating photochromic diarylethene (DAE) derivatives for photopharmacology applications. Using a data set of 384 DAE derivatives quantum chemistry calculation results, we show that a factorization-machine-based model can construct an Ising Hamiltonian to accurately predict the wavelength of maximum absorbance of the derivatives, $\lambda_{\rm max}$, for a larger set of 4096 DAE derivatives. A 12-qubit cVQD calculation for the constructed Ising Hamiltonian provides the ground and first four excited states corresponding to five DAE candidates possessing large $\lambda_{\rm max}$. On a quantum simulator, results are found to be in excellent agreement with those obtained by an exact eigensolver. Utilizing error suppression and mitigation techniques, cVQD on a real quantum device produces results with accuracy comparable to the ideal calculations on a simulator. Finally, we show that quantum chemistry calculations for the five DAE candidates provides a path to achieving large $\lambda_{\rm max}$ and oscillator strengths by molecular engineering of DAE derivatives. These findings pave the way for future work on applying hybrid quantum-classical approaches to large system optimization and the discovery of novel materials.
翻訳日:2023-10-09 16:16:35 公開日:2023-10-06
# 10^{-17}$レベルでの弱等価原理の衛星量子テストのプラットフォームと環境要求

Platform and environment requirements of a satellite quantum test of the Weak Equivalence Principle at the $10^{-17}$ level ( http://arxiv.org/abs/2310.04212v1 )

ライセンス: Link先を確認
Christian Struckmann, Robin Corgier, Sina Loriani, Gina Kleinsteinberg, Nina Gox, Enno Giese, Gilles M\'etris, Naceur Gaaloul, Peter Wolf(参考訳) スペースタイムエクスプローラーとQUantum EquivalencePrinciple Space Test (STE-QUEST) は、一般相対性理論の基礎となる弱等価原理(WEP)の精度テストを実施することを目的として最近提案されている。 衛星に搭載された高精度量子センシングの理想的な動作条件を利用して、WEPの違反を10-17$レベルまで検出することを目指している。 このレベルの性能は、宇宙船の制御に厳しい環境条件をもたらす。 本研究では, ルビジウムおよびカリウム同位体の2種の原子干渉計を二重回折配置で動作させ, 統計的および系統的不確実性において, E\"otv\"osパラメータ$\eta=10^{-17}$を達成するための制約を導出する。 我々は、STE-QUESTミッション提案の技術的準備の根底にある目的を達成するために、MICROSCOPEのような過去の衛星ミッションの技術的遺産がプラットフォーム要件を満たすことを示している。

The Space Time Explorer and QUantum Equivalence principle Space Test (STE-QUEST) recently proposed, aims at performing a precision test of the weak equivalence principle (WEP), a fundamental cornerstone of General Relativity. Taking advantage of the ideal operation conditions for high-precision quantum sensing on board of a satellite, it aims to detect possible violations of WEP down to the $10^{-17}$ level. This level of performance leads to stringent environmental requirements on the control of the spacecraft. We assume an operation of a dual-species atom interferometer of rubidium and potassium isotopes in a double-diffraction configuration and derive the constraints to achieve an E\"otv\"os parameter $\eta=10^{-17}$ in statistical and systematic uncertainties. We show that technical heritage of previous satellite missions, such as MICROSCOPE, satisfies the platform requirements to achieve the proposed objectives underlying the technical readiness of the STE-QUEST mission proposal.
翻訳日:2023-10-09 16:16:05 公開日:2023-10-06
# 偽真空崩壊のリアルタイムダイナミクス

Real-time dynamics of false vacuum decay ( http://arxiv.org/abs/2310.04206v1 )

ライセンス: Link先を確認
Laura Batini, Aleksandr Chatrchyan and J\"urgen Berges(参考訳) 非対称二重ウェルポテンシャルの準安定最小値で初期化された相対論的スカラー場の偽真空崩壊について検討する。 真の基底状態への遷移は、閉時間経路上の非平衡量子場理論で定式化できる、実時間におけるよく定義された初期値問題である。 二粒子既約(2pi)量子実効作用の非摂動的枠組みを大規模n展開において次から次へと適用する。 また, 高温領域における格子上の古典統計場理論シミュレーションと比較した。 これにより, 実時間減衰率は, 従来のユークリッド (bounce) アプローチで得られた値に匹敵することを示した。 一般に、崩壊率は時間に依存する。 ダイナミクスをより包括的に説明するために、非平衡遷移過程中に凸となる時間依存の有効ポテンシャルを抽出する。 真空初期条件の1点と2点の相関関数に対する量子進化方程式を解くことにより、量子補正は古典統計近似では捉えられない遷移に繋がることを示した。

We investigate false vacuum decay of a relativistic scalar field initialized in the metastable minimum of an asymmetric double-well potential. The transition to the true ground state is a well-defined initial-value problem in real time, which can be formulated in nonequilibrium quantum field theory on a closed time path. We employ the non-perturbative framework of the two-particle irreducible (2PI) quantum effective action at next-to-leading order in a large-N expansion. We also compare to classical-statistical field theory simulations on a lattice in the high-temperature regime. By this, we demonstrate that the real-time decay rates are comparable to those obtained from the conventional Euclidean (bounce) approach. In general, we find that the decay rates are time dependent. For a more comprehensive description of the dynamics, we extract a time-dependent effective potential, which becomes convex during the nonequilibrium transition process. By solving the quantum evolution equations for the one- and two-point correlation functions for vacuum initial conditions, we demonstrate that quantum corrections can lead to transitions that are not captured by classical-statistical approximations.
翻訳日:2023-10-09 16:15:44 公開日:2023-10-06
# InGaAs/InP SPADを用いた正弦単光子検出器の雪崩遅延効果

The avalanche delay effect in sine-gated single-photon detector based on InGaAs/InP SPADs ( http://arxiv.org/abs/2310.04281v1 )

ライセンス: Link先を確認
Alexandr Filyaev, Anton Losev, Vladimir Zavodilenko, Igor Pavlov(参考訳) 本稿では,量子鍵分布(QKD)システムで使用する正弦ゲート単光子検出器(SPD)について考察する。 sine-gate SPD における "avalanche delay" 効果が明らかとなった。 この効果は、フォトン到着ゲートの後に次のゲートで引き起こされる雪崩の出現である。 この効果の性質は、余パルスや電荷持続の既知の影響とは無関係であると実験的に決定されている。 この効果はQKDシステム全体のエラー率に悪影響を及ぼす。 温度, ゲート振幅, コンパレータのしきい値電圧などの主検出器制御パラメータが雪崩遅延効果に及ぼす影響を実験的に確立した。

A sine-gated single-photon detector (SPD) intended for use in a quantum key distribution (QKD) system is considered in this paper. An "avalanche delay" effect in the sine-gated SPD is revealed. This effect consists in the appearance of an avalanche triggered at the next gate after the photon arrival gate. It has been determined experimentally that the nature of this effect is not related to the known effects of afterpulsing or charge persistence. This effect negatively affects the overall error rate in the QKD system. The influence of the main detector control parameters, such as temperature, gate amplitude and comparator's threshold voltage, on the avalanche delay effect was experimentally established.
翻訳日:2023-10-09 16:10:00 公開日:2023-10-06
# タスク構造から世界モデル: LLMは何を知っているのか?

From task structures to world models: What do LLMs know? ( http://arxiv.org/abs/2310.04276v1 )

ライセンス: Link先を確認
Ilker Yildirim, L.A. Paul(参考訳) ところで、大きな言語モデルはどんな意味で知識を持っていますか。 この質問に対する答えは、特定のAIシステムの能力を超えて、知識と知性の性質に関する私たちの仮定に挑戦する。 我々は LLM に「制度的な知識」を与えることで答える。 次に、そのような知識が、人間のエージェントが提示するより普通の「ワールドリー」な知識とどのように関係しているかを問うとともに、認知科学の構造化された世界モデルが組み込まれていると言えそうなインストゥルメンタル知識の程度の観点から、これを探求する。 我々は、LLMが世界の知識の度合いを回復する方法について議論し、そのようなリカバリは世界モデルとタスク要求の間の暗黙的なリソース・リレーショナルなトレードオフによって管理されることを示唆する。

In what sense does a large language model have knowledge? The answer to this question extends beyond the capabilities of a particular AI system, and challenges our assumptions about the nature of knowledge and intelligence. We answer by granting LLMs "instrumental knowledge"; knowledge defined by a certain set of abilities. We then ask how such knowledge is related to the more ordinary, "worldly" knowledge exhibited by human agents, and explore this in terms of the degree to which instrumental knowledge can be said to incorporate the structured world models of cognitive science. We discuss ways LLMs could recover degrees of worldly knowledge, and suggest such recovery will be governed by an implicit, resource-rational tradeoff between world models and task demands.
翻訳日:2023-10-09 16:09:50 公開日:2023-10-06
# リコンビネーションデモによる組成サーボ

Compositional Servoing by Recombining Demonstrations ( http://arxiv.org/abs/2310.04271v1 )

ライセンス: Link先を確認
Max Argus, Abhijeet Nayak, Martin B\"uchner, Silvio Galesso, Abhinav Valada, Thomas Brox(参考訳) 画像入力からの学習に基づく操作ポリシーは、しばしば弱いタスク転送能力を示す。 対照的に、ビジュアルサーボメソッドは、数回のデモンストレーションを必要としながら、高精度なシナリオで効率的なタスク転送を可能にする。 本稿では,視覚サーボタスクをグラフトラバーサルとして定式化するフレームワークを提案する。 本手法は,視覚サーボの堅牢性だけでなく,タスク固有のデモに基づいてマルチタスク機能を実現する。 既存のデモを分割して再結合することにより,デモグラフを構築する。 推論の場合、デモンストレーショングラフをトラバースするために、特定のタスクに対して最適なデモを選択するのに役立つ類似度関数を利用する。 これにより、グラフを通る最短経路を計算できます。 最終的に、再結合による実演がタスクレトロスペクティブの成功につながることを示す。 提案手法の有効性を示す大規模なシミュレーションと実世界の実験結果を示す。

Learning-based manipulation policies from image inputs often show weak task transfer capabilities. In contrast, visual servoing methods allow efficient task transfer in high-precision scenarios while requiring only a few demonstrations. In this work, we present a framework that formulates the visual servoing task as graph traversal. Our method not only extends the robustness of visual servoing, but also enables multitask capability based on a few task-specific demonstrations. We construct demonstration graphs by splitting existing demonstrations and recombining them. In order to traverse the demonstration graph in the inference case, we utilize a similarity function that helps select the best demonstration for a specific task. This enables us to compute the shortest path through the graph. Ultimately, we show that recombining demonstrations leads to higher task-respective success. We present extensive simulation and real-world experimental results that demonstrate the efficacy of our approach.
翻訳日:2023-10-09 16:09:35 公開日:2023-10-06
# ベンチマークバイオメディカルテキスト処理課題における大規模言語モデルの総合的評価

A Comprehensive Evaluation of Large Language Models on Benchmark Biomedical Text Processing Tasks ( http://arxiv.org/abs/2310.04270v1 )

ライセンス: Link先を確認
Israt Jahan, Md Tahmid Rahman Laskar, Chun Peng, Jimmy Huang(参考訳) 近年、大規模言語モデル(llm)は、幅広いタスクを解決する素晴らしい能力を示している。 しかし, 様々な課題にまたがって成功を収めたにもかかわらず, 生物医学分野での能力についてはまだ研究されていない。 本研究の目的は,バイオメディカル・タスクのベンチマーク上でのLCMの性能を評価することである。 そこで本研究では,26データセットにまたがる6種類の生物医学的タスクにおいて,4つのLLMを包括的に評価する。 我々の知る限りでは、生物医学領域における様々なLSMの広範な評価と比較を行う最初の研究である。 興味深いことに、より少ないトレーニングセットを持つバイオメディカルデータセットでは、ゼロショットLLMは現在の最先端の微調整バイオメディカルモデルよりも優れています。 このことは、大きなテキストコーパスで事前学習を行うことによって、LLMは生物医学領域においてもかなり専門化されていることを示唆している。 また、1つのLLMが全てのタスクで他のLLMを上回り、異なるLLMのパフォーマンスがタスクによって異なる可能性があることもわかった。 大規模なトレーニングセットで微調整されたバイオメディカルモデルと比較すると,その性能はいまだに劣っているが,本研究の結果から,LLMは大量の注釈データを持たない様々なバイオメディカルタスクに有用なツールである可能性が示唆された。

Recently, Large Language Models (LLM) have demonstrated impressive capability to solve a wide range of tasks. However, despite their success across various tasks, no prior work has investigated their capability in the biomedical domain yet. To this end, this paper aims to evaluate the performance of LLMs on benchmark biomedical tasks. For this purpose, we conduct a comprehensive evaluation of 4 popular LLMs in 6 diverse biomedical tasks across 26 datasets. To the best of our knowledge, this is the first work that conducts an extensive evaluation and comparison of various LLMs in the biomedical domain. Interestingly, we find based on our evaluation that in biomedical datasets that have smaller training sets, zero-shot LLMs even outperform the current state-of-the-art fine-tuned biomedical models. This suggests that pretraining on large text corpora makes LLMs quite specialized even in the biomedical domain. We also find that not a single LLM can outperform other LLMs in all tasks, with the performance of different LLMs may vary depending on the task. While their performance is still quite poor in comparison to the biomedical models that were fine-tuned on large training sets, our findings demonstrate that LLMs have the potential to be a valuable tool for various biomedical tasks that lack large annotated data.
翻訳日:2023-10-09 16:09:25 公開日:2023-10-06
# DRIFT:Intelligent Floating Platforms Trajectoriesのための深層強化学習

DRIFT: Deep Reinforcement Learning for Intelligent Floating Platforms Trajectories ( http://arxiv.org/abs/2310.04266v1 )

ライセンス: Link先を確認
Matteo El-Hariry, Antoine Richard, Vivek Muralidharan, Baris Can Yalcin, Matthieu Geist, Miguel Olivares-Mendez(参考訳) 本研究は,シミュレーション環境と実環境の両方において浮遊プラットフォームを制御するための,新しい深層強化学習ベーススイートを提案する。 フローティングプラットフォームは、地球上の微小重力環境をエミュレートするための多用途テストベッドとして機能する。 本手法は,動的かつ予測不能な状況下で正確な操作が可能な政策を訓練することにより,プラットフォーム制御におけるシステムと環境の不確実性に対処する。 最先端の深層強化学習技術を活用して,シミュレーションから現実へのロバスト性,適応性,良好な伝達性を実現する。 私たちのDeep Reinforcement Learning (DRL)フレームワークは、高速トレーニング時間、大規模テスト機能、リッチな可視化オプション、実世界のロボットシステムとの統合のためのROSバインディングといった利点を提供します。 ポリシー開発以外にも、我々のスイートは研究者のための包括的なプラットフォームを提供し、https://github.com/elharirymatteo/RANS/tree/ICRA24でオープンアクセスを提供します。

This investigation introduces a novel deep reinforcement learning-based suite to control floating platforms in both simulated and real-world environments. Floating platforms serve as versatile test-beds to emulate microgravity environments on Earth. Our approach addresses the system and environmental uncertainties in controlling such platforms by training policies capable of precise maneuvers amid dynamic and unpredictable conditions. Leveraging state-of-the-art deep reinforcement learning techniques, our suite achieves robustness, adaptability, and good transferability from simulation to reality. Our Deep Reinforcement Learning (DRL) framework provides advantages such as fast training times, large-scale testing capabilities, rich visualization options, and ROS bindings for integration with real-world robotic systems. Beyond policy development, our suite provides a comprehensive platform for researchers, offering open-access at https://github.com/elharirymatteo/RANS/tree/ICRA24.
翻訳日:2023-10-09 16:09:02 公開日:2023-10-06
# C(NN)FD -- 多段軸圧縮機空力性能における先端クリアランス変動のディープラーニング予測

C(NN)FD -- deep learning predictions of tip clearance variations on multi-stage axial compressors aerodynamic performance ( http://arxiv.org/abs/2310.04264v1 )

ライセンス: Link先を確認
Giuseppe Bruni, Sepehr Maleki, Senthil K. Krishnababu(参考訳) cfd (computational fluid dynamics) のような物理シミュレーションへの深層学習法の応用は、工業的関連性が限られている。 本稿では,ガスタービンにおける多段軸圧縮機の空力性能に及ぼす先端クリアランス変動の影響をリアルタイムに予測するための深層学習フレームワークの開発と応用について述べる。 提案したC(NN)FDアーキテクチャは、産業アプリケーションにスケーラブルであることが証明され、CFDベンチマークに匹敵するリアルタイム精度を実現する。 デプロイされたモデルは、ガスタービンの製造および製造プロセスに容易に統合され、パフォーマンスへの影響を分析的に評価し、高価な物理テストの要件を削減できる機会を提供する。

Application of deep learning methods to physical simulations such as CFD (Computational Fluid Dynamics), have been so far of limited industrial relevance. This paper demonstrates the development and application of a deep learning framework for real-time predictions of the impact of tip clearance variations on the aerodynamic performance of multi-stage axial compressors in gas turbines. The proposed C(NN)FD architecture is proven to be scalable to industrial applications, and achieves in real-time accuracy comparable to the CFD benchmark. The deployed model, is readily integrated within the manufacturing and build process of gas turbines, thus providing the opportunity to analytically assess the impact on performance and potentially reduce requirements for expensive physical tests.
翻訳日:2023-10-09 16:08:44 公開日:2023-10-06
# 重なり合う近傍での十分に近いオリエンテーリング問題の解法について

On Solving Close Enough Orienteering Problem with Overlapped Neighborhoods ( http://arxiv.org/abs/2310.04257v1 )

ライセンス: Link先を確認
Qiuchen Qian, Yanran Wang, David Boyle(参考訳) クローズ・エナフ・トラベリング・セールスマン問題(CETSP、Close Enough Traveling Salesman Problem)は、古典的なトラベリング・セールスマン問題(Traveing Salesman Problem)の変種であり、エージェントはターゲット地区内の任意の地点でミッションを完了することができる。 シュタイナーゾーン (Steiner Zones, SZ) と呼ばれる重複した地区に基づくヒューリスティックスは、CETSPへの対処において注目されている。 szsは元のグラフに効果的な近似を提供するが、それらの固有の重複は探索空間に制約を課し、潜在的にグローバル最適化の目的と矛盾する。 ここでは,CETSPを拡張した非一様近傍問題(CEOP-N)を提案する。 CEOP-N に取り組むために,粒子群最適化 (PSO) と Ant Colony System (ACS) - CRaSZe-AntS に基づくハイブリッドアルゴリズムを併用したランダム化されたスタイナーゾーン離散化 (RSZD) 方式の新たなアプローチを開発した。 RSZDスキームはPSO探索のサブリージョンを特定し、ACSは個別の訪問シーケンスを決定する。 CETSP インスタンスから派生した CEOP インスタンス上での RSZD の離散化性能を評価し,CRaSZe-AntS と CRaSZe-AntS を比較した。 また,SZの内部探索と各地区の境界探索の性能を,CEOP-Nの文脈で比較した。 以上の結果から,CRaSZe-AntSは単層式に比べて計算時間を大幅に削減し,平均140.44%の入賞率,55.18%の実行時間を削減できることがわかった。 CRaSZe-AntSは、トラックとドローンの配送シナリオを含む、新たなCEOP-Nの解決に非常に効果的である。

The Close Enough Traveling Salesman Problem (CETSP) is a well-known variant of the classic Traveling Salesman Problem whereby the agent may complete its mission at any point within a target neighborhood. Heuristics based on overlapped neighborhoods, known as Steiner Zones (SZ), have gained attention in addressing CETSPs. While SZs offer effective approximations to the original graph, their inherent overlap imposes constraints on the search space, potentially conflicting with global optimization objectives. Here we present the Close Enough Orienteering Problem with Non-uniform Neighborhoods (CEOP-N), which extends CETSP by introducing variable prize attributes and non-uniform cost considerations for prize collection. To tackle CEOP-N, we develop a new approach featuring a Randomized Steiner Zone Discretization (RSZD) scheme coupled with a hybrid algorithm based on Particle Swarm Optimization (PSO) and Ant Colony System (ACS) - CRaSZe-AntS. The RSZD scheme identifies sub-regions for PSO exploration, and ACS determines the discrete visiting sequence. We evaluate the RSZD's discretization performance on CEOP instances derived from established CETSP instances, and compare CRaSZe-AntS against the most relevant state-of-the-art heuristic focused on single-neighborhood optimization for CEOP. We also compare the performance of the interior search within SZs and the boundary search on individual neighborhoods in the context of CEOP-N. Our results show CRaSZe-AntS can yield comparable solution quality with significantly reduced computation time compared to the single-neighborhood strategy, where we observe an averaged 140.44% increase in prize collection and 55.18% reduction of execution time. CRaSZe-AntS is thus highly effective in solving emerging CEOP-N, examples of which include truck-and-drone delivery scenarios.
翻訳日:2023-10-09 16:08:31 公開日:2023-10-06
# 不毛高原から肥厚谷へ:パラメータ化量子回路の円錐拡大

From barren plateaus through fertile valleys: Conic extensions of parameterised quantum circuits ( http://arxiv.org/abs/2310.04255v1 )

ライセンス: Link先を確認
Lennart Binkowski, Gereon Ko{\ss}mann, Tobias J. Osborne, Ren\'e Schwonnek, and Timo Ziegler(参考訳) パラメータ化量子回路による最適化は、短期量子アルゴリズムの一般的な手法である。 しかし、不毛高原(勾配が消失するパラメータ領域)の常在現象は、実際の成功を著しく減少させる永続的なハードルとなっている。 本研究では,非単位的操作に基づくアプローチを導入し,バレン高原から肥大な谷への飛び降りを推奨する。 これらの演算は、パラメータ化されたユニタリ量子回路の円錐拡張から構築され、中間回路の測定と小さなアンシラシステムに依存している。 さらに,低次元一般化固有値問題に対する最適跳躍方向を求める問題を小さくする。 概念の証明として、量子近似最適化アルゴリズム(qaoa)の最先端実装にジャンプを組み込む。 拡張がQAOAに与える影響を広範囲なシミュレーションで示し、バレン高原に対する堅牢性を示し、最適解のサンプリング確率を高度に改善した。

Optimisation via parameterised quantum circuits is the prevalent technique of near-term quantum algorithms. However, the omnipresent phenomenon of barren plateaus - parameter regions with vanishing gradients - sets a persistent hurdle that drastically diminishes its success in practice. In this work, we introduce an approach - based on non-unitary operations - that favours jumps out of a barren plateau into a fertile valley. These operations are constructed from conic extensions of parameterised unitary quantum circuits, relying on mid-circuit measurements and a small ancilla system. We further reduce the problem of finding optimal jump directions to a low-dimensional generalised eigenvalue problem. As a proof of concept we incorporate jumps within state-of-the-art implementations of the Quantum Approximate Optimisation Algorithm (QAOA). We demonstrate the extensions' effectiveness on QAOA through extensive simulations, showcasing robustness against barren plateaus and highly improved sampling probabilities of optimal solutions.
翻訳日:2023-10-09 16:07:47 公開日:2023-10-06
# コラボレーティブなカモフラージュオブジェクト検出:大規模データセットとベンチマーク

Collaborative Camouflaged Object Detection: A Large-Scale Dataset and Benchmark ( http://arxiv.org/abs/2310.04253v1 )

ライセンス: Link先を確認
Cong Zhang, Hongbo Bi, Tian-Zhu Xiang, Ranwan Wu, Jinghui Tong, Xiufang Wang(参考訳) 本稿では,コラボレーティブカモフラージュオブジェクト検出(CoCOD)と呼ばれる,関連画像群から同一特性のカモフラージュオブジェクトを同時に検出することを目的とした,新しいタスクに関する総合的研究を行う。 この目的のために,5つのスーパークラスと70のサブクラスをカバーする8,528の高品質で精巧に選択された画像からなる,最初の大規模データセットであるCoCOD8Kを構築した。 データセットは、さまざまなオブジェクトの外観と背景を持つ、さまざまな自然と人工のカモフラージュシーンにまたがっており、COCODにとって非常に難しいデータセットである。 また,ココッドのベースラインモデルであるtwoual-branch network(bbnet)を提案し,同一画像内のコカモフラージュされた手がかりを探索し,グループ内の画像間を集約し,与えられた画像における正確なカモフラージュ対象検出を行う。 これは、画像間協調特徴探索(CFE)モジュール、画像内オブジェクト特徴探索(OFS)モジュール、ローカル・グローバル・リファインメント(LGR)モジュールによって実装されている。 提案するcocod8kデータセットに12のcodアルゴリズムと6つのcosodアルゴリズムを含む18の最先端モデルを比較した。 大規模な実験により,提案手法の有効性と,他の競技者と比較して優れた性能を示した。 提案したデータセットとモデルがCODコミュニティの成長を促進することを期待しています。 データセット、モデル、および結果は、https://github.com/zc199823/BBNet--CoCOD.comで提供される。

In this paper, we provide a comprehensive study on a new task called collaborative camouflaged object detection (CoCOD), which aims to simultaneously detect camouflaged objects with the same properties from a group of relevant images. To this end, we meticulously construct the first large-scale dataset, termed CoCOD8K, which consists of 8,528 high-quality and elaborately selected images with object mask annotations, covering 5 superclasses and 70 subclasses. The dataset spans a wide range of natural and artificial camouflage scenes with diverse object appearances and backgrounds, making it a very challenging dataset for CoCOD. Besides, we propose the first baseline model for CoCOD, named bilateral-branch network (BBNet), which explores and aggregates co-camouflaged cues within a single image and between images within a group, respectively, for accurate camouflaged object detection in given images. This is implemented by an inter-image collaborative feature exploration (CFE) module, an intra-image object feature search (OFS) module, and a local-global refinement (LGR) module. We benchmark 18 state-of-the-art models, including 12 COD algorithms and 6 CoSOD algorithms, on the proposed CoCOD8K dataset under 5 widely used evaluation metrics. Extensive experiments demonstrate the effectiveness of the proposed method and the significantly superior performance compared to other competitors. We hope that our proposed dataset and model will boost growth in the COD community. The dataset, model, and results will be available at: https://github.com/zc199823/BBNet--CoCOD.
翻訳日:2023-10-09 16:07:31 公開日:2023-10-06
# 都市におけるホットスポットとクールスポットの識別のための縦断熱画像の意味セグメンテーション

Semantic segmentation of longitudinal thermal images for identification of hot and cool spots in urban areas ( http://arxiv.org/abs/2310.04247v1 )

ライセンス: Link先を確認
Vasantha Ramani, Pandarasamy Arjunan, Kameshwar Poolla and Clayton Miller(参考訳) 本研究は,都市部におけるホットスポットとクールスポットを特定するために,近隣のスケールで収集したセマンティックセグメンテーション,縦,空間的にリッチな熱画像の解析を行う。 シンガポール国立大学教育キャンパスの様々な建物の熱画像を集めるために、数ヶ月にわたって赤外線観測所が運営された。 熱画像データセットのサブセットは、最先端のディープラーニングモデルのトレーニングに使われ、建物、植生、空、道路など、さまざまな都市の特徴を分割した。 CNNバックボーンを持つU-Netセグメンテーションモデルは、DeepLabV3、DeeplabV3+、FPN、PSPnetといった他のモデルと比較して、テストデータセット上で最もmIoUスコアが0.99であることがわかった。 次に, セグメンテーションモデルを用いて生成したマスクを用いて, 熱画像から温度を抽出し, 様々な都市特性の放射率差を補正した。 さらに、予測セグメンテーションマスクを用いて抽出した温度の様々な統計的測定値を示し、地上の真理マスクを用いて抽出した温度と密に一致した。 最後に、マスクは都市の特徴のホットスポットとクールスポットを様々な場面で識別するために使用された。 これは、都市熱島(UHI)効果の低減、建設エネルギー効率の向上、屋外熱快適性を最大化するための緩和戦略を考案する都市計画家にとって潜在的に有用である、熱画像の自動解析を実証する数少ない研究の1つである。

This work presents the analysis of semantically segmented, longitudinally, and spatially rich thermal images collected at the neighborhood scale to identify hot and cool spots in urban areas. An infrared observatory was operated over a few months to collect thermal images of different types of buildings on the educational campus of the National University of Singapore. A subset of the thermal image dataset was used to train state-of-the-art deep learning models to segment various urban features such as buildings, vegetation, sky, and roads. It was observed that the U-Net segmentation model with `resnet34' CNN backbone has the highest mIoU score of 0.99 on the test dataset, compared to other models such as DeepLabV3, DeeplabV3+, FPN, and PSPnet. The masks generated using the segmentation models were then used to extract the temperature from thermal images and correct for differences in the emissivity of various urban features. Further, various statistical measure of the temperature extracted using the predicted segmentation masks is shown to closely match the temperature extracted using the ground truth masks. Finally, the masks were used to identify hot and cool spots in the urban feature at various instances of time. This forms one of the very few studies demonstrating the automated analysis of thermal images, which can be of potential use to urban planners for devising mitigation strategies for reducing the urban heat island (UHI) effect, improving building energy efficiency, and maximizing outdoor thermal comfort.
翻訳日:2023-10-09 16:06:59 公開日:2023-10-06
# 多ビット系における動的特異点の分類のための量子カーネル

Quantum kernels for classifying dynamical singularities in a multiqubit system ( http://arxiv.org/abs/2310.04300v1 )

ライセンス: Link先を確認
Diego Tancara, Jos\'e Fredes, Felipe Fanchini and Ariel Norambuena(参考訳) 動的量子相転移(英: dynamical quantum phase transition)は、古典的アナロジーを伴わない平衡状態と破断対称性を含む臨界現象である。 しかし、有限サイズの系を解析すると、速度関数の動的特異点が現れ、物理的特徴付けが困難になる。 本稿では,量子カーネルを用いてマルチ量子ビットシステムのレート関数の動的特異点を分類する量子サポートベクトルマシン(qsvm)アルゴリズムについて報告する。 我々は,任意の磁場を受ける長距離相互作用量子ビットを用いて,クエンチダイナミクスを誘導する手法を示す。 物理引数に着想を得て、基底状態多様体に着想を得た2つの異なる量子カーネルと、単一状態トモグラフィーに基づく2つの量子カーネルを導入する。 我々の精度、適応性、拡張性の結果は、この量子力学臨界問題を物理的にインスピレーションされた量子カーネルを用いて効率的に解くことができることを示している。 さらに, 時間依存場と開量子の場合の結果を拡張した。

Dynamical quantum phase transition is a critical phenomenon involving out-of-equilibrium states and broken symmetries without classical analogy. However, when finite-sized systems are analyzed, dynamical singularities of the rate function appear, leading to a challenging physical characterization. Here, we report a quantum support vector machine (QSVM) algorithm that uses quantum Kernels to classify dynamical singularities of the rate function for a multiqubit system. We illustrate our approach using $N$ long-range interacting qubits subjected to an arbitrary magnetic field, which induces a quench dynamics. Inspired by physical arguments, we introduce two different quantum Kernels, one inspired by the ground state manifold and the other based on a single state tomography. Our accuracy, adaptability, and scalability results show that this quantum dynamical critical problem can be efficiently solved using physically inspiring quantum Kernels. Moreover, we extend our results for the case of time-dependent fields and the open quantum case.
翻訳日:2023-10-09 15:58:17 公開日:2023-10-06
# 収束ADMMプラグとPET画像再構成

Convergent ADMM Plug and Play PET Image Reconstruction ( http://arxiv.org/abs/2310.04299v1 )

ライセンス: Link先を確認
Florent Sureau, Mahdi Latreche, Marion Savanier and Claude Comtat(参考訳) 本研究では,モデルに基づく変分再構成を結合したハイブリッドPET再構成アルゴリズムと,ADMM Plug and Playフレームワークで個別に学習したディープニューラルネットワーク演算子(DNN)の適用について検討する。 近年の最適化の結果、学習中にネットワークパラメータに制約を加えることで、スキームの固定点収束を実現することができる。 本稿では,ADMMアルゴリズムを提案し,現実的な[18F]-FDG合成脳検査において,提案手法が有意な定点への収束を実験的に導くことを示す。 DNNの学習中に提案した制約が適用されない場合,ADMMアルゴリズムは収束しないことを実験的に観察した。

In this work, we investigate hybrid PET reconstruction algorithms based on coupling a model-based variational reconstruction and the application of a separately learnt Deep Neural Network operator (DNN) in an ADMM Plug and Play framework. Following recent results in optimization, fixed point convergence of the scheme can be achieved by enforcing an additional constraint on network parameters during learning. We propose such an ADMM algorithm and show in a realistic [18F]-FDG synthetic brain exam that the proposed scheme indeed lead experimentally to convergence to a meaningful fixed point. When the proposed constraint is not enforced during learning of the DNN, the proposed ADMM algorithm was observed experimentally not to converge.
翻訳日:2023-10-09 15:58:02 公開日:2023-10-06
# 介入外挿のための表現の同定

Identifying Representations for Intervention Extrapolation ( http://arxiv.org/abs/2310.04295v1 )

ライセンス: Link先を確認
Sorawit Saengkyongam, Elan Rosenfeld, Pradeep Ravikumar, Niklas Pfister, Jonas Peters(参考訳) 識別可能かつ因果表現学習の前提は、一般化可能性や堅牢性の観点から現在の表現学習パラダイムを改善することである。 識別可能性に関する最近の議論の進展にもかかわらず、下流タスクに対するこれらの方法の具体的な利点を示すより理論的な結果が必要である。 本稿では, 介入が学習時に観察されない場合でも, 介入が結果にどのように影響するかを予測することによる介入外挿の課題を考察し, 介入が非直線的に影響しても, 識別可能な表現がこの課題に有効な解決策をもたらすことを示す。 我々の構成は、結果Y、潜伏特徴Zの非線形変換として生成される観察特徴X、およびZに影響を与える外因性行動変数Aを含む。介入外挿の目的は、Aのトレーニング支援外にあるAへの介入がAに影響を及ぼすかを予測することである。ここで、A on Zの効果が線形で、Z on Aが完全に支持されると、外挿が可能となる。 我々は、観測された特徴 x を a における非線形外挿を可能にする部分空間にマッピングすることを目的としている。ワイナーのタウバーの定理を用いて、隠れた表現が z-空間におけるアフィン変換によって識別可能であることを示し、介入外挿には十分である。 この知見に基づき,線形不変性制約を強制し,任意の種類のオートエンコーダと組み合わせることが可能な手法を提案する。 本研究は, 合成実験により理論的知見を検証し, 未確認介入の効果を予測することに成功していることを示す。

The premise of identifiable and causal representation learning is to improve the current representation learning paradigm in terms of generalizability or robustness. Despite recent progress in questions of identifiability, more theoretical results demonstrating concrete advantages of these methods for downstream tasks are needed. In this paper, we consider the task of intervention extrapolation: predicting how interventions affect an outcome, even when those interventions are not observed at training time, and show that identifiable representations can provide an effective solution to this task even if the interventions affect the outcome non-linearly. Our setup includes an outcome Y, observed features X, which are generated as a non-linear transformation of latent features Z, and exogenous action variables A, which influence Z. The objective of intervention extrapolation is to predict how interventions on A that lie outside the training support of A affect Y. Here, extrapolation becomes possible if the effect of A on Z is linear and the residual when regressing Z on A has full support. As Z is latent, we combine the task of intervention extrapolation with identifiable representation learning, which we call Rep4Ex: we aim to map the observed features X into a subspace that allows for non-linear extrapolation in A. We show using Wiener's Tauberian theorem that the hidden representation is identifiable up to an affine transformation in Z-space, which is sufficient for intervention extrapolation. The identifiability is characterized by a novel constraint describing the linearity assumption of A on Z. Based on this insight, we propose a method that enforces the linear invariance constraint and can be combined with any type of autoencoder. We validate our theoretical findings through synthetic experiments and show that our approach succeeds in predicting the effects of unseen interventions.
翻訳日:2023-10-09 15:57:50 公開日:2023-10-06
# ロボット工学におけるグラフ学習 : サーベイ

Graph learning in robotics: a survey ( http://arxiv.org/abs/2310.04294v1 )

ライセンス: Link先を確認
Francesca Pistilli and Giuseppe Averta(参考訳) グラフのためのディープニューラルネットワークは、複雑な非ユークリッドデータを学ぶための強力なツールとして登場し、さまざまなアプリケーションでますます一般的になりつつある。 しかし、彼らのポテンシャルは機械学習コミュニティで広く認識されているものの、グラフ学習はロボット工学アプリケーションのような下流のタスクではほとんど探索されていない。 そこで,その可能性を完全に解き明かすため,ロボット工学の観点からグラフニューラルアーキテクチャのレビューを提案する。 この論文は、そのアーキテクチャ、トレーニング手順、アプリケーションを含む、グラフベースのモデルの基礎を扱っている。 また、適用された設定で生じる最近の進歩や課題についても論じ、例えば、知覚の統合、意思決定、制御などについて論じている。 最後に,身体や接触のモデリング,ロボット操作,行動認識,艦隊運動計画など,グラフ構造を学ぶことの恩恵を受けるさまざまなロボットアプリケーションについて,広範なレビューを行う。 この調査は、ロボティクスにおけるグラフニューラルアーキテクチャの能力と限界を徹底的に理解し、将来の研究への道筋を示すことを目的としている。

Deep neural networks for graphs have emerged as a powerful tool for learning on complex non-euclidean data, which is becoming increasingly common for a variety of different applications. Yet, although their potential has been widely recognised in the machine learning community, graph learning is largely unexplored for downstream tasks such as robotics applications. To fully unlock their potential, hence, we propose a review of graph neural architectures from a robotics perspective. The paper covers the fundamentals of graph-based models, including their architecture, training procedures, and applications. It also discusses recent advancements and challenges that arise in applied settings, related for example to the integration of perception, decision-making, and control. Finally, the paper provides an extensive review of various robotic applications that benefit from learning on graph structures, such as bodies and contacts modelling, robotic manipulation, action recognition, fleet motion planning, and many more. This survey aims to provide readers with a thorough understanding of the capabilities and limitations of graph neural architectures in robotics, and to highlight potential avenues for future research.
翻訳日:2023-10-09 15:57:19 公開日:2023-10-06
# 統合二色ブロードバンドSU(1,1)干渉計による超短二光子相関時間の測定

Measurement of ultrashort bi-photon correlation times with an integrated two-colour broadband SU(1,1)-interferometer ( http://arxiv.org/abs/2310.04293v1 )

ライセンス: Link先を確認
F. Roeder, R. Pollmann, M. Stefszky, M. Santandrea, K.-H. Luo, V. Quiring, R. Ricken, C. Eigner, B. Brecht, C. Silberhorn(参考訳) 光子対源からの2つの光子の時間的到着における条件の不確実性の尺度である双光子相関時間(英語版)は、多くの量子分光アプリケーションにとって重要な性能識別子であり、より短い相関時間は一般的により良い性能をもたらす。 さらに、二光子状態に対する分散の影響に関する基本的な洞察を与える。 ここでは、$\mathrm{Ti:LiNbO}_3$導波路における統合広帯域パラメトリックダウンコンバージョン源に基づいて、SU(1,1)干渉計の出力におけるスペクトルと時間インターフェログラムの同時測定により、100,\mathrm{fs}$の超短二光子相関時間を求める。

The bi-photon correlation time, a measure for the conditional uncertainty in the temporal arrival of two photons from a photon pair source, is a key performance identifier for many quantum spectroscopy applications, with shorter correlation times typically yielding better performance. Furthermore, it provides fundamental insight into the effects of dispersion on the bi-photon state. Here, we retrieve ultrashort bi-photon correlation times of around $100\,\mathrm{fs}$ by measuring simultaneously spectral and temporal interferograms at the output of an SU(1,1) interferometer based on an integrated broadband parametric down-conversion source in a $\mathrm{Ti:LiNbO}_3$ waveguide
翻訳日:2023-10-09 15:57:01 公開日:2023-10-06
# 大規模マルチタスクデータセットにおける分子学習の基礎モデルに向けて

Towards Foundational Models for Molecular Learning on Large-Scale Multi-Task Datasets ( http://arxiv.org/abs/2310.04292v1 )

ライセンス: Link先を確認
Dominique Beaini, Shenyang Huang, Joao Alex Cunha, Gabriela Moisescu-Pareja, Oleksandr Dymov, Samuel Maddrell-Mander, Callum McLean, Frederik Wenkel, Luis M\"uller, Jama Hussein Mohamud, Ali Parviz, Michael Craig, Micha{\l} Koziarski, Jiarui Lu, Zhaocheng Zhu, Cristian Gabellini, Kerstin Klaser, Josef Dean, Cas Wognum, Maciej Sypetkowski, Guillaume Rabusseau, Reihaneh Rabbany, Jian Tang, Christopher Morris, Mirco Ravanelli, Guy Wolf, Prudencio Tossou, Hadrien Mary, Therence Bois, Andrew Fitzgibbon, B{\l}a\.zej Banaszewski, Chad Martin, Dominic Masters(参考訳) 近年、事前訓練された基礎モデルによって、複数の分野で大きな進歩がもたらされている。 しかし、分子機械学習では、しばしばデータセットが手作業で計算されるため、通常は小さくなっているため、ラベル付き特徴を持つデータセットやそれらのデータセットを管理するコードベースが欠如しているため、基礎モデルの開発が妨げられている。 本研究では,ToyMix,Large,UltraLargeの3つのカテゴリに分類した7つの新しいデータセットを提案する。 これらのデータセットは、分子学習のための教師付きラベルのスケールと多様性の両方の境界を押し上げる。 それらは1億近い分子と3000あまりの小さなタスクをカバーし、合計130億個以上の量子と生物のラベルがある。 比較すると、我々のデータセットは、広く使われているOGB-LSC PCQM4Mv2データセットの300倍のデータポイントを含み、量子のみのQM1Bデータセットの13倍である。 さらに,提案するデータセットに基づく基礎モデルの開発を支援するために,マルチタスクおよびマルチレベル分子データセットのための分子機械学習モデルの構築とトレーニングのプロセスを簡素化するgraphium graph machine learning libraryを提案する。 最後に,これらのデータセット上でのマルチタスクおよびマルチレベルトレーニングの出発点として,ベースライン結果の範囲を提案する。 実験により、低リソースの生物データセットの性能は、大量の量子データをトレーニングすることで改善されることを示した。 これは、基礎モデルのマルチタスクおよびマルチレベルトレーニングと、リソース制約された下流タスクへの微調整の可能性を示唆している。

Recently, pre-trained foundation models have enabled significant advancements in multiple fields. In molecular machine learning, however, where datasets are often hand-curated, and hence typically small, the lack of datasets with labeled features, and codebases to manage those datasets, has hindered the development of foundation models. In this work, we present seven novel datasets categorized by size into three distinct categories: ToyMix, LargeMix and UltraLarge. These datasets push the boundaries in both the scale and the diversity of supervised labels for molecular learning. They cover nearly 100 million molecules and over 3000 sparsely defined tasks, totaling more than 13 billion individual labels of both quantum and biological nature. In comparison, our datasets contain 300 times more data points than the widely used OGB-LSC PCQM4Mv2 dataset, and 13 times more than the quantum-only QM1B dataset. In addition, to support the development of foundational models based on our proposed datasets, we present the Graphium graph machine learning library which simplifies the process of building and training molecular machine learning models for multi-task and multi-level molecular datasets. Finally, we present a range of baseline results as a starting point of multi-task and multi-level training on these datasets. Empirically, we observe that performance on low-resource biological datasets show improvement by also training on large amounts of quantum data. This indicates that there may be potential in multi-task and multi-level training of a foundation model and fine-tuning it to resource-constrained downstream tasks.
翻訳日:2023-10-09 15:56:48 公開日:2023-10-06
# 量子想像時間進化と量子アニールは位相セクター最適化を満たす

Quantum imaginary time evolution and quantum annealing meet topological sector optimization ( http://arxiv.org/abs/2310.04291v1 )

ライセンス: Link先を確認
Yi-Ming Ding, Yan-Cheng Wang, Shi-Xin Zhang, and Zheng Yan(参考訳) 最適化問題は、科学と工学の多くの分野における中核的な課題であるが、最適解を探すには一般的で効果的な手法は乏しい。 例えば、断熱進化に基づく量子アニーリング(qa)法は、d-waveのアニーラーやいくつかのrydberg配列のような量子シミュレータ上で広く研究され、うまく実装されている。 本研究では、量子多体物理学コミュニティにおいて特に関心を惹きつけるトポロジカルセクター最適化(TSO)問題について検討する。 スピンモデルにおけるフラストレーションによって引き起こされるトポロジーは、QAやその他の従来の手法が基底状態に近づくための固有の障害であることが明らかとなった。 その結果,tso問題の最適化難易度はギャップのない問題に制限されるのではなく,従来の最適化問題の解析では無視されるようなトポロジカルな性質によるものであることがわかった。 tso問題を解決するため、量子コンピュータ上で実現可能な量子虚時発展(qite)を利用して、量子重ね合わせの性質を利用して全ヒルベルト空間を探索し、位相的性質の最適化問題に対処する。 本稿では,tso問題に対する異なる量子最適化アルゴリズムの性能を報告し,qiteの実装に必要な量子計算資源を考慮しても,最適化問題に対処する能力が異なることを実証する。

Optimization problems are the core challenge in many fields of science and engineering, yet general and effective methods are scarce for searching optimal solutions. Quantum computing has been envisioned to help solve such problems, for example, the quantum annealing (QA) method based on adiabatic evolution has been extensively explored and successfully implemented on quantum simulators such as D-wave's annealers and some Rydberg arrays. In this work, we investigate topological sector optimization (TSO) problem, which attracts particular interests in the quantum many-body physics community. We reveal that the topology induced by frustration in the spin model is an intrinsic obstruction for QA and other traditional methods to approach the ground state. We demonstrate that the optimization difficulties of TSO problem are not restricted to the gaplessness, but are also due to the topological nature which are often ignored for the analysis of optimization problems before. To solve TSO problems, we utilize quantum imaginary time evolution (QITE) with a possible realization on quantum computers, which exploits the property of quantum superposition to explore the full Hilbert space and can thus address optimization problems of topological nature. We report the performance of different quantum optimization algorithms on TSO problems and demonstrate that their capability to address optimization problems are distinct even when considering the quantum computational resources required for practical QITE implementations.
翻訳日:2023-10-09 15:56:25 公開日:2023-10-06
# 到達性と強化学習による最適実行時保証の探索

Searching for Optimal Runtime Assurance via Reachability and Reinforcement Learning ( http://arxiv.org/abs/2310.04288v1 )

ライセンス: Link先を確認
Kristina Miller, Christopher K. Zeitler, William Shen, Kerianne Hobbs, Sayan Mitra, John Schierman, Mahesh Viswanathan(参考訳) プラントのランタイム保証システム(RTA)は、バックアップ(または安全)コントローラで安全性を確保しつつ、信頼できないまたは実験的なコントローラの運動を可能にする。 関連する計算設計問題は、信頼できないコントローラの利用などのパフォーマンス基準を最大化しながら、必要に応じて安全コントローラに切り替えることによる安全性を保証するロジックを作成することである。 既存のRTA設計戦略は、過度に保守的であることが知られており、原則として安全違反につながる可能性がある。 本稿では、最適RTA設計問題を定式化し、それを解決するための新しいアプローチを提案する。 我々のアプローチは報酬形成と強化学習に依存している。 安全性を保証し、スケーラビリティのために機械学習技術を活用することができる。 このアルゴリズムを実装し, 複雑な安全条件を持つ3次元空間における航空機モデルを用いて, 現状の到達可能性とシミュレーションに基づくRTAアプローチとの比較実験を行った。 提案手法は,既存のアプローチよりも実験用コントローラの利用率を高めつつ,安全性を保証する。

A runtime assurance system (RTA) for a given plant enables the exercise of an untrusted or experimental controller while assuring safety with a backup (or safety) controller. The relevant computational design problem is to create a logic that assures safety by switching to the safety controller as needed, while maximizing some performance criteria, such as the utilization of the untrusted controller. Existing RTA design strategies are well-known to be overly conservative and, in principle, can lead to safety violations. In this paper, we formulate the optimal RTA design problem and present a new approach for solving it. Our approach relies on reward shaping and reinforcement learning. It can guarantee safety and leverage machine learning technologies for scalability. We have implemented this algorithm and present experimental results comparing our approach with state-of-the-art reachability and simulation-based RTA approaches in a number of scenarios using aircraft models in 3D space with complex safety requirements. Our approach can guarantee safety while increasing utilization of the experimental controller over existing approaches.
翻訳日:2023-10-09 15:55:58 公開日:2023-10-06
# スコアベース逆画像生成によるロバスト性評価

Assessing Robustness via Score-Based Adversarial Image Generation ( http://arxiv.org/abs/2310.04285v1 )

ライセンス: Link先を確認
Marcel Kollovieh, Lukas Gosch, Yan Scholten, Marten Lienen, Stephan G\"unnemann(参考訳) ほとんどの敵の攻撃と防御は、小さな$\ell_p$-norm制約内の摂動に焦点を当てている。 しかし、$\ell_p$の脅威モデルは、関連するセマンティックな摂動をキャプチャできないため、ロバストネス評価の範囲は限られている。 本稿では,スコアベースの生成モデルの進歩を活かし,$\ell_p$-norm 制約を超える逆生成例を生成するための新しいフレームワークであるスコアベースの逆生成(scoreag)を紹介し,その限界を克服する。 従来の方法とは異なり、 scoreagはイメージのコアセマンティクスを維持しつつ、既存のイメージを変換したり、新しいイメージを完全にスクラッチから合成したりすることで、現実的な逆の例を生成する。 我々はさらに, scoreag の生成能力を利用して画像の純化を行い, 分類器のロバスト性を高める。 我々の広範な経験的評価は、ScoreAGが複数のベンチマークにおける最先端の攻撃と防御のパフォーマンスと一致していることを示している。 この研究は、$\ell_p$-normの制約よりも意味論に縛られる敵の例を調べることの重要性を強調している。 ScoreAGは、堅牢性評価をより包含する重要なステップである。

Most adversarial attacks and defenses focus on perturbations within small $\ell_p$-norm constraints. However, $\ell_p$ threat models cannot capture all relevant semantic-preserving perturbations, and hence, the scope of robustness evaluations is limited. In this work, we introduce Score-Based Adversarial Generation (ScoreAG), a novel framework that leverages the advancements in score-based generative models to generate adversarial examples beyond $\ell_p$-norm constraints, so-called unrestricted adversarial examples, overcoming their limitations. Unlike traditional methods, ScoreAG maintains the core semantics of images while generating realistic adversarial examples, either by transforming existing images or synthesizing new ones entirely from scratch. We further exploit the generative capability of ScoreAG to purify images, empirically enhancing the robustness of classifiers. Our extensive empirical evaluation demonstrates that ScoreAG matches the performance of state-of-the-art attacks and defenses across multiple benchmarks. This work highlights the importance of investigating adversarial examples bounded by semantics rather than $\ell_p$-norm constraints. ScoreAG represents an important step towards more encompassing robustness assessments.
翻訳日:2023-10-09 15:55:41 公開日:2023-10-06
# 主成分分析における不正確なデフレの誤り伝播について

On the Error-Propagation of Inexact Deflation for Principal Component Analysis ( http://arxiv.org/abs/2310.04283v1 )

ライセンス: Link先を確認
Fangshuo Liao, Junhyung Lyle Kim, Cruz Barnum, Anastasios Kyrillidis(参考訳) 主成分分析(PCA)は、特にデータが高次元である場合、データ分析において一般的なツールである。 pcaは、データセットのばらつきを最もよく説明する、いわゆる \textit{principal components} にまたがる部分空間を見つけることを目指している。 デフレレーション法(デフレレーションほう、英: deflation method)は、ある部分空間を発見するために使われる一般的なメタアルゴリズムであり、最も重要でない部分から、より重要でない部分へ向けて、個別の主成分を順次発見する。しかし、そのシーケンシャルな性質から、デフレレーションが進行するにつれて、例えば、この過程の数値近似によって、主成分を正確に見積もることによって生じる数値誤差が伝播する。 私たちの知る限りでは、これは不正確なデフレ法の誤差伝播を数学的に特徴付ける最初の作品であり、本論文の鍵となる貢献である。 i)$ 主要な固有ベクトルを見つけるためのサブルーチンがジェネリックである場合と、パワーイテレーションがサブルーチンとして使用される場合の$ii)$です。 後者の場合、パワーイテレーションから追加の方向情報を得ることで、サブルーチン非依存ケースの分析よりも厳密なエラーバウンドを得ることができる。 その結果、この根本的な問題に対して、エラーがどのように進行し、その後の主成分推定に影響を及ぼすかを明確に評価する。

Principal Component Analysis (PCA) is a popular tool in data analysis, especially when the data is high-dimensional. PCA aims to find subspaces, spanned by the so-called \textit{principal components}, that best explain the variance in the dataset. The deflation method is a popular meta-algorithm -- used to discover such subspaces -- that sequentially finds individual principal components, starting from the most important one and working its way towards the less important ones. However, due to its sequential nature, the numerical error introduced by not estimating principal components exactly -- e.g., due to numerical approximations through this process -- propagates, as deflation proceeds. To the best of our knowledge, this is the first work that mathematically characterizes the error propagation of the inexact deflation method, and this is the key contribution of this paper. We provide two main results: $i)$ when the sub-routine for finding the leading eigenvector is generic, and $ii)$ when power iteration is used as the sub-routine. In the latter case, the additional directional information from power iteration allows us to obtain a tighter error bound than the analysis of the sub-routine agnostic case. As an outcome, we provide explicit characterization on how the error progresses and affects subsequent principal component estimations for this fundamental problem.
翻訳日:2023-10-09 15:55:19 公開日:2023-10-06
# 連続学習のためのサリエンシ誘導型隠れ型連想リプレイ

Saliency-Guided Hidden Associative Replay for Continual Learning ( http://arxiv.org/abs/2310.04334v1 )

ライセンス: Link先を確認
Guangji Bai, Qilong Zhao, Xiaoyang Jiang, Yifei Zhang, Liang Zhao(参考訳) 継続学習(Continuous Learning)は、人間の学習に似た一連のタスクを通じてニューラルネットワークをトレーニングすることに焦点を当てた、次世代AIの急成長する領域である。 CLは従来の教師付き学習よりも優位性があるが、その中心となる課題は、破滅的な忘れと、その後の学習における以前のタスクの維持を保証することである。 これに対処する様々な戦略の中で、リプレイベースの手法は生物学的記憶機構に反響するものとして現れてきた。 しかし、これらの方法はメモリ集約的であり、しばしばデータサンプル全体を保存し、人間の選択的記憶保持と矛盾するアプローチである。 近年のいくつかの研究は、エピソード記憶におけるデータの重要な部分のみの保存を探求しているが、部分的なデータの性質は革新的な検索機構を必要とする。 インペインティングのような現在のソリューションは、本物の人間の記憶プロセスから分岐する部分的手がかりから、ほぼ完全なデータ再構成を近似する。 本論文は,これらのニュアンスに対処し,継続学習のためのサリエンシガイド付隠れアソシエイト・リプレイを提案する。 この新しいフレームワークは、リプレイベースの戦略で連想記憶をシナジする。 SHARCは、主にスパースメモリエンコーディングを通じて有能なデータセグメントをアーカイブする。 重要なことは、連想メモリのパラダイムを活用することで、コンテンツ中心のメモリ検索機構を導入し、高速でほぼ完璧なリコールを約束し、CLを真の人間のメモリプロセスに近づける。 各種連続学習課題に対する提案手法の有効性を実験的に検証した。

Continual Learning is a burgeoning domain in next-generation AI, focusing on training neural networks over a sequence of tasks akin to human learning. While CL provides an edge over traditional supervised learning, its central challenge remains to counteract catastrophic forgetting and ensure the retention of prior tasks during subsequent learning. Amongst various strategies to tackle this, replay based methods have emerged as preeminent, echoing biological memory mechanisms. However, these methods are memory intensive, often preserving entire data samples, an approach inconsistent with humans selective memory retention of salient experiences. While some recent works have explored the storage of only significant portions of data in episodic memory, the inherent nature of partial data necessitates innovative retrieval mechanisms. Current solutions, like inpainting, approximate full data reconstruction from partial cues, a method that diverges from genuine human memory processes. Addressing these nuances, this paper presents the Saliency Guided Hidden Associative Replay for Continual Learning. This novel framework synergizes associative memory with replay-based strategies. SHARC primarily archives salient data segments via sparse memory encoding. Importantly, by harnessing associative memory paradigms, it introduces a content focused memory retrieval mechanism, promising swift and near-perfect recall, bringing CL a step closer to authentic human memory processes. Extensive experimental results demonstrate the effectiveness of our proposed method for various continual learning tasks.
翻訳日:2023-10-09 15:34:22 公開日:2023-10-06
# 意思決定型学習におけるロバスト損失

Robust Losses for Decision-Focused Learning ( http://arxiv.org/abs/2310.04328v1 )

ライセンス: Link先を確認
Noah Schutte, Krzysztof Postek, Neil Yorke-Smith(参考訳) 離散決定に使用される最適化モデルは、しばしば文脈に依存し、予測によって推定される不確実なパラメータを含む。 予測に基づく意思決定の質を考慮するため、意思決定焦点学習(エンドツーエンド予測-then-optimize)は、後悔を最小化するために予測モデルを訓練することを目的としている。 この損失関数は、おそらく非凸であり、一般に非微分可能であるにもかかわらず、経験的損失を代理として、期待損失を最小限に抑えるための効果的な勾配ベースの学習アプローチが提案されている。 しかし、実験的後悔は、最適化モデルの不確実性により、予想される期待された後悔に反する経験的後悔をもたらすため、効果の低い代理となる。 この不等式の影響を明らかにするため,実験的後悔の正確性に及ぼす動脈硬化およびてんかん不確実性の影響をサロゲートとして評価した。 次に,より近似した3つの頑健な損失関数を提案する。 実験結果から,頑健な後悔の損失を用いた2つの最先端意思決定型学習アプローチの訓練は,訓練エポック数に匹敵する計算時間を保ちながら,一般にテストサンプル的後悔を改善することが示された。

Optimization models used to make discrete decisions often contain uncertain parameters that are context-dependent and are estimated through prediction. To account for the quality of the decision made based on the prediction, decision-focused learning (end-to-end predict-then-optimize) aims at training the predictive model to minimize regret, i.e., the loss incurred by making a suboptimal decision. Despite the challenge of this loss function being possibly non-convex and in general non-differentiable, effective gradient-based learning approaches have been proposed to minimize the expected loss, using the empirical loss as a surrogate. However, empirical regret can be an ineffective surrogate because the uncertainty in the optimization model makes the empirical regret unequal to the expected regret in expectation. To illustrate the impact of this inequality, we evaluate the effect of aleatoric and epistemic uncertainty on the accuracy of empirical regret as a surrogate. Next, we propose three robust loss functions that more closely approximate expected regret. Experimental results show that training two state-of-the-art decision-focused learning approaches using robust regret losses improves test-sample empirical regret in general while keeping computational time equivalent relative to the number of training epochs.
翻訳日:2023-10-09 15:33:58 公開日:2023-10-06
# 最良ボトムアップ探索によるプログラム合成

Program Synthesis with Best-First Bottom-Up Search ( http://arxiv.org/abs/2310.04327v1 )

ライセンス: Link先を確認
Saqib Ameen and Levi H. S. Lelis(参考訳) コスト誘導ボトムアップ探索(bus)アルゴリズムは、プログラム合成タスクの解法としてコスト関数を使用する。 本稿では,現在最先端のコスト誘導バスアルゴリズムが,モデルが提供する有用な情報を失い,コスト関数に従って最上位の検索を実行できないという,共通の問題に直面していることを示す。 提案手法は,情報喪失に苦しむことなく,コストガイド付きボトムアップ合成を最先に行うことが可能な,新しいボトムアップ探索アルゴリズムである。 重要なことに、bee searchは、プログラムの生成に関してベストファースト検索を行う。つまり、ソリューションプログラムよりも高価なメモリプログラムを生成さえしない。 プログラムコストの抽象的な空間で探索を行うことにより、生成に関する最優先の順序付けを実現する。 また、既存のコストモデルが提供する情報をよりよく利用する新しいコスト関数も導入します。 文字列操作とビットベクトルタスクに関する経験的な結果は、より複雑なドメイン固有言語(dsl)を使用する場合、蜂の検索が既存のコストガイドバスアプローチを上回ることができることを示している。 さらに, bee search を用いた新たなコスト関数は,文字列操作タスクのコスト関数よりも優れている。

Cost-guided bottom-up search (BUS) algorithms use a cost function to guide the search to solve program synthesis tasks. In this paper, we show that current state-of-the-art cost-guided BUS algorithms suffer from a common problem: they can lose useful information given by the model and fail to perform the search in a best-first order according to a cost function. We introduce a novel best-first bottom-up search algorithm, which we call Bee Search, that does not suffer information loss and is able to perform cost-guided bottom-up synthesis in a best-first manner. Importantly, Bee Search performs best-first search with respect to the generation of programs, i.e., it does not even create in memory programs that are more expensive than the solution program. It attains best-first ordering with respect to generation by performing a search in an abstract space of program costs. We also introduce a new cost function that better uses the information provided by an existing cost model. Empirical results on string manipulation and bit-vector tasks show that Bee Search can outperform existing cost-guided BUS approaches when employing more complex domain-specific languages (DSLs); Bee Search and previous approaches perform equally well with simpler DSLs. Furthermore, our new cost function with Bee Search outperforms previous cost functions on string manipulation tasks.
翻訳日:2023-10-09 15:33:31 公開日:2023-10-06
# オンライン3次元ビンパッキングのための調整可能なロバスト強化学習

Adjustable Robust Reinforcement Learning for Online 3D Bin Packing ( http://arxiv.org/abs/2310.04323v1 )

ライセンス: Link先を確認
Yuxin Pan, Yize Chen, Fangzhen Lin(参考訳) オンライン3Dビンパッキング問題(3D-BPP)の効果的なポリシー設計は、主に受信箱列の予測不可能な性質と厳密な物理的制約のため、長年にわたる課題である。 オンライン3D-BPPのための現在の深層強化学習(DRL)手法は、ボックスシーケンス分布の平均性能を最適化する有望な結果を示しているが、最悪のシナリオが実現可能な現実の環境では失敗することが多い。 標準的なロバストDRLアルゴリズムは、通常の問題インスタンスの分布において性能を犠牲にして最悪の性能を最適化することを過度に優先する傾向にある。 これらの問題に対処するため,まず,オンライン3d-bppの解法として提案されているdrl法とヒューリスティック法の両方の実用的ロバスト性を検討するために,置換型攻撃法を提案する。 そこで本研究では,ロバストネス重みの効率的な調整を可能とし,平均および最悪の環境下での政策性能の望ましいバランスを実現するための,調整可能なロバスト強化学習(AR2L)フレームワークを提案する。 具体的には、目的関数を、期待値と最悪の値の重み付け和として定式化し、混合ダイナミクスの下での戻り値に関連する低い性能を導出する。 この下限を実現するために,我々は,関連する混合ダイナミクスを探索し,対応するポリシーを改善する反復的手法を採用する。 我々はこの手順を2つの一般的な頑健な逆アルゴリズムに統合し、正確な近似AR2Lアルゴリズムを開発する。 実験により、AR2Lはポリシーの堅牢性を向上しつつ、名目上のケースで許容されるパフォーマンスのレベルを維持しつつ、万能であることが示された。

Designing effective policies for the online 3D bin packing problem (3D-BPP) has been a long-standing challenge, primarily due to the unpredictable nature of incoming box sequences and stringent physical constraints. While current deep reinforcement learning (DRL) methods for online 3D-BPP have shown promising results in optimizing average performance over an underlying box sequence distribution, they often fail in real-world settings where some worst-case scenarios can materialize. Standard robust DRL algorithms tend to overly prioritize optimizing the worst-case performance at the expense of performance under normal problem instance distribution. To address these issues, we first introduce a permutation-based attacker to investigate the practical robustness of both DRL-based and heuristic methods proposed for solving online 3D-BPP. Then, we propose an adjustable robust reinforcement learning (AR2L) framework that allows efficient adjustment of robustness weights to achieve the desired balance of the policy's performance in average and worst-case environments. Specifically, we formulate the objective function as a weighted sum of expected and worst-case returns, and derive the lower performance bound by relating to the return under a mixture dynamics. To realize this lower bound, we adopt an iterative procedure that searches for the associated mixture dynamics and improves the corresponding policy. We integrate this procedure into two popular robust adversarial algorithms to develop the exact and approximate AR2L algorithms. Experiments demonstrate that AR2L is versatile in the sense that it improves policy robustness while maintaining an acceptable level of performance for the nominal case.
翻訳日:2023-10-09 15:33:08 公開日:2023-10-06
# 限定スーパービジョンを用いた潜時グラフ推論

Latent Graph Inference with Limited Supervision ( http://arxiv.org/abs/2310.04314v1 )

ライセンス: Link先を確認
Jianglin Lu, Yi Xu, Huan Wang, Yue Bai, Yun Fu(参考訳) latent graph inference(lgi)は、データ特徴から基盤となるグラフ構造とノード表現を共同学習することを目的としている。 しかし、既存のLGI手法は、意味的な監督なしに巨大なエッジウェイトが学習され、トレーニング損失に寄与しない、監督飢餓の問題に悩まされることが多い。 結果として、これらの監督対象の重みは、試験サンプルの予測を決定することができるが、意味的に最適ではないため、一般化が不十分である。 本稿では,この問題はグラフスパーシフィケーション操作によって発生し,キーノードとラベル付きノードとの間の重要な接続を著しく破壊するものであることを観察する。 そこで我々は,腐敗したアフィニティを修復し,優れたlgiに対する監督の欠如を補うことを提案する。 重要な課題は、クリティカルノードを特定し、破損した親和性を回復することだ。 まず、ピボットノードを、与えられた隣接行列に基づいて識別できる$k$-hop starvedノードとして定義することから始める。 高い計算負荷を考えると、さらにcur行列分解に触発されたより効率的な代替案を提示する。 その後、破壊された接続を再構築することで、飢餓ノードを除去する。 代表ベンチマークによる広範囲な実験により、飢えたノードの削減は最先端のlgi法の性能を一貫して改善し、特に非常に限られた監督下では(わずか0.3%のラベリングレートでpubmedを6.12%改善した)。

Latent graph inference (LGI) aims to jointly learn the underlying graph structure and node representations from data features. However, existing LGI methods commonly suffer from the issue of supervision starvation, where massive edge weights are learned without semantic supervision and do not contribute to the training loss. Consequently, these supervision-starved weights, which may determine the predictions of testing samples, cannot be semantically optimal, resulting in poor generalization. In this paper, we observe that this issue is actually caused by the graph sparsification operation, which severely destroys the important connections established between pivotal nodes and labeled ones. To address this, we propose to restore the corrupted affinities and replenish the missed supervision for better LGI. The key challenge then lies in identifying the critical nodes and recovering the corrupted affinities. We begin by defining the pivotal nodes as $k$-hop starved nodes, which can be identified based on a given adjacency matrix. Considering the high computational burden, we further present a more efficient alternative inspired by CUR matrix decomposition. Subsequently, we eliminate the starved nodes by reconstructing the destroyed connections. Extensive experiments on representative benchmarks demonstrate that reducing the starved nodes consistently improves the performance of state-of-the-art LGI methods, especially under extremely limited supervision (6.12% improvement on Pubmed with a labeling rate of only 0.3%).
翻訳日:2023-10-09 15:32:39 公開日:2023-10-06
# リアルタイムオンラインサービスにおけるバイアス音声分類のための大規模韓国語テキストデータセット

Large-Scale Korean Text Dataset for Classifying Biased Speech in Real-World Online Services ( http://arxiv.org/abs/2310.04313v1 )

ライセンス: Link先を確認
Dasol Choi, Jooyoung Song, Eunsun Lee, Jinwoo Seo, Heejune Park, Dongbin Na(参考訳) オンラインサービスの普及に伴い,感情分析や偏りのあるテキスト検出といった高度なテキスト分類アルゴリズムの必要性が高まっている。 オンラインサービスの匿名性は、しばしば偏りのある有害な言語の存在につながり、オンラインコミュニティの健全性を維持するための課題となる。 この現象は韓国では特に重要であり、大規模なヘイトスピーチ検出アルゴリズムはまだ広く研究されていない。 本稿では,韓国のSNSプラットフォームから収集した,包括的で大規模なデータセットについて紹介する。 提案するデータセットは,(1)選好,(2)傾向,(3)テキストサンプルに対する9種類のバイアスを含むアノテーションを提供し,ユーザ生成テキストの同時分類のためのマルチタスク学習を可能にする。 最先端のbertベースの言語モデルを活用することで,多様な分類タスクにおける人間レベルの精度を,さまざまな指標で測定した。 学術的な貢献以外にも、我々の研究は現実のヘイトスピーチとバイアス軽減のための実践的なソリューションを提供し、オンラインコミュニティの健康改善に直接貢献する。 本研究は,オンライン談話の質向上と社会福祉の育成を目的とした今後の研究の基盤となる。 すべてのソースコードとデータセットはhttps://github.com/Dasol-Choi/KoMultiTextで公開されている。

With the growth of online services, the need for advanced text classification algorithms, such as sentiment analysis and biased text detection, has become increasingly evident. The anonymous nature of online services often leads to the presence of biased and harmful language, posing challenges to maintaining the health of online communities. This phenomenon is especially relevant in South Korea, where large-scale hate speech detection algorithms have not yet been broadly explored. In this paper, we introduce a new comprehensive, large-scale dataset collected from a well-known South Korean SNS platform. Our proposed dataset provides annotations including (1) Preferences, (2) Profanities, and (3) Nine types of Bias for the text samples, enabling multi-task learning for simultaneous classification of user-generated texts. Leveraging state-of-the-art BERT-based language models, our approach surpasses human-level accuracy across diverse classification tasks, as measured by various metrics. Beyond academic contributions, our work can provide practical solutions for real-world hate speech and bias mitigation, contributing directly to the improvement of online community health. Our work provides a robust foundation for future research aiming to improve the quality of online discourse and foster societal well-being. All source codes and datasets are publicly accessible at https://github.com/Dasol-Choi/KoMultiText.
翻訳日:2023-10-09 15:32:12 公開日:2023-10-06
# Decoder-Only Side Information を用いた分散ディープジョイントソースチャネル符号化

Distributed Deep Joint Source-Channel Coding with Decoder-Only Side Information ( http://arxiv.org/abs/2310.04311v1 )

ライセンス: Link先を確認
Selim F. Yilmaz, Ezgi Ozyilkan, Deniz Gunduz, Elza Erkip(参考訳) 本稿では,受信側のみに相関する側情報が存在する場合,ノイズの多い無線チャネル上での低遅延画像伝送を検討する(Wyner-Ziv シナリオ)。 特に,従来,有限長法において従来の分離ベースアプローチよりも優れていたデータ駆動型ジョイント・ソース・チャネル・コーディング(jscc)手法を用いた実用的なスキームの開発と,チャネル品質の優雅な劣化を実現することに関心を寄せている。 本稿では,デコーダのみの側情報をレシーバ側の複数段階に組み込んだニューラルネットワークアーキテクチャを提案する。 提案手法は側情報の統合に成功し,特に低チャネル信号-雑音比 (SNR) と小帯域比 (BRs) において, 様々な歪み基準で, 全チャネル雑音レベルの性能向上を図った。 また,提案手法のソースコードを提供し,その結果のさらなる研究と再現性を実現する。

We consider low-latency image transmission over a noisy wireless channel when correlated side information is present only at the receiver side (the Wyner-Ziv scenario). In particular, we are interested in developing practical schemes using a data-driven joint source-channel coding (JSCC) approach, which has been previously shown to outperform conventional separation-based approaches in the practical finite blocklength regimes, and to provide graceful degradation with channel quality. We propose a novel neural network architecture that incorporates the decoder-only side information at multiple stages at the receiver side. Our results demonstrate that the proposed method succeeds in integrating the side information, yielding improved performance at all channel noise levels in terms of the various distortion criteria considered here, especially at low channel signal-to-noise ratios (SNRs) and small bandwidth ratios (BRs). We also provide the source code of the proposed method to enable further research and reproducibility of the results.
翻訳日:2023-10-09 15:31:50 公開日:2023-10-06
# ネットワーク上の情報の拡散:量子ビュー

Spreading of information on a network: a quantum view ( http://arxiv.org/abs/2310.04310v1 )

ライセンス: Link先を確認
F. Bagarello, F. Gargano, M. Gorgone and F. Oliveri(参考訳) 本稿では,情報の初期送信機から最終受信機へ情報を転送する複雑な多層ネットワークによる情報拡散のモデル化について述べる。 数学的モデルは、量子力学の典型的な形式的な数学的装置に従って、演算法の枠組み内で推論される。 h,\rho$) で誘導されるダイナミクスに基づくものと、gorini-kossakowski-sudarshan-lindblad方程式(gksl)に基づくものである。 各手法について数値結果を示す。

This paper concerns with the modeling of the spreading of information through a complex, multi-layered network, where the information is transferred from an initial transmitter to a final receiver. The mathematical model is deduced within the framework of operatorial methods, according to the formal mathematical apparatus typical of quantum mechanics. Two different approaches are considered: one based on the ($H,\rho$)-induced dynamics, and one on the Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) equation. For each method, numerical results are presented.
翻訳日:2023-10-09 15:31:32 公開日:2023-10-06
# 不確実性学習によるロバストグループレベルの感情認識に向けて

Towards A Robust Group-level Emotion Recognition via Uncertainty-Aware Learning ( http://arxiv.org/abs/2310.04306v1 )

ライセンス: Link先を確認
Qing Zhu, Qirong Mao, Jialin Zhang, Xiaohua Huang, Wenming Zheng(参考訳) グループレベルの感情認識(グループレベルの感情認識、GER)は、人間の行動分析の分離できない部分であり、多人数シーンにおける全体的な感情を認識することを目的としている。 しかし、既存の方法は、群内で生じる混雑や閉塞といった制約のない環境下で固有の不確実性を無視しながら、多様な感情の手がかりを混ぜることに専念している。 さらに、グループレベルのラベルのみが利用可能であるため、グループ内の個人間の一貫性のない感情予測がネットワークを混乱させる可能性がある。 本稿では,より堅牢な表現を抽出する不確実性認識学習(UAL)手法を提案する。 個々の不確かさを明示的にモデル化することにより、決定論的点埋め込みの代わりにガウス分布から引き出された確率的埋め込みを利用する。 この表現は、異なる感情の確率を捉え、推論段階でこの確率を通して様々な予測を生成する。 さらに、各グループ内の個人の顔の融合重みとして不確実性感性スコアを適応的に割り当てる。 さらに,重騒音に対するモデルのロバスト性を高めるための画像強調モジュールを開発した。 顔, 対象, シーン成分を包含する全体3分岐モデルは, 比例重み付き融合戦略により導かれ, 提案する不確実性認識手法を統合し, 最終群レベル出力を生成する。 実験の結果,3つのデータベースにまたがって提案手法の有効性と一般化性が実証された。

Group-level emotion recognition (GER) is an inseparable part of human behavior analysis, aiming to recognize an overall emotion in a multi-person scene. However, the existing methods are devoted to combing diverse emotion cues while ignoring the inherent uncertainties under unconstrained environments, such as congestion and occlusion occurring within a group. Additionally, since only group-level labels are available, inconsistent emotion predictions among individuals in one group can confuse the network. In this paper, we propose an uncertainty-aware learning (UAL) method to extract more robust representations for GER. By explicitly modeling the uncertainty of each individual, we utilize stochastic embedding drawn from a Gaussian distribution instead of deterministic point embedding. This representation captures the probabilities of different emotions and generates diverse predictions through this stochasticity during the inference stage. Furthermore, uncertainty-sensitive scores are adaptively assigned as the fusion weights of individuals' face within each group. Moreover, we develop an image enhancement module to enhance the model's robustness against severe noise. The overall three-branch model, encompassing face, object, and scene component, is guided by a proportional-weighted fusion strategy and integrates the proposed uncertainty-aware method to produce the final group-level output. Experimental results demonstrate the effectiveness and generalization ability of our method across three widely used databases.
翻訳日:2023-10-09 15:31:20 公開日:2023-10-06
# 設計によるコーディング: GPT-4はアジャイルモデル駆動開発を促進する

Coding by Design: GPT-4 empowers Agile Model Driven Development ( http://arxiv.org/abs/2310.04304v1 )

ライセンス: Link先を確認
Ahmed R. Sadik, Sebastian Brulin, Markus Olhofer(参考訳) ChatGPTのようなLarge Language Models(LLM)を使って自然言語からコードを生成することは、画期的なことです。 しかし、より広範囲に利用すれば、このアプローチに独自の制限があることは明らかです。 自然言語の本質的な曖昧さは、複雑なソフトウェア設計に困難をもたらす。 そこで本研究では,openai の gpt-4 を用いてコードの自動生成を促進する agile model-driven development (mdd) アプローチを提案する。 私たちの研究は、"agility"を現在のmddメソッドに対する重要な貢献として、特にモデルが異なるプログラミング言語で変更やデプロイを必要とする場合に強調しています。 そこで本研究では,無人車両艦隊のマルチエージェントシミュレーションシステムを紹介する。 アプローチの第1層と第2層において、統一モデル言語(UML)図を用いてケーススタディのテキスト表現を構築した。 次のレイヤでは、モデルの曖昧さを最小限に抑える2つの制約セットを導入しました。 Object Constraints Language (OCL) はコード構築の詳細を微調整するために適用され、FIPAオントロジーは通信セマンティクスとプロトコルを形成するために使用される。 最終的に、GPT-4を利用して、最後のレイヤはJavaとPythonの両方でコードを自動生成します。 JavaコードはJADEフレームワーク内にデプロイされ、PythonコードはPADEフレームワークにデプロイされます。 研究をまとめて、生成したコードの総合的な評価を行った。 振る舞いの観点からすると、自動生成コードは期待されるumlシーケンス図と完全に一致した。 構造的には、OCLのみに制約されたUML図から派生したコードの複雑さと、OCLとFIPAオントロジーの両方に影響されたコードの複雑さを比較した。 その結果、オントロジーに拘束されたモデルは本質的により複雑なコードを生成するが、さらなるテストとメンテナンスのために管理可能で低リスクである。

Generating code from a natural language using Large Language Models (LLMs) such as ChatGPT, seems groundbreaking. Yet, with more extensive use, it's evident that this approach has its own limitations. The inherent ambiguity of natural language presents challenges for complex software designs. Accordingly, our research offers an Agile Model-Driven Development (MDD) approach that enhances code auto-generation using OpenAI's GPT-4. Our work emphasizes "Agility" as a significant contribution to the current MDD method, particularly when the model undergoes changes or needs deployment in a different programming language. Thus, we present a case-study showcasing a multi-agent simulation system of an Unmanned Vehicle Fleet. In the first and second layer of our approach, we constructed a textual representation of the case-study using Unified Model Language (UML) diagrams. In the next layer, we introduced two sets of constraints that minimize model ambiguity. Object Constraints Language (OCL) is applied to fine-tune the code constructions details, while FIPA ontology is used to shape communication semantics and protocols. Ultimately, leveraging GPT-4, our last layer auto-generates code in both Java and Python. The Java code is deployed within the JADE framework, while the Python code is deployed in PADE framework. Concluding our research, we engaged in a comprehensive evaluation of the generated code. From a behavioural standpoint, the auto-generated code aligned perfectly with the expected UML sequence diagram. Structurally, we compared the complexity of code derived from UML diagrams constrained solely by OCL to that influenced by both OCL and FIPA-ontology. Results indicate that ontology-constrained model produce inherently more intricate code, but it remains manageable and low-risk for further testing and maintenance.
翻訳日:2023-10-09 15:30:59 公開日:2023-10-06
# defi犯罪現場のマッピング:証拠に基づくイメージ

Mapping the DeFi Crime Landscape: An Evidence-based Picture ( http://arxiv.org/abs/2310.04356v1 )

ライセンス: Link先を確認
Catherine Carpentier-Desjardins, Masarah Paquet-Clouston, Stefan Kitzler and Bernhard Haslhofer(参考訳) 過去数年間、分散金融(DeFi)は多くの利益主導の犯罪の標的となっている。 しかし、これまでのところ、これらの犯罪の有病率と累積的な影響は評価されていない。 本研究は,デフィ部門を対象とする利益主導犯罪の包括的評価を初めて実施する。 これを実現するため、2017年から2022年までの1155件の犯罪事件のデータを収集した。 このうち1050はデフィ産業に、105は中央金融(cefi)産業に関係していた。 前者を中心に、これらの犯罪の類似点と相違点を明らかにするために分類学が開発された。 すべてのイベントはDeFiスタックにマッピングされ、影響した技術的レイヤを評価し、そのスケールを測定するために財務的損害を定量化した。 その結果、暗号通貨業界全体では最低損失が30億ドルで、中央集権金融(CeFi)とDeFiの3分の1が3分の1だった。 後者のみに注目すると、攻撃中、defiアクタ(defi技術を開発するエンティティ)が直接的ターゲット、加害者、仲介者として機能できることが示される。 調査の結果、DeFiのアクターは、DeFi業界を狙った犯罪の最初の犠牲者であることが明らかとなった。犯罪事件の52%は、主にプロトコル層の技術的脆弱性によって標的とされ、これらの事象は記録された金融被害の83%を占めていた。 一方、犯罪事件の40%では、デフィ俳優自身が悪意のある加害者であり、主にcryptoasset層(例えばrug pull scams)での契約を誤用していた。 しかし、これらの出来事は財政被害の17%に過ぎなかった。 調査の結果は、DeFiセクター内の犯罪事件の大きさと範囲を予備評価し、エコシステムにおけるDeFiアクターの脆弱な位置を強調している。

Over the past years, decentralized finance (DeFi) has been the target of numerous profit-driven crimes. However, until now, the full prevalence and cumulative impact of these crimes have not been assessed. This study provides a first comprehensive assessment of profit-driven crimes targeting the DeFi sector. To achieve this, we collected data on 1155 crime events from 2017 to 2022. Of these, 1050 were related to the DeFi industry and 105 to the centralized finance (CeFi) industry. Focusing on the former, a taxonomy was developed to clarify the similarities and differences among these crimes. All events were mapped onto the DeFi stack to assess the impacted technical layers, and the financial damages were quantified to gauge their scale. The findings show that the entire cryptoasset industry has suffered a minimum loss of US$30B, with two thirds related to centralized finance (CeFi) and one third to DeFi. Focusing solely on the latter, the results highlight that during an attack, a DeFi actor (an entity developing a DeFi technology) can serve as a direct target, as a perpetrator, or as an intermediary. The findings show that DeFi actors are the first victims of crimes targeting the DeFi industry: 52% of crime events targeted them, primarily due to technical vulnerabilities at the protocol layer, and these events accounted for 83% of all recorded financial damages. On the other hand, in 40% of crime events, DeFi actors were themselves malicious perpetrators, predominantly misusing contracts at the cryptoasset layer (e.g., rug pull scams). However, these events accounted for only 17% of all financial damages. The study's findings offer a preliminary assessment of the size and scope of crime events within the DeFi sector and highlight the vulnerable position of DeFi actors in the ecosystem.
翻訳日:2023-10-09 15:10:00 公開日:2023-10-06
# 確率回路における変換の統合

Integrating Transformations in Probabilistic Circuits ( http://arxiv.org/abs/2310.04354v1 )

ライセンス: Link先を確認
Tom Schierenbeck, Vladimir Vutov, Thorsten Dickhaus, Michael Beetz(参考訳) 本研究では,確率回路の予測限界に対処し,その克服策として変換を導入する。 この制限をロボットのシナリオで実証する。 独立成分分析は確率回路の独立性を維持するための音響ツールである。 我々のアプローチは、モデルのない決定論的回路である結合確率木の拡張である。 その結果,提案手法は,実ロボットデータと同様に7つのベンチマークデータセットの合同確率木と比較して,より少ないパラメータを用いて高い確率を達成できることが実証された。 さらに,木ベースの学習ルーチンに変換を統合する方法について論じる。 最後に、変換された分位数パラメータ化された分布を持つ正確な推論は扱いにくいと論じる。 しかし,本手法は効率的なサンプリングと近似推定を可能にする。

This study addresses the predictive limitation of probabilistic circuits and introduces transformations as a remedy to overcome it. We demonstrate this limitation in robotic scenarios. We motivate that independent component analysis is a sound tool to preserve the independence properties of probabilistic circuits. Our approach is an extension of joint probability trees, which are model-free deterministic circuits. By doing so, it is demonstrated that the proposed approach is able to achieve higher likelihoods while using fewer parameters compared to the joint probability trees on seven benchmark data sets as well as on real robot data. Furthermore, we discuss how to integrate transformations into tree-based learning routines. Finally, we argue that exact inference with transformed quantile parameterized distributions is not tractable. However, our approach allows for efficient sampling and approximate inference.
翻訳日:2023-10-09 15:09:30 公開日:2023-10-06
# 形式的定理提示に対する言語エージェント的アプローチ

A Language-Agent Approach to Formal Theorem-Proving ( http://arxiv.org/abs/2310.04353v1 )

ライセンス: Link先を確認
Amitayush Thakur, Yeming Wen, Swarat Chaudhuri(参考訳) 言語エージェントは、コンテキスト内学習で外部環境と対話できる大規模言語モデル(LLM)を使用しており、タスクを制御するための有望なアプローチとして最近登場した。 フォーマルな定理証明への最初の言語エージェントアプローチを示す。 COPRAは,高容量のブラックボックスLCM (GPT-4) をステートフルなバックトラック検索のポリシーの一部として用いる。 検索中、ポリシーは証明戦術を選択し、外部データベースから補題や定義を取得することができる。 各選択した戦術は基礎となる証明フレームワークで実行され、次のポリシー実行のプロンプトを構築するために実行フィードバックが使用される。 検索はまた、選択した情報を履歴から追跡し、幻覚や不要なllmクエリを減らすために利用する。 我々は、LeanのminiF2FベンチマークとCompcertプロジェクトからのCoqタスクセットでCOPRAを評価した。 これらのベンチマークでは、COPRAはGPT-4のワンショット呼び出しよりもはるかに優れており、証明データに精巧に調整された最先端のモデルも素早く正しい証明を見つけることができる。

Language agents, which use a large language model (LLM) capable of in-context learning to interact with an external environment, have recently emerged as a promising approach to control tasks. We present the first language-agent approach to formal theorem-proving. Our method, COPRA, uses a high-capacity, black-box LLM (GPT-4) as part of a policy for a stateful backtracking search. During the search, the policy can select proof tactics and retrieve lemmas and definitions from an external database. Each selected tactic is executed in the underlying proof framework, and the execution feedback is used to build the prompt for the next policy invocation. The search also tracks selected information from its history and uses it to reduce hallucinations and unnecessary LLM queries. We evaluate COPRA on the miniF2F benchmark for Lean and a set of Coq tasks from the Compcert project. On these benchmarks, COPRA is significantly better than one-shot invocations of GPT-4, as well as state-of-the-art models fine-tuned on proof data, at finding correct proofs quickly.
翻訳日:2023-10-09 15:09:23 公開日:2023-10-06
# 木系手法とサロゲートの解釈のための重要な特徴スコア

Fair Feature Importance Scores for Interpreting Tree-Based Methods and Surrogates ( http://arxiv.org/abs/2310.04352v1 )

ライセンス: Link先を確認
Camille Olivia Little, Debolina Halder Lina, Genevera I. Allen(参考訳) 医療、刑事司法、国家安全保障、金融、テクノロジー、大規模機械学習(ML)、人工知能(AI)システムなど、さまざまな分野にまたがって、重要なデータ駆動決定を行うためにデプロイされている。 多くの人が、これらの決定を下すためにこれらのMLシステムを信用できるかどうかを尋ねています。 2つの重要なコンポーネントは、MLシステムに対する信頼の前提条件である:解釈可能性、あるいはMLシステムが意思決定を行う理由を理解する能力、そして、MLシステムが特定の個人やグループに対して偏見を示さないことを確実にする公平性である。 解釈可能性と公平性は共に重要であり、ml文献では別々に注目されているが、フェアネスに関してモデルを直接解釈する手法は今のところほとんど開発されていない。 本稿では,最も一般的なML解釈である特徴重要度スコアに着目した。 知識蒸留における決定木の利用に着想を得て,複雑なブラックボックスmlモデルの解釈可能なサロゲートとして木を活用することを提案する。 具体的には,木,木系アンサンブル,木系サロゲートなどの複雑なMLシステムにおいて,各特徴がどのように公平性や偏見に寄与するかを解釈するために,木に対する新たな公正特徴重要度スコアを開発する。 木に対する不純物の平均値の低下と同様に、我々のFair Feature Importance Scoreはグループバイアスの平均値の減少(または増加)に基づいて定義される。 ベンチマークフェアネスデータセットの実例と同様にシミュレーションを通じて、Fair Feature Importance Scoreがツリーベースのアンサンブルと他のMLシステムのツリーベースのサロゲートの両方に対して有効な解釈を提供することを示した。

Across various sectors such as healthcare, criminal justice, national security, finance, and technology, large-scale machine learning (ML) and artificial intelligence (AI) systems are being deployed to make critical data-driven decisions. Many have asked if we can and should trust these ML systems to be making these decisions. Two critical components are prerequisites for trust in ML systems: interpretability, or the ability to understand why the ML system makes the decisions it does, and fairness, which ensures that ML systems do not exhibit bias against certain individuals or groups. Both interpretability and fairness are important and have separately received abundant attention in the ML literature, but so far, there have been very few methods developed to directly interpret models with regard to their fairness. In this paper, we focus on arguably the most popular type of ML interpretation: feature importance scores. Inspired by the use of decision trees in knowledge distillation, we propose to leverage trees as interpretable surrogates for complex black-box ML models. Specifically, we develop a novel fair feature importance score for trees that can be used to interpret how each feature contributes to fairness or bias in trees, tree-based ensembles, or tree-based surrogates of any complex ML system. Like the popular mean decrease in impurity for trees, our Fair Feature Importance Score is defined based on the mean decrease (or increase) in group bias. Through simulations as well as real examples on benchmark fairness datasets, we demonstrate that our Fair Feature Importance Score offers valid interpretations for both tree-based ensembles and tree-based surrogates of other ML systems.
翻訳日:2023-10-09 15:09:07 公開日:2023-10-06
# 掴むことを学ぶ: どこかからどこかへ

Learning to Grasp: from Somewhere to Anywhere ( http://arxiv.org/abs/2310.04349v1 )

ライセンス: Link先を確認
Fran\c{c}ois H\'el\'enon, Johann Huber, Fa\"iz Ben Amar and St\'ephane Doncieux(参考訳) ロボットによる把持は、データ駆動技術が役割を担っている部分的な解決、多分野的な問題である。 報酬のばらばらな性質は、特に非慣習的形態学や高度にアクティベーションされたエンドエフェクタにおいて、把持データセットの自動生成を困難にする。 大規模なデータセットを取得するためのほとんどのアプローチは、多くの人間によるデモや、スケールしない高度に設計されたソリューションに依存している。 近年のQD(Quality-Diversity)手法の進歩により,ロボット形態の異なる特定のポーズで物体の把握を学習する方法が研究されている。 本研究では,新しいオブジェクトポーズにQD生成トラジェクトリを適用するパイプラインを導入する。 RGB-Dデータストリームを使用して、ビジョンパイプラインはまずターゲットオブジェクトを検出し、6-DOFのポーズを予測し、最後に追跡する。 自動的に生成されたリーチ・アンド・グラス軌道は、オブジェクトフレームに相対的に投影することで適応することができる。 数百もの軌道が、複数の物体と異なるロボット装置で現実世界に展開され、フランカ・リサーチ3は平行グリッパー、UR5は奇抜なSIH Schunkの手である。 対象ポーズに変換を適用する際に得られる伝達比は、対象ポーズがシミュレーションと一致する場合に得られるものと一致し、提案手法の効率を示す。

Robotic grasping is still a partially solved, multidisciplinary problem where data-driven techniques play an increasing role. The sparse nature of rewards make the automatic generation of grasping datasets challenging, especially for unconventional morphologies or highly actuated end-effectors. Most approaches for obtaining large-scale datasets rely on numerous human-provided demonstrations or heavily engineered solutions that do not scale well. Recent advances in Quality-Diversity (QD) methods have investigated how to learn object grasping at a specific pose with different robot morphologies. The present work introduces a pipeline for adapting QD-generated trajectories to new object poses. Using an RGB-D data stream, the vision pipeline first detects the targeted object, predicts its 6-DOF pose, and finally tracks it. An automatically generated reach-and-grasp trajectory can then be adapted by projecting it relatively to the object frame. Hundreds of trajectories have been deployed into the real world on several objects and with different robotic setups: a Franka Research 3 with a parallel gripper and a UR5 with a dexterous SIH Schunk hand. The transfer ratio obtained when applying transformation to the object pose matches the one obtained when the object pose matches the simulation, demonstrating the efficiency of the proposed approach.
翻訳日:2023-10-09 15:08:35 公開日:2023-10-06
# AccEq-DRT:アクセシビリティの不平等を解消する需要対応交通計画

AccEq-DRT: Planning Demand-Responsive Transit to reduce inequality of accessibility ( http://arxiv.org/abs/2310.04348v1 )

ライセンス: Link先を確認
Duo Wang and Andrea Araldo and Mounim A. El Yacoubi(参考訳) アクセシビリティは、ある場所が周囲の機会とどれだけうまくつながっているかを測定する。 我々は公共交通機関(PT)が提供するアクセシビリティに焦点を当てる。 中心都市間のアクセシビリティの分布や、主要交通回廊や郊外の近くでは明らかな不平等がある。 後者では、PTサービスの貧弱さは慢性的な自動車依存につながる。 需要応答性トランジット(DRT)は、従来の固定経路PTよりも低密度領域に適している。 しかし、アクセシビリティの不平等に取り組む可能性はまだ利用されていない。 それとは対照的に、不平等を気にせずにDRTを計画することは、都市部のアクセシビリティギャップをさらに改善することができる。 本論文は,アクセシビリティ不平等を低減し,総合的な効率を確保することを目的とした,drt計画戦略を提案する。 本研究の目的は,従来のPTのグラフ表現とDRTの連続近似(CA)モデルを組み合わせることである。 これら2つは、アクセシビリティを計算した同じ多層グラフで結合されます。 そこで我々は,人口密度とアクセシビリティを適切に重み付け,各地域のニーズを推定するスコア関数を考案した。 最後に、上層レベルがスコアリング機能により誘導されるdrtバスを割り当てるヒューリスティックであり、下層レベルがトラフィック割り当てを行う2レベル最適化方法を提供する。 モントリオールの簡易モデルにおける数値結果は、アトキンソン指数で測定された不等式が最大34\%減少することを示している。 キーワード:DRTパブリック、トランスポーテーション、アクセシビリティ、連続近似、ネットワーク設計

Accessibility measures how well a location is connected to surrounding opportunities. We focus on accessibility provided by Public Transit (PT). There is an evident inequality in the distribution of accessibility between city centers or close to main transportation corridors and suburbs. In the latter, poor PT service leads to a chronic car-dependency. Demand-Responsive Transit (DRT) is better suited for low-density areas than conventional fixed-route PT. However, its potential to tackle accessibility inequality has not yet been exploited. On the contrary, planning DRT without care to inequality (as in the methods proposed so far) can further improve the accessibility gap in urban areas. To the best of our knowledge this paper is the first to propose a DRT planning strategy, which we call AccEq-DRT, aimed at reducing accessibility inequality, while ensuring overall efficiency. To this aim, we combine a graph representation of conventional PT and a Continuous Approximation (CA) model of DRT. The two are combined in the same multi-layer graph, on which we compute accessibility. We then devise a scoring function to estimate the need of each area for an improvement, appropriately weighting population density and accessibility. Finally, we provide a bilevel optimization method, where the upper level is a heuristic to allocate DRT buses, guided by the scoring function, and the lower level performs traffic assignment. Numerical results in a simplified model of Montreal show that inequality, measured with the Atkinson index, is reduced by up to 34\%. Keywords: DRT Public, Transportation, Accessibility, Continuous Approximation, Network Design
翻訳日:2023-10-09 15:08:15 公開日:2023-10-06
# 有効負温度に基づく過渡量子オットーエンジンにおける非マルコフダイナミクスの利用

Availing non-Markovian dynamics in effective negative temperature-based transient quantum Otto engines ( http://arxiv.org/abs/2310.04347v1 )

ライセンス: Link先を確認
Arghya Maity and Ahana Ghoshal(参考訳) 本研究は, 正温蓄熱器で作動する従来型の量子オットーエンジンの効率が, 作動物質が環境と完全に平衡に達する前に, 等温ストロークを終了させることにより, さらに向上できることを実証する。 本研究は, 有限時間等長過程におけるマルコフ力学と非マルコフ力学の両方を包含し, 作用物質と貯留層との弱い結合を考察する。 これらのエンジンの性能は, マルコフ系から非マルコフ系へ遷移する過程において, 等時加熱ストローク中の一定有限時間における最大達成効率と, このストロークの過渡段階の延長期間におけるエンジン全体の性能の2つの図式を用いて評価した。 非マルコフ性の増加に伴って最大効率が増加することを示す。 しかし、エンジン性能は非マルコビアン性の増加とともに低下する。 さらに, 実効的な負温度ベースの量子オットーエンジンの存在を発見した。 これらのエンジンは拡張された運用領域内で動作し、温度範囲に達すると、完全な熱化や無限時間プロトコルに依存する従来の有効負の温度ベースの量子オットーエンジンは機能しない。 さらに、非マルコフ性がより顕著になるにつれて、有効な負温度ベースで必然的に過渡的な量子オットーエンジンの動作領域が増加する。

We demonstrate that the efficiency of effective negative temperature-based quantum Otto engines, already known to outperform their traditional counterparts operating with positive-temperature thermal reservoirs, can be further improved by terminating the isochoric strokes before the working substance reaches perfect equilibrium with its environment. Our investigation encompasses both Markovian and non-Markovian dynamics during these finite-time isochoric processes while considering a weak coupling between the working substance and the reservoirs. We assess the performance of these engines as they undergo a transition from the Markovian to the non-Markovian regime using two figures of merit: maximum achievable efficiency at a certain finite time during the isochoric heating stroke, and overall performance of the engine over an extended period during the transient phase of this stroke. We show that the maximum efficiency increases with the increase of non-Markovianity. However, the overall engine performance decreases as non-Markovianity increases. Additionally, we discover the existence of effective negative temperature-based necessarily transient quantum Otto engines. These engines operate within an extended operational domain, reaching into temperature ranges where conventional effective negative temperature-based quantum Otto engines, which rely on perfect thermalization or infinite-time protocols, are unable to function. Furthermore, this extended operational domain of an effective negative temperature-based necessarily transient quantum Otto engine increases as non-Markovianity becomes more pronounced.
翻訳日:2023-10-09 15:07:49 公開日:2023-10-06
# Neur2RO: ニューラルネットワークによる2段階ロバスト最適化

Neur2RO: Neural Two-Stage Robust Optimization ( http://arxiv.org/abs/2310.04345v1 )

ライセンス: Link先を確認
Justin Dumouchelle, Esther Julien, Jannis Kurtz, Elias B. Khalil(参考訳) ロバスト最適化は、最悪の不確実性の下で意思決定問題をモデル化および解決するための数学的フレームワークを提供する。 本研究は、2段階のロバスト最適化(2ro)問題(調整可能なロバスト最適化とも呼ばれる)に対処し、1段階目と2段階目はそれぞれ不確実性の実現前後で決定される。 これは、特に決定が離散的である場合、計算的に非常に難しいネストされた min-max-min 最適化問題をもたらす。 我々は,2ROの古典的反復アルゴリズムである,カラム・アンド・制約生成(CCG)の効率的な機械学習によるインスタンス化であるNeur2ROを提案する。 具体的には,設計によって最適化が容易な新たなニューラルネットワークアーキテクチャを用いて,第2段階問題の価値関数を推定することを学ぶ。 ニューラルネットワークをCCGに組み込むと、クナップサックと資本予算という2つの2ROベンチマークの実験によって証明されたような、高品質なソリューションがすぐに得られます。 knapsackの場合、Neur2ROは最先端の正確なブランチ・アンド・プライスアルゴリズムの3時間と比較すると、数秒で最もよく知られた値の約2.%以内のソリューションを見つける。 資本予算の面では、neur2roはk$-adaptabilityアルゴリズムの3つの変種、特に最大インスタンスにおいて、ソリューション時間の5倍から10倍削減されている。 私たちのコードとデータはhttps://github.com/khalil-research/neur2roで入手できます。

Robust optimization provides a mathematical framework for modeling and solving decision-making problems under worst-case uncertainty. This work addresses two-stage robust optimization (2RO) problems (also called adjustable robust optimization), wherein first-stage and second-stage decisions are made before and after uncertainty is realized, respectively. This results in a nested min-max-min optimization problem which is extremely challenging computationally, especially when the decisions are discrete. We propose Neur2RO, an efficient machine learning-driven instantiation of column-and-constraint generation (CCG), a classical iterative algorithm for 2RO. Specifically, we learn to estimate the value function of the second-stage problem via a novel neural network architecture that is easy to optimize over by design. Embedding our neural network into CCG yields high-quality solutions quickly as evidenced by experiments on two 2RO benchmarks, knapsack and capital budgeting. For knapsack, Neur2RO finds solutions that are within roughly $2\%$ of the best-known values in a few seconds compared to the three hours of the state-of-the-art exact branch-and-price algorithm; for larger and more complex instances, Neur2RO finds even better solutions. For capital budgeting, Neur2RO outperforms three variants of the $k$-adaptability algorithm, particularly on the largest instances, with a 5 to 10-fold reduction in solution time. Our code and data are available at https://github.com/khalil-research/Neur2RO.
翻訳日:2023-10-09 15:07:25 公開日:2023-10-06
# 機能幾何誘導タンパク質配列と骨格構造共設計

Functional Geometry Guided Protein Sequence and Backbone Structure Co-Design ( http://arxiv.org/abs/2310.04343v1 )

ライセンス: Link先を確認
Zhenqiao Song, Yunlong Zhao, Wenxian Shi, Yang Yang, Lei Li(参考訳) タンパク質は、ほとんどすべての生物に必須の機能を持つ高分子である。 望ましい機能を持つ合理的なタンパク質を設計することは重要である。 タンパク質の配列と構造は強く相関し、その機能を共に決定する。 本稿では,自動検出機能部位に基づくタンパク質配列と構造を共同設計するモデルであるNAEProを提案する。 NAEProは、注目層と同変層の相互結合ネットワークによって、全配列のグローバルな相関と、3次元の3D空間における最も近いアミノ酸からの局所的な影響を捉えることができる。 このようなアーキテクチャは2つのレベルで効果的だが経済的なメッセージ転送を促進する。 2つのタンパク質データセットである$\beta$-lactamase と myoglobin のモデルといくつかの強力なベースラインを評価した。 実験の結果, 本モデルでは, 高いアミノ酸回収率, tm-score, および最も低いrmsdが得られることがわかった。 これらの知見は、タンパク質の配列や構造が自然に類似していることを示すものである。 さらに, 詳細な分析により, 対象のメタロコファクターに結合可能な高効率なタンパク質を生成できることが確認された。 Githubではコード、データ、モデルを提供しています。

Proteins are macromolecules responsible for essential functions in almost all living organisms. Designing reasonable proteins with desired functions is crucial. A protein's sequence and structure are strongly correlated and they together determine its function. In this paper, we propose NAEPro, a model to jointly design Protein sequence and structure based on automatically detected functional sites. NAEPro is powered by an interleaving network of attention and equivariant layers, which can capture global correlation in a whole sequence and local influence from nearest amino acids in three dimensional (3D) space. Such an architecture facilitates effective yet economic message passing at two levels. We evaluate our model and several strong baselines on two protein datasets, $\beta$-lactamase and myoglobin. Experimental results show that our model consistently achieves the highest amino acid recovery rate, TM-score, and the lowest RMSD among all competitors. These findings prove the capability of our model to design protein sequences and structures that closely resemble their natural counterparts. Furthermore, in-depth analysis further confirms our model's ability to generate highly effective proteins capable of binding to their target metallocofactors. We provide code, data and models in Github.
翻訳日:2023-10-09 15:06:54 公開日:2023-10-06
# 強化学習をオプション価格とヘッジに適用する

Applying Reinforcement Learning to Option Pricing and Hedging ( http://arxiv.org/abs/2310.04336v1 )

ライセンス: Link先を確認
Zoran Stoiljkovic(参考訳) この論文は、価格と金融商品のヘッジにおける強化学習の最近の進歩の概要を提供し、halperin (2017) によって導入されたq-learning black scholesアプローチの詳細な説明に重点を置いている。 この強化学習アプローチは、伝統的なBlack and Scholes(1973)モデルを新しい人工知能アルゴリズムで橋渡しし、オプションの価格設定と、完全にモデルフリーでデータ駆動的な方法でのヘッジを可能にする。 本稿では、ヨーロッパputオプションの異なる状態変数とシナリオにおけるアルゴリズムの性能についても検討する。 その結果, モデルがボラティリティとヘッジ周波数の異なる精度の高い推定器であることが判明した。 さらに,この手法はオプションのマネーネスの様々なレベルにおいてロバストな性能を示す。 最後に、このアルゴリズムは比例トランザクションコストを取り入れ、状態変数の異なる統計特性の影響を受け、利益と損失に様々な影響を与えることを示す。

This thesis provides an overview of the recent advances in reinforcement learning in pricing and hedging financial instruments, with a primary focus on a detailed explanation of the Q-Learning Black Scholes approach, introduced by Halperin (2017). This reinforcement learning approach bridges the traditional Black and Scholes (1973) model with novel artificial intelligence algorithms, enabling option pricing and hedging in a completely model-free and data-driven way. This paper also explores the algorithm's performance under different state variables and scenarios for a European put option. The results reveal that the model is an accurate estimator under different levels of volatility and hedging frequency. Moreover, this method exhibits robust performance across various levels of option's moneyness. Lastly, the algorithm incorporates proportional transaction costs, indicating diverse impacts on profit and loss, affected by different statistical properties of the state variables.
翻訳日:2023-10-09 15:06:35 公開日:2023-10-06
# 潜在一貫性モデル: 少ないステップ推論による高解像度画像の合成

Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference ( http://arxiv.org/abs/2310.04378v1 )

ライセンス: Link先を確認
Simian Luo, Yiqin Tan, Longbo Huang, Jian Li, Hang Zhao(参考訳) 潜在拡散モデル (ldms) は高分解能画像の合成において顕著な結果を得た。 しかし、反復サンプリングプロセスは計算量が多く、生成が遅くなる。 一貫性モデル (song et al.) に着想を得て, 安定拡散 (rombach et al) を含む任意の事前学習 LDM 上で, 最小ステップで迅速に推論できる潜在一貫性モデル (LCMs) を提案する。 誘導逆拡散過程を、拡張確率フローODE (PF-ODE) の解として見ることで、LCMは、遅延空間におけるそのようなODEの解を直接予測し、多数の反復の必要性を軽減し、高速かつ高忠実なサンプリングを可能にするように設計されている。 事前学習した分類器なし誘導拡散モデルから効率よく蒸留され、高品質の768 x 768 2~4ステップのLCMは、トレーニングに32A100 GPU時間しかかからない。 さらに,画像データセットの微調整に適したLCM法であるLCF(Latent Consistency Fine-tuning)を提案する。 LAION-5B-Aestheticsデータセットの評価は、LCMが数ステップの推論で最先端のテキスト・画像生成性能を達成することを示す。 プロジェクトページ: https://latent-consistency-models.github.io/

Latent Diffusion models (LDMs) have achieved remarkable results in synthesizing high-resolution images. However, the iterative sampling process is computationally intensive and leads to slow generation. Inspired by Consistency Models (song et al.), we propose Latent Consistency Models (LCMs), enabling swift inference with minimal steps on any pre-trained LDMs, including Stable Diffusion (rombach et al). Viewing the guided reverse diffusion process as solving an augmented probability flow ODE (PF-ODE), LCMs are designed to directly predict the solution of such ODE in latent space, mitigating the need for numerous iterations and allowing rapid, high-fidelity sampling. Efficiently distilled from pre-trained classifier-free guided diffusion models, a high-quality 768 x 768 2~4-step LCM takes only 32 A100 GPU hours for training. Furthermore, we introduce Latent Consistency Fine-tuning (LCF), a novel method that is tailored for fine-tuning LCMs on customized image datasets. Evaluation on the LAION-5B-Aesthetics dataset demonstrates that LCMs achieve state-of-the-art text-to-image generation performance with few-step inference. Project Page: https://latent-consistency-models.github.io/
翻訳日:2023-10-09 15:01:20 公開日:2023-10-06
# 制約付きRLHFによる逆モデル過最適化

Confronting Reward Model Overoptimization with Constrained RLHF ( http://arxiv.org/abs/2310.04373v1 )

ライセンス: Link先を確認
Ted Moskovitz, Aaditya K. Singh, DJ Strouse, Tuomas Sandholm, Ruslan Salakhutdinov, Anca D. Dragan, Stephen McAleer(参考訳) 大規模な言語モデルは、通常、人間のフィードバックに適合する$\textit{reward models}$ (rms)を最適化することで、人間の好みに合致する。 しかし、人間の好みは多面的であり、言語品質の異なる側面を捉えた、より単純な報酬モデルの構成から報酬を得るのが一般的である。 それらを組み合わせる際にこれらのコンポーネントRMを適切に重み付けすることは困難である。 この難しさを加味すると、任意のrmは人格評価のプロキシであるため、このプロセスは$\textit{overoptimization}$に対して脆弱である。 本稿では, 複合rmにおける過最適化に関する最初の研究を行い, 構成rm間の相関がこれらの点の位置に有意な影響を及ぼすことを示した。 次に,エージェントが各RMの有用性閾値を超えるのを防ぐ手段として,制約付き強化学習を用いてこの問題を解決する手法を提案する。 本手法は,ラグランジュ乗算器が自然に与える動的重みを学習することにより,成分rmの重み付け問題に対処する。 その結果、各rmは効果的なプロキシである範囲内にとどまり、評価性能が向上する。 最後に、勾配のない最適化を用いた適応手法を導入し、1回の実行中にこれらの点を同定し、最適化する。

Large language models are typically aligned with human preferences by optimizing $\textit{reward models}$ (RMs) fitted to human feedback. However, human preferences are multi-faceted, and it is increasingly common to derive reward from a composition of simpler reward models which each capture a different aspect of language quality. This itself presents a challenge, as it is difficult to appropriately weight these component RMs when combining them. Compounding this difficulty, because any RM is only a proxy for human evaluation, this process is vulnerable to $\textit{overoptimization}$, wherein past a certain point, accumulating higher reward is associated with worse human ratings. In this paper, we perform, to our knowledge, the first study on overoptimization in composite RMs, showing that correlation between component RMs has a significant effect on the locations of these points. We then introduce an approach to solve this issue using constrained reinforcement learning as a means of preventing the agent from exceeding each RM's threshold of usefulness. Our method addresses the problem of weighting component RMs by learning dynamic weights, naturally given by the Lagrange multipliers. As a result, each RM stays within the range at which it is an effective proxy, improving evaluation performance. Finally, we introduce an adaptive method using gradient-free optimization to identify and optimize towards these points during a single run.
翻訳日:2023-10-09 15:00:55 公開日:2023-10-06
# ダイヤモンドにおけるデコヒーレンス保護量子レジスタの高速変換最適化戦略

Rapid transform optimisation strategy for decoherence-protected quantum register in diamond ( http://arxiv.org/abs/2310.04371v1 )

ライセンス: Link先を確認
Jiazhao Tian, Haibin Liu, Roberto Sailer, Liantuan Xiao, Fedor Jelezko and Ressa S. Said(参考訳) ダイヤモンド中の窒素空色中心に付随するデコヒーレンス保護スピンは、驚くほど長いコヒーレンス時間を持ち、最も有望で堅牢な量子レジスタの1つである。 現在の需要は、これらのレジスタを準備・操作するための実用的な迅速な制御戦略を探ることである。 本研究は,複数の最適化手法を用いて最適化された全マイクロウェーブ制御戦略を提供し,実験的に実現可能であることを示す平滑な近端点制御フィールドの集合を用いて,処理時間を80\%$で大幅に削減する。 さらに、制御フィールドの周波数および振幅不完全条件下でのこれらの戦略のロバスト性を最適化し、分析し、その過程では、わずか16ドルのサンプルを使用して、2500ドルの画素でロバストネスマップを公平に推定する。 全体として、将来的な量子技術応用のためのデコヒーレンス保護量子レジスタによる高性能な情報処理を容易にするための準備的なレシピを提供する。

Decoherence-protected spins associated with nitrogen-vacancy color centers in diamond possess remarkable long coherence time, which make them one of the most promising and robust quantum registers. The current demand is to explore practical rapid control strategies for preparing and manipulating the such register. Our work provides all-microwave control strategies optimized using multiple optimization methods to significantly reduce the processing time by $80\%$ with a set of smooth near-zero-endpoints control fields that are shown to be experimentally realizable. Furthermore, we optimize and analyze the robustness of these strategies under frequency and amplitude imperfections of the control fields, during which process we use only $16$ samples to give a fair estimation of the robustness map with $2500$ pixels. Overall, we provide a ready-to-implement recipe to facilitate high-performance information processing via decoherence-protected quantum register for future quantum technology applications.
翻訳日:2023-10-09 15:00:30 公開日:2023-10-06
# MBTFNet:歌声強調のためのマルチバンド時間周波数ニューラルネットワーク

MBTFNet: Multi-Band Temporal-Frequency Neural Network For Singing Voice Enhancement ( http://arxiv.org/abs/2310.04369v1 )

ライセンス: Link先を確認
Weiming Xu, Zhouxuan Chen, Zhili Tan, Shubo Lv, Runduo Han, Wenjiang Zhou, Weifeng Zhao, Lei Xie(参考訳) 典型的なニューラルスピーチエンハンスメント(SE)アプローチは主に音声と雑音の混合を扱うが、これは歌声エンハンスメントのシナリオには最適ではない。 音源分離(MSS)モデルは、声帯と様々な伴奏成分を等しく扱い、声帯拡張のみを考慮したモデルに比べて性能が低下する可能性がある。 本稿では,歌声強調のための新しいマルチバンド時間周波数ニューラルネットワーク(MBTFNet)を提案する。 mbtfnetはバンド間モデリングとバンド内モデリングを組み合わせて、フルバンド信号の処理を改善する。 モデルの受容場を拡張するためにデュアルパスモデリングを導入する。 本稿では,SNR推定に基づく暗黙的パーソナライズ・エンハンスメント(IPE)ステージを提案し,MBTFNetの性能をさらに向上させる。 実験により,提案モデルが最先端のseモデルとmssモデルを大きく上回ることを示した。

A typical neural speech enhancement (SE) approach mainly handles speech and noise mixtures, which is not optimal for singing voice enhancement scenarios. Music source separation (MSS) models treat vocals and various accompaniment components equally, which may reduce performance compared to the model that only considers vocal enhancement. In this paper, we propose a novel multi-band temporal-frequency neural network (MBTFNet) for singing voice enhancement, which particularly removes background music, noise and even backing vocals from singing recordings. MBTFNet combines inter and intra-band modeling for better processing of full-band signals. Dual-path modeling are introduced to expand the receptive field of the model. We propose an implicit personalized enhancement (IPE) stage based on signal-to-noise ratio (SNR) estimation, which further improves the performance of MBTFNet. Experiments show that our proposed model significantly outperforms several state-of-the-art SE and MSS models.
翻訳日:2023-10-09 14:59:43 公開日:2023-10-06
# 大規模市場価格異常検出システム

A Marketplace Price Anomaly Detection System at Scale ( http://arxiv.org/abs/2310.04367v1 )

ライセンス: Link先を確認
Akshit Sarpal, Qiwen Kang, Fangping Huang, Yang Song, Lijie Wan(参考訳) オンラインマーケットプレイスは、プラットフォーム上で毎日個々のマーケットプレイス販売者が開始する大量の価格更新を実行する。 この価格の民主化は、データ品質に関する課題の増加を伴う。 従来のオンライン小売業者が利用できる集中型ガードレールの欠如は、不正確な価格がウェブサイトに掲載される可能性が高く、顧客体験の貧弱さと収益損失の可能性をもたらす。 我々はmoatplus (maked optimal anchors using trees, near-based labeling and unsupervised statistical-features) というマーケットプレースプラットフォーム向けのスケーラブルな価格異常検出フレームワークを提案する。 目標は、教師なしの統計的特徴から近接性と歴史的価格トレンドを活用して、上限価格を発生させることである。 我々は価格ベースの機能の不規則性を検出し、不規則な機能を排除し、リアルタイム価格パイプラインに縛られた信頼性の高い価格を構築するために最適化された重み付けスキームを使用するモデルを構築します。 提案手法により, 高精度アンカーカバレッジを46.6%向上させることができた。

Online marketplaces execute large volume of price updates that are initiated by individual marketplace sellers each day on the platform. This price democratization comes with increasing challenges with data quality. Lack of centralized guardrails that are available for a traditional online retailer causes a higher likelihood for inaccurate prices to get published on the website, leading to poor customer experience and potential for revenue loss. We present MoatPlus (Masked Optimal Anchors using Trees, Proximity-based Labeling and Unsupervised Statistical-features), a scalable price anomaly detection framework for a growing marketplace platform. The goal is to leverage proximity and historical price trends from unsupervised statistical features to generate an upper price bound. We build an ensemble of models to detect irregularities in price-based features, exclude irregular features and use optimized weighting scheme to build a reliable price bound in real-time pricing pipeline. We observed that our approach improves precise anchor coverage by up to 46.6% in high-vulnerability item subsets
翻訳日:2023-10-09 14:59:24 公開日:2023-10-06
# 大規模言語モデルにおける難解推論の補正

Amortizing intractable inference in large language models ( http://arxiv.org/abs/2310.04363v1 )

ライセンス: Link先を確認
Edward J. Hu, Moksh Jain, Eric Elmoznino, Younesse Kaddar, Guillaume Lajoie, Yoshua Bengio, Nikolay Malkin(参考訳) 自己回帰型大言語モデル (LLM) は、学習データから次の条件分布を通して知識を圧縮する。 これにより、この知識の抽出可能なクエリは、開始から終了までの自動回帰サンプリングに制限される。 しかし、シーケンス継続、補充、その他の制約された生成を含む多くのタスクは、難解な後続分布からのサンプリングを含む。 これらの難解な後方からサンプルを取るために、償却ベイズ推論を用いることで、この制限に対処します。 このような償却は、ダイバーシティシーキング強化学習アルゴリズム:生成フローネットワーク(gflownets)を介してllmを微調整することでアルゴリズム的に達成される。 我々は,LLMファインチューニングの分散マッチングパラダイムが,最大自由度トレーニングや報酬最大化ポリシ最適化の効果的な代替手段として有効であることを示す。 重要な応用として,連鎖的思考推論を潜在変数モデリング問題として解釈し,多段階の合理化とツール利用を必要とするタスクに対して,llmをデータ効率良く適用できることを実証する。

Autoregressive large language models (LLMs) compress knowledge from their training data through next-token conditional distributions. This limits tractable querying of this knowledge to start-to-end autoregressive sampling. However, many tasks of interest -- including sequence continuation, infilling, and other forms of constrained generation -- involve sampling from intractable posterior distributions. We address this limitation by using amortized Bayesian inference to sample from these intractable posteriors. Such amortization is algorithmically achieved by fine-tuning LLMs via diversity-seeking reinforcement learning algorithms: generative flow networks (GFlowNets). We empirically demonstrate that this distribution-matching paradigm of LLM fine-tuning can serve as an effective alternative to maximum-likelihood training and reward-maximizing policy optimization. As an important application, we interpret chain-of-thought reasoning as a latent variable modeling problem and demonstrate that our approach enables data-efficient adaptation of LLMs to tasks that require multi-step rationalization and tool use.
翻訳日:2023-10-09 14:58:50 公開日:2023-10-06
# 動的推論による変圧器活性化空間の爆発

Exploiting Transformer Activation Sparsity with Dynamic Inference ( http://arxiv.org/abs/2310.04361v1 )

ライセンス: Link先を確認
Miko{\l}aj Pi\'orczy\'nski, Filip Szatkowski, Klaudia Ba{\l}azy, Bartosz W\'ojcik(参考訳) トランスフォーマーモデルは、優れた性能にもかかわらず、しばしば高い計算要求のために実用的な制限に直面している。 同時に、以前の研究ではこれらのモデルにおいて大きな活性化間隔が示され、冗長な計算の存在が示されている。 本稿では,動的スパルシファイドトランスフォーマティブ推論(dsti)を提案する。この手法は,アクティベーションスパルシティを強制することによりトランスフォーマの推論コストを劇的に削減し,その後に密集したモデルをsparse mixed of experts (moe) バージョンに変換する。 提案手法では,各専門家の相対的寄与を予測できる小型ゲーティングネットワークの学習が可能であることを実証する。 さらに,トークン毎に個別に実行される専門家の数を動的に決定する機構を導入する。 DSTIはトランスフォーマーベースのアーキテクチャにも適用でき、精度には何の影響も与えない。 BERTベース分類モデルでは,推定コストを約60%削減する。

Transformer models, despite their impressive performance, often face practical limitations due to their high computational requirements. At the same time, previous studies have revealed significant activation sparsity in these models, indicating the presence of redundant computations. In this paper, we propose Dynamic Sparsified Transformer Inference (DSTI), a method that radically reduces the inference cost of Transformer models by enforcing activation sparsity and subsequently transforming a dense model into its sparse Mixture of Experts (MoE) version. We demonstrate that it is possible to train small gating networks that successfully predict the relative contribution of each expert during inference. Furthermore, we introduce a mechanism that dynamically determines the number of executed experts individually for each token. DSTI can be applied to any Transformer-based architecture and has negligible impact on the accuracy. For the BERT-base classification model, we reduce inference cost by almost 60%.
翻訳日:2023-10-09 14:58:32 公開日:2023-10-06
# swimxyz: 合成スイミングモーションとビデオの大規模データセット

SwimXYZ: A large-scale dataset of synthetic swimming motions and videos ( http://arxiv.org/abs/2310.04360v1 )

ライセンス: Link先を確認
Fiche Gu\'enol\'e, Sevestre Vincent, Gonzalez-Barral Camila, Leglaive Simon and S\'eguier Renaud(参考訳) テクノロジーはスポーツにおいてますます重要な役割を担い、その恩恵を受ける選手にとって真の競争上の優位性となる。 その中には、スポーツのジェスチャーを最適化するために様々なスポーツでモーションキャプチャーが開発されている。 残念ながら、従来のモーションキャプチャシステムは高価で制約がある。 最近開発されたコンピュータビジョンベースのアプローチは、水泳のような特定のスポーツでも水中環境のために苦戦している。 パフォーマンスの欠如の理由の1つは、スイミングビデオによるラベル付きデータセットの欠如である。 この問題に対処するために,スイミングモーションとビデオの合成データセットであるswimxyzを紹介する。 SwimXYZは340万フレームに3Dと3Dの関節が付加されており、SMPLパラメーター形式では240のスイミングモーションが記録されている。 このデータセットの公開に加えて,スイミングストローククラスタリングと2次元ポーズ推定におけるswimxyzの利用例を提案する。

Technologies play an increasingly important role in sports and become a real competitive advantage for the athletes who benefit from it. Among them, the use of motion capture is developing in various sports to optimize sporting gestures. Unfortunately, traditional motion capture systems are expensive and constraining. Recently developed computer vision-based approaches also struggle in certain sports, like swimming, due to the aquatic environment. One of the reasons for the gap in performance is the lack of labeled datasets with swimming videos. In an attempt to address this issue, we introduce SwimXYZ, a synthetic dataset of swimming motions and videos. SwimXYZ contains 3.4 million frames annotated with ground truth 2D and 3D joints, as well as 240 sequences of swimming motions in the SMPL parameters format. In addition to making this dataset publicly available, we present use cases for SwimXYZ in swimming stroke clustering and 2D pose estimation.
翻訳日:2023-10-09 14:58:16 公開日:2023-10-06
# アルツハイマー病検出のための言語・抑うつ特異的知識の伝達

Transferring speech-generic and depression-specific knowledge for Alzheimer's disease detection ( http://arxiv.org/abs/2310.04358v1 )

ライセンス: Link先を確認
Ziyun Cui, Wen Wu, Wei-Qiang Zhang, Ji Wu, Chao Zhang(参考訳) 自発音声からアルツハイマー病(AD)を検出することは注意を惹きつけ、トレーニングデータの空間性は依然として重要な問題である。 本論文は、音声生成知識とうつ病特異的知識の両方から、知識伝達による問題に対処する。 本稿は,大量の音声とテキストデータに基づいて事前学習した汎用基礎モデルからの逐次知識伝達を最初に研究する。 異なる基礎モデルの異なる中間ブロックから抽出された表現に基づいてAD診断のためのブロックワイズ解析を行う。 音声生成表現からの知識とは別に,抑うつとADの高い協調率に基づいて,抑うつ検出タスクから知識を同時に伝達することを提案する。 これら2つのタスク間で共有される情報を共同学習する並列知識伝達フレームワークについて検討した。 実験の結果, 提案手法はADとうつ病の検出を改善し, ADReSSoデータセットのAD診断に0.928のF1スコアを生成することがわかった。

The detection of Alzheimer's disease (AD) from spontaneous speech has attracted increasing attention while the sparsity of training data remains an important issue. This paper handles the issue by knowledge transfer, specifically from both speech-generic and depression-specific knowledge. The paper first studies sequential knowledge transfer from generic foundation models pretrained on large amounts of speech and text data. A block-wise analysis is performed for AD diagnosis based on the representations extracted from different intermediate blocks of different foundation models. Apart from the knowledge from speech-generic representations, this paper also proposes to simultaneously transfer the knowledge from a speech depression detection task based on the high comorbidity rates of depression and AD. A parallel knowledge transfer framework is studied that jointly learns the information shared between these two tasks. Experimental results show that the proposed method improves AD and depression detection, and produces a state-of-the-art F1 score of 0.928 for AD diagnosis on the commonly used ADReSSo dataset.
翻訳日:2023-10-09 14:58:02 公開日:2023-10-06
# 漸近的にフリーなスケッチリッジアンサンブル:リスク、クロスバリデーション、チューニング

Asymptotically free sketched ridge ensembles: Risks, cross-validation, and tuning ( http://arxiv.org/abs/2310.04357v1 )

ライセンス: Link先を確認
Pratik Patil, Daniel LeJeune(参考訳) ランダム行列理論を用いて一般化クロス検証 (gcv) の一貫性を確立し, スケッチリッジ回帰アンサンブルの予測リスクを推定し, 正規化とスケッチパラメータの効率的かつ一貫したチューニングを可能にした。 その結果、非常に穏やかなデータ仮定の下で、漸近的にフリーなスケッチの幅広いクラスが得られた。 正方形の予測リスクに対して,無意味な暗黙のリッジバイアスとスケッチに基づく分散を分解し,無限アンサンブルでスケッチサイズをチューニングするだけで,そのリスクを大域的に最適化できることを示す。 一般の準4次予測リスク関数に対しては、GCVを拡張して一貫したリスク推定器を構築し、ワッサーシュタイン2計量におけるGCV補正予測の分布収束を得る。 これは特に、トレーニングデータに漸近的に正しいカバレッジ条件で予測間隔を構築することができる。 また,小型のスケッチ付き尾根アンサンブルを用いて,GCVを用いて非スケッチリッジ回帰のリスクを効率的に推定できる「アンサンブルトリック」を提案する。 提案手法は, 合成データと実データの両方を, カウントスケッチ, サブサンプル化離散コサイン変換などの実用的なスケッチを用いて実験的に検証する。

We employ random matrix theory to establish consistency of generalized cross validation (GCV) for estimating prediction risks of sketched ridge regression ensembles, enabling efficient and consistent tuning of regularization and sketching parameters. Our results hold for a broad class of asymptotically free sketches under very mild data assumptions. For squared prediction risk, we provide a decomposition into an unsketched equivalent implicit ridge bias and a sketching-based variance, and prove that the risk can be globally optimized by only tuning sketch size in infinite ensembles. For general subquadratic prediction risk functionals, we extend GCV to construct consistent risk estimators, and thereby obtain distributional convergence of the GCV-corrected predictions in Wasserstein-2 metric. This in particular allows construction of prediction intervals with asymptotically correct coverage conditional on the training data. We also propose an "ensemble trick" whereby the risk for unsketched ridge regression can be efficiently estimated via GCV using small sketched ridge ensembles. We empirically validate our theoretical results using both synthetic and real large-scale datasets with practical sketches including CountSketch and subsampled randomized discrete cosine transforms.
翻訳日:2023-10-09 14:57:46 公開日:2023-10-06
# RECOMP: 圧縮と選択拡張による検索拡張LMの改善

RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation ( http://arxiv.org/abs/2310.04408v1 )

ライセンス: Link先を確認
Fangyuan Xu, Weijia Shi, Eunsol Choi(参考訳) 文書を検索し、推論時にテキストで予測することで、幅広いタスクにおける言語モデル(LM)の性能が向上する。 しかし、これらの文書は数百語に及ぶことが多いため、推測はかなり高価である。 テキスト内統合に先立って,検索した文書をテキスト要約に圧縮することを提案する。 これにより計算コストが削減されるだけでなく、長期検索された文書で関連する情報を識別するためのlmsの負担も軽減される。 本稿では,検索した文書から有用な文章を選択する抽出圧縮機と,複数の文書から情報を合成して要約を生成する抽象圧縮機という2つの圧縮機を提案する。 両圧縮機は,生成した要約文がLMの入力に前向きな場合,かつ要約を簡潔に保ちながら,終端タスクにおけるLMの性能を向上させるために訓練され,検索した文書がLMに無関係であったり,付加情報が得られなかった場合,圧縮機は空文字列を返却し,選択的な拡張を施す。言語モデリングタスクとオープンドメイン質問応答タスクに対する我々のアプローチを評価する。 両タスクの性能低下を最小限に抑えながら6%の圧縮率を実現し,既成の要約モデルよりも大幅に優れていた。 本研究では,あるLMに対して訓練した圧縮機が言語モデリングタスク上で他のLMに転送可能であることを示す。

Retrieving documents and prepending them in-context at inference time improves performance of language model (LMs) on a wide range of tasks. However, these documents, often spanning hundreds of words, make inference substantially more expensive. We propose compressing the retrieved documents into textual summaries prior to in-context integration. This not only reduces the computational costs but also relieves the burden of LMs to identify relevant information in long retrieved documents. We present two compressors -- an extractive compressor which selects useful sentences from retrieved documents and an abstractive compressor which generates summaries by synthesizing information from multiple documents. Both compressors are trained to improve LMs' performance on end tasks when the generated summaries are prepended to the LMs' input, while keeping the summary concise.If the retrieved documents are irrelevant to the input or offer no additional information to LM, our compressor can return an empty string, implementing selective augmentation.We evaluate our approach on language modeling task and open domain question answering task. We achieve a compression rate of as low as 6% with minimal loss in performance for both tasks, significantly outperforming the off-the-shelf summarization models. We show that our compressors trained for one LM can transfer to other LMs on the language modeling task and provide summaries largely faithful to the retrieved documents.
翻訳日:2023-10-09 12:51:30 公開日:2023-10-06
# ランク付けのための言語モデルの政策学習

Policy-Gradient Training of Language Models for Ranking ( http://arxiv.org/abs/2310.04407v1 )

ライセンス: Link先を確認
Ge Gao, Jonathan D. Chang, Claire Cardie, Kiant\'e Brantley, Thorsten Joachim(参考訳) テキスト検索は、チャットベースのWeb検索から質問応答システムまで、意思決定の事実知識を言語処理パイプラインに組み込む上で重要な役割を担っている。 現在の最先端のテキスト検索モデルは、事前訓練済みの大規模言語モデル(LLM)を利用して競争性能を達成するが、LLMベースのレトリバーを典型的な対照的な損失で訓練するには、ハードネガティブの選択や学習信号として追加の監督など、複雑なヒューリスティックを必要とする。 このヒューリスティックスへの依存は、コントラスト損失自体がヒューリスティックであり、処理パイプラインの終了時に下流の意思決定品質のメトリクスを直接最適化しないという事実に起因する。 この問題に対処するために,LLMをPlanet-Luceランキングポリシとしてインスタンス化することでランク付けを学ぶ新しいトレーニングアルゴリズムであるNeural PG-RANKを導入する。 neural pg-rankは、複雑なヒューリスティックにはほとんど依存せず、ポリシーグラデーションを通じたより大きな意思決定システムの一部として、検索モデルのエンドツーエンドのトレーニングのための原則化された方法を提供し、学習目標と下流の意思決定品質を効果的に統合する。 各種テキスト検索ベンチマークについて広範な実験を行った。 その結果、トレーニング目標が評価設定と整合すると、Neural PG-RANKは、ダウンストリーム質問応答タスクで使用されるいくつかの重要なデータセットに対して、ドメイン外での相当な一般化により、ドメイン内のパフォーマンス改善をもたらすことがわかった。

Text retrieval plays a crucial role in incorporating factual knowledge for decision making into language processing pipelines, ranging from chat-based web search to question answering systems. Current state-of-the-art text retrieval models leverage pre-trained large language models (LLMs) to achieve competitive performance, but training LLM-based retrievers via typical contrastive losses requires intricate heuristics, including selecting hard negatives and using additional supervision as learning signals. This reliance on heuristics stems from the fact that the contrastive loss itself is heuristic and does not directly optimize the downstream metrics of decision quality at the end of the processing pipeline. To address this issue, we introduce Neural PG-RANK, a novel training algorithm that learns to rank by instantiating a LLM as a Plackett-Luce ranking policy. Neural PG-RANK provides a principled method for end-to-end training of retrieval models as part of larger decision systems via policy gradient, with little reliance on complex heuristics, and it effectively unifies the training objective with downstream decision-making quality. We conduct extensive experiments on various text retrieval benchmarks. The results demonstrate that when the training objective aligns with the evaluation setup, Neural PG-RANK yields remarkable in-domain performance improvement, with substantial out-of-domain generalization to some critical datasets employed in downstream question answering tasks.
翻訳日:2023-10-09 12:51:04 公開日:2023-10-06
# 言語エージェント木探索による言語モデルにおける推論と計画の統合

Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models ( http://arxiv.org/abs/2310.04406v1 )

ライセンス: Link先を確認
Andy Zhou, Kai Yan, Michal Shlapentokh-Rothman, Haohan Wang, Yu-Xiong Wang(参考訳) 大規模言語モデル(LLM)は、さまざまな意思決定タスクにおいて印象的なパフォーマンスを示してきたが、単純な動作プロセスに依存しており、自律的なエージェントとして広くデプロイされていない。 LATS(Language Agent Tree Search)は, LLMの計画, 行動, 推論能力の相乗化を目的とした汎用フレームワークである。 モデルに基づく強化学習においてモンテカルロの木探索からインスピレーションを得たLATSは、LSMをエージェント、価値関数、最適化器として採用し、意思決定の強化のために潜在的強みを再調達した。 この方法において重要なことは、外部からのフィードバックに環境を使用することであり、既存のテクニックの限界を超えて、より意図的で適応的な問題解決メカニズムを提供する。 プログラミングやHotPotQA,WebShopなど,さまざまな分野にわたる実験的な評価は,LATSが推論と行動の両方に適用可能であることを示す。 特に、lats は gpt-4 で humaneval で 94.4\%、gpt-3.5 で webshop で ウェブブラウジングで 75.9 という平均スコアを達成し、本手法の有効性と汎用性を示している。

While large language models (LLMs) have demonstrated impressive performance on a range of decision-making tasks, they rely on simple acting processes and fall short of broad deployment as autonomous agents. We introduce LATS (Language Agent Tree Search), a general framework that synergizes the capabilities of LLMs in planning, acting, and reasoning. Drawing inspiration from Monte Carlo tree search in model-based reinforcement learning, LATS employs LLMs as agents, value functions, and optimizers, repurposing their latent strengths for enhanced decision-making. What is crucial in this method is the use of an environment for external feedback, which offers a more deliberate and adaptive problem-solving mechanism that moves beyond the limitations of existing techniques. Our experimental evaluation across diverse domains, such as programming, HotPotQA, and WebShop, illustrates the applicability of LATS for both reasoning and acting. In particular, LATS achieves 94.4\% for programming on HumanEval with GPT-4 and an average score of 75.9 for web browsing on WebShop with GPT-3.5, demonstrating the effectiveness and generality of our method.
翻訳日:2023-10-09 12:50:35 公開日:2023-10-06
# レコメンデーションモデルのスケールアップ時の組込み崩壊について

On the Embedding Collapse when Scaling up Recommendation Models ( http://arxiv.org/abs/2310.04400v1 )

ライセンス: Link先を確認
Xingzhuo Guo, Junwei Pan, Ximei Wang, Baixu Chen, Jie Jiang, Mingsheng Long(参考訳) 近年のディープ・ファンデーション・モデルの発展により、膨大な量のデータを活用する大規模なレコメンデーション・モデルの開発が期待できる傾向にある。 しかし、既存のレコメンデーションモデルをスケールアップし、拡張されたモデルが良好に改善されないことを観察する実験を行った。 この文脈では、拡大したモデルの埋め込み層を調査し、埋め込み崩壊の現象を特定し、最終的にスケーラビリティを阻害し、埋め込み行列は低次元部分空間に存在しがちである。 実験的および理論的解析により、推奨モデルに特有の特徴相互作用モジュールが2面効果を持つことを示した。 一方、相互作用は、崩壊した埋め込みと相互作用する際の埋め込み学習を制限し、崩壊問題を悪化させる。 一方、機能間の相互作用は、スプリアス機能の適合を緩和し、拡張性を改善するために不可欠である。 そこで本研究では,多種多様なパターンをキャプチャし,崩壊を減らすために組込みセット固有のインタラクションモジュールを組み込んだ,単純かつ効果的なマルチエンベディング設計を提案する。 広範な実験により、この設計が様々なレコメンデーションモデルに一貫したスケーラビリティを提供することが示された。

Recent advances in deep foundation models have led to a promising trend of developing large recommendation models to leverage vast amounts of available data. However, we experiment to scale up existing recommendation models and observe that the enlarged models do not improve satisfactorily. In this context, we investigate the embedding layers of enlarged models and identify a phenomenon of embedding collapse, which ultimately hinders scalability, wherein the embedding matrix tends to reside in a low-dimensional subspace. Through empirical and theoretical analysis, we demonstrate that the feature interaction module specific to recommendation models has a two-sided effect. On the one hand, the interaction restricts embedding learning when interacting with collapsed embeddings, exacerbating the collapse issue. On the other hand, feature interaction is crucial in mitigating the fitting of spurious features, thereby improving scalability. Based on this analysis, we propose a simple yet effective multi-embedding design incorporating embedding-set-specific interaction modules to capture diverse patterns and reduce collapse. Extensive experiments demonstrate that this proposed design provides consistent scalability for various recommendation models.
翻訳日:2023-10-09 12:50:12 公開日:2023-10-06
# 同時音声翻訳の安定性向上 : 修正制御可能な復号化アプローチ

Improving Stability in Simultaneous Speech Translation: A Revision-Controllable Decoding Approach ( http://arxiv.org/abs/2310.04399v1 )

ライセンス: Link先を確認
Junkun Chen, Jian Xue, Peidong Wang, Jing Pan, Jinyu Li(参考訳) 同時翻訳は、リアルタイム言語間通信において重要な役割を果たす。 近年の進歩にもかかわらず、翻訳プロセスにおける安定性の確保には依然として課題があり、部分的な結果のフリック化が主な関心事となっている。 本稿では,この問題に対処する新しいリビジョン制御手法を提案する。 提案手法では,ビームサーチプルーニングプロセス内に許容されるリビジョンウィンドウを導入し,広範囲なリビジョンを引き起こす可能性のある候補翻訳をスクリーニングし,フリックリングを大幅に削減し,フリックリングを完全に除去する機能を提供する。 提案手法は, 翻訳品質を損なうことなく, 復号安定性を大幅に向上できることを示す。

Simultaneous Speech-to-Text translation serves a critical role in real-time crosslingual communication. Despite the advancements in recent years, challenges remain in achieving stability in the translation process, a concern primarily manifested in the flickering of partial results. In this paper, we propose a novel revision-controllable method designed to address this issue. Our method introduces an allowed revision window within the beam search pruning process to screen out candidate translations likely to cause extensive revisions, leading to a substantial reduction in flickering and, crucially, providing the capability to completely eliminate flickering. The experiments demonstrate the proposed method can significantly improve the decoding stability without compromising substantially on the translation quality.
翻訳日:2023-10-09 12:49:53 公開日:2023-10-06
# モード量子論におけるクローニング・削除・隠蔽

Cloning, deleting, and hiding in modal quantum theory ( http://arxiv.org/abs/2310.04397v1 )

ライセンス: Link先を確認
Phillip Diamond and Benjamin Schumacher(参考訳) 有限場に基づく実量子理論の類似であるモード量子理論(MQT)の玩具モデルについて検討する。 特に,MQT における ‘no-go'' の結果(クローニング,削除,隠蔽など)について検討する。 mqtではクローンと削除は依然として禁止されているが、これらの結果の詳細は新しい文脈では多少異なる。 しかし、モーダルキュービットの情報は、2つの絡み合ったモーダルキュービット間の相関関係に完全に隠すことができる。

We examine the toy model of modal quantum theory (MQT), an analogue of actual quantum theory based on finite fields. In particular, we investigate how several essential ``no-go'' results (for cloning, deleting and hiding processes) work in MQT. Cloning and deleting are still forbidden in MQT, though the details of these results are somewhat different in the new context. However, the information of a modal qubit can be completely hidden in the correlations between two entangled modal qubits.
翻訳日:2023-10-09 12:49:41 公開日:2023-10-06
# Blackbox Queries を用いた並列量子回路の補間

Interpolating Parametrized Quantum Circuits using Blackbox Queries ( http://arxiv.org/abs/2310.04396v1 )

ライセンス: Link先を確認
Lars Simon and Holger Eble and Hagen-Henrik Kowalski and Manuel Radons(参考訳) 本稿では、(三角)多項式による補間を用いたパラメタライズド量子回路の古典的サロゲートの開発に焦点を当てる。 このようなサロゲートを構築するための2つのアルゴリズムを開発し、性能保証を証明する。 構成は、回路のブラックボックス評価に基づいており、量子ハードウェア上でシミュレートまたは実行することができる。 特定の回路特性を利用するホワイトボックス評価と比較してブラックボックスアプローチの限界を認める一方で、ブラックボックスアプローチが有益であることを示すシナリオを実証する。 サンプル応用は包含しているが、vqesの近似やバレン高原問題のアレビアトンに限定されない。

This article focuses on developing classical surrogates for parametrized quantum circuits using interpolation via (trigonometric) polynomials. We develop two algorithms for the construction of such surrogates and prove performance guarantees. The constructions are based on blackbox evaluations of circuits, which may either be simulated or executed on quantum hardware. While acknowledging the limitations of the blackbox approach compared to whitebox evaluations, which exploit specific circuit properties, we demonstrate scenarios in which the blackbox approach might prove beneficial. Sample applications include but are not restricted to the approximation of VQEs and the alleviaton of the barren plateau problem.
翻訳日:2023-10-09 12:49:33 公開日:2023-10-06
# データ効率アモルトベイズ推定における自己一貫性の活用

Leveraging Self-Consistency for Data-Efficient Amortized Bayesian Inference ( http://arxiv.org/abs/2310.04395v1 )

ライセンス: Link先を確認
Marvin Schmitt, Daniel Habermann, Paul-Christian B\"urkner, Ullrich K\"othe, Stefan T. Radev(参考訳) 確率的関節モデル$p(\theta, y)$ of parameters $\theta$ and data $y$における普遍対称性を活用することにより、償却ベイズ推論(ABI)の効率と精度を向上させる方法を提案する。 一言で言えば、我々はベイズの定理を反転させ、ジョイントモデルの近似表現に基づいて限界確率を推定する。 完全近似が成立すると、定義による全てのパラメータ値の限界確率は一定となる。 しかし、近似誤差は、異なるパラメータ値にまたがる辺縁度推定値に好ましくないばらつきをもたらす。 我々は、この対称性の違反を損失関数として定式化し、条件付きニューラル密度推定器の学習ダイナミクスを加速する。 提案手法は,2モーダル玩具問題に対して,明示的な可能性(様相ベース)と暗黙的な可能性(シミュレーションベース)を持つ現実的モデルに適用する。

We propose a method to improve the efficiency and accuracy of amortized Bayesian inference (ABI) by leveraging universal symmetries in the probabilistic joint model $p(\theta, y)$ of parameters $\theta$ and data $y$. In a nutshell, we invert Bayes' theorem and estimate the marginal likelihood based on approximate representations of the joint model. Upon perfect approximation, the marginal likelihood is constant across all parameter values by definition. However, approximation error leads to undesirable variance in the marginal likelihood estimates across different parameter values. We formulate violations of this symmetry as a loss function to accelerate the learning dynamics of conditional neural density estimators. We apply our method to a bimodal toy problem with an explicit likelihood (likelihood-based) and a realistic model with an implicit likelihood (simulation-based).
翻訳日:2023-10-09 12:49:23 公開日:2023-10-06
# 散乱長と電位形状制御によるピコケルビンエネルギーへの物質波コリメーション

Matter-wave collimation to picokelvin energies with scattering length and potential shape control ( http://arxiv.org/abs/2310.04383v1 )

ライセンス: Link先を確認
Alexander Herbst, Timoth\'e Estrampes, Henning Albers, Robin Corgier, Knut Stolzenberg, Sebastian Bode, Eric Charron, Ernst M. Rasel, Naceur Gaaloul, Dennis Schlippert(参考訳) 原子間相互作用が物質波のその場コリメーション法に与える影響について検討した。 初期の研究である$^{87}$rbを用いて、原子散乱長を磁気フェッシュバッハ共鳴によって調整できる$^{39}$kのレンズプロトコルを適用した。 実験では, 相互作用の最小化により, 強い相互作用機構と比較してコリメーションの強化を示し, 438(77) pkの弾道的2次元膨張エネルギーを実現する。 実験結果は, 相互作用強度の異なるトラップ配置の挙動を解析するために, アンサンブルダイナミクスを記述した正確なシミュレーションによって支持されている。 本研究は, トラップ電位から解放された後, パルスデルタ・キック・コリメーションを付加することにより, 16 pK未満の3次元膨張エネルギーを実現できる高度なシナリオを提案する。 以上の結果から, 複雑な微小重力環境や長いベースライン環境を必要とせず, 超精密な測定を行うために必要な典型的な双極子トラップ構成において, 最先端の量子状態を実現する方法が示された。

We study the impact of atomic interactions on an in-situ collimation method for matter-waves. Building upon an earlier study with $^{87}$Rb, we apply a lensing protocol to $^{39}$K where the atomic scattering length can be tailored by means of magnetic Feshbach resonances. Minimizing interactions, we show an enhancement of the collimation compared to the strong interaction regime, realizing ballistic 2D expansion energies of 438(77) pK in our experiment. Our results are supported by an accurate simulation, describing the ensemble dynamics, which we further use to study the behavior of various trap configurations for different interaction strengths. Based on our findings we propose an advanced scenario which allows for 3D expansion energies below 16 pK by implementing an additional pulsed delta-kick collimation directly after release from the trapping potential. Our results pave the way to achieve state-of-the-art quantum state in typical dipole trap setups required to perform ultra-precise measurements without the need of complex micro-gravity or long baselines environments.
翻訳日:2023-10-09 12:49:07 公開日:2023-10-06
# Hermes: 自然言語仕様から有限状態マシンを合成したセルラーネットワークプロトコルのアンロックセキュリティ解析

Hermes: Unlocking Security Analysis of Cellular Network Protocols by Synthesizing Finite State Machines from Natural Language Specifications ( http://arxiv.org/abs/2310.04381v1 )

ライセンス: Link先を確認
Abdullah Al Ishtiaq, Sarkar Snigdha Sarathi Das, Syed Md Mukit Rashid, Ali Ranjbar, Kai Tu, Tianwei Wu, Zhezheng Song, Weixuan Wang, Mujtahid Akon, Rui Zhang, Syed Rafiul Hussain(参考訳) 本稿では,自然言語セルラー仕様から形式表現を自動的に生成するエンドツーエンドフレームワークhermesを提案する。 まず, 遷移関連テキストを処理し, 遷移成分(状態, 条件, 行動)を抽出するニューラルネットワーク解析装置, NEUTREXを開発した。 また、依存関係解析木を利用してこれらの遷移成分を論理式に変換するドメイン固有言語を設計する。 最後に、これらの論理式をコンパイルして遷移を生成し、有限状態機械として形式モデルを作成する。 ハーメスの有効性を実証するため,4G NAS,5G NAS,5G RRC仕様で評価し,81-87%の総合精度を得た。 抽出したモデルのセキュリティ分析により、3つの新たな脆弱性が発見され、4Gおよび5G仕様の以前の19の攻撃と、商用4Gベースバンドの7つの偏差が確認された。

In this paper, we present Hermes, an end-to-end framework to automatically generate formal representations from natural language cellular specifications. We first develop a neural constituency parser, NEUTREX, to process transition-relevant texts and extract transition components (i.e., states, conditions, and actions). We also design a domain-specific language to translate these transition components to logical formulas by leveraging dependency parse trees. Finally, we compile these logical formulas to generate transitions and create the formal model as finite state machines. To demonstrate the effectiveness of Hermes, we evaluate it on 4G NAS, 5G NAS, and 5G RRC specifications and obtain an overall accuracy of 81-87%, which is a substantial improvement over the state-of-the-art. Our security analysis of the extracted models uncovers 3 new vulnerabilities and identifies 19 previous attacks in 4G and 5G specifications, and 7 deviations in commercial 4G basebands.
翻訳日:2023-10-09 12:48:47 公開日:2023-10-06
# brainscuba: 視覚野選択性の細かな自然言語キャプション

BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex Selectivity ( http://arxiv.org/abs/2310.04420v1 )

ライセンス: Link先を確認
Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe(参考訳) 高次視覚野の機能的構造を理解することは神経科学の中心である。 過去の研究では主に、手選択された刺激を用いて、神経集団の視覚的および意味的選択性を地図化してきた。 従来のアプローチを超えて,興味のある個々のボクセルを最大に活性化するように予測した画像に対して自然言語記述を生成するデータ駆動方式を提案する。 提案手法は,脳機能を利用したセマンティックキャプション(BrainSCUBA)を用いて,コントラスト型視覚言語モデルで学習し,事前学習した大言語モデルを用いて解釈可能なキャプションを生成する。 本手法は高次視覚領域にまたがるvoxelレベルキャプションを用いて検証する。 さらに,キャプションを用いたテキストコンディション画像合成を行い,画像が意味的にコヒーレントであり,高い予測アクティベーションが得られることを示す。 最後に,本手法が科学的発見を可能にすることを示すために,脳内における「人」表現の分布に関する探索的調査を行い,身体選択領域におけるきめ細かい意味選択性を見出した。 テキストをデコードする以前の研究とは異なり、本手法は意味的選択性のvoxel-wiseキャプションに由来する。 以上の結果から,brainscubaは脳の機能的嗜好を理解するための有望な手段であり,視覚野のさらなる仮説駆動研究の動機となっている。

Understanding the functional organization of higher visual cortex is a central focus in neuroscience. Past studies have primarily mapped the visual and semantic selectivity of neural populations using hand-selected stimuli, which may potentially bias results towards pre-existing hypotheses of visual cortex functionality. Moving beyond conventional approaches, we introduce a data-driven method that generates natural language descriptions for images predicted to maximally activate individual voxels of interest. Our method -- Semantic Captioning Using Brain Alignments ("BrainSCUBA") -- builds upon the rich embedding space learned by a contrastive vision-language model and utilizes a pre-trained large language model to generate interpretable captions. We validate our method through fine-grained voxel-level captioning across higher-order visual regions. We further perform text-conditioned image synthesis with the captions, and show that our images are semantically coherent and yield high predicted activations. Finally, to demonstrate how our method enables scientific discovery, we perform exploratory investigations on the distribution of "person" representations in the brain, and discover fine-grained semantic selectivity in body-selective areas. Unlike earlier studies that decode text, our method derives voxel-wise captions of semantic selectivity. Our results show that BrainSCUBA is a promising means for understanding functional preferences in the brain, and provides motivation for further hypothesis-driven investigation of visual cortex.
翻訳日:2023-10-09 12:42:51 公開日:2023-10-06
# 可積分系における量子Mpemba効果の微視的起源

Microscopic origin of the quantum Mpemba effect in integrable systems ( http://arxiv.org/abs/2310.04419v1 )

ライセンス: Link先を確認
Colin Rylands, Katja Klobas, Filiberto Ares, Pasquale Calabrese, Sara Murciano, Bruno Bertini(参考訳) 平衡系から遠く離れた非常に複雑な性質は、平衡で発達した物理的直観の完全な分解につながる。 ムペンバ効果(Mpemba effect)は、非平衡状態が平衡から遠く離れるとより速くリラックスする、あるいは別の言い方をすれば、熱水は温水よりも速く凍る、という現象である。 歴史があるにもかかわらず、この現象の正確な基準とメカニズムはまだ分かっていない。 ここでは、U(1)保存電荷を持つ閉体系で起こるMpemba効果の量子バージョンについて研究する:ある場合において、より非対称な初期構成はより対称的なものよりも早く対称性を緩和し、復元する。 古典の場合とは対照的に、最近導入された絡み合い非対称性を用いて任意の可積分量子系でこれが起こるための基準を確立する。 このような系における量子Mpemba効果を記述し、初期状態、特に電荷変動の性質をその発生の基準に関連付ける。 これらの基準は、自由フェルミオンモデル、規則54セルオートマトン、リーブ・リニガーモデルといった、厳密な解析的および数値的手法を用いて提示される。

The highly complicated nature of far from equilibrium systems can lead to a complete breakdown of the physical intuition developed in equilibrium. A famous example of this is the Mpemba effect, which states that non-equilibrium states may relax faster when they are further from equilibrium or, put another way, hot water can freeze faster than warm water. Despite possessing a storied history, the precise criteria and mechanisms underpinning this phenomenon are still not known. Here we study a quantum version of the Mpemba effect that takes place in closed many body systems with a U(1) conserved charge: in certain cases a more asymmetric initial configuration relaxes and restores the symmetry faster than a more symmetric one. In contrast to the classical case, we establish the criteria for this to occur in arbitrary integrable quantum systems using the recently introduced entanglement asymmetry. We describe the quantum Mpemba effect in such systems and relate properties of the initial state, specifically its charge fluctuations, to the criteria for its occurrence. These criteria are expounded using exact analytic and numerical techniques in several examples, a free fermion model, the Rule 54 cellular automaton, and the Lieb-Liniger model.
翻訳日:2023-10-09 12:42:25 公開日:2023-10-06
# 相対位置の関数補間による長所変圧器の改良

Functional Interpolation for Relative Positions Improves Long Context Transformers ( http://arxiv.org/abs/2310.04418v1 )

ライセンス: Link先を確認
Shanda Li, Chong You, Guru Guruganesh, Joshua Ainslie, Santiago Ontanon, Manzil Zaheer, Sumit Sanghai, Yiming Yang, Sanjiv Kumar, Srinadh Bhojanapalli(参考訳) 入力におけるトランスフォーマーの性能低下の防止は、これらのモデルのコンテキスト長を延ばす上で重要な課題であった。 トランスフォーマーアーキテクチャは基本的に処理可能な入力シーケンスの長さに制限がないが、トレーニング中に使用される位置エンコーディングの選択は、より長い入力でこれらのモデルの性能を制限できる。 本稿では,より長い文脈における変圧器の一般化を改善するために,プログレッシブ補間による関数相対位置符号化手法fireを提案する。 理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングの一部を表すことができる。 次に、ゼロショット言語モデリングと長文ベンチマークの両方において、FIREモデルはより長い文脈での一般化より優れていることを実証的に示す。

Preventing the performance decay of Transformers on inputs longer than those used for training has been an important challenge in extending the context length of these models. Though the Transformer architecture has fundamentally no limits on the input sequence lengths it can process, the choice of position encoding used during training can limit the performance of these models on longer inputs. We propose a novel functional relative position encoding with progressive interpolation, FIRE, to improve Transformer generalization to longer contexts. We theoretically prove that this can represent some of the popular relative position encodings, such as T5's RPE, Alibi, and Kerple. We next empirically show that FIRE models have better generalization to longer contexts on both zero-shot language modeling and long text benchmarks.
翻訳日:2023-10-09 12:42:02 公開日:2023-10-06
# 拡散ランダム特徴モデル

Diffusion Random Feature Model ( http://arxiv.org/abs/2310.04417v1 )

ライセンス: Link先を確認
Esha Saha and Giang Tran(参考訳) 拡散確率モデルはノイズからデータを生成するのに成功している。 しかし、ほとんどの拡散モデルは計算コストが高く、理論的正当化の欠如により解釈が困難である。 一方、ランダム機能モデルは解釈可能性から人気を集めているが、複雑な機械学習タスクへの応用は限定的である。 本研究では,同数の学習可能なパラメータを持つ完全連結ニューラルネットワークに対して,解釈可能であり,同等の数値計算結果を与える拡散モデルに着想を得た深層ランダム特徴モデルを提案する。 具体的には、ランダムな特徴に対する既存の結果を拡張し、サンプルデータの分布と真の分布との一般化境界をスコアマッチングの特性を用いて導出する。 ファッションMNISTデータセットとインストゥルメンタルオーディオデータに基づいてサンプルを生成し,本研究の検証を行った。

Diffusion probabilistic models have been successfully used to generate data from noise. However, most diffusion models are computationally expensive and difficult to interpret with a lack of theoretical justification. Random feature models on the other hand have gained popularity due to their interpretability but their application to complex machine learning tasks remains limited. In this work, we present a diffusion model-inspired deep random feature model that is interpretable and gives comparable numerical results to a fully connected neural network having the same number of trainable parameters. Specifically, we extend existing results for random features and derive generalization bounds between the distribution of sampled data and the true distribution using properties of score matching. We validate our findings by generating samples on the fashion MNIST dataset and instrumental audio data.
翻訳日:2023-10-09 12:41:48 公開日:2023-10-06
# Alice Benchmarks: 現実世界のオブジェクト再識別と合成を結びつける

Alice Benchmarks: Connecting Real World Object Re-Identification with the Synthetic ( http://arxiv.org/abs/2310.04416v1 )

ライセンス: Link先を確認
Xiaoxiao Sun, Yue Yao, Shengjin Wang, Hongdong Li, Liang Zheng(参考訳) オブジェクトの再識別(re-ID)において、合成データからの学習は、プライバシーの懸念がほとんどなく、大規模な注釈付きデータセットや効果的なモデルを安価に取得するための有望な戦略となっている。 多くの興味深い研究問題は、例えば、合成源と現実世界のターゲットの間のドメインギャップを減らす方法など、この戦略から生じる。 合成データから学ぶためのより新しいアプローチの開発を容易にするために、aliceベンチマーク、ベンチマークを提供する大規模データセット、および評価プロトコルを研究コミュニティに紹介する。 Aliceベンチマークでは、人と車の2つのre-IDタスクが提供されている。 私たちはAlicePersonとAliceVehicleという2つの挑戦的な現実世界のターゲットデータセットを収集し、注釈を付けました。 実際のターゲットの重要な特徴として、トレーニングセットのクラスタ性は、実際のドメイン適応テストシナリオに近付くように手作業で保証されていない。 それに対応して、既存の PersonX と VehicleX を合成ソースドメインとして再利用する。 第一の目的は、現実世界で効果的に機能する合成データからモデルをトレーニングすることだ。 本稿では、aliceベンチマークの設定を詳述し、既存の一般的なドメイン適応手法の分析を行い、今後の興味深い方向性について考察する。 コミュニティがメソッドを便利かつ公平に評価するために、オンラインサーバを設置する。

For object re-identification (re-ID), learning from synthetic data has become a promising strategy to cheaply acquire large-scale annotated datasets and effective models, with few privacy concerns. Many interesting research problems arise from this strategy, e.g., how to reduce the domain gap between synthetic source and real-world target. To facilitate developing more new approaches in learning from synthetic data, we introduce the Alice benchmarks, large-scale datasets providing benchmarks as well as evaluation protocols to the research community. Within the Alice benchmarks, two object re-ID tasks are offered: person and vehicle re-ID. We collected and annotated two challenging real-world target datasets: AlicePerson and AliceVehicle, captured under various illuminations, image resolutions, etc. As an important feature of our real target, the clusterability of its training set is not manually guaranteed to make it closer to a real domain adaptation test scenario. Correspondingly, we reuse existing PersonX and VehicleX as synthetic source domains. The primary goal is to train models from synthetic data that can work effectively in the real world. In this paper, we detail the settings of Alice benchmarks, provide an analysis of existing commonly-used domain adaptation methods, and discuss some interesting future directions. An online server will be set up for the community to evaluate methods conveniently and fairly.
翻訳日:2023-10-09 12:41:37 公開日:2023-10-06
# 現代のディープラーニングではなぜ体重減少が必要なのか?

Why Do We Need Weight Decay in Modern Deep Learning? ( http://arxiv.org/abs/2310.04415v1 )

ライセンス: Link先を確認
Maksym Andriushchenko and Francesco D'Angelo and Aditya Varre and Nicolas Flammarion(参考訳) 重みの減衰は、大規模言語モデルを含む最先端のディープネットワークを訓練するために広く使用される技術である。 広く使われているが、その役割はよく分かっていない。 本研究では,現代深層学習における体重減少の役割が,古典的学習理論における正規化効果と異なる点を強調する。 過パラメータ深層ネットワークでは,重み減衰が最適化ダイナミクスを修飾し,損失安定化機構を介してsgdの常在する暗黙の正則化を促進することを示す。 対照的に、ほぼオンラインのSGDで訓練された過度パラメータ付き大規模言語モデルでは、重みが確率的最適化におけるバイアス分散トレードオフとどのようにバランスを保ち、トレーニング損失を減少させるかを記述する。 また, 重量減少はbfloat16混合適応訓練において突然の損失発散を防止し, llm訓練の重要な道具である。 全体としては、視覚タスクに関するResNetsからLLMへの統一的な視点を示す: 体重減衰は明示的な正規化器として有用ではなく、望ましい方法でトレーニングダイナミクスを変更する。 私たちのコードはhttps://github.com/tml-epfl/why-weight-decay.comで利用可能です。

Weight decay is a broadly used technique for training state-of-the-art deep networks, including large language models. Despite its widespread usage, its role remains poorly understood. In this work, we highlight that the role of weight decay in modern deep learning is different from its regularization effect studied in classical learning theory. For overparameterized deep networks, we show how weight decay modifies the optimization dynamics enhancing the ever-present implicit regularization of SGD via the loss stabilization mechanism. In contrast, for underparameterized large language models trained with nearly online SGD, we describe how weight decay balances the bias-variance tradeoff in stochastic optimization leading to lower training loss. Moreover, we show that weight decay also prevents sudden loss divergences for bfloat16 mixed-precision training which is a crucial tool for LLM training. Overall, we present a unifying perspective from ResNets on vision tasks to LLMs: weight decay is never useful as an explicit regularizer but instead changes the training dynamics in a desirable way. Our code is available at https://github.com/tml-epfl/why-weight-decay.
翻訳日:2023-10-09 12:41:15 公開日:2023-10-06
# CIFAR-10-Warehouse:モデル一般化解析における広範およびより現実的なテストベッド

CIFAR-10-Warehouse: Broad and More Realistic Testbeds in Model Generalization Analysis ( http://arxiv.org/abs/2310.04414v1 )

ライセンス: Link先を確認
Xiaoxiao Sun, Xingjian Leng, Zijian Wang, Yang Yang, Zi Huang, Liang Zheng(参考訳) さまざまな未知環境におけるモデル性能の分析は、機械学習コミュニティにおける重要な研究課題である。 この問題を研究するためには,環境の相違を広範囲にカバーする分散テストセットを用いたテストベッドを構築することが重要である。 しかし、既存のテストベッドは通常、少数のドメインを持つか、画像の破損によって合成されるかのいずれかであり、実際の有効性を示すアルゴリズム設計を妨げる。 本稿では,画像検索エンジンと拡散モデルにより収集した180個のデータセットからなるCIFAR-10-Warehouseを紹介する。 一般に300から8000枚の画像があり、データセットには自然画像、漫画、特定の色、あるいは自然に現れない物体が含まれている。 CIFAR-10-Wにより、様々なアウト・オブ・ディストリビューション環境におけるドメイン一般化とモデル精度予測という2つの一般化タスクの評価を強化し、理解を深めることを目指している。 我々は大規模なベンチマークと比較実験を行い、CIFAR-10-Wがこれらのタスクに固有の新しい興味深い洞察を提供することを示した。 また、CIFAR-10-Wの恩恵を受ける他の分野についても論じる。

Analyzing model performance in various unseen environments is a critical research problem in the machine learning community. To study this problem, it is important to construct a testbed with out-of-distribution test sets that have broad coverage of environmental discrepancies. However, existing testbeds typically either have a small number of domains or are synthesized by image corruptions, hindering algorithm design that demonstrates real-world effectiveness. In this paper, we introduce CIFAR-10-Warehouse, consisting of 180 datasets collected by prompting image search engines and diffusion models in various ways. Generally sized between 300 and 8,000 images, the datasets contain natural images, cartoons, certain colors, or objects that do not naturally appear. With CIFAR-10-W, we aim to enhance the evaluation and deepen the understanding of two generalization tasks: domain generalization and model accuracy prediction in various out-of-distribution environments. We conduct extensive benchmarking and comparison experiments and show that CIFAR-10-W offers new and interesting insights inherent to these tasks. We also discuss other fields that would benefit from CIFAR-10-W.
翻訳日:2023-10-09 12:40:57 公開日:2023-10-06
# 一様サンプリングを超えて:不均衡データセットによるオフライン強化学習

Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets ( http://arxiv.org/abs/2310.04413v1 )

ライセンス: Link先を確認
Zhang-Wei Hong, Aviral Kumar, Sathwik Karnik, Abhishek Bhandwaldar, Akash Srivastava, Joni Pajarinen, Romain Laroche, Abhishek Gupta, Pulkit Agrawal(参考訳) オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集することなく意思決定ポリシーを学習することを目的としている。 行動クローニングのような教師付き学習技術の代わりに強化学習(RL)を使う主な動機は、データセットを構成する軌道よりも高い平均回帰を達成するポリシーを見つけることである。 しかし、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されない。 これは、現在のオフラインRLアルゴリズムがデータセットの軌道に近い位置にあるという仮定によるものであると我々は主張する。 データセットが主に最適下軌道で構成されている場合、この仮定は、最適下行動の模倣をポリシーに強制する。 我々は、データセットのすべてのアクション(すなわち、一様サンプリング)ではなく、ポリシーを「良いデータ」にのみ制約できるサンプリング戦略を提案することで、この問題を克服する。 本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。 評価の結果,72個の不均衡データセット,D4RLデータセット,および3種類のオフラインRLアルゴリズムにおいて,大幅な性能向上を示した。 コードはhttps://github.com/Improbable-AI/dw-offline-rlで入手できる。

Offline policy learning is aimed at learning decision-making policies using existing datasets of trajectories without collecting additional data. The primary motivation for using reinforcement learning (RL) instead of supervised learning techniques such as behavior cloning is to find a policy that achieves a higher average return than the trajectories constituting the dataset. However, we empirically find that when a dataset is dominated by suboptimal trajectories, state-of-the-art offline RL algorithms do not substantially improve over the average return of trajectories in the dataset. We argue this is due to an assumption made by current offline RL algorithms of staying close to the trajectories in the dataset. If the dataset primarily consists of sub-optimal trajectories, this assumption forces the policy to mimic the suboptimal actions. We overcome this issue by proposing a sampling strategy that enables the policy to only be constrained to ``good data" rather than all actions in the dataset (i.e., uniform sampling). We present a realization of the sampling strategy and an algorithm that can be used as a plug-and-play module in standard offline RL algorithms. Our evaluation demonstrates significant performance gains in 72 imbalanced datasets, D4RL dataset, and across three different offline RL algorithms. Code is available at https://github.com/Improbable-AI/dw-offline-rl.
翻訳日:2023-10-09 12:40:38 公開日:2023-10-06
# FedConv: フェデレーション学習におけるデータ不均一性処理のための畳み込みニューラルネットワークの強化

FedConv: Enhancing Convolutional Neural Networks for Handling Data Heterogeneity in Federated Learning ( http://arxiv.org/abs/2310.04412v1 )

ライセンス: Link先を確認
Peiran Xu, Zeyu Wang, Jieru Mei, Liangqiong Qu, Alan Yuille, Cihang Xie, Yuyin Zhou(参考訳) フェデレーション学習(federated learning, fl)は、複数のデバイスからのデータを使用して共有モデルを共同学習し、データ漏洩のリスクを軽減する、機械学習の新たなパラダイムである。 最近の研究は、ビジョントランスフォーマー(ViT)がFLにおけるデータの不均一性に対処する上で、畳み込みニューラルネットワーク(CNN)よりも優れていることを示唆している。 本稿では,活性化関数や正規化層などの異なるアーキテクチャ要素が異種FLの性能に与える影響を系統的に検討する。 厳密な経験的分析を通じて、異種FLのマイクロアーキテクチャ設計原理に関する一級一般ガイダンスを提供することができる。 興味深いことに、われわれの研究結果は、戦略的アーキテクチャ変更によって純粋なCNNは、FLにおける異種データクライアントの処理において、VTと一致またはそれ以上の堅牢性を達成できることを示している。 さらに,本手法は既存のFL技術と互換性があり,FLベンチマークの幅広い範囲に最先端のソリューションを提供する。 コードはhttps://github.com/UCSC-VLAA/FedConvで公開されている。

Federated learning (FL) is an emerging paradigm in machine learning, where a shared model is collaboratively learned using data from multiple devices to mitigate the risk of data leakage. While recent studies posit that Vision Transformer (ViT) outperforms Convolutional Neural Networks (CNNs) in addressing data heterogeneity in FL, the specific architectural components that underpin this advantage have yet to be elucidated. In this paper, we systematically investigate the impact of different architectural elements, such as activation functions and normalization layers, on the performance within heterogeneous FL. Through rigorous empirical analyses, we are able to offer the first-of-its-kind general guidance on micro-architecture design principles for heterogeneous FL. Intriguingly, our findings indicate that with strategic architectural modifications, pure CNNs can achieve a level of robustness that either matches or even exceeds that of ViTs when handling heterogeneous data clients in FL. Additionally, our approach is compatible with existing FL techniques and delivers state-of-the-art solutions across a broad spectrum of FL benchmarks. The code is publicly available at https://github.com/UCSC-VLAA/FedConv
翻訳日:2023-10-09 12:40:14 公開日:2023-10-06
# オフラインRLにおけるQ値の多様性の理解、予測、改善

Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL ( http://arxiv.org/abs/2310.04411v1 )

ライセンス: Link先を確認
Yang Yue, Rui Lu, Bingyi Kang, Shiji Song, Gao Huang(参考訳) Q値推定のばらつきは、エージェントが実際のダイナミクスにアクセスできないオフラインRLにおいて顕著な問題となっている。 従来の信念では、値のターゲットをブートストラップするときにディストリビューションのアクションを問うことが不安定である。 この問題は、政策制約や保守的なQ推定によって緩和できるが、発散の原因となるメカニズムに関する理論的理解は欠如している。 本研究では,この機構を徹底的に理解し,改良した解を求める。 まず,オフラインrlにおけるq値推定の発散の主な原因として,自励という基本パターンを同定した。 そこで本研究では,学習時のqネットワークの進化的特性を測定するために,神経接核(ntk)に基づく新しい自己排他的固有値測度(seem)メトリックを提案し,発散の発生の興味深い説明を提供する。 本理論では,早期にトレーニングが分岐するか否かを確実に判断し,推定したQ値,モデルの規範,SGDオプティマイザを使用する際のクラッシュステップの順を予測できる。 この実験は、この理論解析と完全に一致している。 そこで本研究では,新たな視点からの分岐の解消,すなわち,より優れた行動推定のためにモデルのアーキテクチャを改善することを提案する。 広範な実証研究を通じて,レイヤノルムは不利なバイアスを伴わずに発散を効果的に回避し,優れた性能をもたらすよい解決策であると結論づけた。 実験の結果、データセットの1つのトランジッションのみを使用することで、これまですべてのメソッドが失敗するなど、最も困難な設定でも動作することが判明した。 さらに、最新のオフラインRLメソッドに簡単にプラグインでき、多くの課題に対してSOTA結果が得られる。 また、その効果について独自の洞察を与えます。

The divergence of the Q-value estimation has been a prominent issue in offline RL, where the agent has no access to real dynamics. Traditional beliefs attribute this instability to querying out-of-distribution actions when bootstrapping value targets. Though this issue can be alleviated with policy constraints or conservative Q estimation, a theoretical understanding of the underlying mechanism causing the divergence has been absent. In this work, we aim to thoroughly comprehend this mechanism and attain an improved solution. We first identify a fundamental pattern, self-excitation, as the primary cause of Q-value estimation divergence in offline RL. Then, we propose a novel Self-Excite Eigenvalue Measure (SEEM) metric based on Neural Tangent Kernel (NTK) to measure the evolving property of Q-network at training, which provides an intriguing explanation of the emergence of divergence. For the first time, our theory can reliably decide whether the training will diverge at an early stage, and even predict the order of the growth for the estimated Q-value, the model's norm, and the crashing step when an SGD optimizer is used. The experiments demonstrate perfect alignment with this theoretic analysis. Building on our insights, we propose to resolve divergence from a novel perspective, namely improving the model's architecture for better extrapolating behavior. Through extensive empirical studies, we identify LayerNorm as a good solution to effectively avoid divergence without introducing detrimental bias, leading to superior performance. Experimental results prove that it can still work in some most challenging settings, i.e. using only 1 transitions of the dataset, where all previous methods fail. Moreover, it can be easily plugged into modern offline RL methods and achieve SOTA results on many challenging tasks. We also give unique insights into its effectiveness.
翻訳日:2023-10-09 12:39:53 公開日:2023-10-06
# 決定ConvFormer: MetaFormerにおける局所フィルタリングは意思決定に十分である

Decision ConvFormer: Local Filtering in MetaFormer is Sufficient for Decision Making ( http://arxiv.org/abs/2310.03022v2 )

ライセンス: Link先を確認
Jeonghye Kim, Suyoung Lee, Woojun Kim, Youngchul Sung(参考訳) 最近の自然言語処理におけるtransformerの成功は、様々な領域での使用を促している。 オフライン強化学習(RL)では、決定変換器(DT)がトランスフォーマーに基づく有望なモデルとして登場している。 しかし, DTのアテンションモジュールはマルコフ決定過程としてモデル化されたRLの軌道中の固有局所依存パターンを捉えるのに適切でないことがわかった。 DTの限界を克服するため,複数のエンティティを並列に処理し,複数のエンティティ間の相互関係を理解するための汎用構造であるMetaFormerのアーキテクチャに基づく,新しいアクションシーケンス予測器であるDecision ConvFormer (DC)を提案する。 DCはトークンミキサーとして局所畳み込みフィルタリングを採用し、RLデータセットの固有の局所関連を効果的にキャプチャすることができる。 大規模な実験では、DCはリソースを少なくしながら、様々な標準RLベンチマークで最先端のパフォーマンスを達成した。 さらに,dcはデータの基盤となる意味をよりよく理解し,一般化能力を高めていることを示す。

The recent success of Transformer in natural language processing has sparked its use in various domains. In offline reinforcement learning (RL), Decision Transformer (DT) is emerging as a promising model based on Transformer. However, we discovered that the attention module of DT is not appropriate to capture the inherent local dependence pattern in trajectories of RL modeled as a Markov decision process. To overcome the limitations of DT, we propose a novel action sequence predictor, named Decision ConvFormer (DC), based on the architecture of MetaFormer, which is a general structure to process multiple entities in parallel and understand the interrelationship among the multiple entities. DC employs local convolution filtering as the token mixer and can effectively capture the inherent local associations of the RL dataset. In extensive experiments, DC achieved state-of-the-art performance across various standard RL benchmarks while requiring fewer resources. Furthermore, we show that DC better understands the underlying meaning in data and exhibits enhanced generalization capability.
翻訳日:2023-10-09 10:31:10 公開日:2023-10-06
# 授業におけるchatgpt : 学部生のコンピュータ科学問題を解くための強みと弱みの分析

ChatGPT in the Classroom: An Analysis of Its Strengths and Weaknesses for Solving Undergraduate Computer Science Questions ( http://arxiv.org/abs/2304.14993v4 )

ライセンス: Link先を確認
Ishika Joshi, Ritvik Budhiraja, Harshal Dev, Jahnvi Kadia, M. Osama Ataullah, Sayan Mitra, Dhruv Kumar, Harshal D. Akolekar(参考訳) chatgptはopenaiが開発したai言語モデルで、人間のようなテキストを理解し、生成することができる。 言語生成、質問応答、テキスト要約、チャットボット開発、言語翻訳、感情分析、コンテンツ生成、パーソナライズ、テキスト補完、ストーリーテリングなど、さまざまなユースケースで使用することができる。 ChatGPTは大きな肯定的な注目を集めているが、学術界では理解と不確実性の感覚も生み出している。 学生はchatgptを利用して家庭での課題や試験を完了し、真に知識を得ることなく良い成績を得ることができるのではないかという懸念がある。 本稿では,学部生のコンピュータ科学における話題に関する多岐にわたる質問に対して,chatgptの信頼性の高まりを定量的に示す手法を提案する。 分析の結果,学生はチャットgptに依拠して自傷行為のリスクを負い,課題や試験を完遂する可能性が示唆された。 この分析に基づいて、学生とインストラクターの両方に建設的なレコメンデーションを提供する。

ChatGPT is an AI language model developed by OpenAI that can understand and generate human-like text. It can be used for a variety of use cases such as language generation, question answering, text summarization, chatbot development, language translation, sentiment analysis, content creation, personalization, text completion, and storytelling. While ChatGPT has garnered significant positive attention, it has also generated a sense of apprehension and uncertainty in academic circles. There is concern that students may leverage ChatGPT to complete take-home assignments and exams and obtain favorable grades without genuinely acquiring knowledge. This paper adopts a quantitative approach to demonstrate ChatGPT's high degree of unreliability in answering a diverse range of questions pertaining to topics in undergraduate computer science. Our analysis shows that students may risk self-sabotage by blindly depending on ChatGPT to complete assignments and exams. We build upon this analysis to provide constructive recommendations to both students and instructors.
翻訳日:2023-10-09 10:29:26 公開日:2023-10-06
# GoLLIE: アノテーションガイドラインの改善によるゼロショット情報抽出

GoLLIE: Annotation Guidelines improve Zero-Shot Information-Extraction ( http://arxiv.org/abs/2310.03668v2 )

ライセンス: Link先を確認
Oscar Sainz, Iker Garc\'ia-Ferrero, Rodrigo Agerri, Oier Lopez de Lacalle, German Rigau, Eneko Agirre(参考訳) 大規模な言語モデル(llm)と命令チューニングが組み合わさって、未認識のタスクに一般化する際に大きな進歩を遂げた。 しかし、情報抽出(ie)では成功せず、タスク固有のモデルに遅れを取っている。 通常、IEタスクは、タスクを記述し、人間に例を示す複雑なガイドラインによって特徴づけられる。 このような情報を活用する以前の試みは、最大のモデルでも、最初からガイドラインに従うことができないため、失敗している。 本稿では、アノテーションガイドラインに適合するように微調整されたieタスクのゼロショット結果を改善するためのモデルであるgollie(guideline-following large language model for ie)を提案する。 包括的評価は、GoLLIEが目に見えないガイドラインを一般化し、フォローできることを実証的に示し、ゼロショット情報抽出における以前の試みよりも優れている。 アブレーション研究は、詳細なガイドラインが良い結果の鍵であることを示している。

Large Language Models (LLMs) combined with instruction tuning have made significant progress when generalizing to unseen tasks. However, they have been less successful in Information Extraction (IE), lagging behind task-specific models. Typically, IE tasks are characterized by complex annotation guidelines which describe the task and give examples to humans. Previous attempts to leverage such information have failed, even with the largest models, as they are not able to follow the guidelines out-of-the-box. In this paper we propose GoLLIE (Guideline-following Large Language Model for IE), a model able to improve zero-shot results on unseen IE tasks by virtue of being fine-tuned to comply with annotation guidelines. Comprehensive evaluation empirically demonstrates that GoLLIE is able to generalize to and follow unseen guidelines, outperforming previous attempts at zero-shot information extraction. The ablation study shows that detailed guidelines is key for good results.
翻訳日:2023-10-09 10:26:58 公開日:2023-10-06
# GeneER:遺伝子発現データから遺伝子間相互作用を検出する並列層ディープラーニングネットワーク

GENER: A Parallel Layer Deep Learning Network To Detect Gene-Gene Interactions From Gene Expression Data ( http://arxiv.org/abs/2310.03611v2 )

ライセンス: Link先を確認
Ahmed Fakhry, Raneem Khafagy, Adriaan-Alexander Ludl(参考訳) 既知の遺伝子発現と遺伝子相互作用データに基づく新しい遺伝子相互作用の検出と発見は重要な課題である。 様々な統計的・深層学習手法が、遺伝子相互作用のトポロジー構造と遺伝子発現パターンを利用して、新しい遺伝子相互作用を予測することで、この課題に挑戦しようと試みている。 対照的に、いくつかのアプローチは遺伝子発現プロファイルの活用に特化している。 本稿では,遺伝子発現データを用いた遺伝子関係の同定専用に設計された並列層深層学習ネットワークGENERを紹介する。 我々は2つのトレーニング実験を行い、既存の統計的および深層学習手法とネットワークの性能を比較した。 特に,BioGRIDとDREAM5の組み合わせによるAUROC平均スコア0.834を達成し,遺伝子間相互作用を予測する競合手法よりも優れていた。

Detecting and discovering new gene interactions based on known gene expressions and gene interaction data presents a significant challenge. Various statistical and deep learning methods have attempted to tackle this challenge by leveraging the topological structure of gene interactions and gene expression patterns to predict novel gene interactions. In contrast, some approaches have focused exclusively on utilizing gene expression profiles. In this context, we introduce GENER, a parallel-layer deep learning network designed exclusively for the identification of gene-gene relationships using gene expression data. We conducted two training experiments and compared the performance of our network with that of existing statistical and deep learning approaches. Notably, our model achieved an average AUROC score of 0.834 on the combined BioGRID&DREAM5 dataset, outperforming competing methods in predicting gene-gene interactions.
翻訳日:2023-10-09 10:26:44 公開日:2023-10-06
# faser: 中間表現を用いたバイナリコードの類似性検索

FASER: Binary Code Similarity Search through the use of Intermediate Representations ( http://arxiv.org/abs/2310.03605v2 )

ライセンス: Link先を確認
Josh Collyer, Tim Watson and Iain Phillips(参考訳) クロスアーキテクチャソフトウェアに関心のある機能を特定できることは、マルウェアの分析、ソフトウェアサプライチェーンの確保、脆弱性調査の実施などにおいて有用である。 クロスアーキテクチャ バイナリコード類似性検索は、多くの研究で研究され、その目的を達成するために様々なデータソースを使用してきた。 データソースは通常、関数制御フローグラフやバイナリレベルのコールグラフ、分解プロセスの出力、動的解析アプローチの出力などのバイナリから派生した共通構造を描画する。 あまり注目されていないデータソースはバイナリ中間表現である。 バイナリ中間表現は2つの興味深い特性を持っている:それらは本質的にクロスアーキテクチャであり、下流の使用をサポートするために明示的に関数の意味をエンコードする。 本稿では,長い文書トランスフォーマーと中間表現を用いて,手作業による特徴処理や事前学習,動的解析のステップを必要とせずに,クロスアーキテクチャ機能探索が可能なモデルを作成する,文字列符号化表現(faser)としての関数を提案する。 提案手法は,汎用関数探索タスクとターゲット脆弱性探索タスクという,2つのタスクに対する一連のベースラインアプローチと比較した。 我々のアプローチは、両方のタスクにまたがって強力なパフォーマンスを示し、すべてのベースラインアプローチよりも優れたパフォーマンスを示します。

Being able to identify functions of interest in cross-architecture software is useful whether you are analysing for malware, securing the software supply chain or conducting vulnerability research. Cross-Architecture Binary Code Similarity Search has been explored in numerous studies and has used a wide range of different data sources to achieve its goals. The data sources typically used draw on common structures derived from binaries such as function control flow graphs or binary level call graphs, the output of the disassembly process or the outputs of a dynamic analysis approach. One data source which has received less attention is binary intermediate representations. Binary Intermediate representations possess two interesting properties: they are cross architecture by their very nature and encode the semantics of a function explicitly to support downstream usage. Within this paper we propose Function as a String Encoded Representation (FASER) which combines long document transformers with the use of intermediate representations to create a model capable of cross architecture function search without the need for manual feature engineering, pre-training or a dynamic analysis step. We compare our approach against a series of baseline approaches for two tasks; A general function search task and a targeted vulnerability search task. Our approach demonstrates strong performance across both tasks, performing better than all baseline approaches.
翻訳日:2023-10-09 10:26:30 公開日:2023-10-06
# MedSyn:高忠実度3DCT画像のテキスト誘導型解剖学的合成

MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images ( http://arxiv.org/abs/2310.03559v2 )

ライセンス: Link先を確認
Yanwu Xu, Li Sun, Wei Peng, Shyam Visweswaran, and Kayhan Batmanghelich(参考訳) 本稿では,テキスト情報を用いた高品質な3次元肺CT画像作成手法を提案する。 拡散に基づく生成モデルが医療画像にますます使われている一方で、現在の最先端のアプローチは低解像度の出力に限られており、放射線学レポートの豊富な情報を不活用している。 放射線レポートは、追加のガイダンスを提供し、画像合成のきめ細かい制御を提供することで、生成プロセスを強化することができる。 それでも、高解像度の3D画像へのテキスト誘導生成の拡大は、重要な記憶と解剖学的詳細保存の課題を引き起こす。 メモリ問題に対処するため,UNetアーキテクチャを改良した階層型スキームを導入する。 まず,テキストに条件づけられた低解像度画像を合成し,それに続くボリュームデータ生成の基盤として機能する。 生成した試料の解剖学的可溶性を確保するため,ct画像と連動して血管,気道,球状分節マスクを作製し,さらなる指導を行う。 このモデルは、テキスト入力とセグメンテーションタスクを使用して合成画像を生成する能力を示す。 比較評価の結果,ganおよび拡散法に基づく最も先進的なモデルと比較して,特に断裂線,気道,血管構造などの重要な解剖学的特徴を正確に保持する手法が優れていることが示された。 この革新は新しい可能性をもたらす。 本研究は,(1)文章的プロンプトと解剖学的要素に基づく画像作成手法の開発,(2)解剖学的要素を条件とした新たな画像生成機能の開発,という2つの目的に焦点を当てた。 画像生成の進歩は、多くの下流タスクを強化するために応用できる。

This paper introduces an innovative methodology for producing high-quality 3D lung CT images guided by textual information. While diffusion-based generative models are increasingly used in medical imaging, current state-of-the-art approaches are limited to low-resolution outputs and underutilize radiology reports' abundant information. The radiology reports can enhance the generation process by providing additional guidance and offering fine-grained control over the synthesis of images. Nevertheless, expanding text-guided generation to high-resolution 3D images poses significant memory and anatomical detail-preserving challenges. Addressing the memory issue, we introduce a hierarchical scheme that uses a modified UNet architecture. We start by synthesizing low-resolution images conditioned on the text, serving as a foundation for subsequent generators for complete volumetric data. To ensure the anatomical plausibility of the generated samples, we provide further guidance by generating vascular, airway, and lobular segmentation masks in conjunction with the CT images. The model demonstrates the capability to use textual input and segmentation tasks to generate synthesized images. The results of comparative assessments indicate that our approach exhibits superior performance compared to the most advanced models based on GAN and diffusion techniques, especially in accurately retaining crucial anatomical features such as fissure lines, airways, and vascular structures. This innovation introduces novel possibilities. This study focuses on two main objectives: (1) the development of a method for creating images based on textual prompts and anatomical components, and (2) the capability to generate new images conditioning on anatomical elements. The advancements in image generation can be applied to enhance numerous downstream tasks.
翻訳日:2023-10-09 10:26:05 公開日:2023-10-06
# 2023年におけるフォルモサ音声認識のノースシステム

The North System for Formosa Speech Recognition Challenge 2023 ( http://arxiv.org/abs/2310.03443v2 )

ライセンス: Link先を確認
Li-Wei Chen, Kai-Chen Cheng, Hung-Shin Lee(参考訳) 本報告では,台湾のハッカ語における単語・音節の自動認識の実現を目的とした,提案する北部システムの簡潔な概要について述べる。 このレポートでは、トレーニングデータの取得、構成、利用、モデルのアーキテクチャ、ハードウェア仕様と運用統計の3つの重要なコンポーネントについて概説している。 システムのデモンストレーションはhttps://asrvm.iis.sinica.edu.tw/hakka_sixianで公開されている。

This report provides a concise overview of the proposed North system, which aims to achieve automatic word/syllable recognition for Taiwanese Hakka (Sixian). The report outlines three key components of the system: the acquisition, composition, and utilization of the training data; the architecture of the model; and the hardware specifications and operational statistics. The demonstration of the system has been made public at https://asrvm.iis.sinica.edu.tw/hakka_sixian.
翻訳日:2023-10-09 10:25:33 公開日:2023-10-06
# パーソナライズドストーリー評価の学習

Learning Personalized Story Evaluation ( http://arxiv.org/abs/2310.03304v2 )

ライセンス: Link先を確認
Danqing Wang, Kevin Yang, Hanlin Zhu, Xiaomeng Yang, Andrew Cohen, Lei Li, Yuandong Tian(参考訳) 大規模言語モデル(LLM)は,(1)データ汚染,(2)多次元評価基準,(3)レビュアーの個人的嗜好から生じる主観性などの理由から,オープンエンドテキスト生成の性能を評価することは容易ではない。 このような問題に対処するため,我々は汚染のないオープンエンド世代アセスメントにおいてパーソナライズをモデル化することを提案する。 既存のデータセットを適切な匿名化と新しいパーソナライズラベルで再提案することにより,mpst と per-doc の2つの新しいデータセットをパーソナライズストーリー評価用に作成する。 さらに,レビュー者の好みを推測するパーソナライズドストーリー評価モデルを開発し,パーソナライズドストーリー評価を提供する。 特に、あるレビュアーの模範的なレビューがいくつかあることを踏まえると、PERSEは、新しいテキスト入力に対するレビュアーの詳細なレビューまたはいくつかの側面(興味や驚きなど)の詳細な比較を予測している。 実験結果から, PERSEはGPT-4よりも15.8%, ストーリーレーティングのKendall相関は13.7%, ペア選択予測精度は13.7%向上した。 データセットとコードはhttps://github.com/dqwang122/PerSEでリリースされる。

While large language models (LLMs) have shown impressive results for more objective tasks such as QA and retrieval, it remains nontrivial to evaluate their performance on open-ended text generation for reasons including (1) data contamination; (2) multi-dimensional evaluation criteria; and (3) subjectiveness stemming from reviewers' personal preferences. To address such issues, we propose to model personalization in an uncontaminated open-ended generation assessment. We create two new datasets Per-MPST and Per-DOC for personalized story evaluation, by re-purposing existing datasets with proper anonymization and new personalized labels. We further develop a personalized story evaluation model PERSE to infer reviewer preferences and provide a personalized evaluation. Specifically, given a few exemplary reviews from a particular reviewer, PERSE predicts either a detailed review or fine-grained comparison in several aspects (such as interestingness and surprise) for that reviewer on a new text input. Experimental results show that PERSE outperforms GPT-4 by 15.8% on Kendall correlation of story ratings, and by 13.7% on pairwise preference prediction accuracy. Both datasets and code will be released at https://github.com/dqwang122/PerSE.
翻訳日:2023-10-09 10:25:25 公開日:2023-10-06
# 翻訳されていないmRNA領域と関数予測のための5' UTR言語モデル

A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions ( http://arxiv.org/abs/2310.03281v2 )

ライセンス: Link先を確認
Yanyi Chu, Dan Yu, Yupeng Li, Kaixuan Huang, Yue Shen, Le Cong, Jason Zhang, Mengdi Wang(参考訳) 5' UTRはmRNA分子の開始時の調節領域であり、翻訳過程の制御において重要な役割を担い、タンパク質の発現レベルに影響を与える。 言語モデルは、タンパク質およびゲノム配列の機能の復号化においてその効果を示した。 本稿では,5' UTR の言語モデルを導入し,それを UTR-LM と呼ぶ。 UTR-LMは複数の種の内因性5' UTRで事前訓練され、二次構造や最小自由エネルギーを含む教師付き情報によってさらに増強される。 UTR-LMを様々な下流タスクで微調整した。 このモデルは、平均リボソーム負荷を予測するために最大42%、翻訳効率とmRNA発現レベルを予測するために最大60%で、最もよく知られたベンチマークを上回った。 このモデルはまた、未翻訳領域内で未記載のリボソームエントリサイトを識別し、最高のベースラインに比べてAUPRを0.37から0.52に改善する。 さらに,翻訳効率の予測値の高い211個の新規5' UTRのライブラリを設計し,ウェットラブ法による評価を行った。 実験の結果, 治療に最適化された5' UTRと比較して, トップデザインのタンパク質生産量は32.5%増加した。

The 5' UTR, a regulatory region at the beginning of an mRNA molecule, plays a crucial role in regulating the translation process and impacts the protein expression level. Language models have showcased their effectiveness in decoding the functions of protein and genome sequences. Here, we introduced a language model for 5' UTR, which we refer to as the UTR-LM. The UTR-LM is pre-trained on endogenous 5' UTRs from multiple species and is further augmented with supervised information including secondary structure and minimum free energy. We fine-tuned the UTR-LM in a variety of downstream tasks. The model outperformed the best-known benchmark by up to 42% for predicting the Mean Ribosome Loading, and by up to 60% for predicting the Translation Efficiency and the mRNA Expression Level. The model also applies to identifying unannotated Internal Ribosome Entry Sites within the untranslated region and improves the AUPR from 0.37 to 0.52 compared to the best baseline. Further, we designed a library of 211 novel 5' UTRs with high predicted values of translation efficiency and evaluated them via a wet-lab assay. Experiment results confirmed that our top designs achieved a 32.5% increase in protein production level relative to well-established 5' UTR optimized for therapeutics.
翻訳日:2023-10-09 10:24:42 公開日:2023-10-06
# ニューラルパラメータ最適化による大規模3次元顔メッシュビデオデータセット

A Large-Scale 3D Face Mesh Video Dataset via Neural Re-parameterized Optimization ( http://arxiv.org/abs/2310.03205v2 )

ライセンス: Link先を確認
Kim Youwang and Lee Hyun and Kim Sung-Bin and Suekyeong Nam and Janghoon Ju and Tae-Hyun Oh(参考訳) ニュートラルパラメータ最適化による3次元顔メッシュ擬似アノテーション法であるNeuFaceを提案する。 3d顔再構成方式の進歩にもかかわらず、野生のダイナミックビデオのための信頼できる3d顔ラベルの作成は依然として困難である。 NeuFace最適化を用いることで、大規模な顔ビデオのビュー/フレーム毎の正確かつ一貫した顔メッシュを注釈付けする。 勾配解析により3次元メッシュ上の画像整列顔の詳細を再構成する上で,ニューラルリパラメータ化がどう役立つかを検討する。 データセットにおける3次元顔の自然性と多様性を利用して,既存の3次元顔再構成モデルの再構築精度の向上と3次元顔の動きの事前学習という,3次元顔関連タスクにおけるデータセットの有用性を示す。 コードとデータセットはhttps://neuface-dataset.github.ioで入手できる。

We propose NeuFace, a 3D face mesh pseudo annotation method on videos via neural re-parameterized optimization. Despite the huge progress in 3D face reconstruction methods, generating reliable 3D face labels for in-the-wild dynamic videos remains challenging. Using NeuFace optimization, we annotate the per-view/-frame accurate and consistent face meshes on large-scale face videos, called the NeuFace-dataset. We investigate how neural re-parameterization helps to reconstruct image-aligned facial details on 3D meshes via gradient analysis. By exploiting the naturalness and diversity of 3D faces in our dataset, we demonstrate the usefulness of our dataset for 3D face-related tasks: improving the reconstruction accuracy of an existing 3D face reconstruction model and learning 3D facial motion prior. Code and datasets will be available at https://neuface-dataset.github.io.
翻訳日:2023-10-09 10:23:58 公開日:2023-10-06
# FedHyper: 過度学習を伴うフェデレーション学習のためのユニバーサルでロバストな学習率スケジューリング

FedHyper: A Universal and Robust Learning Rate Scheduler for Federated Learning with Hypergradient Descent ( http://arxiv.org/abs/2310.03156v2 )

ライセンス: Link先を確認
Ziyao Wang, Jianyu Wang, Ang Li(参考訳) 連邦学習(FL)の理論的な展望は急速な進化を遂げるが、その実践的応用は一連の複雑な課題に遭遇し、ハイパーパラメータ最適化はこれらの重要な課題の1つである。 ハイパーパラメータの様々な調整の中で、学習率の適応が重要な要素として現れ、flシステムの有効性を著しく向上させるという約束を保っている。 そこで本研究では,FLに特化して設計された学習率適応アルゴリズムであるFedHyperを提案する。 FedHyperは、トレーニングが進むにつれて、グローバルとローカルの両方のレートに適応できる、普遍的な学習率スケジューラとして機能する。 さらに、FedHyperは、初期学習率設定のスペクトルに例外のない堅牢性を示すだけでなく、退屈な経験的学習率調整の必要性を著しく軽減する。 我々は、FedHyperの収束率に関する包括的な理論的分析を行い、ビジョンと言語ベンチマークデータセットに関する広範な実験を行う。 その結果、FEDHYPERはFedAvgと競合するベースラインよりも1.1~3倍早く収束し、最終的な精度が向上した。 さらに、FedHyperは、最適な初期学習率設定の下でFedAvgと比較して最大15%の精度向上を実現している。

The theoretical landscape of federated learning (FL) undergoes rapid evolution, but its practical application encounters a series of intricate challenges, and hyperparameter optimization is one of these critical challenges. Amongst the diverse adjustments in hyperparameters, the adaptation of the learning rate emerges as a crucial component, holding the promise of significantly enhancing the efficacy of FL systems. In response to this critical need, this paper presents FedHyper, a novel hypergradient-based learning rate adaptation algorithm specifically designed for FL. FedHyper serves as a universal learning rate scheduler that can adapt both global and local rates as the training progresses. In addition, FedHyper not only showcases unparalleled robustness to a spectrum of initial learning rate configurations but also significantly alleviates the necessity for laborious empirical learning rate adjustments. We provide a comprehensive theoretical analysis of FedHyper's convergence rate and conduct extensive experiments on vision and language benchmark datasets. The results demonstrate that FEDHYPER consistently converges 1.1-3x faster than FedAvg and the competing baselines while achieving superior final accuracy. Moreover, FedHyper catalyzes a remarkable surge in accuracy, augmenting it by up to 15% compared to FedAvg under suboptimal initial learning rate settings.
翻訳日:2023-10-09 10:23:42 公開日:2023-10-06
# ニューラルネットワークにおける学習概念の学習データへの寄与

Attributing Learned Concepts in Neural Networks to Training Data ( http://arxiv.org/abs/2310.03149v2 )

ライセンス: Link先を確認
Nicholas Konz, Charles Godfrey, Madelyn Shapiro, Jonathan Tu, Henry Kvinge, Davis Brown(参考訳) 現在までに、深層学習モデルは、データの内部表現の一部として、特定の人間解釈可能な特徴を学習する証拠がかなりある。 正しい(あるいは間違った)概念を持つことは、信頼できる機械学習システムにとって重要であるため、モデルの元々のトレーニングセットからのインプットが、与えられたレイヤで概念を学ぶ上で最も重要であったかを尋ねるのは当然です。 そこで本研究では,データ帰属法とモデルで学習した概念を探索する手法を組み合わせる。 ネットワーク層における2つの概念データセットに対するネットワークとプローブアンサンブルの訓練を行い,大規模データ帰属のためのTRAK法を開発した。 コンバージェンス(収束)の証拠として,概念の上位1万個の画像を取り除き,モデルの再訓練を行うことで,ネットワーク内の概念の位置や概念の空間性が変化しないことがある。 これは、いくつかの特定の例に強く依存するのではなく、概念の発展を知らせる特徴が、その例全体により広範に広がり、概念形成における堅牢性が示唆されることを示唆している。

By now there is substantial evidence that deep learning models learn certain human-interpretable features as part of their internal representations of data. As having the right (or wrong) concepts is critical to trustworthy machine learning systems, it is natural to ask which inputs from the model's original training set were most important for learning a concept at a given layer. To answer this, we combine data attribution methods with methods for probing the concepts learned by a model. Training network and probe ensembles for two concept datasets on a range of network layers, we use the recently developed TRAK method for large-scale data attribution. We find some evidence for convergence, where removing the 10,000 top attributing images for a concept and retraining the model does not change the location of the concept in the network nor the probing sparsity of the concept. This suggests that rather than being highly dependent on a few specific examples, the features that inform the development of a concept are spread in a more diffuse manner across its exemplars, implying robustness in concept formation.
翻訳日:2023-10-09 10:23:18 公開日:2023-10-06