このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231027となっている論文です。

PDF登録状況(公開日: 20231027)

TitleAuthorsAbstract論文公表日・翻訳日
# フェデレートラーニングを用いた口腔疾患検出のモバイル応用

Mobile Application for Oral Disease Detection using Federated Learning ( http://arxiv.org/abs/2403.12044v1 )

ライセンス: Link先を確認
Shankara Narayanan V, Sneha Varsha M, Syed Ashfaq Ahmed, Guruprakash J, (参考訳) 口は身体の内部状態の窓と見なされることが多く、全身の健康を反映する重要な役割を担っている。 口腔衛生の悪化は、心臓病、がん、糖尿病などの重篤な疾患に寄与するが、不適切なケアは不快感、痛み、費用がかかる治療に繋がる。 対象物検出のためのフェデレートラーニング(FL)は,患者の口腔画像データの感度が高いため,本症例に有効である。 FLは、ローカルデバイスでオブジェクト検出に使用されるイメージを格納し、エッジ上でモデルをトレーニングすることで、データのプライバシを保証する。 更新されたウェイトは中央サーバにフェデレーションされ、収集されたウェイトはすべてThe Federated Averagingアルゴリズムを介して更新される。 最後に、ユーザフレンドリーなソリューションを提供するモバイルアプリOralHを開発しました。 問題を検知すると、アプリケーションは患者に口腔の健康上の懸念や病気について警告し、患者の地域にある歯科診療所の詳細を提供する。 プログレッシブWebアプリケーション(PWA)として設計されたこのプラットフォームは、デバイス間のシームレスなエクスペリエンスのために、ユビキタスアクセスを保証する。 このアプリケーションは、YOLOv8オブジェクト検出モデルを利用して、口腔衛生問題や疾患を識別し、最先端のセグメンテーションと検出技術を提供することを目的としている。 本研究は,医療におけるFL活用のメリットを実世界の有望な成果として扱う。

The mouth, often regarded as a window to the internal state of the body, plays an important role in reflecting one's overall health. Poor oral hygiene has far-reaching consequences, contributing to severe conditions like heart disease, cancer, and diabetes, while inadequate care leads to discomfort, pain, and costly treatments. Federated Learning (FL) for object detection can be utilized for this use case due to the sensitivity of the oral image data of the patients. FL ensures data privacy by storing the images used for object detection on the local device and trains the model on the edge. The updated weights are federated to a central server where all the collected weights are updated via The Federated Averaging algorithm. Finally, we have developed a mobile app named OralH which provides user-friendly solutions, allowing people to conduct self-assessments through mouth scans and providing quick oral health insights. Upon detection of the issues, the application alerts the user about potential oral health concerns or diseases and provides details about dental clinics in the user's locality. Designed as a Progressive Web Application (PWA), the platform ensures ubiquitous access, catering to users across devices for a seamless experience. The application aims to provide state-of-the-art segmentation and detection techniques, leveraging the YOLOv8 object detection model to identify oral hygiene issues and diseases. This study deals with the benefits of leveraging FL in healthcare with promising real-world results.
翻訳日:2024-03-25 07:56:27 公開日:2023-10-27
# 環外差分族, 優雅なラベリングおよびサイクロトミー

Circular external difference families, graceful labellings and cyclotomy ( http://arxiv.org/abs/2310.02810v2 )

ライセンス: Link先を確認
Maura B. Paterson, Douglas R. Stinson, (参考訳) (Strong)円形外差分族(CEDFとSCEDFと表記する)は、非有理しきい値スキームを構築するのに使うことができる。 これらは、近年広く研究されている(強い)外部差分族の一種である。 我々は、Lexicographic products $C_n \boldsymbol{\cdot} K_{\ell}^c$ の優雅なラベルリング (\alpha$-valuations) に基づくCEDFの様々な構成を提供する。 2つ以上の部分集合を持つSCEDFは存在しない。 しかし、有限体におけるシクロトミック数の理論を用いて近似(より具体的には、ある種類の円形代数的操作検出(AMD)符号)を構築することができる。

(Strong) circular external difference families (which we denote as CEDFs and SCEDFs) can be used to construct nonmalleable threshold schemes. They are a variation of (strong) external difference families, which have been extensively studied in recent years. We provide a variety of constructions for CEDFs based on graceful labellings ($\alpha$-valuations) of lexicographic products $C_n \boldsymbol{\cdot} K_{\ell}^c$, where $C_n$ denotes a cycle of length $n$. SCEDFs having more than two subsets do not exist. However, we can construct close approximations (more specifically, certain types of circular algebraic manipulation detection (AMD) codes) using the theory of cyclotomic numbers in finite fields.
翻訳日:2024-03-19 03:21:56 公開日:2023-10-27
# Sui Lutris: ブロードキャストとコンセンサスを組み合わせたブロックチェーン

Sui Lutris: A Blockchain Combining Broadcast and Consensus ( http://arxiv.org/abs/2310.18042v1 )

ライセンス: Link先を確認
Same Blackshear, Andrey Chursin, George Danezis, Anastasios Kichidis, Lefteris Kokoris-Kogias, Xun Li, Mark Logan, Ashok Menon, Todd Nowacki, Alberto Sonnino, Brandon Williams, Lu Zhang, (参考訳) Sui Lutrisは、秒以下のファイナリティを持続的に達成した最初のスマートコントラクトプラットフォームである。 単純な支払いだけでなく、さまざまなトランザクションに対して、合意のない合意を採用することで、このレイテンシの大幅な減少を実現します。 以前の作業とは異なり、Swi Lutrisは表現力もスループットも妥協せず、再起動せずに永久に実行できる。 Sui Lutrisは、クリティカルファイナリティパスから呼び出される高スループットのコンセンサスプロトコルとの合意を安全に統合することで、これを実現する。 このようなハイブリッドアーキテクチャの構築は、リコンフィグレーションイベントにおいて特に微妙であり、システムでは、潜在的に構成ミスの可能性のあるクライアントの長期的な生存性を損なうことなく、コンセンサスのないパスの安全性を維持する必要がある。 そこで我々は,コンセンサスのないブロックチェーンの安全かつ効率的な再構成を示すための,新しい再構成プロトコルを開発した。 Sui Lutrisは現在、主要なスマートコントラクトプラットフォームの一部として運用されている。 Move Programming言語と組み合わせることで、オブジェクトをファーストクラスリソースとして公開するスマートコントラクトの安全な実行が可能になる。 我々の実験では、Swi Lutrisは、最新の最先端の現実のコンセンサスレイテンシ3秒と比較して、秒間最大5,000証明書(バンドル付き150k ops/s)のスループットで0.5秒未満のレイテンシを実現しています。 さらに、バリデータのクラッシュ回復を優雅に処理し、再設定時に目に見えるパフォーマンス劣化を損なわない。

Sui Lutris is the first smart-contract platform to sustainably achieve sub-second finality. It achieves this significant decrease in latency by employing consensusless agreement not only for simple payments but for a large variety of transactions. Unlike prior work, Sui Lutris neither compromises expressiveness nor throughput and can run perpetually without restarts. Sui Lutris achieves this by safely integrating consensuless agreement with a high-throughput consensus protocol that is invoked out of the critical finality path but makes sure that when a transaction is at risk of inconsistent concurrent accesses its settlement is delayed until the total ordering is resolved. Building such a hybrid architecture is especially delicate during reconfiguration events, where the system needs to preserve the safety of the consensusless path without compromising the long-term liveness of potentially misconfigured clients. We thus develop a novel reconfiguration protocol, the first to show the safe and efficient reconfiguration of a consensusless blockchain. Sui Lutris is currently running in production as part of a major smart-contract platform. Combined with the Move Programming language it enables the safe execution of smart contracts that expose objects as a first-class resource. In our experiments Sui Lutris achieves latency lower than 0.5 seconds for throughput up to 5,000 certificates per second (150k ops/s with bundling), compared to the state-of-the-art real-world consensus latencies of 3 seconds. Furthermore, it gracefully handles validators crash-recovery and does not suffer visible performance degradation during reconfiguration.
翻訳日:2024-03-19 01:44:24 公開日:2023-10-27
# IoTオペレーティングシステムのセキュリティ課題と要件に関する調査

A Survey of the Security Challenges and Requirements for IoT Operating Systems ( http://arxiv.org/abs/2310.19825v1 )

ライセンス: Link先を確認
Alvi Jawad, (参考訳) IoT(Internet of Things)は、ユビキタスなコネクティビティに囲まれた世界へと収束するにつれて、現代生活の不可欠な部分になりつつある。 巨大なIoTエコシステムによって引き起こされる固有の複雑さは、個々のシステムコンポーネントとそのインタラクションの理解が不十分な状態に陥り、多くのセキュリティ上の課題につながります。 ゼロからセキュアなIoTプラットフォームを構築するためには、安定的でセキュアなソリューションの開発を規制する基盤として機能する統一オペレーティングシステム(OS)が必要である。 本稿では,IoT開発の多様体的側面から生じるセキュリティ上の課題を分類する。 また、これらの課題の多くを解決するために、統合IoT OSのセキュアな開発を指示するためのセキュリティ要件も規定しています。 いくつかの現代的なIoT OSに関する調査では、OSの開発者はセキュリティを実装するために多くの代替アプローチを取っているが、適切にセキュアで統一されたアーキテクチャを設計するには程遠いことが確認されている。 より広範に、本論文で示された研究は、重要なドメインにおけるIoTの安全でセキュアで信頼性の高い運用を保証するために、IoT開発を基盤とするセキュアで統一されたプラットフォームの必要性の高まりに対処する上で有効である。

The Internet of Things (IoT) is becoming an integral part of our modern lives as we converge towards a world surrounded by ubiquitous connectivity. The inherent complexity presented by the vast IoT ecosystem ends up in an insufficient understanding of individual system components and their interactions, leading to numerous security challenges. In order to create a secure IoT platform from the ground up, there is a need for a unifying operating system (OS) that can act as a cornerstone regulating the development of stable and secure solutions. In this paper, we present a classification of the security challenges stemming from the manifold aspects of IoT development. We also specify security requirements to direct the secure development of an unifying IoT OS to resolve many of those ensuing challenges. Survey of several modern IoT OSs confirm that while the developers of the OSs have taken many alternative approaches to implement security, we are far from engineering an adequately secure and unified architecture. More broadly, the study presented in this paper can help address the growing need for a secure and unified platform to base IoT development on and assure the safe, secure, and reliable operation of IoT in critical domains.
翻訳日:2024-03-18 23:51:32 公開日:2023-10-27
# マダガスカルにおける再生可能エネルギー消費の決定要因:特徴選択アルゴリズムによる証拠

Determinants of renewable energy consumption in Madagascar: Evidence from feature selection algorithms ( http://arxiv.org/abs/2401.13671v1 )

ライセンス: Link先を確認
Franck Ramaharo and Fitiavana Randriamifidy(参考訳) 本研究の目的は,マダガスカルの再生可能エネルギー消費に影響を与える要因を明らかにすることである。 我々は、経済成長、国内投資、外国直接投資、金融開発、産業開発、インフレーション、所得分配、貿易開放性、為替レート、観光開発、環境品質、都市化など、マクロ経済、金融、社会、環境面をカバーする12の機能をテストした。 それらの意義を評価するため,1990-2021年の間に再生可能エネルギー消費とこれらの特徴との線形関係を仮定した。 次に,フィルタベース(線形回帰,相関法における相対的重要度),組込み(lasso),ラッパーベース(ベストサブセット回帰,ステップワイズ回帰,再帰的特徴除去,反復予測器重み付け部分最小二乗法,ボルタ法,シミュレートアニーリング法,遺伝的アルゴリズム)に分類される異なる機械学習特徴選択アルゴリズムを適用した。 分析の結果、最も影響力のある5人のドライバーはマクロ経済的な側面から来ていることがわかった。 我々は、国内投資、海外直接投資、インフレが再生可能エネルギー源の導入に積極的に貢献していることを発見した。 一方、マダガスカルでは産業開発と貿易の開放が再生可能エネルギー消費に悪影響を及ぼす。

The aim of this note is to identify the factors influencing renewable energy consumption in Madagascar. We tested 12 features covering macroeconomic, financial, social, and environmental aspects, including economic growth, domestic investment, foreign direct investment, financial development, industrial development, inflation, income distribution, trade openness, exchange rate, tourism development, environmental quality, and urbanization. To assess their significance, we assumed a linear relationship between renewable energy consumption and these features over the 1990-2021 period. Next, we applied different machine learning feature selection algorithms classified as filter-based (relative importance for linear regression, correlation method), embedded (LASSO), and wrapper-based (best subset regression, stepwise regression, recursive feature elimination, iterative predictor weighting partial least squares, Boruta, simulated annealing, and genetic algorithms) methods. Our analysis revealed that the five most influential drivers stem from macroeconomic aspects. We found that domestic investment, foreign direct investment, and inflation positively contribute to the adoption of renewable energy sources. On the other hand, industrial development and trade openness negatively affect renewable energy consumption in Madagascar.
翻訳日:2024-02-11 17:43:07 公開日:2023-10-27
# 中央制御によるデータセンターネットワークにおけるインタラクティブフローの優先順位付け

Prioritising Interactive Flows in Data Center Networks With Central Control ( http://arxiv.org/abs/2402.00870v1 )

ライセンス: Link先を確認
Mohana Prasad Sathya Moorthy(参考訳) データセンターは増加傾向にあり、科学者はデータセンターのネットワークを再考し、再設計している。 インターネット時代には有効でなかった中央制御の概念が現在普及しており、多くのデータセンターで使用されているのは、(インターネットと比較して)低い運用規模、構造化されたトポロジー、そしてネットワークリソース全体が単一のエンティティのコントロール下にあるためである。 新しい機会によって、データセンターネットワークも新たな問題を引き起こす。 データセンターは、高い利用率、低い中央値、テールレイテンシ、公平性を必要とする。 従来のシステムでは、バルクトラフィックは一般的にインタラクティブフローを停止させ、フロー完了時間に悪影響を及ぼす。 本稿では,データセンタネットワークにおけるインタラクティブフローの優先順位付けを支援する中央制御系に関する2つの問題を扱う。 fastpassは集中型"ゼロキュー"データセンターネットワークである。 しかし、fastpassの中央のアビターは256ノード(または8コア)以上ではうまくスケールしない。 私たちのテストでは、約1.5テラビットのネットワークトラフィックしかサポートしていません。 本研究では,12コアまで線形にスケールし,約1024ノードと7.1テラビットのネットワークトラフィックをサポートするように,その中央アロケータのタイムロアロケータを再設計する。 論文の第2部では,ソフトウェア定義ネットワークにおける渋滞制御の問題に対処する。 IPV4パケットのECNビットを適切に設定することにより、ネットワークのグローバルビューを持つコントローラがエンドTCPホストの混雑制御決定に積極的に参加するフレームワークを提案する。 私たちのフレームワークは、エンドノードTCPやSDNスイッチを変更することなく、簡単にデプロイできます。 また、TCP立方体よりも30倍、REDより1.7倍、対話的なトラフィックのフロー完了時間で1.7倍の改善を実現した。

Data centers are on the rise and scientists are re-thinking and re-designing networks for data centers. The concept of central control which was not effective in the Internet era is now gaining popularity and is used in many data centers due to lower scale of operation (compared to Internet), structured topologies and as the entire network resources is under a single entity's control. With new opportunities, data center networks also pose new problems. Data centers require: high utilization, low median, tail latencies and fairness. In the traditional systems, the bulk traffic generally stalls the interactive flows thereby affecting their flow completion times adversely. In this thesis, we deal with two problems relating to central controller assisted prioritization of interactive flow in data center networks. Fastpass is a centralized "zero-queue" data center network. But the central arbiter of Fastpass doesn't scale well for more than 256 nodes (or 8 cores). In our test runs, it supports only about 1.5 Terabits's of network traffic. In this work, we re-design their timeslot allocator of their central arbiter so that it scales linearly till 12 cores and supports about 1024 nodes and 7.1 Terabits's of network traffic. In the second part of the thesis, we deal with the problem of congestion control in a software defined network. We propose a framework, where the controller with its global view of the network actively participates in the congestion control decisions of the end TCP hosts, by setting the ECN bits of IPV4 packets appropriately. Our framework can be deployed very easily without any change to the end node TCPs or the SDN switches. We also show 30x improvement over TCP cubic and 1.7x improvement over RED in flow completion times of interactive traffic for one implementation of this framework.
翻訳日:2024-02-11 17:28:00 公開日:2023-10-27
# バイオメトリック技術と法則:政策立案者のための分類学の開発

Biometric Technologies and the Law: Developing a Taxonomy for Guiding Policymakers ( http://arxiv.org/abs/2312.00013v1 )

ライセンス: Link先を確認
Luis Felipe M. Ramos (University of Minho, School of Law, Braga, Portugal)(参考訳) 生体認証技術の普及にもかかわらず、その規制は、特に個人のプライバシーと個人情報の保護に関して、同じペースで維持されていない。 政策立案者は、生体認証システムの背後にある技術と基本的権利に対する潜在的な影響を理解するのに苦労するかもしれない。 本研究は, このギャップを埋めるために, 効果的な展開と監督を支援するバイオメトリック技術の分類法を提案する。 文献レビューを通じて、バイオメトリックシステムの技術的特徴を特定し分類した。 結果として生じる分類は生体認証技術の理解を高め、プライバシーと個人情報保護を優先する規制の開発を促進する。

Despite the increasing adoption of biometric technologies, their regulation has not kept up with the same pace, particularly with regard to safeguarding individuals' privacy and personal data. Policymakers may struggle to comprehend the technology behind biometric systems and their potential impact on fundamental rights, resulting in insufficient or inadequate legal regulation. This study seeks to bridge this gap by proposing a taxonomy of biometric technologies that can aid in their effective deployment and supervision. Through a literature review, the technical characteristics of biometric systems were identified and categorised. The resulting taxonomy can enhance the understanding of biometric technologies and facilitate the development of regulation that prioritises privacy and personal data protection.
翻訳日:2024-01-15 15:09:29 公開日:2023-10-27
# DiffAttack:拡散型逆境浄化に対する侵入攻撃

DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial Purification ( http://arxiv.org/abs/2311.16124v1 )

ライセンス: Link先を確認
Mintong Kang, Dawn Song, Bo Li(参考訳) 拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去し、最先端の堅牢性を達成する。 最近の研究では、高度な攻撃でさえそのような防御を効果的に破ることができないことが示されている。精製プロセスは、勾配の難読化、高メモリコスト、無界ランダムネスの潜在的な問題を引き起こす非常に深い計算グラフを誘導するからである。 本稿では,DDPMとスコアベースの両方を含む拡散型浄化防御を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。 特に,不正確な密度勾配推定を誘導するために,中間拡散段階における逸脱再構成損失を提案する。 また、セグメント毎のフォワードバックワードアルゴリズムを提供し、メモリ効率のよい勾配バックプロパゲーションを実現する。 我々は,既存のCIFAR-10およびImageNetに対する適応攻撃と比較して,DiffAttackの攻撃効果を検証する。 diffattackは、$\ell_\infty$ attack $(\epsilon=8/255)$でcifar-10で20%以上、$\ell_\infty$ attack $(\epsilon=4/255)$でimagenetで10%以上、soma攻撃と比較して、モデルのロバストな精度を低下させる。 私たちは一連のアブレーション研究を行い 1) 一斉サンプリングされた時間ステップに付加された脱落再構築損失のDiffAttackは、初期/最終ステップのみに付加されたものよりも効果的である。 2) DiffAttackでは, 拡散長が中程度である拡散基の精製がより堅牢である。

Diffusion-based purification defenses leverage diffusion models to remove crafted perturbations of adversarial examples and achieve state-of-the-art robustness. Recent studies show that even advanced attacks cannot break such defenses effectively, since the purification process induces an extremely deep computational graph which poses the potential problem of gradient obfuscation, high memory cost, and unbounded randomness. In this paper, we propose a unified framework DiffAttack to perform effective and efficient attacks against diffusion-based purification defenses, including both DDPM and score-based approaches. In particular, we propose a deviated-reconstruction loss at intermediate diffusion steps to induce inaccurate density gradient estimation to tackle the problem of vanishing/exploding gradients. We also provide a segment-wise forwarding-backwarding algorithm, which leads to memory-efficient gradient backpropagation. We validate the attack effectiveness of DiffAttack compared with existing adaptive attacks on CIFAR-10 and ImageNet. We show that DiffAttack decreases the robust accuracy of models compared with SOTA attacks by over 20% on CIFAR-10 under $\ell_\infty$ attack $(\epsilon=8/255)$, and over 10% on ImageNet under $\ell_\infty$ attack $(\epsilon=4/255)$. We conduct a series of ablations studies, and we find 1) DiffAttack with the deviated-reconstruction loss added over uniformly sampled time steps is more effective than that added over only initial/final steps, and 2) diffusion-based purification with a moderate diffusion length is more robust under DiffAttack.
翻訳日:2023-12-03 13:29:15 公開日:2023-10-27
# 強化テクスチャ学習のためのマルチ隣り合うニューラルセルオートマタ(MNNCA)の探索

Exploring Multiple Neighborhood Neural Cellular Automata (MNNCA) for Enhanced Texture Learning ( http://arxiv.org/abs/2311.16123v1 )

ライセンス: Link先を確認
Magnus Petersen(参考訳) セルオートマトン(ca)は、動的システムを計算的にシミュレートする基礎的手法である。 最近のイノベーションにより、このモデルクラスは、NCA(Neural Cellular Automata)と呼ばれる人工ニューラルネットワークを使用してCAの更新ルールをパラメータ化することにより、ディープラーニングの領域に導入された。 これにより、NCAは勾配降下によって訓練され、特定の形状に進化し、テクスチャを生成し、スワーミングのような振る舞いを模倣することができる。 しかし、従来のNCAの制限は、十分な複雑な振る舞いを示すことができず、創造性やモデリングのタスクにおいてその可能性を制限することである。 本研究は,複数の地区を組み込んだNCAフレームワークの強化と,シード状態に対する構造ノイズの導入について検討する。 このアプローチは古典的連続CAの表現性を歴史的に増幅した手法に着想を得たものである。 すべてのコードとサンプルビデオはhttps://github.com/MagnusPetersen/MNNCAで公開されている。

Cellular Automata (CA) have long been foundational in simulating dynamical systems computationally. With recent innovations, this model class has been brought into the realm of deep learning by parameterizing the CA's update rule using an artificial neural network, termed Neural Cellular Automata (NCA). This allows NCAs to be trained via gradient descent, enabling them to evolve into specific shapes, generate textures, and mimic behaviors such as swarming. However, a limitation of traditional NCAs is their inability to exhibit sufficiently complex behaviors, restricting their potential in creative and modeling tasks. Our research explores enhancing the NCA framework by incorporating multiple neighborhoods and introducing structured noise for seed states. This approach is inspired by techniques that have historically amplified the expressiveness of classical continuous CA. All code and example videos are publicly available on https://github.com/MagnusPetersen/MNNCA.
翻訳日:2023-12-03 13:28:46 公開日:2023-10-27
# データエクイティ: 生成AIの基礎概念

Data Equity: Foundational Concepts for Generative AI ( http://arxiv.org/abs/2311.10741v1 )

ライセンス: Link先を確認
JoAnn Stonier, Lauren Woodman, Majed Alshammari, Ren\'ee Cummings, Nighat Dad, Arti Garg, Alberto Giovanni Busetto, Katherine Hsiao, Maui Hudson, Parminder Jeet Singh, David Kanamugire, Astha Kapoor, Zheng Lei, Jacqueline Lu, Emna Mizouni, Angela Oduor Lungati, Mar\'ia Paz Canales Loebel, Arathi Sethumadhavan, Sarah Telford, Supheakmungkol Sarin, Kimmy Bettinger, Stephanie Teeuwen(参考訳) 本稿では,ジェネラティブAI(genAI)が社会に与える影響と,ジェネラティブAIツールのさらなる開発に与える影響の両方の観点から,基礎モデル内のデータエクイティに焦点を当てる。 GenAIは、効率の向上、クリエイティビティの向上、既存のデータの拡張など、デジタルとソーシャルのイノベーションを促進する大きな可能性を約束している。 GenAIは、技術へのアクセスと利用を民主化する可能性がある。 しかし、チェックされていないまま、不平等が深まる可能性がある。 genAIの出現により、AIのデプロイと開発速度が大幅に向上し、データエクイティのためのフレームワークの調査は、これまで以上に緊急である。 このブリーフィングペーパーの目標は3つある: コラボレーションと対話を促進するために共通の語彙を確立すること、利害関係者が注目できる調査のためのフレームワークを確立すること、そして将来有望な技術の発展を形作ること。 この論文は、genAIの文脈でデータエクイティを探求し、推進する第一歩である。 提案されている定義、フレームワーク、レコメンデーションは、有望なgenAI技術の発展を積極的に形成することを目的としている。

This briefing paper focuses on data equity within foundation models, both in terms of the impact of Generative AI (genAI) on society and on the further development of genAI tools. GenAI promises immense potential to drive digital and social innovation, such as improving efficiency, enhancing creativity and augmenting existing data. GenAI has the potential to democratize access and usage of technologies. However, left unchecked, it could deepen inequities. With the advent of genAI significantly increasing the rate at which AI is deployed and developed, exploring frameworks for data equity is more urgent than ever. The goals of the briefing paper are threefold: to establish a shared vocabulary to facilitate collaboration and dialogue; to scope initial concerns to establish a framework for inquiry on which stakeholders can focus; and to shape future development of promising technologies. The paper represents a first step in exploring and promoting data equity in the context of genAI. The proposed definitions, framework and recommendations are intended to proactively shape the development of promising genAI technologies.
翻訳日:2023-11-27 01:01:28 公開日:2023-10-27
# ai倫理とordoliberalism 2.0:「デジタル権利章典」に向けて

AI Ethics and Ordoliberalism 2.0: Towards A 'Digital Bill of Rights' ( http://arxiv.org/abs/2311.10742v1 )

ライセンス: Link先を確認
Manuel Woersdoerfer(参考訳) この記事では、AI倫理をビジネス倫理の観点から、すなわち'ordoliberalism 2.0'から分析する。 コーポレート・セルフレギュレーションと自発的な行動規範に依存し過ぎており、したがって適切なガバナンスメカニズムが欠如している、と氏は主張する。 これらの問題に対処するために、この論文は、より効果的な監視構造を持つ厳格な法律を導入するだけでなく、既存のAIガイドラインと、口頭弁論にインスパイアされた規制および競争ポリシーを統合することを提案している。 しかし、このAI倫理、規制、反トラストの関連性は学術文献などでは十分に議論されていない。 この論文は学術文献における大きなギャップを解消し、aiガバナンスに関する法的・政治的・哲学的な議論を主に追加している。 第一に、この論文は「デジタル権利章典」の基盤となるような、自由主義に触発されたai倫理の原則を特定するものである。 第2に,このような原則がマクロレベルで,自由主義的競争と規制政策の助けを借りてどのように実施されるかを示す。

This article analyzes AI ethics from a distinct business ethics perspective, i.e., 'ordoliberalism 2.0.' It argues that the ongoing discourse on (generative) AI relies too much on corporate self-regulation and voluntary codes of conduct and thus lacks adequate governance mechanisms. To address these issues, the paper suggests not only introducing hard-law legislation with a more effective oversight structure but also merging already existing AI guidelines with an ordoliberal-inspired regulatory and competition policy. However, this link between AI ethics, regulation, and antitrust is not yet adequately discussed in the academic literature and beyond. The paper thus closes a significant gap in the academic literature and adds to the predominantly legal-political and philosophical discourse on AI governance. The paper's research questions and goals are twofold: First, it identifies ordoliberal-inspired AI ethics principles that could serve as the foundation for a 'digital bill of rights.' Second, it shows how those principles could be implemented at the macro level with the help of ordoliberal competition and regulatory policy.
翻訳日:2023-11-27 00:43:59 公開日:2023-10-27
# マクロ政策変更に伴う株価予測の押し上げ

Boosting Stock Price Prediction with Anticipated Macro Policy Changes ( http://arxiv.org/abs/2311.06278v1 )

ライセンス: Link先を確認
Md Sabbirul Haque, Md Shahedul Amin, Jonayet Miah, Duc Minh Cao, Ashiqul Haque Ahmed(参考訳) 株価予測は投資家の意思決定を支援する上で重要な役割を果たす。 その重要性を考えると、株価を精度良く予測しようとする文献が増えている。 本研究では,より高精度な株価予測手法を提案する。 我々は、外的経済環境関連情報と株価を併用する。 新たなアプローチでは、将来予想されるマクロ経済政策の変化を考慮し、投資家が将来予想されるマクロ経済政策の変化に基づいて現在の行動を調整することにより、株価予測の性能を向上させる。 さらに,過去の株価とともにマクロ経済変数を組み込んで予測を行う。 この結果から、現在のマクロ経済情報とともに、将来の経済政策の変化を取り入れることが強く支持される。 いくつかの木に基づく機械学習アルゴリズムを用いて,従来の手法に対する手法の優位性を確認した。 結果はさまざまな機械学習モデルで強く決定されている。 提案手法は従来手法のRMSE値が1.61であり, RMSE値が1.75であるのに対し, 従来の手法よりも優れていた。

Prediction of stock prices plays a significant role in aiding the decision-making of investors. Considering its importance, a growing literature has emerged trying to forecast stock prices with improved accuracy. In this study, we introduce an innovative approach for forecasting stock prices with greater accuracy. We incorporate external economic environment-related information along with stock prices. In our novel approach, we improve the performance of stock price prediction by taking into account variations due to future expected macroeconomic policy changes as investors adjust their current behavior ahead of time based on expected future macroeconomic policy changes. Furthermore, we incorporate macroeconomic variables along with historical stock prices to make predictions. Results from this strongly support the inclusion of future economic policy changes along with current macroeconomic information. We confirm the supremacy of our method over the conventional approach using several tree-based machine-learning algorithms. Results are strongly conclusive across various machine learning models. Our preferred model outperforms the conventional approach with an RMSE value of 1.61 compared to an RMSE value of 1.75 from the conventional approach.
翻訳日:2023-11-19 16:08:29 公開日:2023-10-27
# Bitcoin価格予測のためのデータ駆動ディープラーニングアプローチ

A Data-driven Deep Learning Approach for Bitcoin Price Forecasting ( http://arxiv.org/abs/2311.06280v1 )

ライセンス: Link先を確認
Parth Daxesh Modi, Kamyar Arshi, Pertami J. Kunz, Abdelhak M. Zoubir(参考訳) 暗号通貨としてのbitcoinは、最も重要なデジタル通貨の1つであり、最初の分散デジタル通貨である。 一方で、ディープニューラルネットワークは、最近有望な結果を示しているが、そのパワーを活用するには、大量の高品質なデータが必要である。 データセットのサイズを増やすのに役立つ拡張など、いくつかのテクニックがありますが、過去のbitcoinデータでは利用できません。 その結果,提案手法を用いて,日単位のbitcoin閉口価格の予測を行う機能工学的データを用いた浅層双方向LSTM(Bidirectional-LSTM)モデルを提案する。 本稿では,他の予測手法と比較し,提案手法の助けを借りて,浅層ニューラルネットワークが他の一般的な価格予測モデルより優れていることを示す。

Bitcoin as a cryptocurrency has been one of the most important digital coins and the first decentralized digital currency. Deep neural networks, on the other hand, has shown promising results recently; however, we require huge amount of high-quality data to leverage their power. There are some techniques such as augmentation that can help us with increasing the dataset size, but we cannot exploit them on historical bitcoin data. As a result, we propose a shallow Bidirectional-LSTM (Bi-LSTM) model, fed with feature engineered data using our proposed method to forecast bitcoin closing prices in a daily time frame. We compare the performance with that of other forecasting methods, and show that with the help of the proposed feature engineering method, a shallow deep neural network outperforms other popular price forecasting models.
翻訳日:2023-11-19 14:30:36 公開日:2023-10-27
# 解き易い新クラスのSWKB条件に関する数値的研究」へのコメント

Comments on "Numerical study of the SWKB condition of novel classes of exactly solvable systems'' ( http://arxiv.org/abs/2311.02092v1 )

ライセンス: Link先を確認
Jonathan Bougie, Asim Gangopadhyaya, and Constantin Rasinariu(参考訳) 論文「真に解ける新クラスのSWKB条件に関する数値的研究」 (Y. Nasuda and N. Sawado, Mod. Phys, Lett. A 36, 2150025 (2021)] にコメントする。 J. Bougie, A. Gangopadhyaya, C. Rasinariu, J. Phys. A: Math. Theor. 51, 375202 (2018)] を誤って表現し, この誤解を明らかにする。

We comment on the paper ``Numerical study of the SWKB condition of novel classes of exactly solvable systems'' [Y. Nasuda and N. Sawado, Mod. Phys. Lett. A 36, 2150025 (2021)]. We show that it misrepresents our prior work [J. Bougie, A. Gangopadhyaya and C. Rasinariu, J. Phys. A: Math. Theor. 51, 375202 (2018)], and clarify this misunderstanding.
翻訳日:2023-11-19 14:27:54 公開日:2023-10-27
# MELEP: マルチラベル心電図解析における転送可能性の新しい予測指標

MELEP: A Novel Predictive Measure of Transferability in Multi-Label ECG Analysis ( http://arxiv.org/abs/2311.04224v1 )

ライセンス: Link先を確認
Cuong V. Nguyen, Hieu Minh Duong, Cuong D.Do(参考訳) 本研究では,事前学習したモデルから下流タスクへ知識を伝達する効果を推定する新しい手法である,muti-label expected log of empirical predictionsの略であるmelepを紹介する。 この尺度は、ソースデータと異なるラベルセットを持つ新しいターゲットデータを扱うために一般的である。 また、計算効率も良く、ダウンストリームデータセットをトレーニング済みのモデルに一度転送するだけでよい。 我々の知る限り、我々は、多ラベルECG分類問題に対するそのような伝達可能性指標を最初に開発した。 実験により、MELEPは、小・不均衡のECGデータに基づいて、事前学習した畳み込みと繰り返しの深部ニューラルネットワークの性能を予測できることを示した。 特に, 絶対値0.6を超える強い相関係数は, MELEPと微調整モデルの平均F1スコアとの間に観測された。

We introduce MELEP, which stands for Muti-label Expected Log of Empirical Predictions, a novel measure to estimate how effective it is to transfer knowledge from a pre-trained model to a downstream task in a multi-label settings. The measure is generic to work with new target data having a different label set from source data. It is also computationally efficient, only requires forward passing the downstream dataset through the pre-trained model once. To the best of our knowledge, we are the first to develop such a transferability metric for multi-label ECG classification problems. Our experiments show that MELEP can predict the performance of pre-trained convolutional and recurrent deep neural networks, on small and imbalanced ECG data. Specifically, strong correlation coefficients, with absolute values exceeding 0.6 in most cases, were observed between MELEP and the actual average F1 scores of the fine-tuned models.
翻訳日:2023-11-12 19:34:10 公開日:2023-10-27
# 不均一制約コンピューティングにおけるエッジAI推論の可能性と可能性

Edge AI Inference in Heterogeneous Constrained Computing: Feasibility and Opportunities ( http://arxiv.org/abs/2311.03375v1 )

ライセンス: Link先を確認
Roberto Morabito, Mallik Tatipamula, Sasu Tarkoma, Mung Chiang(参考訳) 人工知能(AI)推論処理におけるネットワークエッジの役割は、計算上の優位性を求める多くのアプリケーションによって急速に拡大している。 これらのアプリケーションはデータ駆動効率を追求し、堅牢なai機能を活用し、リアルタイム応答性を優先する。 しかし、需要が増加するにつれて、システムも複雑になる。 AI推論アクセラレータの急増はイノベーションを示すだけでなく、特にこれらのデバイスのさまざまなソフトウェアやハードウェア構成といった課題も浮き彫りにしている。 この多様性は特定のタスクに有利だが、デバイス統合と調整のハードルをもたらす。 本稿では,3つの目的について述べる。 まず,ハードウェアの多様性に対応するフレームワークの要件とコンポーネントについて概説する。 次に、デバイスの不均一性がAI推論性能に与える影響を評価し、サービス品質を損なうことなく結果の最適化戦略を特定する。 最後に、私たちはこの分野における一般的な課題と機会について、リサーチコミュニティと業界関係者の両方に洞察を与えました。

The network edge's role in Artificial Intelligence (AI) inference processing is rapidly expanding, driven by a plethora of applications seeking computational advantages. These applications strive for data-driven efficiency, leveraging robust AI capabilities and prioritizing real-time responsiveness. However, as demand grows, so does system complexity. The proliferation of AI inference accelerators showcases innovation but also underscores challenges, particularly the varied software and hardware configurations of these devices. This diversity, while advantageous for certain tasks, introduces hurdles in device integration and coordination. In this paper, our objectives are three-fold. Firstly, we outline the requirements and components of a framework that accommodates hardware diversity. Next, we assess the impact of device heterogeneity on AI inference performance, identifying strategies to optimize outcomes without compromising service quality. Lastly, we shed light on the prevailing challenges and opportunities in this domain, offering insights for both the research community and industry stakeholders.
翻訳日:2023-11-12 19:31:11 公開日:2023-10-27
# ソフトウェアメタデータのための生成AI:FIRE 2023のソフトウェアエンジニアリングトラックにおける情報検索の概観

Generative AI for Software Metadata: Overview of the Information Retrieval in Software Engineering Track at FIRE 2023 ( http://arxiv.org/abs/2311.03374v1 )

ライセンス: Link先を確認
Srijoni Majumdar, Soumen Paul, Debjyoti Paul, Ayan Bandyopadhyay, Samiran Chattopadhyay, Partha Pratim Das, Paul D Clough, Prasenjit Majumder(参考訳) ソフトウェア工学における情報検索(irse)トラックは、人間および大規模言語モデル生成ラベルに基づく機械学習フレームワークにおけるコードコメントの自動評価ソリューションの開発を目的としている。 このトラックでは、コメントを有用かつ役に立たない分類を行うバイナリ分類タスクがあります。 データセットは9048のコードコメントと、オープンソースのgithub cベースのプロジェクトから抽出されたコードスニペットペアと、大規模な言語モデルを使用してチームが個別に生成した追加データセットで構成されている。 56の実験は、様々な大学やソフトウェア企業から17チームが行った。 提案手法は,F1スコアを用いて定量的に評価され,開発した特徴の種類,使用した教師付き学習モデル,対応するハイパーパラメータに基づいて定性的に評価されている。 大きな言語モデルから生成されるラベルは、予測モデルのバイアスを増加させるが、過剰な結果をもたらす。

The Information Retrieval in Software Engineering (IRSE) track aims to develop solutions for automated evaluation of code comments in a machine learning framework based on human and large language model generated labels. In this track, there is a binary classification task to classify comments as useful and not useful. The dataset consists of 9048 code comments and surrounding code snippet pairs extracted from open source github C based projects and an additional dataset generated individually by teams using large language models. Overall 56 experiments have been submitted by 17 teams from various universities and software companies. The submissions have been evaluated quantitatively using the F1-Score and qualitatively based on the type of features developed, the supervised learning model used and their corresponding hyper-parameters. The labels generated from large language models increase the bias in the prediction model but lead to less over-fitted results.
翻訳日:2023-11-12 19:30:57 公開日:2023-10-27
# 強化学習によるポートフォリオマネジメントの強化に関する一般フレームワーク

A General Framework on Enhancing Portfolio Management with Reinforcement Learning ( http://arxiv.org/abs/1911.11880v2 )

ライセンス: Link先を確認
Yinheng Li, Junhao Wang, Yijie Cao(参考訳) ポートフォリオマネジメント(Portfolio management)は、リスクプロファイルに対する望ましいリターンを満たすため、金融商品全体にわたる資金と資産の継続的な再配置を懸念するフィアンスにおける技術と科学である。 深層強化学習(RL)はポートフォリオ管理への関心が高まり、RLエージェントは資産配分プロセスを最適化するために財務データに基づいて訓練されている。 RLとポートフォリオ管理を組み合わせる努力は以前からあったが、以前の作業では、取引コストや販売制限の短縮といった実践的な側面を考慮せず、適用性に制限があった。 これらの制約に対処するために,我々は,資産管理のための汎用rlフレームワークを提案する。 3つの異なるrlアルゴリズムの性能を比較する: ポリシー勾配とアクター危機(pgac)、近方政策最適化(ppo)、進化戦略(es)であり、トランザクションコストを伴うシミュレーション環境でその利点を実証する。 我々の研究は、実生活の資産管理シナリオでRLフレームワークを利用するための選択肢を増やし、金融アプリケーションにおけるさらなる研究に役立てることを目的としています。

Portfolio management is the art and science in fiance that concerns continuous reallocation of funds and assets across financial instruments to meet the desired returns to risk profile. Deep reinforcement learning (RL) has gained increasing interest in portfolio management, where RL agents are trained base on financial data to optimize the asset reallocation process. Though there are prior efforts in trying to combine RL and portfolio management, previous works did not consider practical aspects such as transaction costs or short selling restrictions, limiting their applicability. To address these limitations, we propose a general RL framework for asset management that enables continuous asset weights, short selling and making decisions with relevant features. We compare the performance of three different RL algorithms: Policy Gradient with Actor-Critic (PGAC), Proximal Policy Optimization (PPO), and Evolution Strategies (ES) and demonstrate their advantages in a simulated environment with transaction costs. Our work aims to provide more options for utilizing RL frameworks in real-life asset management scenarios and can benefit further research in financial applications.
翻訳日:2023-11-01 01:46:09 公開日:2023-10-27
# 超伝導グラニュラーアルミニウムを用いたトランスモン量子ビットの実装

Implementation of a transmon qubit using superconducting granular aluminum ( http://arxiv.org/abs/1911.02333v3 )

ライセンス: Link先を確認
Patrick Winkel, Kiril Borisov, Lukas Gr\"unhaupt, Dennis Rieger, Martin Spiecker, Francesco Valenti, Alexey V. Ustinov, Wolfgang Wernsdorfer, Ioan M. Pop(参考訳) グラニュラルアルミニウム (grAl) によって提供される高速度インダクタンスを, 超伝導高インピーダンス量子ビットおよび運動インダクタンス検出器の線形インダクタンスに応用した。 典型的なジョセフソン接合よりも大きな臨界電流密度、外部磁場への反発性、そして低い散逸のため、グラルは強い駆動された量子回路、トポロジカル超伝導、ハイブリッド系の非線形性の強固な源となる可能性がある。 そうは言っても、gral の非線形性は qubit を構築するのに十分か? ここで、薄膜アルミニウムキャパシタによってシャントされた小さなグラル体積(10 \times 200 \times 500 \,\mathrm{nm^3}$)が、スペクトル線幅$\gamma_{01}$よりも2桁大きいアンハーモニティのマイクロ波発振器となることを示し、実質的にトランスモン量子ビットを形成する。 駆動力の増大に伴い、基底状態から始まる複数の多光子遷移を観測し、そこから$\alpha = 2 \pi \times 4.48\,\mathrm{MHz}$を抽出する。 共振蛍光による$|0> \rightarrow |1>$遷移の測定により、固有量子ビット線幅$\gamma = 2 \pi \times 10\,\mathrm{kHz}$が生成され、寿命は16\,\mathrm {\mu s}$となる。 この直線幅は、面内磁場が$\sim70\,\mathrm{mT}$に対して$2 \pi \times 150\,\mathrm{kHz}$以下である。

The high kinetic inductance offered by granular aluminum (grAl) has recently been employed for linear inductors in superconducting high-impedance qubits and kinetic inductance detectors. Due to its large critical current density compared to typical Josephson junctions, its resilience to external magnetic fields, and its low dissipation, grAl may also provide a robust source of non-linearity for strongly driven quantum circuits, topological superconductivity, and hybrid systems. Having said that, can the grAl non-linearity be sufficient to build a qubit? Here we show that a small grAl volume ($10 \times 200 \times 500 \,\mathrm{nm^3}$) shunted by a thin film aluminum capacitor results in a microwave oscillator with anharmonicity $\alpha$ two orders of magnitude larger than its spectral linewidth $\Gamma_{01}$, effectively forming a transmon qubit. With increasing drive power, we observe several multi-photon transitions starting from the ground state, from which we extract $\alpha = 2 \pi \times 4.48\,\mathrm{MHz}$. Resonance fluorescence measurements of the $|0> \rightarrow |1>$ transition yield an intrinsic qubit linewidth $\gamma = 2 \pi \times 10\,\mathrm{kHz}$, corresponding to a lifetime of $16\,\mathrm{\mu s}$. This linewidth remains below $2 \pi \times 150\,\mathrm{kHz}$ for in-plane magnetic fields up to $\sim70\,\mathrm{mT}$.
翻訳日:2023-11-01 01:45:47 公開日:2023-10-27
# 推論のための統一科学基礎

A Unified Scientific Basis for Inference ( http://arxiv.org/abs/1206.5075v2 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) すべての実験や観察研究は文脈で行われます。 この文脈はこの本で明確に検討されている。 そのため、概念変数は、与えられた設定において(ある)研究者のグループによって定義できる任意の変数として定義される。 このような変数は分類される。 満足度とアシラリティは文脈で条件付きで定義される。 条件原理、充足原理、そして可能性原理が一般化され、例えば、補助に条件付けをすべきでない場合の仮規則がモチベーションとなる。 この理論は、ニュアンスパラメータが文脈の一部であり、この場合、モデル還元が動機付けられる場合によって説明される。 モデル還元は一般に、パラメータ空間に作用する数学的群が存在するという観点から議論される。 この議論の自然な拡張は、量子力学の形式論の本質的な部分を導出できる概念的基礎も与えている。 これは量子理論の認識論的基礎を意味しており、近年量子基盤コミュニティの一部でも提唱されている。 ボルンの有名な公式は、実験的な証拠と結びついた合理性に関する合理的な仮定とともに、帰結原理の焦点を絞ったバージョンから従うことが示されている。 ボルンの公式のいくつかの統計的結果がスケッチされている。 ベルの不等式に関する疑問は、各観測者に対する条件原理を用いて解決される。 世界の客観的側面は、すべての観察者が同意する理想的な推論結果と同一視される。

Every experiment or observational study is made in a context. This context is being explicitly considered in this book. To do so, a conceptual variable is defined as any variable which can be defined by (a group of) researchers in a given setting. Such variables are classified. Sufficiency and ancillarity are defined conditionally on the context. The conditionality principle, the sufficiency principle and the likelihood principle are generalized, and a tentative rule for when one should not condition on an ancillary is motivated by examples. The theory is illustrated by the case where a nuisance parameter is a part of the context, and for this case, model reduction is motivated. Model reduction is discussed in general from the point of view that there exists a mathematical group acting upon the parameter space. It is shown that a natural extension of this discussion also gives a conceptual basis from which essential parts of the formalism of quantum mechanics can be derived. This implies an epistemological basis for quantum theory, a kind of basis that has also been advocated by part of the quantum foundation community in recent years. Born's celebrated formula is shown to follow from a focused version of the likelihood principle together with some reasonable assumptions on rationality connected to experimental evidence. Some statistical consequences of Born's formula are sketched. The questions around Bell's inequality are approached by using the conditionality principle for each observer. The objective aspects of the world are identified with the ideal inference results upon which all observers agree (epistemological objectivity).
翻訳日:2023-11-01 01:45:13 公開日:2023-10-27
# 制限ボルツマンマシンによるパターン再構成

Pattern reconstruction with restricted Boltzmann machines ( http://arxiv.org/abs/2205.07087v3 )

ライセンス: Link先を確認
Giuseppe Genovese(参考訳) 制限ボルツマンマシンは可視層と隠れ層からなるエネルギーモデルである。 可視光ユニット上のゼロ温度の風景を記述した有効エネルギー関数を同定し, 先行分布の隠蔽層の尾の挙動にのみ依存する。 このようなエネルギー関数の局所的ミニマの位置を調べることで、制限されたボルツマン機械がランダムなパターンを再構築する能力は、隠れた事前分布のテールのみに依存することを示した。 厳密な超ガウスの尾を持つ隠蔽先行はパターン検索において対数的損失しか与えず、厳密な準ガウスの尾を持つ隠蔽単位では効率的な探索ははるかに困難であり、隠蔽先行がガウスの尾を持つ場合、その検索能力は隠れ単位の数(ホップフィールドモデルなど)によって決定される。

Restricted Boltzmann machines are energy models made of a visible and a hidden layer. We identify an effective energy function describing the zero-temperature landscape on the visible units and depending only on the tail behaviour of the hidden layer prior distribution. Studying the location of the local minima of such an energy function, we show that the ability of a restricted Boltzmann machine to reconstruct a random pattern depends indeed only on the tail of the hidden prior distribution. We find that hidden priors with strictly super-Gaussian tails give only a logarithmic loss in pattern retrieval, while an efficient retrieval is much harder with hidden units with strictly sub-Gaussian tails; if the hidden prior has Gaussian tails, the retrieval capability is determined by the number of hidden units (as in the Hopfield model).
翻訳日:2023-11-01 01:39:28 公開日:2023-10-27
# 経路積分、複素確率および離散ワイル表現

Path integrals, complex probabilities and the discrete Weyl representation ( http://arxiv.org/abs/2108.12494v4 )

ライセンス: Link先を確認
Wayne Polyzou(参考訳) 離散値経路のサンプル空間上の複素確率に対する経路汎関数の期待値としての実時間経路積分の離散定式化について検討する。 複素確率の項の定式化は、実時間経路積分の最近の再解釈によって、経路のシリンダー集合上の複素確率分布に対するポテンシャル汎函数の期待値として動機付けられる。 この研究における離散的な定式化は、有限個の結果を持つ可観測物に適用できるワイル代数の離散バージョンに基づいている。 この研究における複素確率の起源は完全性関係である。 離散定式化では、条件付き確率と厳密なユニタリティーの積への複素確率の正確な因子は各近似のレベルで維持される。 離散系による無限次元量子システムの近似について述べる。 散乱理論や量子場理論への応用を解説する。

A discrete formulation of the real-time path integral as the expectation value of a functional of paths with respect to a complex probability on a sample space of discrete valued paths is explored. The formulation in terms of complex probabilities is motivated by a recent reinterpretation of the real-time path integral as the expectation value of a potential functional with respect to a complex probability distribution on cylinder sets of paths. The discrete formulation in this work is based on a discrete version of Weyl algebra that can be applied to any observable with a finite number of outcomes. The origin of the complex probability in this work is the completeness relation. In the discrete formulation the complex probability exactly factors into products of conditional probabilities and exact unitarity is maintained at each level of approximation. The approximation of infinite dimensional quantum systems by discrete systems is discussed. Applications to scattering theory and quantum field theory are illustrated.
翻訳日:2023-11-01 01:36:55 公開日:2023-10-27
# 不確実性定量化のフラグは何か? 不確かさ分類のための潜在密度モデル

What is Flagged in Uncertainty Quantification? Latent Density Models for Uncertainty Categorization ( http://arxiv.org/abs/2207.05161v2 )

ライセンス: Link先を確認
Hao Sun, Boris van Breugel, Jonathan Crabbe, Nabeel Seedat, Mihaela van der Schaar(参考訳) 不確実性定量化(UQ)は、信頼できる機械学習モデルを作成する上で不可欠である。 近年、疑わしい例を示すuqメソッドが急増しているが、これらの方法が正確に何であるかはよく分かっていない。 そこで本研究では,UQ手法でフラグ付けされた不確実な事例を分類タスクで分類する枠組みを提案する。 本稿では、カーネルによる誤分類密度の近似である混乱密度行列を導入し、不確実性法によって特定された疑わしい例を、3つのクラスに分類する:out-of-distriion (OOD)例、境界(Bnd)例、高分布誤分類(IDM)領域における例である。 広範な実験を通じて,不確実性定量化法の違いを評価するための新たな,明確な視点を提供し,価値ある評価ベンチマークを形成することを実証した。

Uncertainty Quantification (UQ) is essential for creating trustworthy machine learning models. Recent years have seen a steep rise in UQ methods that can flag suspicious examples, however, it is often unclear what exactly these methods identify. In this work, we propose a framework for categorizing uncertain examples flagged by UQ methods in classification tasks. We introduce the confusion density matrix -- a kernel-based approximation of the misclassification density -- and use this to categorize suspicious examples identified by a given uncertainty method into three classes: out-of-distribution (OOD) examples, boundary (Bnd) examples, and examples in regions of high in-distribution misclassification (IDM). Through extensive experiments, we show that our framework provides a new and distinct perspective for assessing differences between uncertainty quantification methods, thereby forming a valuable assessment benchmark.
翻訳日:2023-11-01 01:24:22 公開日:2023-10-27
# Pseudo expectation Maximization (SCOPE) のための半教師付きコントラスト外乱除去法

Semi-supervised Contrastive Outlier removal for Pseudo Expectation Maximization (SCOPE) ( http://arxiv.org/abs/2206.14261v2 )

ライセンス: Link先を確認
Sumeet Menon, David Chapman(参考訳) 半教師付き学習は、小さなラベル付きデータセットとおそらくはるかに大きなラベル付きデータセットを組み合わせることで、正確な予測モデルをトレーニングする問題である。 擬似ラベリング、一貫性規則化、コントラスト学習技術など、半教師付き深層学習のための多くの手法が開発されている。 しかし、擬似ラベルは初期の反復において真のラベルであると仮定されるため、擬似ラベル法は先行バイアスを補強し、強い予測性能に一般化することができない。 本稿では, Pseudo expectation Maximization (SCOPE) のための半教師付きコントラスト外乱除去法を用いて, 境界誤差を抑制する新しい手法を提案する。 SCOPEは、基本的な擬似ラベル化と同様に、クラスタ推定深層半教師付きアルゴリズムを理解するために拡張できる潜在変数フレームワークである期待最大化(EM)に関連している。 しかし、モデルが与えられた未ラベルのサンプルの確率を適切に考慮できない基本的な擬似ラベルとは異なり、SCOPEは、外れ値の存在下でのDNNバックボーンが与えられたときのEMイテレーションの挙動を改善するために設計された外れ値抑制項を導入する。 その結果,SCOPEはベースライン上での半教師付き分類精度を大幅に向上し,さらに整合正則化と組み合わせた場合,250と4000のラベル付きサンプルを用いた半教師付きCIFAR-10分類タスクにおいて最も高い精度が得られた。 さらに,SCOPEは,後続の反復においてラベル付きセットを汚染する誤信の高い疑似ラベル付きサンプルを抽出することにより,擬似ラベル付け繰り返しにおける誤り発生率を低下させることを示した。

Semi-supervised learning is the problem of training an accurate predictive model by combining a small labeled dataset with a presumably much larger unlabeled dataset. Many methods for semi-supervised deep learning have been developed, including pseudolabeling, consistency regularization, and contrastive learning techniques. Pseudolabeling methods however are highly susceptible to confounding, in which erroneous pseudolabels are assumed to be true labels in early iterations, thereby causing the model to reinforce its prior biases and thereby fail to generalize to strong predictive performance. We present a new approach to suppress confounding errors through a method we describe as Semi-supervised Contrastive Outlier removal for Pseudo Expectation Maximization (SCOPE). Like basic pseudolabeling, SCOPE is related to Expectation Maximization (EM), a latent variable framework which can be extended toward understanding cluster-assumption deep semi-supervised algorithms. However, unlike basic pseudolabeling which fails to adequately take into account the probability of the unlabeled samples given the model, SCOPE introduces an outlier suppression term designed to improve the behavior of EM iteration given a discrimination DNN backbone in the presence of outliers. Our results show that SCOPE greatly improves semi-supervised classification accuracy over a baseline, and furthermore when combined with consistency regularization achieves the highest reported accuracy for the semi-supervised CIFAR-10 classification task using 250 and 4000 labeled samples. Moreover, we show that SCOPE reduces the prevalence of confounding errors during pseudolabeling iterations by pruning erroneous high-confidence pseudolabeled samples that would otherwise contaminate the labeled set in subsequent retraining iterations.
翻訳日:2023-11-01 01:23:49 公開日:2023-10-27
# MelHuBERT: Mel Spectrogramsを簡略化した HuBERT

MelHuBERT: A simplified HuBERT on Mel spectrograms ( http://arxiv.org/abs/2211.09944v2 )

ライセンス: Link先を確認
Tzu-Quan Lin, Hung-yi Lee, Hao Tang(参考訳) 自己教師付きモデルは、様々な下流タスクに一般化できる音声表現の学習に大きな成功を収めた。 しかし、ほとんどの自己教師付きモデルは、トレーニングに大量の計算と複数のgpuを必要とし、自己教師付き学習の開発を著しく阻害している。 トレーニングの計算量を削減するために,高度に成功した自己教師型モデルであるHuBERTのトレーニングを再考する。 損失関数や入力表現,トレーニングなど,いくつかの重要なコンポーネントを改善し,単純化する。 我々のモデルであるMelHuBERTは、HuBERTに対する音声認識、話者識別、自動音声認識において、事前学習時間の31.2%、または1秒あたり33.5%のMACを節約し、良好なパフォーマンスを達成することができる。 コードと事前訓練されたモデルはhttps://github.com/nervjack2/MelHuBERT.comで入手できる。

Self-supervised models have had great success in learning speech representations that can generalize to various downstream tasks. However, most self-supervised models require a large amount of compute and multiple GPUs to train, significantly hampering the development of self-supervised learning. In an attempt to reduce the computation of training, we revisit the training of HuBERT, a highly successful self-supervised model. We improve and simplify several key components, including the loss function, input representation, and training in multiple stages. Our model, MelHuBERT, is able to achieve favorable performance on phone recognition, speaker identification, and automatic speech recognition against HuBERT, while saving 31.2% of the pre-training time, or equivalently 33.5% MACs per one second speech. The code and pre-trained models are available in https://github.com/nervjack2/MelHuBERT.
翻訳日:2023-10-31 23:42:44 公開日:2023-10-27
# デュアルブラインドデコンボリューション回復のためのBourling-Selberg Extremization

Beurling-Selberg Extremization for Dual-Blind Deconvolution Recovery in Joint Radar-Communications ( http://arxiv.org/abs/2211.09253v3 )

ライセンス: Link先を確認
Jonathan Monsalve, Edwin Vargas, Kumar Vijay Mishra, Brian M. Sadler and Henry Arguello(参考訳) 最近の統合センシングと通信への関心は、過大なレーダー通信信号から情報を回復するための新しい信号処理技術の設計につながった。 ここでは、レーダーと通信システムのチャネルと送信信号が共通の受信機に未知であるような、スペクトル共存シナリオに焦点を当てる。 このデュアルブラインド・デコンボリューション(DBD)問題では、受信機は複数のターゲットから反射されるレーダー信号にオーバーレイされたマルチキャリア無線通信信号を受け入れる。 通信チャネルとレーダチャネルはそれぞれ、複数の送信経路と目標に対応する連続値のレンジタイムまたは遅延で表現される。 以前の研究は、この不適切なdbd問題における未知のチャネルとシグナルの回復を原子のノルムの最小化を通じて取り組んだが、レーダーと通信チャネルの個々の最小分離条件に起因している。 本稿では,バーリング・セルバーグ補間理論から極値関数を用いた最適ジョイント分離条件を提案する。 その後、低階修正ハンケル行列検索としてdbdを定式化し、核ノルム最小化によって解く。 我々はMUSIC(Multiple signal classification)法を用いて、回収した低ランク行列から未知のターゲットと通信パラメータを推定する。 共同分離条件は, MUSIC の基盤となる Vandermonde 行列が十分に条件付きであることを保証する。 数値実験は我々の理論的な結果を検証する。

Recent interest in integrated sensing and communications has led to the design of novel signal processing techniques to recover information from an overlaid radar-communications signal. Here, we focus on a spectral coexistence scenario, wherein the channels and transmit signals of both radar and communications systems are unknown to the common receiver. In this dual-blind deconvolution (DBD) problem, the receiver admits a multi-carrier wireless communications signal that is overlaid with the radar signal reflected off multiple targets. The communications and radar channels are represented by continuous-valued range-times or delays corresponding to multiple transmission paths and targets, respectively. Prior works addressed recovery of unknown channels and signals in this ill-posed DBD problem through atomic norm minimization but contingent on individual minimum separation conditions for radar and communications channels. In this paper, we provide an optimal joint separation condition using extremal functions from the Beurling-Selberg interpolation theory. Thereafter, we formulate DBD as a low-rank modified Hankel matrix retrieval and solve it via nuclear norm minimization. We estimate the unknown target and communications parameters from the recovered low-rank matrix using multiple signal classification (MUSIC) method. We show that the joint separation condition also guarantees that the underlying Vandermonde matrix for MUSIC is well-conditioned. Numerical experiments validate our theoretical findings.
翻訳日:2023-10-31 23:42:13 公開日:2023-10-27
# ハイブリッド回路力学からの量子通信におけるコヒーレンス要件

Coherence requirements for quantum communication from hybrid circuit dynamics ( http://arxiv.org/abs/2210.11547v3 )

ライセンス: Link先を確認
Shane P. Kelly, Ulrich Poschinger, Ferdinand Schmidt-Kaler, Matthew P.A. Fisher, and Jamir Marino(参考訳) 量子状態のコヒーレントな重ね合わせは、量子力学と情報を従来のものと区別する量子情報処理の重要な資源である。 本稿では、モニタリングされた量子力学と量子誤り訂正符号を含む広い環境で量子情報を伝えるためのコヒーレンス要件を決定する。 これらの要件は、2人の対戦相手であるアリスとイブの間で行われる量子情報ゲームによって生成されるハイブリッド回路と、固定数の量子ビット上でのユニタリと測定を競うことで決定される。 Aliceは量子チャネル容量を維持するためにユニタリを適用し、Eveはそれを破壊するために測定を適用している。 各対戦相手が利用可能なコヒーレンス生成または破壊操作を制限することにより、アリスのコヒーレンス要件を決定する。 Alice が汎用的な量子力学を模倣するランダムな戦略を実行すると、エンタングルメントと量子チャネルキャパシティのコヒーレンス調整相転移が見つかる。 次に、aliceが成功する戦略において必要最小限のコヒーレンスを与える定理を導出し、任意のstabelizer量子誤り訂正符号における符号距離の上界をコヒーレンスが設定することを証明する。 このような境界は、量子通信と誤り訂正のためのコヒーレンスリソース要件の厳密な定量化をもたらす。

The coherent superposition of quantum states is an important resource for quantum information processing which distinguishes quantum dynamics and information from their classical counterparts. In this article we determine the coherence requirements to communicate quantum information in a broad setting encompassing monitored quantum dynamics and quantum error correction codes. We determine these requirements by considering hybrid circuits that are generated by a quantum information game played between two opponents, Alice and Eve, who compete by applying unitaries and measurements on a fixed number of qubits. Alice applies unitaries in an attempt to maintain quantum channel capacity, while Eve applies measurements in an attempt to destroy it. By limiting the coherence generating or destroying operations available to each opponent, we determine Alice's coherence requirements. When Alice plays a random strategy aimed at mimicking generic monitored quantum dynamics, we discover a coherence-tuned phase transitions in entanglement and quantum channel capacity. We then derive a theorem giving the minimum coherence required by Alice in any successful strategy, and conclude by proving that coherence sets an upper bound on the code distance in any stabelizer quantum error correction codes. Such bounds provide a rigorous quantification of the coherence resource requirements for quantum communication and error correction.
翻訳日:2023-10-31 23:40:58 公開日:2023-10-27
# 量子フーリエ変換は小さな絡み合いを持つ

Quantum Fourier Transform Has Small Entanglement ( http://arxiv.org/abs/2210.08468v3 )

ライセンス: Link先を確認
Jielun Chen, E.M. Stoudenmire, Steven R. White(参考訳) 量子フーリエ変換(QFT、Quantum Fourier Transform)は、多くの重要な量子アルゴリズムの鍵となる要素であり、最も有名である。 その顕著な能力を考えると、量子ビットシステムに大きな絡み合いをもたらし、古典的にシミュレートするのが難しいと考えるだろう。 初期の結果ではQFTの最大演算子絡み合いが見られたが、これはQFTのビット反転によるものである。 QFTの中核部はシュミット係数が指数関数的に急速に減衰するので、量子ビットの数に関係なく一定のエンタングルメントしか生成できない。 さらに、qftの絡み合い力は指数関数的に減衰する相互作用を持つハミルトニアンの時間発展と同じであり、従ってダイナミクスの領域法則の変種を用いて、直観的に低絡み合いを理解することができることを示した。 qftの低エンタングルメント特性を用いて, 結合次元が小さい行列積状態におけるqftの古典的シミュレーションは, 量子ビット数において線形な時間しかかからないことを示し, 多くの関数の古典的高速フーリエ変換(fft)に対する潜在的な高速化を提供する。 簡単な関数上でのテスト計算において、このスピードアップを実証する。 長さ10^6$から10^8$のデータベクトルの場合、スピードアップは数桁のオーダーとなる。

The Quantum Fourier Transform (QFT) is a key component of many important quantum algorithms, most famously as being the essential ingredient in Shor's algorithm for factoring products of primes. Given its remarkable capability, one would think it can introduce large entanglement to qubit systems and would be difficult to simulate classically. While early results showed QFT indeed has maximal operator entanglement, we show that this is entirely due to the bit reversal in the QFT. The core part of the QFT has Schmidt coefficients decaying exponentially quickly, and thus it can only generate a constant amount of entanglement regardless of the number of qubits. In addition, we show the entangling power of the QFT is the same as the time evolution of a Hamiltonian with exponentially decaying interactions, and thus a variant of the area law for dynamics can be used to understand the low entanglement intuitively. Using the low entanglement property of the QFT, we show that classical simulations of the QFT on a matrix product state with low bond dimension only take time linear in the number of qubits, providing a potential speedup over the classical fast Fourier transform (FFT) on many classes of functions. We demonstrate this speedup in test calculations on some simple functions. For data vectors of length $10^6$ to $10^8$, the speedup can be a few orders of magnitude.
翻訳日:2023-10-31 23:39:40 公開日:2023-10-27
# 因果的ガウス過程の経験的共分散の最小固有値について

A note on the smallest eigenvalue of the empirical covariance of causal Gaussian processes ( http://arxiv.org/abs/2212.09508v2 )

ライセンス: Link先を確認
Ingvar Ziemann(参考訳) 因果的ガウス過程における経験的共分散の最小固有値の境界に関する簡単な証明を示す。 その過程で、因果分解を用いたガウス二次形式に対する片側尾不等式を確立する。 我々の証明はガウス分布とユニオン境界に関する基本的な事実のみを用いる。 結論は、ベクトル自己回帰の最小二乗同定に対して性能保証を提供する例である。

We present a simple proof for bounding the smallest eigenvalue of the empirical covariance in a causal Gaussian process. Along the way, we establish a one-sided tail inequality for Gaussian quadratic forms using a causal decomposition. Our proof only uses elementary facts about the Gaussian distribution and the union bound. We conclude with an example in which we provide a performance guarantee for least squares identification of a vector autoregression.
翻訳日:2023-10-31 23:26:54 公開日:2023-10-27
# グルコシンス(GlucoSynth:GlucoSynth:GlucoSynth)

GlucoSynth: Generating Differentially-Private Synthetic Glucose Traces ( http://arxiv.org/abs/2303.01621v3 )

ライセンス: Link先を確認
Josephine Lamp, Mark Derdzinski, Christopher Hannemann, Joost van der Linden, Lu Feng, Tianhao Wang, David Evans(参考訳) 我々は,高品質でプライベートな合成グルコーストレースを生成するという課題に焦点をあてる。 GAN(Generative Adversarial Networks)のような既存の時系列データ合成手法では、グルコースデータの固有の特性を捉えることができず、合成データの利便性を著しく低下させることなく、正式なプライバシー保証を提供することはできない。 本稿では,合成グルコーストレースを生成するための新しいプライバシ保存ganフレームワークglucosynthを提案する。 このアプローチの背後にある中核的な直感は、時間的ダイナミクスに加えて、トレース内のモチーフ(グルコースイベント)間の関係を保存することである。 我々のフレームワークは、強力な正式なプライバシー保証を提供するために、差分プライバシー機構を組み込んでいる。 glucosynthは、強力なプライバシ保証によって高品質な合成グルコーストレースを生成する能力において、これまでのすべての方法よりも優れています。

We focus on the problem of generating high-quality, private synthetic glucose traces, a task generalizable to many other time series sources. Existing methods for time series data synthesis, such as those using Generative Adversarial Networks (GANs), are not able to capture the innate characteristics of glucose data and cannot provide any formal privacy guarantees without severely degrading the utility of the synthetic data. In this paper we present GlucoSynth, a novel privacy-preserving GAN framework to generate synthetic glucose traces. The core intuition behind our approach is to conserve relationships amongst motifs (glucose events) within the traces, in addition to temporal dynamics. Our framework incorporates differential privacy mechanisms to provide strong formal privacy guarantees. We provide a comprehensive evaluation on the real-world utility of the data using 1.2 million glucose traces; GlucoSynth outperforms all previous methods in its ability to generate high-quality synthetic glucose traces with strong privacy guarantees.
翻訳日:2023-10-31 23:19:17 公開日:2023-10-27
# 中立に保つ - 自然言語推論を使って生成を改善する

Keep it Neutral: Using Natural Language Inference to Improve Generation ( http://arxiv.org/abs/2302.08577v2 )

ライセンス: Link先を確認
Michail Mersinias, Kyle Mahowald(参考訳) テキスト生成パイプラインに自然言語推論(nli)を組み込んで,学習済みのnliモデルを用いて,生成した文が文に含まれるか,矛盾しているか,あるいはプロンプト文と先行文に中立であるかを評価する。 まず NLI タスクは GPT-3 による生成エラーの予測であることを示す。 GPT-JのためのNLIインフォームド生成手法を開発した。 そして,これらの世代を,エラータイプと全体的な品質に関する人間のアノテーションを用いて評価する。 その結果,nli戦略では,核サンプリング乱数パラメータ値が高い場合にはテキスト生成が改善され,パラメータ値が低い場合には矛盾を最大化する戦略が実際に生産的であることがわかった。 しかし,全体としては,中性クラスを最大化するnli戦略が,パラメータ値によらず,生成テキストの最高品質(バニラ世代よりも優れている)を提供することを示した。

We explore incorporating natural language inference (NLI) into the text generative pipeline by using a pre-trained NLI model to assess whether a generated sentence entails, contradicts, or is neutral to the prompt and preceding text. First, we show that the NLI task is predictive of generation errors made by GPT-3. We use these results to develop an NLI-informed generation procedure for GPT-J. Then, we evaluate these generations by obtaining human annotations on error types and overall quality. We find that an NLI strategy of maximizing entailment improves text generation when the nucleus sampling randomness parameter value is high, while one which maximizes contradiction is in fact productive when the parameter value is low. Overall, though, we demonstrate that an NLI strategy of maximizing the neutral class provides the highest quality of generated text (significantly better than the vanilla generations), regardless of parameter value.
翻訳日:2023-10-31 23:15:39 公開日:2023-10-27
# 分布ドリフト下における非パラメトリック密度推定

Nonparametric Density Estimation under Distribution Drift ( http://arxiv.org/abs/2302.02460v2 )

ライセンス: Link先を確認
Alessio Mazzetto, Eli Upfal(参考訳) 非定常ドリフト設定における非パラメトリック密度推定について検討する。 時間的に徐々に変化する分布から取り出された独立したサンプルの列を考えると、目標は現在の分布の最適な推定値を計算することである。 離散的および連続的な滑らかな密度の両方に対して、最小はすべての可能な推定値、最大はドリフト制約を満たす全ての可能な分布に対して、厳密なミニマックスリスク境界を証明する。 本手法は幅広いドリフトモデルに対応し,ドリフト下の非依存学習に関するこれまでの結果を一般化する。

We study nonparametric density estimation in non-stationary drift settings. Given a sequence of independent samples taken from a distribution that gradually changes in time, the goal is to compute the best estimate for the current distribution. We prove tight minimax risk bounds for both discrete and continuous smooth densities, where the minimum is over all possible estimates and the maximum is over all possible distributions that satisfy the drift constraints. Our technique handles a broad class of drift models, and generalizes previous results on agnostic learning under drift.
翻訳日:2023-10-31 23:13:40 公開日:2023-10-27
# ゼロショット画像浄化によるブラックボックスバックドア防御

Black-box Backdoor Defense via Zero-shot Image Purification ( http://arxiv.org/abs/2303.12175v2 )

ライセンス: Link先を確認
Yucheng Shi, Mengnan Du, Xuansheng Wu, Zihan Guan, Jin Sun, Ninghao Liu(参考訳) バックドア攻撃は、トレーニングデータに有毒なサンプルを注入し、モデルのデプロイ中に有毒な入力を誤分類する。 このような攻撃に対する防御は、特にクエリアクセスのみを許可する現実世界のブラックボックスモデルでは難しい。 本稿では,ZIP(Zero-shot Image Purification)によるバックドア攻撃に対する防御機構を提案する。 我々のフレームワークは、汚染されたモデルに対して、モデルに関する内部情報やクリーン/汚染されたサンプルに関する事前知識を必要とせずに適用できる。 防御の枠組みには2つのステップがある。 まず、毒性画像に線形変換(例えば、ぼやけ)を適用して、バックドアパターンを破壊する。 次に,事前学習した拡散モデルを用いて,変換によって削除された意味情報を復元する。 特に,ゼロショット設定で機能する高忠実度精製画像の生成を,変換画像を用いてガイドすることにより,新たなリバースプロセスをデザインする。 攻撃の種類が異なる複数のデータセット上でZIPフレームワークを評価する。 実験により, 最先端のバックドア防御ベースラインに比べてZIPフレームワークが優れていることが示された。 我々は,ブラックボックスモデルに対する今後の防衛手法に関する貴重な知見を提供すると信じている。 私たちのコードはhttps://github.com/sycny/zipで利用可能です。

Backdoor attacks inject poisoned samples into the training data, resulting in the misclassification of the poisoned input during a model's deployment. Defending against such attacks is challenging, especially for real-world black-box models where only query access is permitted. In this paper, we propose a novel defense framework against backdoor attacks through Zero-shot Image Purification (ZIP). Our framework can be applied to poisoned models without requiring internal information about the model or any prior knowledge of the clean/poisoned samples. Our defense framework involves two steps. First, we apply a linear transformation (e.g., blurring) on the poisoned image to destroy the backdoor pattern. Then, we use a pre-trained diffusion model to recover the missing semantic information removed by the transformation. In particular, we design a new reverse process by using the transformed image to guide the generation of high-fidelity purified images, which works in zero-shot settings. We evaluate our ZIP framework on multiple datasets with different types of attacks. Experimental results demonstrate the superiority of our ZIP framework compared to state-of-the-art backdoor defense baselines. We believe that our results will provide valuable insights for future defense methods for black-box models. Our code is available at https://github.com/sycny/ZIP.
翻訳日:2023-10-31 23:06:31 公開日:2023-10-27
# 変圧器を用いたシンボリック回帰計画

Transformer-based Planning for Symbolic Regression ( http://arxiv.org/abs/2303.06833v5 )

ライセンス: Link先を確認
Parshin Shojaee, Kazem Meidani, Amir Barati Farimani, Chandan K. Reddy(参考訳) 記号回帰(SR)は、その値に基づいて関数の数学的表現を見つけることを含む機械学習における挑戦的なタスクである。 最近のsrの進歩は、方程式を列として生成することにおける事前学習されたトランスフォーマモデルの有効性を実証し、合成データセットの大規模事前トレーニングを活用し、古典的な遺伝的プログラミング(gp)法よりも推論時間において顕著な利点を提供している。 しかし、これらのモデルは主にテキスト生成から借りた教師付き事前学習の目標と、精度や複雑さといった方程式発見の目的に依存している。 そこで本研究では,モンテカルロ木探索をトランスフォーマ復号処理に組み込んだ,トランスフォーマに基づくシンボリック回帰計画戦略TPSRを提案する。 従来の復号法とは異なり、TPSRは知識の外部源として精度や複雑さなどの非微分可能なフィードバックを変換器ベースの方程式生成プロセスに統合することができる。 様々なデータセットに対する大規模な実験により、我々のアプローチは最先端の手法よりも優れており、モデルの適合・複雑度トレードオフ、外挿能力、ノイズに対する堅牢性を高めている。

Symbolic regression (SR) is a challenging task in machine learning that involves finding a mathematical expression for a function based on its values. Recent advancements in SR have demonstrated the effectiveness of pre-trained transformer-based models in generating equations as sequences, leveraging large-scale pre-training on synthetic datasets and offering notable advantages in terms of inference time over classical Genetic Programming (GP) methods. However, these models primarily rely on supervised pre-training goals borrowed from text generation and overlook equation discovery objectives like accuracy and complexity. To address this, we propose TPSR, a Transformer-based Planning strategy for Symbolic Regression that incorporates Monte Carlo Tree Search into the transformer decoding process. Unlike conventional decoding strategies, TPSR enables the integration of non-differentiable feedback, such as fitting accuracy and complexity, as external sources of knowledge into the transformer-based equation generation process. Extensive experiments on various datasets show that our approach outperforms state-of-the-art methods, enhancing the model's fitting-complexity trade-off, extrapolation abilities, and robustness to noise.
翻訳日:2023-10-31 23:05:53 公開日:2023-10-27
# フェデレーション学習におけるセキュアアグリゲーションに対するクライアント固有の特性推定

Client-specific Property Inference against Secure Aggregation in Federated Learning ( http://arxiv.org/abs/2303.03908v2 )

ライセンス: Link先を確認
Raouf Kerkouche, Gergely \'Acs, Mario Fritz(参考訳) 連合学習は、トレーニングをコーディネートする中央サーバの助けを借りて、異なる参加者間で共通のモデルを協調的にトレーニングするために広く使われているパラダイムとなっている。 モデルパラメータやその他のモデル更新は、参加者のデータではなく、連合トレーニング中にのみ交換されるが、多くの攻撃は、参加者データのメンバーシップ、プロパティ、アウトライトリコンストラクションなどの機密情報を推測することが可能であることを示している。 差分プライバシーは、プライバシー攻撃から保護するための効果的な解決策と考えられているが、実用性に対する悪影響も批判されている。 もうひとつの防御策はセキュアアグリゲーションを使用することで、個々のアグリゲーションではなく、サーバが集約されたアップデートにのみアクセスできるようにする。 しかし、各ラウンドで異なるクライアント構成によって生成される集約された更新のみを組み合わせることで、クライアント固有の情報の推測が可能になる。 本稿では, 単純な線形モデルにより, 集約されたモデル更新からのみ, クライアント固有の特性を効果的に捉えることができることを示す。 例えば、トレーニングデータ(メンバーシップ推論)に特定のサンプルがあるかどうか、あるいは誤動作しているかどうかを推測し、攻撃によって共通のモデルの性能を低下させようとするなど、各クライアントのテスト特性を線形モデルの出力から推測するために、異なるラウンドで最適化問題を定式化する。 再建技術は完全にパッシブで 検出不能です 我々は,セキュアアグリゲーションが実際には極めて限定的なプライバシ保証を提供するいくつかのシナリオにおいて,このアプローチの有効性を実証する。 ソースコードは公開時に公開される。

Federated learning has become a widely used paradigm for collaboratively training a common model among different participants with the help of a central server that coordinates the training. Although only the model parameters or other model updates are exchanged during the federated training instead of the participant's data, many attacks have shown that it is still possible to infer sensitive information such as membership, property, or outright reconstruction of participant data. Although differential privacy is considered an effective solution to protect against privacy attacks, it is also criticized for its negative effect on utility. Another possible defense is to use secure aggregation which allows the server to only access the aggregated update instead of each individual one, and it is often more appealing because it does not degrade model quality. However, combining only the aggregated updates, which are generated by a different composition of clients in every round, may still allow the inference of some client-specific information. In this paper, we show that simple linear models can effectively capture client-specific properties only from the aggregated model updates due to the linearity of aggregation. We formulate an optimization problem across different rounds in order to infer a tested property of every client from the output of the linear models, for example, whether they have a specific sample in their training data (membership inference) or whether they misbehave and attempt to degrade the performance of the common model by poisoning attacks. Our reconstruction technique is completely passive and undetectable. We demonstrate the efficacy of our approach on several scenarios which shows that secure aggregation provides very limited privacy guarantees in practice. The source code will be released upon publication.
翻訳日:2023-10-31 23:02:19 公開日:2023-10-27
# オフライン強化学習による人間の行動に影響を与える学習

Learning to Influence Human Behavior with Offline Reinforcement Learning ( http://arxiv.org/abs/2303.02265v4 )

ライセンス: Link先を確認
Joey Hong, Sergey Levine, Anca Dragan(参考訳) 人と対話する場合、AIエージェントは世界の状態に影響を与えるだけでなく、エージェントに反応する人々の行動や、その根底にある意図や戦略にも影響を及ぼす。 この影響を考慮し、活用することは、人間の行動がほぼ最適であると仮定できるような環境で、主に研究されてきた。 代わりに、人間のサブ最適化を捉える必要のある設定での影響に焦点を当てます。 例えば、認知バイアスや情報の欠如によって、人々があまりうまく機能しないような協調的なタスクを想像してください。 ほぼ最適な人間の行動はここでは機能しないので、エージェントは実際の人間のデータから学ぶ必要がある。 しかし、人間とオンラインで実験することは、潜在的に危険であり、環境の忠実度の高いシミュレーターを作成することは、しばしば非現実的です。 したがって、人間と人間の相互作用のオフラインデータセットから学ぶことに集中する。 我々の観察では、オフライン強化学習(RL)は、観察された人間-人間の行動の要素を拡張し、組み合わせることで、最適な人間に効果的に影響を与えることができる。 オフラインRLは2つの課題を効果的に解決できることを示した。 まず,様々なタスクにおける人間と人間とサブ最適インタラクションのデータセットから学習することで,エージェントは,新たなタスクにおいても人間をよりよいパフォーマンスへと導くための影響戦略を学習できることを示す。 第二に、人間の行動のモデリングと条件付けにより、オフラインRLは人間の行動だけでなく、その基盤となる戦略にも影響を与え、その戦略の変化に適応できることを示す。

When interacting with people, AI agents do not just influence the state of the world -- they also influence the actions people take in response to the agent, and even their underlying intentions and strategies. Accounting for and leveraging this influence has mostly been studied in settings where it is sufficient to assume that human behavior is near-optimal: competitive games, or general-sum settings like autonomous driving alongside human drivers. Instead, we focus on influence in settings where there is a need to capture human suboptimality. For instance, imagine a collaborative task in which, due either to cognitive biases or lack of information, people do not perform very well -- how could an agent influence them towards more optimal behavior? Assuming near-optimal human behavior will not work here, and so the agent needs to learn from real human data. But experimenting online with humans is potentially unsafe, and creating a high-fidelity simulator of the environment is often impractical. Hence, we focus on learning from an offline dataset of human-human interactions. Our observation is that offline reinforcement learning (RL) can learn to effectively influence suboptimal humans by extending and combining elements of observed human-human behavior. We demonstrate that offline RL can solve two challenges with effective influence. First, we show that by learning from a dataset of suboptimal human-human interaction on a variety of tasks -- none of which contains examples of successful influence -- an agent can learn influence strategies to steer humans towards better performance even on new tasks. Second, we show that by also modeling and conditioning on human behavior, offline RL can learn to affect not just the human's actions but also their underlying strategy, and adapt to changes in their strategy.
翻訳日:2023-10-31 23:01:52 公開日:2023-10-27
# データ共有における統計プライバシーの概要

Summary Statistic Privacy in Data Sharing ( http://arxiv.org/abs/2303.02014v2 )

ライセンス: Link先を確認
Zinan Lin, Shuaiqi Wang, Vyas Sekar, Giulia Fanti(参考訳) データホルダがデータ配信(例えば、平均、標準偏差)の特定の要約統計を明らかにすることなく、データホルダが受信者とデータを共有したいという設定について検討する。 ランダム化機構を介してデータを渡すことでこれを実現できる。 本稿では,あるしきい値内で分布秘密を推測する相手の最悪の確率に基づいて,そのようなメカニズムのプライバシーリスクを定量化する指標である要約統計プライバシーを提案する。 歪みを、実際のデータと解放データの間の最悪のケースであるWasserstein-1距離として定義すると、プライバシーと歪みのトレードオフは低くなります。 次に,異なるデータ分布に適用可能な量子化機構のクラスを提案する。 量子化機構のプライバシゆがみトレードオフは、特定の体制下での我々の下限と、より小さな定数要因に合致することを示している。 最後に、提案する量子化メカニズムが、代替プライバシメカニズムよりも優れたプライバシー歪曲トレードオフを実現することを実世界のデータセットで実証する。

We study a setting where a data holder wishes to share data with a receiver, without revealing certain summary statistics of the data distribution (e.g., mean, standard deviation). It achieves this by passing the data through a randomization mechanism. We propose summary statistic privacy, a metric for quantifying the privacy risk of such a mechanism based on the worst-case probability of an adversary guessing the distributional secret within some threshold. Defining distortion as a worst-case Wasserstein-1 distance between the real and released data, we prove lower bounds on the tradeoff between privacy and distortion. We then propose a class of quantization mechanisms that can be adapted to different data distributions. We show that the quantization mechanism's privacy-distortion tradeoff matches our lower bounds under certain regimes, up to small constant factors. Finally, we demonstrate on real-world datasets that the proposed quantization mechanisms achieve better privacy-distortion tradeoffs than alternative privacy mechanisms.
翻訳日:2023-10-31 23:01:25 公開日:2023-10-27
# Pgx:強化学習のためのハードウェアアクセラレーション並列ゲームシミュレータ

Pgx: Hardware-Accelerated Parallel Game Simulators for Reinforcement Learning ( http://arxiv.org/abs/2303.17503v3 )

ライセンス: Link先を確認
Sotetsu Koyamada, Shinri Okano, Soichiro Nishimori, Yu Murata, Keigo Habara, Haruka Kita, Shin Ishii(参考訳) JAXで記述され,GPU/TPUアクセラレータ向けに最適化されたボードゲーム強化学習(RL)環境のスイートであるPgxを提案する。 JAXのオートベクタライゼーションとアクセラレータ上での並列化を活用することで、Pgxはアクセラレータ上で数千の同時シミュレーションに効率的にスケールすることができる。 DGX-A100ワークステーションの実験で、PgxはPythonの既存の実装よりも10~100倍高速にRL環境をシミュレートできることがわかった。 Pgxには、バックギャモン、チェス、ショギ、GoといったRL研究のベンチマークとして一般的に使用されるRL環境が含まれている。 さらにPgxは、迅速な研究サイクルを促進するために、ミニチュアゲームセットとベースラインモデルを提供している。 pgx環境を用いたgumbel alphazeroアルゴリズムの効率的なトレーニングを行う。 pgxは、研究者がrl実験を加速するための高性能環境シミュレータを提供する。 pgxはhttp://github.com/sotetsuk/pgxで利用可能である。

We propose Pgx, a suite of board game reinforcement learning (RL) environments written in JAX and optimized for GPU/TPU accelerators. By leveraging JAX's auto-vectorization and parallelization over accelerators, Pgx can efficiently scale to thousands of simultaneous simulations over accelerators. In our experiments on a DGX-A100 workstation, we discovered that Pgx can simulate RL environments 10-100x faster than existing implementations available in Python. Pgx includes RL environments commonly used as benchmarks in RL research, such as backgammon, chess, shogi, and Go. Additionally, Pgx offers miniature game sets and baseline models to facilitate rapid research cycles. We demonstrate the efficient training of the Gumbel AlphaZero algorithm with Pgx environments. Overall, Pgx provides high-performance environment simulators for researchers to accelerate their RL experiments. Pgx is available at http://github.com/sotetsuk/pgx.
翻訳日:2023-10-31 22:49:02 公開日:2023-10-27
# 未知分布ドリフトを用いた適応的学習アルゴリズム

An Adaptive Algorithm for Learning with Unknown Distribution Drift ( http://arxiv.org/abs/2305.02252v3 )

ライセンス: Link先を確認
Alessio Mazzetto, Eli Upfal(参考訳) 我々は,未知分布ドリフトを用いた一般学習手法を開発し,解析する。 ドリフト分布の最後の$t$ステップから独立した観測のシーケンスを考えると、アルゴリズムは、時間$t$の現在の分布に関する関数群を無意識的に学習する。 従来の作業とは異なり,この手法ではドリフトの大きさに関する事前の知識を必要としない。 その代わりに、アルゴリズムはサンプルデータに適応する。 ドリフトを明示的に推定することなく、アルゴリズムはドリフトの大きさを事前に知っている学習アルゴリズムとほとんど同じ誤差の関数群を学習する。 さらに,本アルゴリズムはデータに適応するので,ドリフト上のゆるい境界に依存するアルゴリズムよりも学習誤差がよいことを保証できる。 本手法を,二元分類と線形回帰という2つの基本的な学習シナリオに適用する。

We develop and analyze a general technique for learning with an unknown distribution drift. Given a sequence of independent observations from the last $T$ steps of a drifting distribution, our algorithm agnostically learns a family of functions with respect to the current distribution at time $T$. Unlike previous work, our technique does not require prior knowledge about the magnitude of the drift. Instead, the algorithm adapts to the sample data. Without explicitly estimating the drift, the algorithm learns a family of functions with almost the same error as a learning algorithm that knows the magnitude of the drift in advance. Furthermore, since our algorithm adapts to the data, it can guarantee a better learning error than an algorithm that relies on loose bounds on the drift. We demonstrate the application of our technique in two fundamental learning scenarios: binary classification and linear regression.
翻訳日:2023-10-31 22:37:47 公開日:2023-10-27
# MLフェアネスに対するスキントーンアノテーションの同意と主観性

Consensus and Subjectivity of Skin Tone Annotation for ML Fairness ( http://arxiv.org/abs/2305.09073v2 )

ライセンス: Link先を確認
Candice Schumann, Gbolahan O. Olanubi, Auriel Wright, Ellis Monk Jr., Courtney Heldreth, Susanna Ricco(参考訳) 異なる人間の属性とモデル行動がどのように影響するかを理解することは、従来のコンピュータビジョンタスクから最新のマルチモーダル生成AIシステムに至るまで、すべてのモデル作成と使用の標準的ニーズになる可能性がある。 特にコンピュータビジョンでは、認識された属性信号(性別表示、肌の色、年齢など)を付加したデータセットと、これらのデータセットで可能なベンチマークに依存しています。 通常、これらのタスクのラベルは人間のアノテーションに由来する。 しかし、属性信号の注釈付け、特に肌のトーンは困難で主観的な作業である。 皮膚のトーン知覚は、照明条件などの技術的な要因や、注釈者の生活体験を形作る社会的要因に影響される。 本稿では,mst(monk skin tone)スケール,プロのフォトグラファーのプール,より大規模に訓練されたクラウドソース・アノテータを用いたアノテーション実験を通じて,スキントーンアノテーションの主観性について検討する。 この研究とともに、全MSTスケールに広がる1515の画像と31のビデオを含む、Monk Skin Tone Examples (MST-E)データセットをリリースしました。 MST-Eは、ヒトのアノテータにMSTを効果的にアノテートさせる訓練を支援するように設計されている。 本研究は, 環境条件の厳しい条件下であっても, MSTスケールの専門家と一致して皮膚のトーンを確実にアノテートできることを示す。 また、異なる地理的領域のアノテータがMSTカテゴリーの異なるメンタルモデルに依存していることを示す。 これを踏まえて,肌色を公正な研究にアノテートする場合,多様なアノテータセットと画像毎に高いレプリケーションカウントを使用することを実践者に推奨する。

Understanding different human attributes and how they affect model behavior may become a standard need for all model creation and usage, from traditional computer vision tasks to the newest multimodal generative AI systems. In computer vision specifically, we have relied on datasets augmented with perceived attribute signals (e.g., gender presentation, skin tone, and age) and benchmarks enabled by these datasets. Typically labels for these tasks come from human annotators. However, annotating attribute signals, especially skin tone, is a difficult and subjective task. Perceived skin tone is affected by technical factors, like lighting conditions, and social factors that shape an annotator's lived experience. This paper examines the subjectivity of skin tone annotation through a series of annotation experiments using the Monk Skin Tone (MST) scale, a small pool of professional photographers, and a much larger pool of trained crowdsourced annotators. Along with this study we release the Monk Skin Tone Examples (MST-E) dataset, containing 1515 images and 31 videos spread across the full MST scale. MST-E is designed to help train human annotators to annotate MST effectively. Our study shows that annotators can reliably annotate skin tone in a way that aligns with an expert in the MST scale, even under challenging environmental conditions. We also find evidence that annotators from different geographic regions rely on different mental models of MST categories resulting in annotations that systematically vary across regions. Given this, we advise practitioners to use a diverse set of annotators and a higher replication count for each image when annotating skin tone for fairness research.
翻訳日:2023-10-31 22:25:16 公開日:2023-10-27
# 確率的潜在表現を用いたブロック局所学習

Block-local learning with probabilistic latent representations ( http://arxiv.org/abs/2305.14974v2 )

ライセンス: Link先を確認
David Kappel, Khaleelulla Khan Nazeer, Cabrel Teguemne Fokam, Christian Mayr, Anand Subramoney(参考訳) ユビキタスなバックプロパゲーションアルゴリズムは、ロック問題を導入するネットワークを通じた逐次更新を必要とする。 さらに、バックプロパゲーションは、更新を計算するために前方の重み行列の変換に依存しており、ネットワーク全体に重み輸送の問題をもたらす。 ロックと重量輸送は、訓練プロセスの効率的な並列化と水平スケーリングを防止するためである。 本稿では,これらの問題に対処し,大規模モデルのトレーニングをスケールアップするための新しい手法を提案する。 本手法では,深層ニューラルネットワークをブロックに分割し,対象から情報を後方に伝播して局所的損失を補助するフィードバックネットワークを導入する。 前向きおよび後向きの伝搬は、ロックと重量輸送の問題に対処するため、異なる重みセットで平行に動作することができる。 提案手法は,ネットワークブロックの出力活性化を確率分布のパラメータとして扱う訓練の統計的解釈から導かれる。 得られた学習フレームワークは、これらのパラメータを使用して前方情報と後方情報の間の合意を評価する。 エラーバックプロパゲーションは各ブロック内でローカルに実行されるため、"ブロックローカル"学習につながる。 従来提案されていた誤りのバックプロパゲーションの代替案が,本モデルの特別な事例として現れている。 各種タスクやアーキテクチャについて,ブロック局所学習を用いた最先端性能の実証を行った。 これらの結果は分散環境でネットワークをトレーニングするための新しい原則付きフレームワークを提供する。

The ubiquitous backpropagation algorithm requires sequential updates through the network introducing a locking problem. In addition, back-propagation relies on the transpose of forward weight matrices to compute updates, introducing a weight transport problem across the network. Locking and weight transport are problems because they prevent efficient parallelization and horizontal scaling of the training process. We propose a new method to address both these problems and scale up the training of large models. Our method works by dividing a deep neural network into blocks and introduces a feedback network that propagates the information from the targets backwards to provide auxiliary local losses. Forward and backward propagation can operate in parallel and with different sets of weights, addressing the problems of locking and weight transport. Our approach derives from a statistical interpretation of training that treats output activations of network blocks as parameters of probability distributions. The resulting learning framework uses these parameters to evaluate the agreement between forward and backward information. Error backpropagation is then performed locally within each block, leading to "block-local" learning. Several previously proposed alternatives to error backpropagation emerge as special cases of our model. We present results on a variety of tasks and architectures, demonstrating state-of-the-art performance using block-local learning. These results provide a new principled framework for training networks in a distributed setting.
翻訳日:2023-10-31 22:16:21 公開日:2023-10-27
# 判別校正:シミュレーションとフレキシブル分類器によるベイズ計算の検証

Discriminative calibration: Check Bayesian computation from simulations and flexible classifier ( http://arxiv.org/abs/2305.14593v2 )

ライセンス: Link先を確認
Yuling Yao, Justin Domke(参考訳) ベイズ計算の精度を確認するために、ランクに基づくシミュレーションベースキャリブレーション(SBC)を用いるのが一般的である。 しかし、SBCには欠点がある: テスト統計は幾らかアドホックであり、相互作用を調べることは困難であり、複数のテストは困難であり、結果として得られるp値は分岐計量ではない。 本稿では,データからテスト統計を学習するフレキシブルな分類手法に限界ランクテストを置き換えることを提案する。 この尺度は典型的にはSBCランクテストよりも高い統計力を持ち、分類精度から計算された誤校正の解釈可能なばらつき尺度を返す。 このアプローチは様々なデータ生成プロセスで使用でき、確率的推論やマルコフ連鎖モンテカルロや変分推論のような従来の推論方法に対処することができる。 本稿では,ニューラルネットワークと統計的にインスパイアされた特徴を用いた自動実装を説明し,数値および実データ実験による検証を行う。

To check the accuracy of Bayesian computations, it is common to use rank-based simulation-based calibration (SBC). However, SBC has drawbacks: The test statistic is somewhat ad-hoc, interactions are difficult to examine, multiple testing is a challenge, and the resulting p-value is not a divergence metric. We propose to replace the marginal rank test with a flexible classification approach that learns test statistics from data. This measure typically has a higher statistical power than the SBC rank test and returns an interpretable divergence measure of miscalibration, computed from classification accuracy. This approach can be used with different data generating processes to address likelihood-free inference or traditional inference methods like Markov chain Monte Carlo or variational inference. We illustrate an automated implementation using neural networks and statistically-inspired features, and validate the method with numerical and real data experiments.
翻訳日:2023-10-31 22:13:56 公開日:2023-10-27
# WikiChat: Wikipedia上のFew-Shot Groundingによる大規模言語モデルチャットボットの幻覚を止める

WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia ( http://arxiv.org/abs/2305.14292v2 )

ライセンス: Link先を確認
Sina J. Semnani, Violet Z. Yao, Heidi C. Zhang, Monica S. Lam(参考訳) 本稿では,ほとんど幻覚を起こさず,会話性が高く,レイテンシも低いLLMベースのチャットボットについて述べる。 WikiChatは英語のウィキペディアをベースとしている。 WikiChat は LLM から応答を生成し,根拠のある事実のみを保持し,コーパスから取得した追加情報と組み合わせて,現実的かつ活発な応答を形成する。 GPT-4に基づくWikiChatを、7BパラメータのLLaMAモデルに蒸留し、品質の損失を最小限に抑え、そのレイテンシ、コスト、プライバシを大幅に改善し、研究とデプロイメントを容易にする。 新しい人間とllmのハイブリッド評価手法を用いて,シミュレーション会話において,最善のシステムが97.3%の事実的正確性を達成することを示す。 検索ベースとLLMベースのベースラインでは、GPT-4と比較して3.9%、38.6%、最近の知識では51.0%をはるかに上回っている。 従来の最先端の検索ベースのチャットボットと比較すると、WikiChatはLLMと同様、はるかに情報とエンゲージメントがある。 WikiChatは、最近のトピックに関する人間ユーザとの会話において、97.9%の事実精度を達成し、GPT-4よりも55.0%向上した。

This paper presents the first few-shot LLM-based chatbot that almost never hallucinates and has high conversationality and low latency. WikiChat is grounded on the English Wikipedia, the largest curated free-text corpus. WikiChat generates a response from an LLM, retains only the grounded facts, and combines them with additional information it retrieves from the corpus to form factual and engaging responses. We distill WikiChat based on GPT-4 into a 7B-parameter LLaMA model with minimal loss of quality, to significantly improve its latency, cost and privacy, and facilitate research and deployment. Using a novel hybrid human-and-LLM evaluation methodology, we show that our best system achieves 97.3% factual accuracy in simulated conversations. It significantly outperforms all retrieval-based and LLM-based baselines, and by 3.9%, 38.6% and 51.0% on head, tail and recent knowledge compared to GPT-4. Compared to previous state-of-the-art retrieval-based chatbots, WikiChat is also significantly more informative and engaging, just like an LLM. WikiChat achieves 97.9% factual accuracy in conversations with human users about recent topics, 55.0% better than GPT-4, while receiving significantly higher user ratings and more favorable comments.
翻訳日:2023-10-31 22:12:58 公開日:2023-10-27
# 個人差分潜流拡散モデル

Differentially Private Latent Diffusion Models ( http://arxiv.org/abs/2305.15759v3 )

ライセンス: Link先を確認
Saiyue Lyu, Margarita Vinaroz, Michael F. Liu, Mijung Park(参考訳) 拡散モデル(DM)は、非微分プライベートな方法で高品質な高次元画像を生成するために広く用いられている。 この課題に対処するため、最近の論文では、DMを公開データで事前訓練し、DP-SGDを用いて比較的短期間にプライベートデータで微調整することを提案している。 本稿では,LDM(Latent Diffusion Models)を採用することにより,DPを用いたDMの現状をさらに改善する。 LDMは、高次元の画素を低次元の潜在表現にマッピングする強力な事前学習オートエンコーダを備えており、DMをより効率的に高速に訓練することができる。 提案アルゴリズムでは,DM全体を微調整するのではなく,各層におけるLDMの注意モジュールのみをプライバシーに敏感なデータで微調整し,トレーニング可能なパラメータの数を約90%削減し,DM全体を微調整するよりも精度が向上する。 DP-SGDで微調整するパラメータ空間が小さくなれば、いくつかの公開プライベートなベンチマークデータペアで新たな最先端結果が得られます。我々のアプローチでは、より現実的で高次元の画像(256x256)を生成できます。 提案手法は,高品質な高次元DP画像を生成するため,より強力で訓練効率のよい差分DMをトレーニングするための有望な方向を提供する。

Diffusion models (DMs) are widely used for generating high-quality high-dimensional images in a non-differentially private manner. To address this challenge, recent papers suggest pre-training DMs with public data, then fine-tuning them with private data using DP-SGD for a relatively short period. In this paper, we further improve the current state of DMs with DP by adopting the Latent Diffusion Models (LDMs). LDMs are equipped with powerful pre-trained autoencoders that map the high-dimensional pixels into lower-dimensional latent representations, in which DMs are trained, yielding a more efficient and fast training of DMs. In our algorithm, DP-LDMs, rather than fine-tuning the entire DMs, we fine-tune only the attention modules of LDMs at varying layers with privacy-sensitive data, reducing the number of trainable parameters by roughly 90% and achieving a better accuracy, compared to fine-tuning the entire DMs. The smaller parameter space to fine-tune with DP-SGD helps our algorithm to achieve new state-of-the-art results in several public-private benchmark data pairs.Our approach also allows us to generate more realistic, high-dimensional images (256x256) and those conditioned on text prompts with differential privacy, which have not been attempted before us, to the best of our knowledge. Our approach provides a promising direction for training more powerful, yet training-efficient differentially private DMs, producing high-quality high-dimensional DP images.
翻訳日:2023-10-31 22:00:51 公開日:2023-10-27
# 最適輸送による分散誤差の特徴付け

Characterizing Out-of-Distribution Error via Optimal Transport ( http://arxiv.org/abs/2305.15640v3 )

ライセンス: Link先を確認
Yuzhe Lu, Yilong Qin, Runtian Zhai, Andrew Shen, Ketong Chen, Zhenlin Wang, Soheil Kolouri, Simon Stepputtis, Joseph Campbell, Katia Sycara(参考訳) アウト・オブ・ディストリビューション(OOD)データは、デプロイされた機械学習モデルにおいて深刻な課題となるため、ラベルなしでOODデータ上でモデルのパフォーマンスを予測する方法は、機械学習の安全性にとって重要である。 先行研究によって多くの方法が提案されているが、しばしば実際のエラーを過小評価し、時には大きなマージンで、実際のタスクへの適用性に大きな影響を与えている。 本研究では,この過小評価の重要な指標として,擬似ラベルシフト,あるいは予測値と真のOODラベル分布の違いを同定する。 そこで本研究では, 最適輸送理論である信頼度最適輸送(cot)を活用し, モデル性能を推定する新しい手法を提案する。 さらに,個々の輸送コストにしきい値を適用するとともに,cotの誤差推定精度をさらに向上させるcotの実証的モチベーションである信頼度最適輸送法(cott)を導入する。 cot と cott は様々な分散シフトを誘導する様々な標準ベンチマーク -- 合成, 新規なサブポピュレーション, 自然 – で評価し, 既存の最先端手法を最大3倍低い予測誤差で大幅に上回ることを示した。

Out-of-distribution (OOD) data poses serious challenges in deployed machine learning models, so methods of predicting a model's performance on OOD data without labels are important for machine learning safety. While a number of methods have been proposed by prior work, they often underestimate the actual error, sometimes by a large margin, which greatly impacts their applicability to real tasks. In this work, we identify pseudo-label shift, or the difference between the predicted and true OOD label distributions, as a key indicator to this underestimation. Based on this observation, we introduce a novel method for estimating model performance by leveraging optimal transport theory, Confidence Optimal Transport (COT), and show that it provably provides more robust error estimates in the presence of pseudo-label shift. Additionally, we introduce an empirically-motivated variant of COT, Confidence Optimal Transport with Thresholding (COTT), which applies thresholding to the individual transport costs and further improves the accuracy of COT's error estimates. We evaluate COT and COTT on a variety of standard benchmarks that induce various types of distribution shift -- synthetic, novel subpopulation, and natural -- and show that our approaches significantly outperform existing state-of-the-art methods with an up to 3x lower prediction error.
翻訳日:2023-10-31 22:00:21 公開日:2023-10-27
# Diffusion Brush:AI生成画像のための遅延拡散モデルに基づく編集ツール

Diffusion Brush: A Latent Diffusion Model-based Editing Tool for AI-generated Images ( http://arxiv.org/abs/2306.00219v2 )

ライセンス: Link先を確認
Peyman Gholami and Robert Xiao(参考訳) テキスト・画像生成モデルは高品質な画像の生成において顕著な進歩を遂げている。 しかし、生成した画像は、しばしばモデル制限による望ましくないアーティファクトや他のエラーを含む。 生成した画像を微調整するための既存の技術は、時間消費(手動編集)、貧弱な統合結果(インペイント)、あるいは画像全体の予期せぬ変化(変数選択と迅速な微調整)である。 本研究では,AI合成画像内の所望領域を効率よく微調整する潜在拡散モデル(LDM)ツールであるDiffusion Brushを提案する。 本手法では,対象領域に対する新しいランダムノイズパターンを導入することにより,画像の他の部分に対する元のコンテキストを維持しつつ,特定領域の変更を効率的に行うことができる。 本手法は,アーティストとのユーザスタディを通して,そのユーザビリティと有効性を評価し,他の最先端画像インペインティング手法とai生成画像の微調整のための編集ソフトウェアとの比較を行った。

Text-to-image generative models have made remarkable advancements in generating high-quality images. However, generated images often contain undesirable artifacts or other errors due to model limitations. Existing techniques to fine-tune generated images are time-consuming (manual editing), produce poorly-integrated results (inpainting), or result in unexpected changes across the entire image (variation selection and prompt fine-tuning). In this work, we present Diffusion Brush, a Latent Diffusion Model-based (LDM) tool to efficiently fine-tune desired regions within an AI-synthesized image. Our method introduces new random noise patterns at targeted regions during the reverse diffusion process, enabling the model to efficiently make changes to the specified regions while preserving the original context for the rest of the image. We evaluate our method's usability and effectiveness through a user study with artists, comparing our technique against other state-of-the-art image inpainting techniques and editing software for fine-tuning AI-generated imagery.
翻訳日:2023-10-31 21:53:52 公開日:2023-10-27
# 量子対角化による回路深さの低減

Reducing Circuit Depth with Qubitwise Diagonalization ( http://arxiv.org/abs/2306.00170v2 )

ライセンス: Link先を確認
Edison M. Murairi and Michael J. Cervia(参考訳) 様々な量子アルゴリズムは、ハミルトニアンのスペクトルや進化を研究するためにパウリ作用素を便利な基礎として採用している。 そのようなアルゴリズムにおける回路の深さを減らす一つの戦略は、ポーリ作用素の同時対角化であり、ユニタリ進化演算子や可観測値を生成する。 本稿では、深さ$\mathcal{O}(n \log r)$$n$-qubit演算子を$r$Pauli演算子で対角化する量子回路を生成する新しいアルゴリズムを提案する。 さらに,本アルゴリズムは,少なくとも1ステップにつき1キュービット以上の演算子を反復的に対角化するので,量子ビット接続に制限のあるハードウェアでも低回路深度を維持するのに適している。 このアルゴリズムは、ランダムに生成されたハミルトニアンと、短い深さと低い2量子ゲート数を持つ分子ハミルトニアンを対角化する量子回路の創出に好適である。

A variety of quantum algorithms employ Pauli operators as a convenient basis for studying the spectrum or evolution of Hamiltonians or measuring multi-body observables. One strategy to reduce circuit depth in such algorithms involves simultaneous diagonalization of Pauli operators generating unitary evolution operators or observables of interest. We propose a novel algorithm yielding quantum circuits with depths $\mathcal{O}(n \log r)$ diagonalizing $n$-qubit operators generated by $r$ Pauli operators. Moreover, as our algorithm iteratively diagonalizes all operators on at least one qubit per step, it is well-suited to maintain low circuit depth even on hardware with limited qubit connectivity. We observe that our algorithm performs favorably in producing quantum circuits diagonalizing randomly generated Hamiltonians as well as molecular Hamiltonians with short depths and low two-qubit gate counts.
翻訳日:2023-10-31 21:53:06 公開日:2023-10-27
# 強化学習における再現性

Replicability in Reinforcement Learning ( http://arxiv.org/abs/2305.19562v2 )

ライセンス: Link先を確認
Amin Karbasi, Grigoris Velegkas, Lin F. Yang, Felix Zhou(参考訳) 強化学習(RL)の文脈におけるアルゴリズム特性としての複製性に関する数学的研究を開始する。 生成モデルにアクセス可能なディスカウントタブ状MDPの基本的な設定に焦点をあてる。 Impagliazzoらにインスパイアされた。 2022] では、RLアルゴリズムが複製可能であるのは、高い確率で、内部ランダム性が同じ場合、ジェネレータから引き出されたサンプルを2回実行した後で全く同じポリシーを出力した場合である。 まず、(\varepsilon, \delta)$-optimal Policy Estimation with sample and time complexity $\widetilde O\left(\frac{N^3\cdot\log(1/\delta)}{(1-\gamma)^5\cdot\varepsilon^2\cdot\rho^2right)$に対して効率的な$\rho$-replicableアルゴリズムを提供する。 次に、決定論的アルゴリズムのサブクラスに対して、次数 $\Omega\left(\frac{N^3}{(1-\gamma)^3\cdot\varepsilon^2\cdot\rho^2}\right)$ の下界を与える。 そこで,Kalavasisらによって提案されたレプリカ化の緩和版について検討した。 【2023年】テレビの区別がつかない。 計算効率のよいテレビ識別可能アルゴリズムを設計し、サンプルの複雑さを$\widetilde O\left(\frac{N^2\cdot\log(1/\delta)}{(1-\gamma)^5\cdot\varepsilon^2\cdot\rho^2}\right)$とする。 実行時間$\exp(N)$のコストで、これらのテレビの区別できないアルゴリズムを、サンプルの複雑さを増大させることなく$\rho$-replicableに変換する。 最後に、2つの出力されたポリシーが適切な統計的発散(例えば、Renyi)の下で近いことを要求し、$\widetilde O\left(\frac{N\cdot\log(1/\delta)}{(1-\gamma)^5\cdot\varepsilon^2\cdot\rho^2}\right)$の改善されたサンプル複雑性を示す。

We initiate the mathematical study of replicability as an algorithmic property in the context of reinforcement learning (RL). We focus on the fundamental setting of discounted tabular MDPs with access to a generative model. Inspired by Impagliazzo et al. [2022], we say that an RL algorithm is replicable if, with high probability, it outputs the exact same policy after two executions on i.i.d. samples drawn from the generator when its internal randomness is the same. We first provide an efficient $\rho$-replicable algorithm for $(\varepsilon, \delta)$-optimal policy estimation with sample and time complexity $\widetilde O\left(\frac{N^3\cdot\log(1/\delta)}{(1-\gamma)^5\cdot\varepsilon^2\cdot\rho^2}\right)$, where $N$ is the number of state-action pairs. Next, for the subclass of deterministic algorithms, we provide a lower bound of order $\Omega\left(\frac{N^3}{(1-\gamma)^3\cdot\varepsilon^2\cdot\rho^2}\right)$. Then, we study a relaxed version of replicability proposed by Kalavasis et al. [2023] called TV indistinguishability. We design a computationally efficient TV indistinguishable algorithm for policy estimation whose sample complexity is $\widetilde O\left(\frac{N^2\cdot\log(1/\delta)}{(1-\gamma)^5\cdot\varepsilon^2\cdot\rho^2}\right)$. At the cost of $\exp(N)$ running time, we transform these TV indistinguishable algorithms to $\rho$-replicable ones without increasing their sample complexity. Finally, we introduce the notion of approximate-replicability where we only require that two outputted policies are close under an appropriate statistical divergence (e.g., Renyi) and show an improved sample complexity of $\widetilde O\left(\frac{N\cdot\log(1/\delta)}{(1-\gamma)^5\cdot\varepsilon^2\cdot\rho^2}\right)$.
翻訳日:2023-10-31 21:51:04 公開日:2023-10-27
# lance: 言語誘導偽画像生成によるストレステスト視覚モデル

LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images ( http://arxiv.org/abs/2305.19164v2 )

ライセンス: Link先を確認
Viraj Prabhu, Sriram Yenamandra, Prithvijit Chattopadhyay, Judy Hoffman(参考訳) 本稿では,言語誘導型対実テスト画像(LANCE)を生成することで,訓練された視覚モデルをストレステストする自動アルゴリズムを提案する。 本手法は,大規模言語モデリングとテキストベースの画像編集の最近の進歩を活かし,モデル重み付けを変更せずに,多様でリアルで挑戦的なテスト画像群で iid テストセットを補強する。 生成したデータに対して,事前学習した多種多様なモデルのパフォーマンスをベンチマークし,顕著かつ一貫した性能低下を観察する。 さらに、異なる種類の編集に対してモデルの感度を解析し、ImageNetの未知のクラスレベルのモデルバイアスを克服し、その適用性を示す。 コードはhttps://github.com/virajprabhu/lanceで入手できる。

We propose an automated algorithm to stress-test a trained visual model by generating language-guided counterfactual test images (LANCE). Our method leverages recent progress in large language modeling and text-based image editing to augment an IID test set with a suite of diverse, realistic, and challenging test images without altering model weights. We benchmark the performance of a diverse set of pre-trained models on our generated data and observe significant and consistent performance drops. We further analyze model sensitivity across different types of edits, and demonstrate its applicability at surfacing previously unknown class-level model biases in ImageNet. Code is available at https://github.com/virajprabhu/lance.
翻訳日:2023-10-31 21:49:21 公開日:2023-10-27
# 有限次元ベイズ推論のための条件付きスコアベース拡散モデル

Conditional score-based diffusion models for Bayesian inference in infinite dimensions ( http://arxiv.org/abs/2305.19147v2 )

ライセンス: Link先を確認
Lorenzo Baldassari, Ali Siahkoohi, Josselin Garnier, Knut Solna, Maarten V. de Hoop(参考訳) 最初の導入以来、スコアベース拡散モデル(SDM)は、後方分布を効率的に近似する能力により、有限次元ベクトル空間における様々な線形逆問題の解法に成功している。 しかし、無限次元関数空間における逆問題に対するSDMの使用は、主に無条件スコアを学習する手法によって、最近のみ解決されている。 このアプローチはいくつかの逆問題に対して有利であるが、主にヒューリスティックであり、後続サンプリング中に多くの計算コストのかかる演算子評価を伴う。 これらの制約に対処するために, 無限次元ベイズ線形逆問題の後部から, 償却条件付きSDMに基づくサンプリング法を提案する。 特に、有限次元の条件付きスコアを推定する最も成功したアプローチの1つ、条件付き denoising 推定器が無限次元にも適用可能であることを証明している。 条件付スコアは, 条件付スコアとは対照的に, 通常は短時間に爆発するので, 無限次元のSDMを条件付設定に拡張するには慎重に検討する必要がある。 結論として,提案手法を検証し,さらなる知見を与え,大規模離散化不変ベイズ推定を可能にすることを実証する。

Since their initial introduction, score-based diffusion models (SDMs) have been successfully applied to solve a variety of linear inverse problems in finite-dimensional vector spaces due to their ability to efficiently approximate the posterior distribution. However, using SDMs for inverse problems in infinite-dimensional function spaces has only been addressed recently, primarily through methods that learn the unconditional score. While this approach is advantageous for some inverse problems, it is mostly heuristic and involves numerous computationally costly forward operator evaluations during posterior sampling. To address these limitations, we propose a theoretically grounded method for sampling from the posterior of infinite-dimensional Bayesian linear inverse problems based on amortized conditional SDMs. In particular, we prove that one of the most successful approaches for estimating the conditional score in finite dimensions - the conditional denoising estimator - can also be applied in infinite dimensions. A significant part of our analysis is dedicated to demonstrating that extending infinite-dimensional SDMs to the conditional setting requires careful consideration, as the conditional score typically blows up for small times, contrarily to the unconditional score. We conclude by presenting stylized and large-scale numerical examples that validate our approach, offer additional insights, and demonstrate that our method enables large-scale, discretization-invariant Bayesian inference.
翻訳日:2023-10-31 21:49:11 公開日:2023-10-27
# neural sculpting: プルーニングとネットワーク解析によるニューラルネットワークの階層的モジュール構造を明らかにする

Neural Sculpting: Uncovering hierarchically modular task structure in neural networks through pruning and network analysis ( http://arxiv.org/abs/2305.18402v3 )

ライセンス: Link先を確認
Shreyas Malakarjun Patil, Loizos Michael, Constantine Dovrolis(参考訳) 自然なターゲット関数とタスクは通常、階層的なモジュール構造を示す -- 階層構造に組織化された、より単純なサブ関数に分解できる。 このようなサブ関数には2つの重要な特徴がある:それらは異なる入力セット(入力分離性)を持ち、階層(再利用性)において高い入力として再利用される。 従来の研究により、階層的なモジュラーニューラルネットワークは本質的に疎結合であり、学習効率、一般化、マルチタスク学習、転送などの利点があることがわかった。 しかし、与えられたタスクの下位部分関数とその階層構造を特定することは困難である。 この作業の高レベルな疑問は、十分に深いニューラルネットワークを使ってタスクを学習すれば、そのタスクの下位機能階層をどうやって見つけられるのか、ということです。 まず,タスクが階層的にモジュール化されているかどうかを判断し易いブール関数の領域について検討する。 本稿では,繰り返し単位とエッジプルーニング(訓練中)に基づくアプローチと,モジュール検出と階層推論のためのネットワーク解析の組み合わせを提案する。 最後に, この手法により, MNIST桁データセットに基づく幅広いブール関数と2つの視覚タスクの階層的モジュラリティを明らかにすることができることを示す。

Natural target functions and tasks typically exhibit hierarchical modularity -- they can be broken down into simpler sub-functions that are organized in a hierarchy. Such sub-functions have two important features: they have a distinct set of inputs (input-separability) and they are reused as inputs higher in the hierarchy (reusability). Previous studies have established that hierarchically modular neural networks, which are inherently sparse, offer benefits such as learning efficiency, generalization, multi-task learning, and transfer. However, identifying the underlying sub-functions and their hierarchical structure for a given task can be challenging. The high-level question in this work is: if we learn a task using a sufficiently deep neural network, how can we uncover the underlying hierarchy of sub-functions in that task? As a starting point, we examine the domain of Boolean functions, where it is easier to determine whether a task is hierarchically modular. We propose an approach based on iterative unit and edge pruning (during training), combined with network analysis for module detection and hierarchy inference. Finally, we demonstrate that this method can uncover the hierarchical modularity of a wide range of Boolean functions and two vision tasks based on the MNIST digits dataset.
翻訳日:2023-10-31 21:48:48 公開日:2023-10-27
# 確率的崩壊:勾配ノイズがより単純なサブネットワークへsgdダイナミクスを惹きつける方法

Stochastic Collapse: How Gradient Noise Attracts SGD Dynamics Towards Simpler Subnetworks ( http://arxiv.org/abs/2306.04251v2 )

ライセンス: Link先を確認
Feng Chen, Daniel Kunin, Atsushi Yamamura, Surya Ganguli(参考訳) 本研究では,より単純なサブネットワークに過度に表現的ネットワークを駆動する確率勾配降下(SGD)の強い暗黙バイアスを明らかにし,独立パラメータの数を劇的に削減し,一般化を改善する。 このバイアスを明らかにするために、SGD によって修正されないパラメータ空間の不変集合や部分集合を同定する。 我々は、より単純な(スパースまたはローランクの)サブネットワークに対応する不変集合の2つのクラスに焦点を合わせ、モダンアーキテクチャに一般的に現れる。 解析により、SGDはこれらの単純不変集合に対する確率的誘引性の性質を示すことが明らかになった。 本研究では,不変集合まわりの損失景観の曲率と確率勾配による雑音との競合に基づいて,確率的魅力の十分条件を確立する。 驚くべきことに、騒音のレベルが増加すると誘引性が高まり、サドルポイントや列車損失の局所的最大値に関連する魅力的な不変集合が出現する。 我々は、訓練されたディープニューラルネットワークにおける魅力的な不変集合の存在を経験的に観察し、SGDのダイナミクスがしばしば消滅または冗長なニューロンを持つ単純なサブネットに崩壊することを示す。 さらに、この確率的崩壊の単純化プロセスが、線形教師学生フレームワークの一般化にどう役立つかを実証する。 最後に,本解析により,長期学習率の高い早期学習が,後続の一般化に有益である理由を機械論的に説明する。

In this work, we reveal a strong implicit bias of stochastic gradient descent (SGD) that drives overly expressive networks to much simpler subnetworks, thereby dramatically reducing the number of independent parameters, and improving generalization. To reveal this bias, we identify invariant sets, or subsets of parameter space that remain unmodified by SGD. We focus on two classes of invariant sets that correspond to simpler (sparse or low-rank) subnetworks and commonly appear in modern architectures. Our analysis uncovers that SGD exhibits a property of stochastic attractivity towards these simpler invariant sets. We establish a sufficient condition for stochastic attractivity based on a competition between the loss landscape's curvature around the invariant set and the noise introduced by stochastic gradients. Remarkably, we find that an increased level of noise strengthens attractivity, leading to the emergence of attractive invariant sets associated with saddle-points or local maxima of the train loss. We observe empirically the existence of attractive invariant sets in trained deep neural networks, implying that SGD dynamics often collapses to simple subnetworks with either vanishing or redundant neurons. We further demonstrate how this simplifying process of stochastic collapse benefits generalization in a linear teacher-student framework. Finally, through this analysis, we mechanistically explain why early training with large learning rates for extended periods benefits subsequent generalization.
翻訳日:2023-10-31 21:39:35 公開日:2023-10-27
# 有限次元ステインスプリング曲線はどんなダイナミクスも近似できる

Finite-Dimensional Stinespring Curves Can Approximate Any Dynamics ( http://arxiv.org/abs/2306.03667v3 )

ライセンス: Link先を確認
Frederik vom Ende(参考訳) 我々は、すべての解析的量子力学は時間依存ハミルトニアンによって生成されるユニタリダイナミクスの還元として正確に表現できるという最近の結果を一般化する。 より正確には、ユニタリ解析経路上の部分的トレースが任意のリプシッツ連続量子力学を任意に近似できることを示す。 同様に、そのような力学は全て解析的クラウス作用素によって近似することができる。 これらの結果の潜在的な改善と一般化、その限界、そしてシステム環境の量と力学を関連付けようとする際に克服しなければならない一般的な課題について論じる。

We generalize a recent result stating that all analytic quantum dynamics can be represented exactly as the reduction of unitary dynamics generated by a time-dependent Hamiltonian. More precisely, we prove that the partial trace over analytic paths of unitaries can approximate any Lipschitz-continuous quantum dynamics arbitrarily well. Equivalently, all such dynamics can be approximated by analytic Kraus operators. We conclude by discussing potential improvements and generalizations of these results, their limitations, and the general challenges one has to overcome when trying to relate dynamics to quantities on the system-environment level.
翻訳日:2023-10-31 21:38:52 公開日:2023-10-27
# 渦光を用いた電子量子ホール状態の光励起

Optical pumping of electronic quantum Hall states with vortex light ( http://arxiv.org/abs/2306.03417v2 )

ライセンス: Link先を確認
Deric Session, Mahmoud Jalali Mehrabad, Nikil Paithankar, Tobias Grass, Christian J. Eckhardt, Bin Cao, Daniel Gustavo Su\'arez Forero, Kevin Li, Mohammad S. Alam, Kenji Watanabe, Takashi Taniguchi, Glenn S. Solomon, Nathan Schine, Jay Sau, Roman Sordan, Mohammad Hafezi(参考訳) 量子技術の基本的な要件は、電子と光子の相互作用をコヒーレントに制御できることである。 しかし、光と物質の間の相互作用を含む多くのシナリオでは、電子と光子の間の線形または角運動量の交換は実現不可能であり、双極子近似極限と呼ばれる状態である。 この限界を超える場合の例として、キラル電子と渦光の相互作用が考慮され、光の軌道角運動量が電子に伝達される。 本稿では、光渦ビームから電子量子ホール状態への軌道角運動量移動の新たなメカニズムを提案する。 具体的には、光の渦度に依存する量子ホール状態の環状グラフェン試料において、放射光電流に対する堅牢な寄与を同定する。 この現象は光ポンピングスキームと解釈でき、光子の角運動量が電子に移動して放射電流を発生させ、電流方向は光の渦性によって決定される。 以上の知見は、量子コヒーレンスの光学的検出と操作に関する基本的な知見を提供し、量子コヒーレント光エレクトロニクスの進歩に幅広い意味を持つ。

A fundamental requirement for quantum technologies is the ability to coherently control the interaction between electrons and photons. However, in many scenarios involving the interaction between light and matter, the exchange of linear or angular momentum between electrons and photons is not feasible, a condition known as the dipole-approximation limit. An example of a case beyond this limit that has remained experimentally elusive is when the interplay between chiral electrons and vortex light is considered, where the orbital angular momentum of light can be transferred to electrons. Here, we present a novel mechanism for such an orbital angular momentum transfer from optical vortex beams to electronic quantum Hall states. Specifically, we identify a robust contribution to the radial photocurrent, in an annular graphene sample within the quantum Hall regime, that depends on the vorticity of light. This phenomenon can be interpreted as an optical pumping scheme, where the angular momentum of photons is transferred to electrons, generating a radial current, and the current direction is determined by the vorticity of the light. Our findings offer fundamental insights into the optical probing and manipulation of quantum coherence, with wide-ranging implications for advancing quantum coherent optoelectronics.
翻訳日:2023-10-31 21:38:12 公開日:2023-10-27
# 人間の専門知識の監査

Auditing for Human Expertise ( http://arxiv.org/abs/2306.01646v2 )

ライセンス: Link先を確認
Rohan Alur, Loren Laine, Darrick K. Li, Manish Raghavan, Devavrat Shah, Dennis Shung(参考訳) 高度な予測タスク(例:患者の診断)は、しばしば訓練された人間の専門家によって扱われる。 これらの設定における自動化に関する共通の懸念の源は、専門家がモデル化が難しい直観を行使したり、(患者との会話のような)情報へのアクセスを単純にできないようにしたりすることである。 これは、人間の専門家がアルゴリズム予測器で捉えられない価値を付加するかどうかという自然な疑問を引き起こす。 我々は、この問題を自然仮説テストとして適用できる統計的枠組みを開発する。 実際、我々のフレームワークが強調しているように、人間の専門知識を検出することは、専門家による予測の精度を特定の学習アルゴリズムで作成されたものと単に比較するよりも微妙である。 提案手法は,有意な入力(features')を条件に,有意な予測結果から統計的に独立しているかどうかを判定する簡単な手法である。 そこで本試験の拒絶は,人間の専門家が利用可能なデータに基づいて訓練されたアルゴリズムに価値を付加する可能性を示唆し,与えられた予測タスクにおいて,AIの「補完性」が達成可能かどうかを直接的に示唆するものである。 そこで本研究では, 急性消化器出血(agib)患者に対する医師の入院・退院決定が, 標準のアルゴリズムスクリーニングツールでは利用できない情報を取り入れていることを示す。 これは、スクリーニングツールが医師の判断よりも正確であることに拘わらず、説明責任や解釈可能性に関する規範的な懸念がなくても、精度はアルゴリズムによる自動化を正当化するには不十分であることを強調している。

High-stakes prediction tasks (e.g., patient diagnosis) are often handled by trained human experts. A common source of concern about automation in these settings is that experts may exercise intuition that is difficult to model and/or have access to information (e.g., conversations with a patient) that is simply unavailable to a would-be algorithm. This raises a natural question whether human experts add value which could not be captured by an algorithmic predictor. We develop a statistical framework under which we can pose this question as a natural hypothesis test. Indeed, as our framework highlights, detecting human expertise is more subtle than simply comparing the accuracy of expert predictions to those made by a particular learning algorithm. Instead, we propose a simple procedure which tests whether expert predictions are statistically independent from the outcomes of interest after conditioning on the available inputs (`features'). A rejection of our test thus suggests that human experts may add value to any algorithm trained on the available data, and has direct implications for whether human-AI `complementarity' is achievable in a given prediction task. We highlight the utility of our procedure using admissions data collected from the emergency department of a large academic hospital system, where we show that physicians' admit/discharge decisions for patients with acute gastrointestinal bleeding (AGIB) appear to be incorporating information that is not available to a standard algorithmic screening tool. This is despite the fact that the screening tool is arguably more accurate than physicians' discretionary decisions, highlighting that -- even absent normative concerns about accountability or interpretability -- accuracy is insufficient to justify algorithmic automation.
翻訳日:2023-10-31 21:36:37 公開日:2023-10-27
# 適応的文脈知覚:新しい背景と曖昧な対象に一般化する方法

Adaptive Contextual Perception: How to Generalize to New Backgrounds and Ambiguous Objects ( http://arxiv.org/abs/2306.05963v2 )

ライセンス: Link先を確認
Zhuofan Ying, Peter Hase, Mohit Bansal(参考訳) 生物学的視覚システムは、新しいコンテキストを持つ新しい設定におけるオブジェクトを認識するためにコンテキストを適応的に利用する。 本稿では,視覚モデルがどのようにコンテキストをオフ・オブ・ディストリビューション(OOD)の一般化に適応的に利用するかを検討した。 まず,文脈が無関係(背景不変性)か有益(対象曖昧性)のどちらかである2つの異なるOOD設定を定式化し,生物学的視覚において直面する多様な文脈的課題を反映する。 次に、これらの2つの異なるOOD設定でモデルパフォーマンスを分析し、一方で優れたモデルが他方で苦労する傾向があることを示す。 特に、因果的特徴の学習に関する事前の作業は、ある設定では改善されるが、もう一方では傷つく。 これは、人間の認識と堅牢なAIシステムの両方にとって、この能力が不可欠であるため、OOD設定の両方にまたがって一般化することの重要性を強調している。 次に,ood一般化に寄与するモデル特性をよりよく理解するために,表現幾何学解析と独自の探索法を用いてモデル集団を調査し,より因子化された表現と適切な特徴重み付けを持つモデルが,背景非分散テストやオブジェクト非曖昧化テストの処理に成功していることを発見した。 さらに,表現因子化と特徴重み付けに因果的介入を行い,それらの要因がパフォーマンスに与える影響を検証した。 最後に,モデル一般化を強化する新しい拡張手法を提案する。 これらの手法は強いベースラインを上回り、分配試験とOOD試験の両方の改善をもたらす。 結論として、生体視覚の一般化能力を再現するには、コンピュータビジョンモデルは、対象と背景表現を分解し、両方の特徴を適切に重み付けなければならない。

Biological vision systems make adaptive use of context to recognize objects in new settings with novel contexts as well as occluded or blurry objects in familiar settings. In this paper, we investigate how vision models adaptively use context for out-of-distribution (OOD) generalization and leverage our analysis results to improve model OOD generalization. First, we formulate two distinct OOD settings where the contexts are either irrelevant (Background-Invariance) or beneficial (Object-Disambiguation), reflecting the diverse contextual challenges faced in biological vision. We then analyze model performance in these two different OOD settings and demonstrate that models that excel in one setting tend to struggle in the other. Notably, prior works on learning causal features improve on one setting but hurt in the other. This underscores the importance of generalizing across both OOD settings, as this ability is crucial for both human cognition and robust AI systems. Next, to better understand the model properties contributing to OOD generalization, we use representational geometry analysis and our own probing methods to examine a population of models, and we discover that those with more factorized representations and appropriate feature weighting are more successful in handling Background-Invariance and Object-Disambiguation tests. We further validate these findings through causal intervention on representation factorization and feature weighting to demonstrate their causal effect on performance. Lastly, we propose new augmentation methods to enhance model generalization. These methods outperform strong baselines, yielding improvements in both in-distribution and OOD tests. In conclusion, to replicate the generalization abilities of biological vision, computer vision models must have factorized object vs. background representations and appropriately weight both kinds of features.
翻訳日:2023-10-31 21:24:44 公開日:2023-10-27
# 視覚補綴における深部刺激エンコーディングのためのHuman-in-the-Loop最適化

Human-in-the-Loop Optimization for Deep Stimulus Encoding in Visual Prostheses ( http://arxiv.org/abs/2306.13104v2 )

ライセンス: Link先を確認
Jacob Granley, Tristan Fauvel, Matthew Chalk, Michael Beyeler(参考訳) 神経補綴は、失われた感覚機能を回復し、人間の能力を増強する可能性を示しているが、現在の装置が生み出す感覚は、しばしば不自然または歪んでいるように見える。 インプラントの正確な配置と個々の知覚の違いは、刺激応答の著しい変化をもたらし、パーソナライズされた刺激最適化が重要な課題となる。 ベイズ最適化は患者固有の刺激パラメータの最適化に使用することができるが、高次元刺激には適用できない。 あるいは、ディープラーニングモデルは刺激のエンコーディング戦略を最適化できるが、通常は患者固有のバリエーションの完全な知識を想定する。 本稿では,これら2つの基本的制約を克服する,現実的に実現可能な新しいアプローチを提案する。 まず、深層エンコーダネットワークをトレーニングし、視覚知覚に電気刺激をマッピングするフォワードモデルを反転させることにより、各患者に最適な刺激を与える。 第2に、優先ベイズ最適化戦略は、このエンコーダを利用して、候補刺激間の最小対比較を用いて、新しい患者に対して患者固有のパラメータを最適化する。 本稿では,新しい視覚補綴モデルを用いて,本手法の有効性を実証する。 提案手法は、パーソナライズされた刺激エンコーダを迅速に学習し、回復した視覚の質を劇的に改善し、基礎となる前方モデルにおける患者からのフィードバックや誤特定に頑健であることを示す。 以上の結果から, 深層学習とベイズ最適化の強みを組み合わせることで, 視覚補綴を装着した患者の知覚経験を大幅に改善できる可能性が示唆された。

Neuroprostheses show potential in restoring lost sensory function and enhancing human capabilities, but the sensations produced by current devices often seem unnatural or distorted. Exact placement of implants and differences in individual perception lead to significant variations in stimulus response, making personalized stimulus optimization a key challenge. Bayesian optimization could be used to optimize patient-specific stimulation parameters with limited noisy observations, but is not feasible for high-dimensional stimuli. Alternatively, deep learning models can optimize stimulus encoding strategies, but typically assume perfect knowledge of patient-specific variations. Here we propose a novel, practically feasible approach that overcomes both of these fundamental limitations. First, a deep encoder network is trained to produce optimal stimuli for any individual patient by inverting a forward model mapping electrical stimuli to visual percepts. Second, a preferential Bayesian optimization strategy utilizes this encoder to optimize patient-specific parameters for a new patient, using a minimal number of pairwise comparisons between candidate stimuli. We demonstrate the viability of this approach on a novel, state-of-the-art visual prosthesis model. We show that our approach quickly learns a personalized stimulus encoder, leads to dramatic improvements in the quality of restored vision, and is robust to noisy patient feedback and misspecifications in the underlying forward model. Overall, our results suggest that combining the strengths of deep learning and Bayesian optimization could significantly improve the perceptual experience of patients fitted with visual prostheses and may prove a viable solution for a range of neuroprosthetic technologies.
翻訳日:2023-10-31 21:16:17 公開日:2023-10-27
# SituatedGen: 生成コモンセンス推論に地理的・時間的文脈を組み込む

SituatedGen: Incorporating Geographical and Temporal Contexts into Generative Commonsense Reasoning ( http://arxiv.org/abs/2306.12552v2 )

ライセンス: Link先を確認
Yunxiang Zhang, Xiaojun Wan(参考訳) 近年,テキスト生成における常識推論が注目されている。 ジェネレーティブ・コモンセンス推論(generative commonsense reasoning)は、コヒーレント文をコヒーレント文で構成する機械を必要とするタスクである。 生成的コモンセンス推論を対象とする既存のデータセットは日常的なシナリオに重点を置いているが、特定の地理的・時間的文脈下でのマシンの推論がどの程度優れているかは定かではない。 我々は、この課題をSituatedGenとして定式化し、地理的または時間的エンティティを含むキーワード群を与えられたコントラスト文のペアを生成する。 8,268のコントラスト文ペアからなる対応する英語データセットを,手作業の少ない既存のコモンセンス推論ベンチマークに基づいて紹介する。 実験によると、最先端の生成言語モデルは、常識的妥当性のある文を生成するのに苦労し、人間のパフォーマンスよりずっと遅れている。 私たちのデータセットはhttps://github.com/yunx-z/situated_genで公開されています。

Recently, commonsense reasoning in text generation has attracted much attention. Generative commonsense reasoning is the task that requires machines, given a group of keywords, to compose a single coherent sentence with commonsense plausibility. While existing datasets targeting generative commonsense reasoning focus on everyday scenarios, it is unclear how well machines reason under specific geographical and temporal contexts. We formalize this challenging task as SituatedGen, where machines with commonsense should generate a pair of contrastive sentences given a group of keywords including geographical or temporal entities. We introduce a corresponding English dataset consisting of 8,268 contrastive sentence pairs, which are built upon several existing commonsense reasoning benchmarks with minimal manual labor. Experiments show that state-of-the-art generative language models struggle to generate sentences with commonsense plausibility and still lag far behind human performance. Our dataset is publicly available at https://github.com/yunx-z/situated_gen.
翻訳日:2023-10-31 21:15:19 公開日:2023-10-27
# 止まるべきか、行くべきか:不均一な人口で早期に止まる

Should I Stop or Should I Go: Early Stopping with Heterogeneous Populations ( http://arxiv.org/abs/2306.11839v3 )

ライセンス: Link先を確認
Hammaad Adam, Fan Yin, Huibin (Mary) Hu, Neil Tenenholtz, Lorin Crawford, Lester Mackey, Allison Koenecke(参考訳) ランダム化された実験は、意図しない有害な効果を持つ治療のため、しばしば早期に停止する必要がある。 実験の早期停止を決定する既存の方法は通常、集計データに適用され、治療効果の不均一性を考慮しない。 本稿では,不均質個体群に対する害実験の早期停止について検討する。 まず,治療が参加者の少数派グループを傷つける場合,現在の方法が実験を停止しないことが多いことを確かめる。 次に、因果機械学習を用いて、異種早期停止のための初めて広く適用可能な方法であるCLASHを開発する。 シミュレーションおよび実データ上でのCLASHの性能を実証し,臨床治験およびA/B試験の早期停止に有効であることを示す。

Randomized experiments often need to be stopped prematurely due to the treatment having an unintended harmful effect. Existing methods that determine when to stop an experiment early are typically applied to the data in aggregate and do not account for treatment effect heterogeneity. In this paper, we study the early stopping of experiments for harm on heterogeneous populations. We first establish that current methods often fail to stop experiments when the treatment harms a minority group of participants. We then use causal machine learning to develop CLASH, the first broadly-applicable method for heterogeneous early stopping. We demonstrate CLASH's performance on simulated and real data and show that it yields effective early stopping for both clinical trials and A/B tests.
翻訳日:2023-10-31 21:15:00 公開日:2023-10-27
# quilt-1m:病理組織学のための100万の画像テキストペア

Quilt-1M: One Million Image-Text Pairs for Histopathology ( http://arxiv.org/abs/2306.11207v3 )

ライセンス: Link先を確認
Wisdom Oluchi Ikezogwo, Mehmet Saygin Seyfioglu, Fatemeh Ghezloo, Dylan Stefan Chan Geva, Fatwir Sheikh Mohammed, Pavan Kumar Anand, Ranjay Krishna, Linda Shapiro(参考訳) マルチモーダルアプリケーションにおける最近の加速は、画像データとテキストデータをオンラインで利用できることで実現されている。 しかし、医学分野、特に病理学における類似データの不足は、同等の進歩を遅らせている。 同様の組織病理学の表現学習を可能にするために、私たちはビデオの未編集リソースであるyoutubeに目を向け、専門家臨床医からの貴重な教育的病理学ビデオ1087ドルを提供した。 YouTube から QUILT: 802,144 ドルの画像とテキストのペアからなる大規模ビジョン言語データセットをキュレートする。 QUILTは、大きな言語モデル、手作りアルゴリズム、人間の知識データベース、音声認識など、様々なモデルを用いて自動的にキュレートされた。 比較して、最も包括的なデータセットは、約200ドルのサンプルしか収集されなかった。 私たちはQUILTを、Twitter、研究論文、インターネットなど、他のソースからのデータセットと組み合わせて、さらに大きなデータセットを作成する。 プレトレーニングCLIPモデルの微調整によりQUILT-1Mの値を示す。 我々のモデルは、ゼロショットおよびリニアプローブタスクの両方で最先端のモデルより優れており、新しい病理像を、異なる8ドルのサブ病理とクロスモーダル検索タスクからなる、13ドルの多様なパッチレベルのデータセットに分類する。

Recent accelerations in multi-modal applications have been made possible with the plethora of image and text data available online. However, the scarcity of analogous data in the medical field, specifically in histopathology, has slowed comparable progress. To enable similar representation learning for histopathology, we turn to YouTube, an untapped resource of videos, offering $1,087$ hours of valuable educational histopathology videos from expert clinicians. From YouTube, we curate QUILT: a large-scale vision-language dataset consisting of $802, 144$ image and text pairs. QUILT was automatically curated using a mixture of models, including large language models, handcrafted algorithms, human knowledge databases, and automatic speech recognition. In comparison, the most comprehensive datasets curated for histopathology amass only around $200$K samples. We combine QUILT with datasets from other sources, including Twitter, research papers, and the internet in general, to create an even larger dataset: QUILT-1M, with $1$M paired image-text samples, marking it as the largest vision-language histopathology dataset to date. We demonstrate the value of QUILT-1M by fine-tuning a pre-trained CLIP model. Our model outperforms state-of-the-art models on both zero-shot and linear probing tasks for classifying new histopathology images across $13$ diverse patch-level datasets of $8$ different sub-pathologies and cross-modal retrieval tasks.
翻訳日:2023-10-31 21:14:32 公開日:2023-10-27
# 多くのクラスによるクラス条件共形予測

Class-Conditional Conformal Prediction with Many Classes ( http://arxiv.org/abs/2306.09335v2 )

ライセンス: Link先を確認
Tiffany Ding, Anastasios N. Angelopoulos, Stephen Bates, Michael I. Jordan, Ryan J. Tibshirani(参考訳) 標準共形予測法は限界カバレッジ保証を提供する。つまり、ランダムなテストポイントに対して、共形予測セットは、ユーザ特定確率の真のラベルを含むことを意味する。 多くの分類問題において、特定のクラスのテストポイントに対して、予測セットは、同じユーザ長確率を持つ真のラベルを含むという、より強い保証を得たい。 後者の目標は、クラス数が大きい実際のアプリケーションの場合のように、クラスごとのラベル付きデータの量が限られている場合、既存の共形予測メソッドはうまく動作しない。 本稿では,「類似した」共形スコアを持つクラスをまとめ,クラスタレベルで共形予測を行うクラスタ共形予測手法を提案する。 多数の(最大1000までの)クラスを持つ4つのイメージデータセットにおける経験的評価に基づいて、クラスタ型コンフォーサルは、クラス条件カバレッジとセットサイズメトリクスの点で、既存のメソッドよりも優れています。

Standard conformal prediction methods provide a marginal coverage guarantee, which means that for a random test point, the conformal prediction set contains the true label with a user-specified probability. In many classification problems, we would like to obtain a stronger guarantee--that for test points of a specific class, the prediction set contains the true label with the same user-chosen probability. For the latter goal, existing conformal prediction methods do not work well when there is a limited amount of labeled data per class, as is often the case in real applications where the number of classes is large. We propose a method called clustered conformal prediction that clusters together classes having "similar" conformal scores and performs conformal prediction at the cluster level. Based on empirical evaluation across four image data sets with many (up to 1000) classes, we find that clustered conformal typically outperforms existing methods in terms of class-conditional coverage and set size metrics.
翻訳日:2023-10-31 21:12:25 公開日:2023-10-27
# BuildingsBench:900Kビルの大規模データセットと短期負荷予測ベンチマーク

BuildingsBench: A Large-Scale Dataset of 900K Buildings and Benchmark for Short-Term Load Forecasting ( http://arxiv.org/abs/2307.00142v2 )

ライセンス: Link先を確認
Patrick Emami, Abhijeet Sahu, Peter Graf(参考訳) 住宅と商業ビルのエネルギー消費の短期予測は電力システムで広く使われており、引き続き重要性が増している。 データ駆動の短期負荷予測(STLF)は有望ではあるが、ビルディングの多様性の高い大規模データセットの欠如に悩まされている。 これにより、STLFのプリトレイン-then-fine-tuneパラダイムの探索が妨げられている。 これを解決するために、BuildingsBenchを紹介します。 1)ビルズ900k,米国の建物ストックを代表する900kシミュレートされた大規模データセット,及び 2) 7つのオープンデータセットから1,900以上の実住宅および商業ビルの評価プラットフォーム。 buildingsbenchは、未熟な建物で事前訓練されたモデルを微調整することなく評価するゼロショットslfと、目標の建物で事前訓練されたモデルを微調整する転送学習の2つの未熟なタスクをベンチマークする。 ベンチマーク分析の主な発見は、合成事前学習されたモデルが実際の商業ビルに驚くほどよく一般化していることです。 データセットのサイズと多様性がゼロショットの商業建築性能に与える影響を調べると、リターンが減少するパワーローが明らかになる。 また,実際の商業用および住宅用建物における微調整事前学習モデルにより,ほとんどの建物の性能が向上することを示した。 buildingsbenchが汎用stlfに関する今後の研究を奨励し、促進できることを願っている。 すべてのデータセットとコードはhttps://github.com/NREL/BuildingsBenchからアクセスできる。

Short-term forecasting of residential and commercial building energy consumption is widely used in power systems and continues to grow in importance. Data-driven short-term load forecasting (STLF), although promising, has suffered from a lack of open, large-scale datasets with high building diversity. This has hindered exploring the pretrain-then-fine-tune paradigm for STLF. To help address this, we present BuildingsBench, which consists of: 1) Buildings-900K, a large-scale dataset of 900K simulated buildings representing the U.S. building stock; and 2) an evaluation platform with over 1,900 real residential and commercial buildings from 7 open datasets. BuildingsBench benchmarks two under-explored tasks: zero-shot STLF, where a pretrained model is evaluated on unseen buildings without fine-tuning, and transfer learning, where a pretrained model is fine-tuned on a target building. The main finding of our benchmark analysis is that synthetically pretrained models generalize surprisingly well to real commercial buildings. An exploration of the effect of increasing dataset size and diversity on zero-shot commercial building performance reveals a power-law with diminishing returns. We also show that fine-tuning pretrained models on real commercial and residential buildings improves performance for a majority of target buildings. We hope that BuildingsBench encourages and facilitates future research on generalizable STLF. All datasets and code can be accessed from https://github.com/NREL/BuildingsBench.
翻訳日:2023-10-31 21:02:35 公開日:2023-10-27
# インストラクションマイニング: 大規模な言語モデルファインタニングにデータマイニングが出会ったとき

Instruction Mining: When Data Mining Meets Large Language Model Finetuning ( http://arxiv.org/abs/2307.06290v2 )

ライセンス: Link先を確認
Yihan Cao, Yanbin Kang, Chi Wang, Lichao Sun(参考訳) 大規模言語モデル(llm)は当初、幅広い機能のために事前学習され、次に命令に従うデータセットで微調整され、人間との対話のパフォーマンスが向上する。 微調整の進歩にもかかわらず、このプロセスを最適化するために高品質データセットを選択するための標準化されたガイドラインは、いまだに不明である。 本稿ではまず,LLMを微調整するための高品質な命令追従データを自動的に選択する革新的な手法であるInstructMiningを提案する。 具体的には、InstructMiningは自然言語インジケータをデータ品質の指標として利用し、目に見えないデータセットを評価する。 実験中、大きな言語モデルファインタニングに二重降下現象が存在することが判明した。 この観察に基づいて、BlendSearchをさらに活用して、データセット全体の最高のサブセット(10万中2,532)を見つけるのに役立ちます。 実験の結果、instructmining-7bはllm-as-a-judgeとhughingface openllm leaderboardの2つのベンチマークで最先端のパフォーマンスを達成していることがわかった。

Large language models (LLMs) are initially pretrained for broad capabilities and then finetuned with instruction-following datasets to improve their performance in interacting with humans. Despite advances in finetuning, a standardized guideline for selecting high-quality datasets to optimize this process remains elusive. In this paper, we first propose InstructMining, an innovative method designed for automatically selecting premium instruction-following data for finetuning LLMs. Specifically, InstructMining utilizes natural language indicators as a measure of data quality, applying them to evaluate unseen datasets. During experimentation, we discover that double descent phenomenon exists in large language model finetuning. Based on this observation, we further leverage BlendSearch to help find the best subset among the entire dataset (i.e., 2,532 out of 100,000). Experiment results show that InstructMining-7B achieves state-of-the-art performance on two of the most popular benchmarks: LLM-as-a-judge and Huggingface OpenLLM leaderboard.
翻訳日:2023-10-31 20:51:05 公開日:2023-10-27
# $\beta$-divergence One Posterior Smpling による個人統計的推測

Differentially Private Statistical Inference through $\beta$-Divergence One Posterior Sampling ( http://arxiv.org/abs/2307.05194v2 )

ライセンス: Link先を確認
Jack Jewson, Sahra Ghalebikesabi, Chris Holmes(参考訳) ディファレンシャルプライバシの保証により、機密データを含む統計分析の結果が、参加する個人のプライバシを損なうことなく解放される。 このような保証を達成するには、一般にパラメータ推定や推定プロセスに直接ノイズを注入する必要がある。 摂動を人工的に導入する代わりに、ベイズ後方分布からのサンプリングは指数関数機構の特別な場合であり、データ生成過程を変更することなく、一貫性があり、効率的なプライベートな推定を生成することが示されている。 しかし、現在のアプローチの適用は、単純な線形回帰器のような基本モデルに当てはまらない強い有界な仮定によって制限されている。 これを改善するために、モデルとデータ生成プロセス間の$\beta$-divergenceの最小化を目的とした一般化後部からの後部サンプリングスキームである$\beta$D-Bayesを提案する。 これは、基礎となるモデルの変更を必要とせず、一般的に適用可能なプライベートな推定を提供し、一貫してデータ生成パラメータを学習する。 我々は,$\beta$d-bayes が同一のプライバシ保証に対してより正確な推定を行い,さらに,複雑な分類器やニューラルネットワークなどの連続回帰モデルに対する後方サンプリングによる差分プライベート推定を促進することを示した。

Differential privacy guarantees allow the results of a statistical analysis involving sensitive data to be released without compromising the privacy of any individual taking part. Achieving such guarantees generally requires the injection of noise, either directly into parameter estimates or into the estimation process. Instead of artificially introducing perturbations, sampling from Bayesian posterior distributions has been shown to be a special case of the exponential mechanism, producing consistent, and efficient private estimates without altering the data generative process. The application of current approaches has, however, been limited by their strong bounding assumptions which do not hold for basic models, such as simple linear regressors. To ameliorate this, we propose $\beta$D-Bayes, a posterior sampling scheme from a generalised posterior targeting the minimisation of the $\beta$-divergence between the model and the data generating process. This provides private estimation that is generally applicable without requiring changes to the underlying model and consistently learns the data generating parameter. We show that $\beta$D-Bayes produces more precise inference estimation for the same privacy guarantees, and further facilitates differentially private estimation via posterior sampling for complex classifiers and continuous regression models such as neural networks for the first time.
翻訳日:2023-10-31 20:50:29 公開日:2023-10-27
# 不特定誘導バイアス下における条件付き独立試験

Conditional independence testing under misspecified inductive biases ( http://arxiv.org/abs/2307.02520v2 )

ライセンス: Link先を確認
Felipe Maia Polo, Yuekai Sun, Moulinath Banerjee(参考訳) 条件付き独立テスト(CI)は、現代の統計学と機械学習における基本的な課題である。 現代のCIテストの多くの方法は、回帰関数やベイズ予測器を中間ステップとして学習するための強力な教師付き学習手法に依存している。 これらの手法は、教師付き学習方法が回帰関数を正確に推定したり、関心のベイズ予測器を推定した場合にタイプiの誤りを制御することが保証されているが、不特定の帰納バイアスのために失敗した場合、あるいはトレーニングアルゴリズムが所望の予測器を誘導しない場合、それらの行動は理解されていない。 次に,不特定誘導バイアス下での回帰型CIテストの性能について検討した。 具体的には,不特定化誤差に依存する3つの回帰に基づくテストの誤差に対する新しい近似あるいは上限を提案する。 さらに,不特定帰納バイアスに対して頑健な回帰型CIテストである Rao-Blackwellized Predictor Test (RBPT) を導入する。 最後に, 人工的および実データを用いた実験を行い, 理論と手法の有用性を示す。

Conditional independence (CI) testing is a fundamental and challenging task in modern statistics and machine learning. Many modern methods for CI testing rely on powerful supervised learning methods to learn regression functions or Bayes predictors as an intermediate step; we refer to this class of tests as regression-based tests. Although these methods are guaranteed to control Type-I error when the supervised learning methods accurately estimate the regression functions or Bayes predictors of interest, their behavior is less understood when they fail due to misspecified inductive biases; in other words, when the employed models are not flexible enough or when the training algorithm does not induce the desired predictors. Then, we study the performance of regression-based CI tests under misspecified inductive biases. Namely, we propose new approximations or upper bounds for the testing errors of three regression-based tests that depend on misspecification errors. Moreover, we introduce the Rao-Blackwellized Predictor Test (RBPT), a regression-based CI test robust against misspecified inductive biases. Finally, we conduct experiments with artificial and real data, showcasing the usefulness of our theory and methods.
翻訳日:2023-10-31 20:47:45 公開日:2023-10-27
# ニューラル画像圧縮:一般化、ロバスト性、スペクトルバイアス

Neural Image Compression: Generalization, Robustness, and Spectral Biases ( http://arxiv.org/abs/2307.08657v2 )

ライセンス: Link先を確認
Kelsey Lieberman, James Diffenderfer, Charles Godfrey, and Bhavya Kailkhura(参考訳) ニューラルイメージ圧縮(NIC)の最近の進歩は、古典的コーデックを上回り始めているモデルを生み出している。 このことが、現実世界のアプリケーションでNICを使うことに対する興奮の高まりにつながったが、どんな機械学習システムでも成功するためには、デプロイ時に見つからない分散シフトを一般化(かつ堅牢)する必要がある。 残念ながら、現在の研究では、実際の環境でNICのパフォーマンスを評価し、理解するための包括的なデータセットと情報ツールが欠けている。 この重要なギャップを埋めるために,まず,画像圧縮法の性能を評価するための総合ベンチマークスイートを提案する。 具体的には、人気のあるCLICとKodakベンチマークに15の汚職を導入することで、CLIC-CとKodak-Cを提供します。 次に,画像圧縮手法による誤差やOOD性能についてより深い知見を得るためのスペクトル刺激検査ツールを提案する。 次に、いくつかの古典的コーデックとNICの変種について詳細な性能比較を行い、NICの強みと限界に対する現在の理解に挑戦する興味深い発見を明らかにする。 最後に、実験結果と理論解析を相関させ、NICのOOD性能とそのデータスペクトル特性への依存性を詳細に把握する。 我々のベンチマーク、スペクトル検査ツール、そして調査結果は、NICの現実的な採用にとって重要な橋渡しとなる。 私たちは、堅牢で一般化可能なNICメソッドの設計における今後の取り組みを推進したいと考えています。 コードとデータはhttps://github.com/klieberman/ood_nicで入手できる。

Recent advances in neural image compression (NIC) have produced models that are starting to outperform classic codecs. While this has led to growing excitement about using NIC in real-world applications, the successful adoption of any machine learning system in the wild requires it to generalize (and be robust) to unseen distribution shifts at deployment. Unfortunately, current research lacks comprehensive datasets and informative tools to evaluate and understand NIC performance in real-world settings. To bridge this crucial gap, first, this paper presents a comprehensive benchmark suite to evaluate the out-of-distribution (OOD) performance of image compression methods. Specifically, we provide CLIC-C and Kodak-C by introducing 15 corruptions to the popular CLIC and Kodak benchmarks. Next, we propose spectrally-inspired inspection tools to gain deeper insight into errors introduced by image compression methods as well as their OOD performance. We then carry out a detailed performance comparison of several classic codecs and NIC variants, revealing intriguing findings that challenge our current understanding of the strengths and limitations of NIC. Finally, we corroborate our empirical findings with theoretical analysis, providing an in-depth view of the OOD performance of NIC and its dependence on the spectral properties of the data. Our benchmarks, spectral inspection tools, and findings provide a crucial bridge to the real-world adoption of NIC. We hope that our work will propel future efforts in designing robust and generalizable NIC methods. Code and data will be made available at https://github.com/klieberman/ood_nic.
翻訳日:2023-10-31 20:37:13 公開日:2023-10-27
# NSF:単眼深部からの人体モデリングのための神経表面場

NSF: Neural Surface Fields for Human Modeling from Monocular Depth ( http://arxiv.org/abs/2308.14847v4 )

ライセンス: Link先を確認
Yuxuan Xue, Bharat Lal Bhatnagar, Riccardo Marin, Nikolaos Sarafianos, Yuanlu Xu, Gerard Pons-Moll, Tony Tung(参考訳) 単眼カメラからパーソナライズされた3dアニメーション可能なアバターを得るには、ゲーム、バーチャルトライオン、アニメーション、vr/xrなど、現実世界の応用がいくつかある。 しかし,そのようなスパースデータから動的・細粒度の衣料変形をモデル化することは非常に困難である。 深度データから3次元人間をモデル化するための既存の手法は、計算効率、メッシュコヒーレンシー、解像度とトポロジーの柔軟性に制限がある。 例えば、暗黙の関数を使って形状を再構築し、フレーム毎に明示的なメッシュを抽出することは計算コストが高く、フレーム間のコヒーレントメッシュを保証することはできない。 さらに、離散的な表面を持つ事前設計された人間のテンプレート上で頂点ごとの変形を予測することは、解像度とトポロジーの柔軟性に欠ける。 これらの制約を克服するために,単眼深度から3次元布地をモデル化するニューラル表面場を提案する。 NSFは、連続かつ柔軟な変位場をモデル化するベース表面のみに神経磁場を定義する。 nsfは、推論時に再トレーニングすることなく、解像度とトポロジーが異なるベースサーフェスに適応することができる。 既存のアプローチと比較して,メッシュコヒーレンシを維持しながらフレーム単位の表面抽出コストを削減し,再トレーニングすることなく任意の解像度でメッシュを再構築できる。 この方向の研究を促進するために、私たちはプロジェクトページでコードを公開しています。

Obtaining personalized 3D animatable avatars from a monocular camera has several real world applications in gaming, virtual try-on, animation, and VR/XR, etc. However, it is very challenging to model dynamic and fine-grained clothing deformations from such sparse data. Existing methods for modeling 3D humans from depth data have limitations in terms of computational efficiency, mesh coherency, and flexibility in resolution and topology. For instance, reconstructing shapes using implicit functions and extracting explicit meshes per frame is computationally expensive and cannot ensure coherent meshes across frames. Moreover, predicting per-vertex deformations on a pre-designed human template with a discrete surface lacks flexibility in resolution and topology. To overcome these limitations, we propose a novel method Neural Surface Fields for modeling 3D clothed humans from monocular depth. NSF defines a neural field solely on the base surface which models a continuous and flexible displacement field. NSF can be adapted to the base surface with different resolution and topology without retraining at inference time. Compared to existing approaches, our method eliminates the expensive per-frame surface extraction while maintaining mesh coherency, and is capable of reconstructing meshes with arbitrary resolution without retraining. To foster research in this direction, we release our code in project page at: https://yuxuan-xue.com/nsf.
翻訳日:2023-10-31 20:25:53 公開日:2023-10-27
# rmt: 注意ネットワークが視覚トランスフォーマーに対応

RMT: Retentive Networks Meet Vision Transformers ( http://arxiv.org/abs/2309.11523v3 )

ライセンス: Link先を確認
Qihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu and Ran He(参考訳) Retentive NetworkはNLPのドメインで最初に登場し、その顕著な性能のためにすぐに注目を集めた。 その印象的な能力のかなりの部分は、貴重な事前知識を含む明示的な崩壊機構に由来する。 しかし、この明示的な減衰は一方向的で一次元であり、画像ベースタスクに必要な双方向2次元モデリングには適さない。 そこで本研究では,視覚モデルを用いた距離関連事前知識の導入を目的とした,双方向2次元の明示的減衰法を提案する。 さらに、言語モデルとは異なり、視覚バックボーンはトレーニングや推論中に同じ並列フォームを使用する。 この並列形式が再帰的あるいはチャンク的リカレント形式に置き換えられると、モデルの並列性は著しく乱れ、非常に遅い推論速度となる。 そのため、元のRetNetにある2つの追加の推論モードを捨て、並列フォームのみを保持します。 具体的には、双方向の2次元明示的減衰を自己アテンションに組み込んで \textbf{re}tentive \textbf{s}elf-\textbf{a}ttention (resa) を形成する。 さらに,大域的モデリングの複雑さを軽減するため,画像の2軸に沿ってReSAを分解する。 ReSAに基づいて、強力なビジョンバックボーンであるRTTを構築します。 冗長な実験により、RTTは様々なコンピュータビジョンタスクにおいて例外的な性能を示した。 例えば、RTT は単に \textbf{4.5G} FLOPs を用いて ImageNet-1k 上で \textbf{84.1\%} Top1-acc を達成する。 我々の知る限りでは、RTTはモデルが同じサイズで同じ戦略で訓練された場合、トップ1-accを達成しています。 さらに、RTTは下流タスクにおいて、既存のビジョンバックボーンを著しく上回る。 コードはhttps://github.com/qhfan/rmtでリリースされる。

Retentive Network first emerged in the domain of NLP and immediately gained widespread attention due to its remarkable performance. A significant portion of its impressive capabilities stems from its explicit decay mechanism, which incorporates valuable prior knowledge. However, this explicit decay is unidirectional and one-dimensional, making it unsuitable for the bidirectional, two-dimensional modeling required in image-based tasks. To solve this, we propose a bidirectional, two-dimensional form of explicit decay specifically designed for vision models to introduce distance-related prior knowledge. Besides, unlike language models, the vision backbones use the same parallel form during training and inference. If this parallel form is replaced with recurrent or chunk-wise recurrent form, the parallelism of the model will be significantly disrupted, resulting in extremely slow inference speed. So we discard the two additional inference modes present in the original RetNet, retaining only the parallel form. Specifically, we incorporate bidirectional, two-dimensional explicit decay into the Self-Attention to form \textbf{Re}tentive \textbf{S}elf-\textbf{A}ttention (ReSA). Furthermore, to reduce the complexity of global modeling, we decompose ReSA along the two axes of the image. Building upon ReSA, we construct RMT, a strong vision backbone. Abundant experiments have demonstrated that our RMT exhibits exceptional performance across various computer vision tasks. For example, RMT achieves \textbf{84.1\%} Top1-acc on ImageNet-1k using merely \textbf{4.5G} FLOPs. To the best of our knowledge, among all models, RMT achieves the highest Top1-acc when models are of similar size and trained with the same strategy. Moreover, RMT significantly outperforms existing vision backbones in downstream tasks. Code will be released at https://github.com/qhfan/RMT.
翻訳日:2023-10-31 20:16:26 公開日:2023-10-27
# データフォーミュラ - AIによる概念駆動可視化オーサリング

Data Formulator: AI-powered Concept-driven Visualization Authoring ( http://arxiv.org/abs/2309.10094v2 )

ライセンス: Link先を確認
Chenglong Wang, John Thompson, Bongshin Lee(参考訳) ほとんどの現代的な視覚化ツールでは、著者はデータをティディなフォーマットに変換して、望む視覚化を作成する必要があります。 これは、プログラミングまたは別々のデータ処理ツールの経験を必要とするため、データ変換はビジュアライゼーションのオーサリングにおける障壁である。 この課題に対処するために、我々はaiエージェントを利用して、高レベルの可視化インテントと低レベルのデータ変換ステップを分離する新しい可視化パラダイムであるコンセプトバインディングを提案する。 我々はこのパラダイムをインタラクティブな可視化オーサリングツールであるData Formulatorで実現した。 Data Formulatorでは、著者がまず自然言語や例を使って視覚化するデータ概念を定義し、それをビジュアルチャネルにバインドする。 データフォーミュラはAIエージェントを送信し、入力データを自動的に変換してこれらの概念をサーフェスし、望ましい視覚化を生成する。 aiエージェントから結果(変換されたテーブルと出力の視覚化)を提示する場合、data formulatorは著者の検査と理解を支援するフィードバックを提供する。 10人の参加者によるユーザスタディでは、参加者がデータフォーミュラを学習し、データ変換に挑戦する視覚化を作成し、今後の興味深い研究の方向性を示すことができる。

With most modern visualization tools, authors need to transform their data into tidy formats to create visualizations they want. Because this requires experience with programming or separate data processing tools, data transformation remains a barrier in visualization authoring. To address this challenge, we present a new visualization paradigm, concept binding, that separates high-level visualization intents and low-level data transformation steps, leveraging an AI agent. We realize this paradigm in Data Formulator, an interactive visualization authoring tool. With Data Formulator, authors first define data concepts they plan to visualize using natural languages or examples, and then bind them to visual channels. Data Formulator then dispatches its AI-agent to automatically transform the input data to surface these concepts and generate desired visualizations. When presenting the results (transformed table and output visualizations) from the AI agent, Data Formulator provides feedback to help authors inspect and understand them. A user study with 10 participants shows that participants could learn and use Data Formulator to create visualizations that involve challenging data transformations, and presents interesting future research directions.
翻訳日:2023-10-31 20:14:43 公開日:2023-10-27
# 未特定視覚課題におけるショートカットの緩和のための拡散不整合表現の活用

Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts in Underspecified Visual Tasks ( http://arxiv.org/abs/2310.02230v2 )

ライセンス: Link先を確認
Luca Scimeca, Alexander Rubinstein, Armand Nicolicioiu, Damien Teney and Yoshua Bengio(参考訳) 複数の手がかりがターゲットラベルを予測しているデータにおける散発的な相関は、しばしば近距離学習現象につながり、モデルが信頼できるものを無視しながら、誤った、分かりやすい手がかりに依存する可能性がある。 本研究では,拡散確率モデル(dpms)を用いた合成反事実生成を利用したアンサンブル多様化フレームワークを提案する。 DPMは、トレーニングデータに大きく相関している場合でも、複数の視覚的手がかりを独立して表現できる固有の能力を持っていることがわかった。 この特徴を利用して、モデルの多様性を奨励し、いくつかの多様化目標に対するアプローチの有効性を実証的に示す。 拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成できることを示す。

Spurious correlations in the data, where multiple cues are predictive of the target labels, often lead to shortcut learning phenomena, where a model may rely on erroneous, easy-to-learn, cues while ignoring reliable ones. In this work, we propose an ensemble diversification framework exploiting the generation of synthetic counterfactuals using Diffusion Probabilistic Models (DPMs). We discover that DPMs have the inherent capability to represent multiple visual cues independently, even when they are largely correlated in the training data. We leverage this characteristic to encourage model diversity and empirically show the efficacy of the approach with respect to several diversification objectives. We show that diffusion-guided diversification can lead models to avert attention from shortcut cues, achieving ensemble diversity performance comparable to previous methods requiring additional data collection.
翻訳日:2023-10-31 20:02:47 公開日:2023-10-27
# 非定常強化学習におけるテンポ適応

Tempo Adaptation in Non-stationary Reinforcement Learning ( http://arxiv.org/abs/2309.14989v2 )

ライセンス: Link先を確認
Hyunin Lee, Yuhao Ding, Jongmin Lee, Ming Jin, Javad Lavaei, Somayeh Sojoudi(参考訳) まず,実世界の応用を妨げる重要な要因である非定常強化学習(RL)において,エージェントと環境との間の「時間同期」問題に対処する。 実際、環境変化はエピソード進行ではなくウォールタイム時間(t$)で発生し、ウォールタイム時間は固定期間$t \in [0, T]$内の実際の経過時間を表す。 既存の作品では、エピソード$k$で、エージェントは軌道を転がし、エピソード$k+1$に移行する前にポリシーを訓練する。 しかし、時間同期環境の文脈では、時刻のエージェント$t_{k}$が軌道生成と訓練に$\delta t$を割り当て、次のエピソードに$t_{k+1}=t_{k}+\delta t$で移動する。 一定回数のエピソード(K$)にもかかわらず、エージェントは相互作用時間(t_1,t_2,...,t_K$)の選択の影響で異なる軌道を蓄積し、ポリシーの最適以下のギャップに大きな影響を及ぼす。 本稿では,その性能指標,すなわち動的後悔の上限を最小化することにより,最適部分列 {$t_1,t_2,...,t_K$} (= { $t_{1:K}$}) を演算する,Proactively Synchronizing Tempo ($\texttt{ProST}$) フレームワークを提案する。 我々の主な貢献は、政策トレーニング時間(エージェントテンポ)と環境変化の速さ(環境テンポ)の間の亜最適 {$t_{1:K}$} トレードオフを示すことである。 理論的には、この研究は環境の非定常性の度合いの関数として、サブ最適 {$t_{1:K}$} を開発しながら、サブ線形の動的後悔も達成する。 各種高次元非定常環境における実験により, $\texttt{ProST}$ framework は, 既存の手法に比べて, より高いオンラインリターンを達成することが示された。

We first raise and tackle a ``time synchronization'' issue between the agent and the environment in non-stationary reinforcement learning (RL), a crucial factor hindering its real-world applications. In reality, environmental changes occur over wall-clock time ($t$) rather than episode progress ($k$), where wall-clock time signifies the actual elapsed time within the fixed duration $t \in [0, T]$. In existing works, at episode $k$, the agent rolls a trajectory and trains a policy before transitioning to episode $k+1$. In the context of the time-desynchronized environment, however, the agent at time $t_{k}$ allocates $\Delta t$ for trajectory generation and training, subsequently moves to the next episode at $t_{k+1}=t_{k}+\Delta t$. Despite a fixed total number of episodes ($K$), the agent accumulates different trajectories influenced by the choice of interaction times ($t_1,t_2,...,t_K$), significantly impacting the suboptimality gap of the policy. We propose a Proactively Synchronizing Tempo ($\texttt{ProST}$) framework that computes a suboptimal sequence {$t_1,t_2,...,t_K$} (= { $t_{1:K}$}) by minimizing an upper bound on its performance measure, i.e., the dynamic regret. Our main contribution is that we show that a suboptimal {$t_{1:K}$} trades-off between the policy training time (agent tempo) and how fast the environment changes (environment tempo). Theoretically, this work develops a suboptimal {$t_{1:K}$} as a function of the degree of the environment's non-stationarity while also achieving a sublinear dynamic regret. Our experimental evaluation on various high-dimensional non-stationary environments shows that the $\texttt{ProST}$ framework achieves a higher online return at suboptimal {$t_{1:K}$} than the existing methods.
翻訳日:2023-10-31 20:00:38 公開日:2023-10-27
# FeCAM: 連続学習におけるクラス分布の不均一性の爆発

FeCAM: Exploiting the Heterogeneity of Class Distributions in Exemplar-Free Continual Learning ( http://arxiv.org/abs/2309.14062v2 )

ライセンス: Link先を確認
Dipam Goswami, Yuyang Liu, Bart{\l}omiej Twardowski, Joost van de Weijer(参考訳) exemplar-free class-incremental learning (cil)は、以前のタスクからのデータのリハーサルを禁止し、破滅的な忘れに苦しむため、いくつかの課題を提起する。 最初のタスクの後に特徴抽出器を凍結することで分類器を段階的に学習する最近のアプローチが注目を集めている。 本稿では,凍結した特徴抽出器を用いて新しいクラスプロトタイプを生成するCILのプロトタイプネットワークを探索し,プロトタイプとのユークリッド距離に基づいて特徴を分類する。 授業の特徴分布の分析において、ユークリッド指標に基づく分類が共同で訓練された特徴に対して成功することを示す。 しかし、非定常データから学習すると、ユークリッド計量は最適以下であり、特徴分布は不均一である。 この課題に対処するために、CILに対する異方性マハラノビス距離を再検討する。 さらに,特徴共分散関係のモデル化は,正規分布から特徴をサンプリングし線形分類器を訓練する以前の試みよりも優れていることを示す。 既存の方法とは異なり、当社のアプローチでは多点および少数ショットのcil設定とドメインインクリメンタル設定の両方に一般化しています。 興味深いことに、backboneネットワークを更新せずに、いくつかの標準連続学習ベンチマークで最先端の結果を得る。 コードはhttps://github.com/dipamgoswami/FeCAMで入手できる。

Exemplar-free class-incremental learning (CIL) poses several challenges since it prohibits the rehearsal of data from previous tasks and thus suffers from catastrophic forgetting. Recent approaches to incrementally learning the classifier by freezing the feature extractor after the first task have gained much attention. In this paper, we explore prototypical networks for CIL, which generate new class prototypes using the frozen feature extractor and classify the features based on the Euclidean distance to the prototypes. In an analysis of the feature distributions of classes, we show that classification based on Euclidean metrics is successful for jointly trained features. However, when learning from non-stationary data, we observe that the Euclidean metric is suboptimal and that feature distributions are heterogeneous. To address this challenge, we revisit the anisotropic Mahalanobis distance for CIL. In addition, we empirically show that modeling the feature covariance relations is better than previous attempts at sampling features from normal distributions and training a linear classifier. Unlike existing methods, our approach generalizes to both many- and few-shot CIL settings, as well as to domain-incremental settings. Interestingly, without updating the backbone network, our method obtains state-of-the-art results on several standard continual learning benchmarks. Code is available at https://github.com/dipamgoswami/FeCAM.
翻訳日:2023-10-31 19:59:24 公開日:2023-10-27
# blastnet 2.0データを用いた3次元ボリューム分解能のベンチマークスケーリング挙動

Turbulence in Focus: Benchmarking Scaling Behavior of 3D Volumetric Super-Resolution with BLASTNet 2.0 Data ( http://arxiv.org/abs/2309.13457v3 )

ライセンス: Link先を確認
Wai Tong Chung, Bassem Akoush, Pushan Sharma, Alex Tamkin, Ki Sung Jung, Jacqueline H. Chen, Jack Guo, Davy Brouzet, Mohsen Talei, Bruno Savard, Alexei Y. Poludnenko, Matthias Ihme(参考訳) 圧縮性乱流の解析は、推進、エネルギー発生、環境に関する応用に不可欠である。 本稿では,34個の高忠実度直接数値シミュレーションから得られた744個のフルドメインサンプルを含む2.2tbのネットワーク・オブ・データセットである blastnet 2.0 について述べる。 このデータを用いて,3次元超解像のための5つのディープラーニングアプローチの49種類のバリエーションをベンチマークし,科学画像,シミュレーション,乱流モデル,コンピュータビジョンの応用に応用できることを示した。 これらのモデルを用いてニューラルスケーリング分析を行い、2つの科学的ML技術を含む異なる機械学習(ML)アプローチの性能を調べる。 私たちはそれを証明します (i)予測性能はモデルのサイズとコストでスケールできる。 (ii)建築は、特に小型モデルにおいて著しく重要であり、 (iii)モデルサイズが大きくなると、物理学的損失の利点が持続する。 本研究の結果は3次元超解像モデル,特に乱流モデルの設計に役立つ知見を提供するとともに,幅広い流れ物理応用のためのML手法の育成が期待されている。 このデータは、https://blastnet.github.ioで統合されたダウンロードリンクとブラウジングツールで公開されている。

Analysis of compressible turbulent flows is essential for applications related to propulsion, energy generation, and the environment. Here, we present BLASTNet 2.0, a 2.2 TB network-of-datasets containing 744 full-domain samples from 34 high-fidelity direct numerical simulations, which addresses the current limited availability of 3D high-fidelity reacting and non-reacting compressible turbulent flow simulation data. With this data, we benchmark a total of 49 variations of five deep learning approaches for 3D super-resolution - which can be applied for improving scientific imaging, simulations, turbulence models, as well as in computer vision applications. We perform neural scaling analysis on these models to examine the performance of different machine learning (ML) approaches, including two scientific ML techniques. We demonstrate that (i) predictive performance can scale with model size and cost, (ii) architecture matters significantly, especially for smaller models, and (iii) the benefits of physics-based losses can persist with increasing model size. The outcomes of this benchmark study are anticipated to offer insights that can aid the design of 3D super-resolution models, especially for turbulence models, while this data is expected to foster ML methods for a broad range of flow physics applications. This data is publicly available with download links and browsing tools consolidated at https://blastnet.github.io.
翻訳日:2023-10-31 19:58:17 公開日:2023-10-27
# ニュースストーリー理解のためのビデオタイムラインモデリング

Video Timeline Modeling For News Story Understanding ( http://arxiv.org/abs/2309.13446v2 )

ライセンス: Link先を確認
Meng Liu, Mingda Zhang, Jialu Liu, Hanjun Dai, Ming-Hsuan Yang, Shuiwang Ji, Zheyun Feng, Boqing Gong(参考訳) 本稿では,ビデオタイムラインモデリングという新たな問題を提案する。 我々の目的は、特定の話題に関連する一連のビデオからビデオ関連タイムラインを作成し、話されているストーリーの内容や構造を理解しやすくすることである。 この問題は、例えばニュースストーリーの要約など、様々な現実世界のアプリケーションにおいて大きな可能性を秘めている。 この分野での研究をブートストラップするために、12ドル以上のタイムラインと300ドル以上のYouTubeニュースビデオからなる、現実的なベンチマークデータセットであるYouTube-News-Timelineをキュレートした。 さらに,方法論を包括的に評価し,比較するための定量的指標のセットを提案する。 このようなテストベッドによって、この問題に対処する深層学習アプローチをさらに発展させ、ベンチマークする。 我々は、この探索的な研究が、ビデオタイムラインモデリングにおけるさらなる研究の道を開くことを期待する。 資産はhttps://github.com/google-research/google-research/tree/master/video_timeline_modelingで入手できる。

In this paper, we present a novel problem, namely video timeline modeling. Our objective is to create a video-associated timeline from a set of videos related to a specific topic, thereby facilitating the content and structure understanding of the story being told. This problem has significant potential in various real-world applications, for instance, news story summarization. To bootstrap research in this area, we curate a realistic benchmark dataset, YouTube-News-Timeline, consisting of over $12$k timelines and $300$k YouTube news videos. Additionally, we propose a set of quantitative metrics to comprehensively evaluate and compare methodologies. With such a testbed, we further develop and benchmark several deep learning approaches to tackling this problem. We anticipate that this exploratory work will pave the way for further research in video timeline modeling. The assets are available via https://github.com/google-research/google-research/tree/master/video_timeline_modeling.
翻訳日:2023-10-31 19:57:57 公開日:2023-10-27
# 意味格子解析による自動音声認識システムにおける文脈認識の改善

Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring ( http://arxiv.org/abs/2310.09680v3 )

ライセンス: Link先を確認
Ankitha Sudarshan, Vinay Samuel, Parth Patwa, Ibtihel Amara, Aman Chadha(参考訳) 自動音声認識(asr)は大きな研究の関心を集めている。 近年のブレークスルーは、会話エージェントの構築において重要な進歩である音声言語を忠実に翻訳するなど、ASRシステムに異なる見通しを与えている。 しかし、文脈依存の単語や句を正確に識別するという課題はいまだに差し迫っている。 本研究では,多種多様な語彙や話し言葉の書き起こしを正確に配信する深層学習モデルの力を活用した意味的格子処理により,ASRシステム内の文脈認識を強化する新しい手法を提案する。 提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,より高精度な言語モデルと音響モデルを統合する。 我々は,変換器モデルを用いて,単語誤り率(WER)を低下させることで,単語格子が優れた能力を発揮することを適切に評価した。 実験分析により,提案フレームワークがlibrispeechデータセット上で有効であることを示す。

Automatic Speech Recognition (ASR) has witnessed a profound research interest. Recent breakthroughs have given ASR systems different prospects such as faithfully transcribing spoken language, which is a pivotal advancement in building conversational agents. However, there is still an imminent challenge of accurately discerning context-dependent words and phrases. In this work, we propose a novel approach for enhancing contextual recognition within ASR systems via semantic lattice processing leveraging the power of deep learning models in accurately delivering spot-on transcriptions across a wide variety of vocabularies and speaking styles. Our solution consists of using Hidden Markov Models and Gaussian Mixture Models (HMM-GMM) along with Deep Neural Networks (DNN) models integrating both language and acoustic modeling for better accuracy. We infused our network with the use of a transformer-based model to properly rescore the word lattice achieving remarkable capabilities with a palpable reduction in Word Error Rate (WER). We demonstrate the effectiveness of our proposed framework on the LibriSpeech dataset with empirical analyses.
翻訳日:2023-10-31 19:51:19 公開日:2023-10-27
# フォトニッククーパー対からの共鳴励起光

Resonant squeezed light from photonic Cooper pairs ( http://arxiv.org/abs/2310.07139v2 )

ライセンス: Link先を確認
Sanker Timsina, Taha Hammadia, Sahar Gholami Milani, Filomeno S. de J\'unior, Alexandre Brolo, and Rog\'erio de Sousa(参考訳) フォノンへのラマン散乱は、ストークス過程で放出されるフォノンが反ストークス散乱に吸収され、クーパー対のフォトニックアナログを形成するときに、光子対が絡み合うようになる。 我々は、相互作用する光子とフォノンをハイブリッド励起であるラマニトンとして扱うフォトニッククーパー対の時間発展に関する非摂動論的理論を提案する。 ラマニトンが導波路で伝播すると、光子とフォノンの占有の間の量子振動が示され、フォノンの占有がゼロになるときにストクス・アンティストークス光が共鳴的に圧縮される。 この現象は、絶縁体導波路上の標準シリコンでも最大28dBの励起光を発生させることができる。

Raman scattering of photons into phonons gives rise to entangled photon pairs when the phonon emitted in a Stokes process is absorbed in antiStokes scattering, forming the photonic analog of Cooper pairs. We present a nonperturbative theory for the time evolution of photonic Cooper pairs that treats interacting photons and phonons as a hybrid excitation, the Ramaniton. As the Ramaniton propagates in a wave guide it displays quantum oscillations between photon and phonon occupation, leading to resonant squeezed Stokes-antiStokes light when the phonon occupation becomes equal to zero. This phenomena can be used to generate up to 28 dB of squeezed light even in standard silicon on insulator waveguides.
翻訳日:2023-10-31 19:49:05 公開日:2023-10-27
# deepfoolアルゴリズムを用いたクラス操作のためのディープニューラルネットワークの敵意攻撃の調整

Tailoring Adversarial Attacks on Deep Neural Networks for Targeted Class Manipulation Using DeepFool Algorithm ( http://arxiv.org/abs/2310.13019v2 )

ライセンス: Link先を確認
S. M. Fazle Rabby Labib, Joyanta Jyoti Mondal, Meem Arafat Manab(参考訳) ディープニューラルネットワーク(DNN)は、様々なドメインを著しく進化させたが、敵の攻撃に対する脆弱性は深刻な懸念を引き起こす。 これらの脆弱性を理解し、効果的な防御メカニズムを開発することは重要です。 Moosavi-Dezfooli et al. (2016)によって提案されたアルゴリズムであるDeepFoolは、入力画像を誤分類するために最小限の摂動を求める。 しかし、DeepFoolにはターゲットのアプローチがないため、特定の攻撃シナリオでは効果が低い。 また、以前の関連作品では、画像がどれだけ歪められているか、画像の品質の完全性、誤分類に対する自信レベルを考慮して、研究者は主に成功に焦点を当てている。 そこで本稿では,DeepFoolの拡張バージョンであるTargeted DeepFoolを提案する。 また、柔軟性を高めるため、最小信頼度要求ハイパーパラメータも導入する。 実験では,画像の整合性を最大限に保ちながら,異なる深層ニューラルネットワークアーキテクチャにおける提案手法の有効性と効率を実証した。 その結果、深層畳み込みニューラルネットワークアーキテクチャの1つであるAlexNetと、最先端のモデルであるVision Transformerの1つは、騙されやすいことを示す。 私たちのコードは論文を出版するときに公表される。

Deep neural networks (DNNs) have significantly advanced various domains, but their vulnerability to adversarial attacks poses serious concerns. Understanding these vulnerabilities and developing effective defense mechanisms is crucial. DeepFool, an algorithm proposed by Moosavi-Dezfooli et al. (2016), finds minimal perturbations to misclassify input images. However, DeepFool lacks a targeted approach, making it less effective in specific attack scenarios. Also, in previous related works, researchers primarily focus on success, not considering how much an image is getting distorted; the integrity of the image quality, and the confidence level to misclassifying. So, in this paper, we propose Targeted DeepFool, an augmented version of DeepFool that allows targeting specific classes for misclassification. We also introduce a minimum confidence score requirement hyperparameter to enhance flexibility. Our experiments demonstrate the effectiveness and efficiency of the proposed method across different deep neural network architectures while preserving image integrity as much as possible. Results show that one of the deep convolutional neural network architectures, AlexNet, and one of the state-of-the-art model Vision Transformer exhibit high robustness to getting fooled. Our code will be made public when publishing the paper.
翻訳日:2023-10-31 19:37:53 公開日:2023-10-27
# ノイズ量子チャネルとしてのLandau-Streaterチャネル

The Landau-Streater Channel as a Noisy Quantum Channel ( http://arxiv.org/abs/2310.15353v2 )

ライセンス: Link先を確認
Shayan Roofeh, Vahid Karimipour(参考訳) 3次元では、ランダウ・セプター・チャンネルはヴェルナー・ホルボ・チャンネルにすぎない。 このようなチャネルは連続パラメータを持たず、環境ノイズをモデル化することはできない。 我々は、その凸と同一性チャネルとの組合せを考え、クトリッツ上の1パラメータ雑音モデルとして適する。 さらに、Werner-Holevo チャネルは完全ユニタリ群 $SU(3)$ の下で共分散を示すが、拡張族は群 $SO(3)$ の下でのみ共分散を保持する。 この対称性の低減は、元のチャネルの様々な特性に対する影響を調べることができる。 特に, チャネルのスペクトル, 可視性, 相補的チャネル, 正確なあるいは近似的な分解性, および各種のキャパシティへの影響について検討する。 具体的には, 量子容量に対する下界と上界の確立とともに, 単発古典容量と絡み合い支援容量の解析式を導出する。

In three dimensions, the Landau-Streater channel is nothing but the Werner-Holevo channel. Such a channel has no continuous parameter and hence cannot model an environmental noise. We consider its convex combination with the identity channel, making it suitable as a one-parameter noise model on qutrits. Moreover, whereas the original Werner-Holevo channel exhibits covariance under the complete unitary group $SU(3)$, the extended family maintains covariance only under the group $SO(3)$. This symmetry reduction allows us to investigate its impact on various properties of the original channel. In particular, we examine its influence on the channel's spectrum, divisibility, complementary channel, and exact or approximate degradability, as well as its various kinds of capacities. Specifically, we derive analytical expressions for the one-shot classical capacity and the entanglement-assisted capacity, accompanied by the establishment of lower and upper bounds for the quantum capacity.
翻訳日:2023-10-31 19:25:27 公開日:2023-10-27
# 早期マルチモーダルデータフュージョンとヤコビアンマップを用いたアルツハイマー病の診断

Diagnosing Alzheimer's Disease using Early-Late Multimodal Data Fusion with Jacobian Maps ( http://arxiv.org/abs/2310.16936v2 )

ライセンス: Link先を確認
Yasmine Mustafa and Tie Luo(参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は、老化に影響を及ぼす神経変性疾患である。 術前および症状段階におけるadの検出は早期の介入と治療に不可欠である。 アクティブな研究の方向は、マルチモーダルデータ融合を利用して、医療スキャンの人間の検査を上回ることである。 しかし、既存のマルチモーダル融合モデルには、冗長計算、複雑なアーキテクチャ、欠落したデータの単純処理を含む制限がある。 さらに、医療スキャンの前処理パイプラインは不十分で、個々の被験者に最適化されることは滅多にない。 本稿では,小型データセット上での競合性能を実現するために,自動特徴抽出とランダムフォレストのための畳み込みニューラルネットワークを用いた効率的な早期融解(elf)手法を提案する。 さらに,個々の被験者の独特な特徴に適応し,スライスやパッチではなく脳全体の画像を利用するロバストな前処理パイプラインを導入する。 さらに,脳の容積の微妙な変化を検出するために,画像がヤコビアン領域(JD)に変換され,分類の精度と堅牢性の両方が向上する。 OASIS-3データセットのMRIおよびCT画像を用いて,ADを4段階に分類し精度97.19%の精度でALFアプローチの有効性を実証した。

Alzheimer's disease (AD) is a prevalent and debilitating neurodegenerative disorder impacting a large aging population. Detecting AD in all its presymptomatic and symptomatic stages is crucial for early intervention and treatment. An active research direction is to explore machine learning methods that harness multimodal data fusion to outperform human inspection of medical scans. However, existing multimodal fusion models have limitations, including redundant computation, complex architecture, and simplistic handling of missing data. Moreover, the preprocessing pipelines of medical scans remain inadequately detailed and are seldom optimized for individual subjects. In this paper, we propose an efficient early-late fusion (ELF) approach, which leverages a convolutional neural network for automated feature extraction and random forests for their competitive performance on small datasets. Additionally, we introduce a robust preprocessing pipeline that adapts to the unique characteristics of individual subjects and makes use of whole brain images rather than slices or patches. Moreover, to tackle the challenge of detecting subtle changes in brain volume, we transform images into the Jacobian domain (JD) to enhance both accuracy and robustness in our classification. Using MRI and CT images from the OASIS-3 dataset, our experiments demonstrate the effectiveness of the ELF approach in classifying AD into four stages with an accuracy of 97.19%.
翻訳日:2023-10-31 19:10:51 公開日:2023-10-27
# CAD-動的AVQAのためのコンテキストマルチモーダルアライメント

CAD -- Contextual Multi-modal Alignment for Dynamic AVQA ( http://arxiv.org/abs/2310.16754v2 )

ライセンス: Link先を確認
Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin Mustafa(参考訳) 音声視覚質問応答(avqa)タスクの文脈では、音声視覚モダリティを3つのレベルで学習することができる。 1)空間 2) 時間的,そして 3)意味論。 既存のAVQA手法には2つの大きな欠点がある: ネットワークを通過する音声視覚(AV)情報は空間的レベルと時間的レベルに一致しない; そして、モーダル間(オーディオと視覚)のセマンティック情報は文脈内ではバランスが取れない。 本稿では,AVQA手法の課題に対処する,エンドツーエンドのマルチモーダルアライメント(CAD)ネットワークを提案する。 一 空間レベルに頑健な音声及び視覚的アライメントを確保するためのパラメータフリー確率的文脈ブロックを導入すること。 二 自己監督設定における時間レベルの動的オーディオ及び視覚的アライメントのための事前学習手法の提案 三 セマンティックレベルの音声及び視覚情報のバランスをとるための相互注意機構を導入すること。 提案する新しいcadネットワークは,音楽avqaデータセットにおける最先端手法全体のパフォーマンスを平均9.4%向上させる。 また、AVQAに対する提案されたコントリビューションが既存のメソッドに追加され、さらなる複雑さの要求なしにパフォーマンスが向上することを示す。

In the context of Audio Visual Question Answering (AVQA) tasks, the audio visual modalities could be learnt on three levels: 1) Spatial, 2) Temporal, and 3) Semantic. Existing AVQA methods suffer from two major shortcomings; the audio-visual (AV) information passing through the network isn't aligned on Spatial and Temporal levels; and, inter-modal (audio and visual) Semantic information is often not balanced within a context; this results in poor performance. In this paper, we propose a novel end-to-end Contextual Multi-modal Alignment (CAD) network that addresses the challenges in AVQA methods by i) introducing a parameter-free stochastic Contextual block that ensures robust audio and visual alignment on the Spatial level; ii) proposing a pre-training technique for dynamic audio and visual alignment on Temporal level in a self-supervised setting, and iii) introducing a cross-attention mechanism to balance audio and visual information on Semantic level. The proposed novel CAD network improves the overall performance over the state-of-the-art methods on average by 9.4% on the MUSIC-AVQA dataset. We also demonstrate that our proposed contributions to AVQA can be added to the existing methods to improve their performance without additional complexity requirements.
翻訳日:2023-10-31 19:09:29 公開日:2023-10-27
# OffMix-3L: 攻撃的言語識別のためのバングラ・イングリッシュ・ヒンディーにおける新しいコード混合データセット

OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for Offensive Language Identification ( http://arxiv.org/abs/2310.18387v1 )

ライセンス: Link先を確認
Dhiman Goswami, Md Nishat Raihan, Antara Mahmud, Antonios Anstasopoulos, Marcos Zampieri(参考訳) コードミキシング(code-mixing)は、2つ以上の言語をテキストまたは音声で混合するよく研究された言語現象である。 データセットの構築や、コード混合データ上で下流のnlpタスクを実行する作業がいくつか行われている。 3つ以上の言語のコード混合を観察することは珍しくないが、このドメインで利用可能なデータセットのほとんどは、2つの言語からのコード混合データを含んでいる。 本稿では,3言語間のコード混合データを含む攻撃的言語識別データセットであるOFMix-3Lを紹介する。 本稿では,BanglishBERTが他のトランスフォーマーモデルやGPT-3.5より優れていることを示す。

Code-mixing is a well-studied linguistic phenomenon when two or more languages are mixed in text or speech. Several works have been conducted on building datasets and performing downstream NLP tasks on code-mixed data. Although it is not uncommon to observe code-mixing of three or more languages, most available datasets in this domain contain code-mixed data from only two languages. In this paper, we introduce OffMix-3L, a novel offensive language identification dataset containing code-mixed data from three different languages. We experiment with several models on this dataset and observe that BanglishBERT outperforms other transformer-based models and GPT-3.5.
翻訳日:2023-10-31 19:01:40 公開日:2023-10-27
# 用語記述への記述ラベルのマッチング

Matching of Descriptive Labels to Glossary Descriptions ( http://arxiv.org/abs/2310.18385v1 )

ライセンス: Link先を確認
Toshihiro Takahashi, Takaaki Tateishi and Michiaki Tatsubori(参考訳) セマンティックテキスト類似性(Semantic text similarity)は、技術者が記述的なラベル(例えば、ビジネス用語、表の列名)の意味を明確化するよう要求されるソフトウェア工学のタスクにおいて重要な役割を果たす。 この種の問題を記述的ラベルと用語集の記述をマッチングするタスクとして定式化する。 次に,既存の意味的テキスト類似度測定(STS)を活用して,意味的ラベルエンリッチメントと集合的集合的文脈化を用いて拡張するフレームワークを提案する。 公開データソースから得られた2つのデータセットについて実験を行った。 その結果,提案手法は,より記述的なラベルと記述とを正しく一致させることができた。

Semantic text similarity plays an important role in software engineering tasks in which engineers are requested to clarify the semantics of descriptive labels (e.g., business terms, table column names) that are often consists of too short or too generic words and appears in their IT systems. We formulate this type of problem as a task of matching descriptive labels to glossary descriptions. We then propose a framework to leverage an existing semantic text similarity measurement (STS) and augment it using semantic label enrichment and set-based collective contextualization where the former is a method to retrieve sentences relevant to a given label and the latter is a method to compute similarity between two contexts each of which is derived from a set of texts (e.g., column names in the same table). We performed an experiment on two datasets derived from publicly available data sources. The result indicated that the proposed methods helped the underlying STS correctly match more descriptive labels with the descriptions.
翻訳日:2023-10-31 19:01:27 公開日:2023-10-27
# MicroNAS:マイクロコントローラ上での時系列分類のためのメモリと遅延制約付きハードウェア対応ニューラルネットワーク探索

MicroNAS: Memory and Latency Constrained Hardware-Aware Neural Architecture Search for Time Series Classification on Microcontrollers ( http://arxiv.org/abs/2310.18384v1 )

ライセンス: Link先を確認
Tobias King, Yexu Zhou, Tobias R\"oddiger, Michael Beigl(参考訳) 本稿では,mcu(resource-constrained microcontrollers)上で時系列データを分類し,標準のtf-lite mlモデルを生成するニューラルネットワークアーキテクチャの自動検索と生成を行うシステムであるmicronasを提案する。 MicroNASは、実行遅延とターゲットMCUのピークメモリ消費に関するユーザ定義の制約を考慮に入れている。 このアプローチは、ニューラルネットワークアーキテクチャが実装されるmcuの特定の制約と要件のために最適化されることを保証する。 これを実現するために、MicroNASは、最小誤差が1.02msで、正確な実行遅延計算にルックアップテーブル推定アプローチを使用する。 MCUにおけるこの正確な遅延推定は、より精度の低い推定手法を使用する他のハードウェア対応ニューラルアーキテクチャサーチ(HW-NAS)メソッドと区別する。 最後に、MicroNASは、Cortex-M4 MCU上で実行しながら、認識されたデータセット(UCI-HARでは93.93%、SkodaRでは96.33%)で高い分類精度を達成する。

This paper presents MicroNAS, a system designed to automatically search and generate neural network architectures capable of classifying time series data on resource-constrained microcontrollers (MCUs) and generating standard tf-lite ML models. MicroNAS takes into account user-defined constraints on execution latency and peak memory consumption on a target MCU. This approach ensures that the resulting neural network architectures are optimised for the specific constraints and requirements of the MCU on which they are implemented. To achieve this, MicroNAS uses a look-up table estimation approach for accurate execution latency calculations, with a minimum error of only 1.02ms. This accurate latency estimation on MCUs sets it apart from other hardware-aware neural architecture search (HW-NAS) methods that use less accurate estimation techniques. Finally, MicroNAS delivers performance close to that of state-of-the-art models running on desktop computers, achieving high classification accuracies on recognised datasets (93.93% on UCI-HAR and 96.33% on SkodaR) while running on a Cortex-M4 MCU.
翻訳日:2023-10-31 19:01:12 公開日:2023-10-27
# ジェネレーティブAIからジェネレーティブなモノのインターネット:基礎、フレームワーク、展望

From Generative AI to Generative Internet of Things: Fundamentals, Framework, and Outlooks ( http://arxiv.org/abs/2310.18382v1 )

ライセンス: Link先を確認
Jinbo Wen, Jiangtian Nie, Jiawen Kang, Dusit Niyato, Hongyang Du, Yang Zhang, Mohsen Guizani(参考訳) 生成人工知能(GAI)は、現実的なデータを生成し、高度な意思決定を促進する能力を持っている。 GAIを現代的なモノのインターネット(IoT)に統合することによって、ジェネレーティブ・インターネット・オブ・モノ(GIoT)が登場し、社会のさまざまな側面に革命をもたらす大きな可能性を秘めており、スマート監視や音声アシスタントといったより効率的でインテリジェントなIoTアプリケーションを可能にしている。 本稿では,GIoTの概念を述べるとともに,その可能性を探究する。 具体的には、まず4つのgai技術を概説し、giotアプリケーションについて検討する。 次に,giotを実現する上での課題を詳述するとともに,gdm(generative diffusion model)をインセンティブ機構設計に採用し,セキュアなgiot管理にブロックチェーン技術を適用する,汎用的なgaiベースのセキュアインセンティブ機構フレームワークを提案する。 さらに,gdmsを利用してユーザのセンシングデータを高品質で提供するためのインセンティブを効果的に生み出す,最新の車両交通監視のインターネットに関する事例研究を行う。 最後に、giotの将来的な人気について調査する価値のあるいくつかのオープンな方向を提案する。

Generative Artificial Intelligence (GAI) possesses the capabilities of generating realistic data and facilitating advanced decision-making. By integrating GAI into modern Internet of Things (IoT), Generative Internet of Things (GIoT) is emerging and holds immense potential to revolutionize various aspects of society, enabling more efficient and intelligent IoT applications, such as smart surveillance and voice assistants. In this article, we present the concept of GIoT and conduct an exploration of its potential prospects. Specifically, we first overview four GAI techniques and investigate promising GIoT applications. Then, we elaborate on the main challenges in enabling GIoT and propose a general GAI-based secure incentive mechanism framework to address them, in which we adopt Generative Diffusion Models (GDMs) for incentive mechanism designs and apply blockchain technologies for secure GIoT management. Moreover, we conduct a case study on modern Internet of Vehicle traffic monitoring, which utilizes GDMs to generate effective contracts for incentivizing users to contribute sensing data with high quality. Finally, we suggest several open directions worth investigating for the future popularity of GIoT.
翻訳日:2023-10-31 19:00:51 公開日:2023-10-27
# 頻度と時間集中で睡眠スピンドルを現わす

Unveil Sleep Spindles with Concentration of Frequency and Time ( http://arxiv.org/abs/2310.18381v1 )

ライセンス: Link先を確認
Riki Shimizu and Hau-Tieng Wu(参考訳) 目的:睡眠スピンドルには重要な脳の動態情報が含まれる。 脳波データにおけるスリープスピンドルアノテーションの解釈可能な自動アルゴリズムを作成し、スピンドル瞬時周波数(IF)を測定するために、新しい非線形時間周波数解析ツール「Concentration of Frequency and Time」(ConceFT)を紹介した。 方法:ConceFTは確率的脳波の影響を効果的に低減し、時間周波数表現におけるスピンドル可視性を高める。 自動スピンドル検出アルゴリズムであるConceFT-Spindle(ConceFT-S)を,DreamおよびMASSベンチマークデータベースを用いたA7(非深度学習)とSUMO(深度学習)と比較した。 また、スピンドルIFダイナミクスを定量化する。 結果: ConceFT-S は夢で0.749点、MASSで0.786点、統計学的に A7 と SUMO 以上である。 スピンドルifは一般に非線形である。 結論: ConceFTは正確なEEGベースの睡眠スピンドル検出アルゴリズムを提供し、スピンドルIF定量化を可能にする。

Objective: Sleep spindles contain crucial brain dynamics information. We introduce the novel non-linear time-frequency analysis tool 'Concentration of Frequency and Time' (ConceFT) to create an interpretable automated algorithm for sleep spindle annotation in EEG data and to measure spindle instantaneous frequencies (IFs). Methods: ConceFT effectively reduces stochastic EEG influence, enhancing spindle visibility in the time-frequency representation. Our automated spindle detection algorithm, ConceFT-Spindle (ConceFT-S), is compared to A7 (non-deep learning) and SUMO (deep learning) using Dream and MASS benchmark databases. We also quantify spindle IF dynamics. Results: ConceFT-S achieves F1 scores of 0.749 in Dream and 0.786 in MASS, which is equivalent to or surpass A7 and SUMO with statistical significance. We reveal that spindle IF is generally nonlinear. Conclusion: ConceFT offers an accurate, interpretable EEG-based sleep spindle detection algorithm and enables spindle IF quantification.
翻訳日:2023-10-31 19:00:31 公開日:2023-10-27
# 事前学習言語モデルに基づくオントロジー改訂

Ontology Revision based on Pre-trained Language Models ( http://arxiv.org/abs/2310.18378v1 )

ライセンス: Link先を確認
Qiu Ji, Guilin Qi, Yuxin Ye, Jiaye Li, Site Li, Jianjie Ren, Songtao Lu(参考訳) オントロジーリビジョンは、既存のオントロジーに新しい情報をシームレスに組み込むことを目標とし、オントロジー進化、オントロジー保守、オントロジーアライメントといったタスクにおいて重要な役割を果たす。 単一オントロジーの修復と同様に、オントロジー修正のタスクにおける論理的不整合の解消もまた重要かつ意味のあるものである。 この問題に対処するために、オントロジーの公理に対する修正演算子と設計ランク付け戦略を定義するために、様々なオントロジー修正手法が提案されている。 しかし、公理を区別する重要な情報を提供する公理意味論を考えることは稀である。 一方、事前学習モデルを用いて公理意味論を符号化し、近年多くの自然言語処理タスクやオントロジー関連モデルに広く応用されている。 そこで本稿では,属性オントロジーとそれに対応する信頼性オントロジーからの様々な情報を考慮することにより,事前学習モデルに基づく4つのスコアリング関数をランク付けする。 このようなスコアリング機能に基づいて,満足できない概念を一度に扱えるオントロジー修正アルゴリズムを提案する。 帰納的オントロジーにおいて、全ての不満足な概念を一緒に解決することが難しい場合、適応された修正アルゴリズムがグループごとにそれらを扱うように設計される。 19個のオントロジー対の実験を行い、アルゴリズムとスコアリング関数を既存のものと比較する。 実験によると、我々のアルゴリズムは有望な性能を達成することができた。 適応リビジョンアルゴリズムは効率を大幅に向上させ、少なくとも96%の時間がオントロジのペアで節約できる。 スコアリング機能のいくつかは、リビジョンアルゴリズムが多くのケース、特に挑戦的なペアでより良い結果を得るのに役立つ。

Ontology revision aims to seamlessly incorporate new information into an existing ontology and plays a crucial role in tasks such as ontology evolution, ontology maintenance, and ontology alignment. Similar to repair single ontologies, resolving logical incoherence in the task of ontology revision is also important and meaningful since incoherence is a main potential factor to cause inconsistency and reasoning with an inconsistent ontology will obtain meaningless answers. To deal with this problem, various ontology revision methods have been proposed to define revision operators and design ranking strategies for axioms in an ontology. However, they rarely consider axiom semantics which provides important information to differentiate axioms. On the other hand, pre-trained models can be utilized to encode axiom semantics, and have been widely applied in many natural language processing tasks and ontology-related ones in recent years. Therefore, in this paper, we define four scoring functions to rank axioms based on a pre-trained model by considering various information from a rebuttal ontology and its corresponding reliable ontology. Based on such a scoring function, we propose an ontology revision algorithm to deal with unsatisfiable concepts at once. If it is hard to resolve all unsatisfiable concepts in a rebuttal ontology together, an adapted revision algorithm is designed to deal with them group by group. We conduct experiments over 19 ontology pairs and compare our algorithms and scoring functions with existing ones. According to the experiments, it shows that our algorithms could achieve promising performance. The adapted revision algorithm could improve the efficiency largely, and at most 96% time could be saved for some ontology pairs. Some of our scoring functions help a revision algorithm obtain better results in many cases, especially for the challenging pairs.
翻訳日:2023-10-31 19:00:12 公開日:2023-10-27
# ビッグデータ神経科学のための大規模基礎モデルと生成AI

Large-scale Foundation Models and Generative AI for BigData Neuroscience ( http://arxiv.org/abs/2310.18377v1 )

ライセンス: Link先を確認
Ran Wang and Zhe Sage Chen(参考訳) 機械学習の最近の進歩は、コンピュータゲーム、画像と自然言語理解、科学的発見に革命的なブレークスルーをもたらした。 ファンデーションモデルと大規模言語モデル(LLM)は最近、BigDataのおかげで人間のようなインテリジェンスを達成した。 自己教師付き学習(SSL)と伝達学習の助けを借りて、これらのモデルは神経科学研究の景観を再構築し、未来に大きな影響を与える可能性がある。 本稿では,基礎モデルや生成型aiモデルの最近の進歩と,自然言語や音声,意味記憶,bmi(brain-machine interface),データ拡張など,神経科学への応用に関するミニレビューを行う。 このパラダイムシフトフレームワークは、多くの神経科学研究の方向性に新しい道を開き、それに伴う課題と機会について議論する。

Recent advances in machine learning have made revolutionary breakthroughs in computer games, image and natural language understanding, and scientific discovery. Foundation models and large-scale language models (LLMs) have recently achieved human-like intelligence thanks to BigData. With the help of self-supervised learning (SSL) and transfer learning, these models may potentially reshape the landscapes of neuroscience research and make a significant impact on the future. Here we present a mini-review on recent advances in foundation models and generative AI models as well as their applications in neuroscience, including natural language and speech, semantic memory, brain-machine interfaces (BMIs), and data augmentation. We argue that this paradigm-shift framework will open new avenues for many neuroscience research directions and discuss the accompanying challenges and opportunities.
翻訳日:2023-10-31 18:59:40 公開日:2023-10-27
# SQLformer: テキストからSQLへの変換のためのディープ自動回帰クエリグラフ生成

SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation ( http://arxiv.org/abs/2310.18376v1 )

ライセンス: Link先を確認
Adri\'an Bazaga and Pietro Li\`o and Gos Micklem(参考訳) 近年,自然言語質問を実行可能なSQLクエリに変換するタスクである,テキストからSQLへの変換への関心が高まっている。 この技術は、データベースからのデータ抽出を民主化する可能性を秘めている。 しかし、その鍵となるハードルにはドメインの一般化がある。これは、以前は目に見えないデータベースに適応する能力であり、自然言語の質問と対応するSQLクエリとのアライメントである。 これらの課題を克服するために,テキストからSQLへの変換タスクを実行するために開発された,新しいTransformerアーキテクチャであるSQLformerを紹介した。 我々のモデルはSQLクエリを抽象構文木(AST)として自動回帰的に予測し、エンコーダ層とデコーダ層に構造的帰納バイアスを組み込む。 このバイアスは、データベーステーブルと列選択によってガイドされ、Breadth-First Searchの標準順序でグラフとして表されるSQLクエリASTを生成するデコーダに役立つ。 総合的な実験は、挑戦的なテキストからSQLスパイダーのベンチマークでSQLformerの最先端のパフォーマンスを示している。 私たちの実装はhttps://github.com/AdrianBZG/SQLformerで利用可能です。

In recent years, there has been growing interest in text-to-SQL translation, which is the task of converting natural language questions into executable SQL queries. This technology is important for its potential to democratize data extraction from databases. However, some of its key hurdles include domain generalisation, which is the ability to adapt to previously unseen databases, and alignment of natural language questions with the corresponding SQL queries. To overcome these challenges, we introduce SQLformer, a novel Transformer architecture specifically crafted to perform text-to-SQL translation tasks. Our model predicts SQL queries as abstract syntax trees (ASTs) in an autoregressive way, incorporating structural inductive bias in the encoder and decoder layers. This bias, guided by database table and column selection, aids the decoder in generating SQL query ASTs represented as graphs in a Breadth-First Search canonical order. Comprehensive experiments illustrate the state-of-the-art performance of SQLformer in the challenging text-to-SQL Spider benchmark. Our implementation is available at https://github.com/AdrianBZG/SQLformer
翻訳日:2023-10-31 18:59:25 公開日:2023-10-27
# 会話型AIにおける実践的考察の拡張

Expanding the Set of Pragmatic Considerations in Conversational AI ( http://arxiv.org/abs/2310.18435v1 )

ライセンス: Link先を確認
S.M. Seals, Valerie L. Shalin(参考訳) 大幅なパフォーマンス向上にもかかわらず、現在の会話型AIシステムは、しばしばユーザの期待を満たさない。 現在の会話型aiシステムの実用的限界について考察する。 我々は,構文上適切であるが,明確な実用的欠陥を有する例を用いて,実用的限界を説明する。 現状の会話型AIシステムは、人間の行動に比べて低下していることを示すものとして、当社の苦情を“Turing Test Triggers”(TTT)”とラベル付けしています。 我々は,対話型aiシステムが必要とする実用的能力を特定し,対話型aiシステムの設計と評価への意味を議論するための実践的考察の分類法を開発する。

Despite considerable performance improvements, current conversational AI systems often fail to meet user expectations. We discuss several pragmatic limitations of current conversational AI systems. We illustrate pragmatic limitations with examples that are syntactically appropriate, but have clear pragmatic deficiencies. We label our complaints as "Turing Test Triggers" (TTTs) as they indicate where current conversational AI systems fall short compared to human behavior. We develop a taxonomy of pragmatic considerations intended to identify what pragmatic competencies a conversational AI system requires and discuss implications for the design and evaluation of conversational AI systems.
翻訳日:2023-10-31 18:48:29 公開日:2023-10-27
# 分散的ロバストな学習とオフラインrlの橋渡し:分散シフトと部分的データカバレッジを緩和するアプローチ

Bridging Distributionally Robust Learning and Offline RL: An Approach to Mitigate Distribution Shift and Partial Data Coverage ( http://arxiv.org/abs/2310.18434v1 )

ライセンス: Link先を確認
Kishan Panaganti, Zaiyan Xu, Dileep Kalathil, Mohammad Ghavamzadeh(参考訳) オフライン強化学習(RL)アルゴリズムの目的は、オンライン探索のための環境にアクセスすることなく、過去の(オフライン)データを使って最適な警察を学習することである。 オフラインRLの主な課題の1つは、データ生成ポリシーと学習ポリシーの状態-行動訪問分布の違いを反映した分散シフトである。 近年の多くの研究は、ペシミズムという概念を用いて、オフラインのRLアルゴリズムを開発し、サンプルの複雑さを単一のポリシー集中性という比較的弱い仮定の下で特徴づけている。 オフラインのrl文献とは異なり、distributionally robust learning(drl)の領域は、トレーニングとテスト環境のモデルミスマッチに取り組むためにminimax形式を使用する原則付きフレームワークを提供する。 本研究では,この2つの領域を橋渡しし,DRL手法がオフラインRLにおける分布シフト問題に対処できることを示す。 特に,DRLフレームワークを用いた2つのオフラインRLアルゴリズムを提案する。 また,シミュレーション実験により提案アルゴリズムの優れた性能を示す。

The goal of an offline reinforcement learning (RL) algorithm is to learn optimal polices using historical (offline) data, without access to the environment for online exploration. One of the main challenges in offline RL is the distribution shift which refers to the difference between the state-action visitation distribution of the data generating policy and the learning policy. Many recent works have used the idea of pessimism for developing offline RL algorithms and characterizing their sample complexity under a relatively weak assumption of single policy concentrability. Different from the offline RL literature, the area of distributionally robust learning (DRL) offers a principled framework that uses a minimax formulation to tackle model mismatch between training and testing environments. In this work, we aim to bridge these two areas by showing that the DRL approach can be used to tackle the distributional shift problem in offline RL. In particular, we propose two offline RL algorithms using the DRL framework, for the tabular and linear function approximation settings, and characterize their sample complexity under the single policy concentrability assumption. We also demonstrate the superior performance our proposed algorithm through simulation experiments.
翻訳日:2023-10-31 18:48:19 公開日:2023-10-27
# 完全相対論的エンタングルメントハーベスティング

Fully Relativistic Entanglement Harvesting ( http://arxiv.org/abs/2310.18432v1 )

ライセンス: Link先を確認
T. Rick Perche, Jos\'e Polo-G\'omez, Bruno de S. L. Torres, Eduardo Mart\'in-Mart\'inez(参考訳) 磁場から絡み合う粒子検出器が完全に相対論的量子場理論に置き換えられる場合の絡み合い収穫のプロトコルについて検討する。 量子場理論の2つの局所化モードは2つの非相対論的粒子検出器と同じ主次絡み合いを得られることを示し、qftプローブは一般に粒子検出器よりも絡み合いを多く得ることを示唆する。 これらの結果は、内部の非相対論的性質に関わらず、絡み合う収穫を研究するために粒子検出器を用いることを正当化する。

We study the protocol of entanglement harvesting when the particle detectors that harvest entanglement from the field are replaced by fully relativistic quantum field theories. We show that two localized modes of the quantum field theories are able to harvest the same amount of leading order entanglement as two non-relativistic particle detectors, thus implying that QFT probes can generally harvest more entanglement than particle detectors. These results legitimize the use of particle detectors to study entanglement harvesting regardless of their internally non-relativistic nature.
翻訳日:2023-10-31 18:47:57 公開日:2023-10-27
# SDOH-NLI : 臨床ノートから健康決定因子を推定するためのデータセット

SDOH-NLI: a Dataset for Inferring Social Determinants of Health from Clinical Notes ( http://arxiv.org/abs/2310.18431v1 )

ライセンス: Link先を確認
Adam D. Lelkes, Eric Loreaux, Tal Schuster, Ming-Jun Chen, Alvin Rajkomar(参考訳) 社会的および行動的健康決定因子(SDOH)は、健康結果を形成する上で重要な役割を担い、臨床ノートからこれらの決定因子を抽出することは、医療提供者が適切なケアを提供し、格差に対処する機会を体系的に特定するための第一歩である。 このタスクにNLPメソッドを使うことの進歩は、実際の患者の情報の使用に関するプライバシーと規制の制約により、高品質な公開ラベル付きデータの不足によって妨げられている。 本稿では,公開ノートをベースとした新たなデータセットであるSDOH-NLIを紹介する。 我々は、自然言語推論(NLI)タスクとしてSDOH抽出を定式化し、社会史スニペットの集合を前提とし、SDOH因子を仮説として、人間のラッカーから得られたバイナリテキストエンターメントラベルを提供する。 我々のデータセットは標準のNLIベンチマークと異なり、前提と仮説は独立して得られる。 包含モデルとデータに微調整されたモデルの両方を評価し、一般的なnliデータセットよりもデータセットがより難しいように見える方法を強調します。

Social and behavioral determinants of health (SDOH) play a significant role in shaping health outcomes, and extracting these determinants from clinical notes is a first step to help healthcare providers systematically identify opportunities to provide appropriate care and address disparities. Progress on using NLP methods for this task has been hindered by the lack of high-quality publicly available labeled data, largely due to the privacy and regulatory constraints on the use of real patients' information. This paper introduces a new dataset, SDOH-NLI, that is based on publicly available notes and which we release publicly. We formulate SDOH extraction as a natural language inference (NLI) task, and provide binary textual entailment labels obtained from human raters for a cross product of a set of social history snippets as premises and SDOH factors as hypotheses. Our dataset differs from standard NLI benchmarks in that our premises and hypotheses are obtained independently. We evaluate both "off-the-shelf" entailment models as well as models fine-tuned on our data, and highlight the ways in which our dataset appears more challenging than commonly used NLI datasets.
翻訳日:2023-10-31 18:47:47 公開日:2023-10-27
# MCRAGE:フェアネスのための医療データ

MCRAGE: Synthetic Healthcare Data for Fairness ( http://arxiv.org/abs/2310.18430v1 )

ライセンス: Link先を確認
Keira Behal, Jiayi Chen, Caleb Fikes, and Sophia Xiao(参考訳) 医療分野において、電子健康記録(EHR)は、医療資源の診断、治療、管理のための機械学習モデルを開発するための重要なトレーニングデータである。 しかし、人種や民族、性別、年齢といったセンシティブな属性では、医療データセットはしばしばバランスが取れない。 クラス不均衡なEHRデータセットに基づいてトレーニングされた機械学習モデルは、マイノリティークラスの個人に対して、マイノリティークラスのサンプルと比較して、デプロイにおいて著しく悪化する。 この課題に対処するために,深層生成モデルによって生成されたサンプルを用いて不均衡データセットを補完する新しい手法である生成モデル(mcrage)による拡張によるマイノリティクラスリバランスを提案する。 MCRAGEプロセスは、未表現のクラスから高品質な合成EHRサンプルを生成することができる条件付き脱ノイズ拡散確率モデル(CDDPM)を訓練する。 この合成データを既存の不均衡データセットの強化に利用することで、偏りのない機械学習モデルのトレーニングに使用できる、全クラスにわたるよりバランスの取れた分散を実現する。 精度,F1スコア,AUROCを用いたMCRAGEと代替手法の比較を行った。 最小の仮定を持つDDPMに対する最近の収束結果の観点から,本手法の理論的正当性を示す。

In the field of healthcare, electronic health records (EHR) serve as crucial training data for developing machine learning models for diagnosis, treatment, and the management of healthcare resources. However, medical datasets are often imbalanced in terms of sensitive attributes such as race/ethnicity, gender, and age. Machine learning models trained on class-imbalanced EHR datasets perform significantly worse in deployment for individuals of the minority classes compared to samples from majority classes, which may lead to inequitable healthcare outcomes for minority groups. To address this challenge, we propose Minority Class Rebalancing through Augmentation by Generative modeling (MCRAGE), a novel approach to augment imbalanced datasets using samples generated by a deep generative model. The MCRAGE process involves training a Conditional Denoising Diffusion Probabilistic Model (CDDPM) capable of generating high-quality synthetic EHR samples from underrepresented classes. We use this synthetic data to augment the existing imbalanced dataset, thereby achieving a more balanced distribution across all classes, which can be used to train an unbiased machine learning model. We measure the performance of MCRAGE versus alternative approaches using Accuracy, F1 score and AUROC. We provide theoretical justification for our method in terms of recent convergence results for DDPMs with minimal assumptions.
翻訳日:2023-10-31 18:47:23 公開日:2023-10-27
# ベイズ安定動物園

The Bayesian Stability Zoo ( http://arxiv.org/abs/2310.18428v1 )

ライセンス: Link先を確認
Shay Moran, Hilla Schefler, Jonathan Shafer(参考訳) 学習理論文献に見られる安定性の多くの定義が互いに等価であることを示す。 安定性の定義は, 分布依存と分布非依存の二つのベイズ安定性とを区別する。 各ファミリーにおいて、近似微分プライバシー、純粋微分プライバシー、再現性、グローバル安定性、完全一般化、テレビ安定性、相互情報安定性、kl-ダイバージェンス安定性、r\'enyi-divergence stabilityを含む様々な定義間の等価性を確立する。 その過程で,学習規則の安定性の増幅を可能にする結果が得られた。 この研究は、学習理論における安定性概念のより体系的な分類への一歩であり、これは明確性を促進し、近年出現した安定性概念の一連の理解を改善することができる。

We show that many definitions of stability found in the learning theory literature are equivalent to one another. We distinguish between two families of definitions of stability: distribution-dependent and distribution-independent Bayesian stability. Within each family, we establish equivalences between various definitions, encompassing approximate differential privacy, pure differential privacy, replicability, global stability, perfect generalization, TV stability, mutual information stability, KL-divergence stability, and R\'enyi-divergence stability. Along the way, we prove boosting results that enable the amplification of the stability of a learning rule. This work is a step towards a more systematic taxonomy of stability notions in learning theory, which can promote clarity and an improved understanding of an array of stability concepts that have emerged in recent years.
翻訳日:2023-10-31 18:47:01 公開日:2023-10-27
# 直交基底とスペクトル変換を用いたベクトル埋め込みによる高速機械学習法

Fast Machine Learning Method with Vector Embedding on Orthonormal Basis and Spectral Transform ( http://arxiv.org/abs/2310.18424v1 )

ライセンス: Link先を確認
Louis Yu Lu(参考訳) 本稿では,オーソノーマル基底上のベクトル埋め込み(VEOB)とスペクトル変換(ST)の2つの手法を利用する,新しい高速機械学習手法を提案する。 VEOBは元のデータをベクトル埋め込みに変換し、座標を正規直交基底に投影する。 特異値分解(singular value decomposition:svd)技術はベクトル基底と射影座標の計算に用いられ、埋め込み空間における距離測定の強化と、最大特異値に関連する投影ベクトルの保存によるデータ圧縮の促進に寄与する。 一方、STはベクトルデータの列をスペクトル空間に変換する。 Discrete Cosine Transform (DCT)を適用し、最も重要なコンポーネントを選択することで、長いベクトルシーケンスの処理を効率化する。 本稿では,ユリア語でベクトルデータベースを用いて実装された単語埋め込み,テキストチャンク埋め込み,画像埋め込みの例を示す。 また,この手法を用いた教師なし学習と教師なし学習と,大規模データ量を扱う戦略についても検討した。

This paper presents a novel fast machine learning method that leverages two techniques: Vector Embedding on Orthonormal Basis (VEOB) and Spectral Transform (ST). The VEOB converts the original data encoding into a vector embedding with coordinates projected onto orthonormal bases. The Singular Value Decomposition (SVD) technique is used to calculate the vector basis and projection coordinates, leading to an enhanced distance measurement in the embedding space and facilitating data compression by preserving the projection vectors associated with the largest singular values. On the other hand, ST transforms sequence of vector data into spectral space. By applying the Discrete Cosine Transform (DCT) and selecting the most significant components, it streamlines the handling of lengthy vector sequences. The paper provides examples of word embedding, text chunk embedding, and image embedding, implemented in Julia language with a vector database. It also investigates unsupervised learning and supervised learning using this method, along with strategies for handling large data volumes.
翻訳日:2023-10-31 18:46:47 公開日:2023-10-27
# 量子ネットワークのパーコレーション理論

Percolation Theories for Quantum Networks ( http://arxiv.org/abs/2310.18420v1 )

ライセンス: Link先を確認
Xiangyi Meng, Xinqi Hu, Yu Tian, Gaogao Dong, Renaud Lambiotte, Jianxi Gao, Shlomo Havlin(参考訳) 量子ネットワークは過去10年間、理論領域と実験領域の両方で急速に進歩し、統計物理学の観点からその大規模特徴を理解することがますます重要になっている。 接続が部分的に絡み合っており、量子ノイズにさらされている不完全な量子ネットワークにおいて、遠方のノード間で(例えば、中間ノードを通して)効果的に、そして間接的に絡み合うことができるのか? ネットワーク接続に着目した統計物理学の分野であるパーコレーション理論に、正確なあるいは近似的なマッピングを描画することにより、この問題に対処する最近の研究を調査する。 特に、古典的なパーコレーションフレームワークは、ネットワークの間接接続を一意的に定義していない。 この実現により、「'Concurrence percolation'」と呼ばれる別の理論が出現し、この理論は、量子ネットワークがかつて古典的なパーコレーションの文脈で考えられていたよりも弾力性があり、将来の量子ネットワーク設計に新たな洞察をもたらすことを示唆している。

Quantum networks have experienced rapid advancements in both theoretical and experimental domains over the last decade, making it increasingly important to understand their large-scale features from the viewpoint of statistical physics. This review paper discusses a fundamental question: how can entanglement be effectively and indirectly (e.g., through intermediate nodes) distributed between distant nodes in an imperfect quantum network, where the connections are only partially entangled and subject to quantum noise? We survey recent studies addressing this issue by drawing exact or approximate mappings to percolation theory, a branch of statistical physics centered on network connectivity. Notably, we show that the classical percolation frameworks do not uniquely define the network's indirect connectivity. This realization leads to the emergence of an alternative theory called ``concurrence percolation,'' which uncovers a previously unrecognized quantum advantage that emerges at large scales, suggesting that quantum networks are more resilient than initially assumed within classical percolation contexts, offering refreshing insights into future quantum network design.
翻訳日:2023-10-31 18:46:30 公開日:2023-10-27
# L2言語学習のための自動抽出文法概念の教師認識

Teacher Perception of Automatically Extracted Grammar Concepts for L2 Language Learning ( http://arxiv.org/abs/2310.18417v1 )

ライセンス: Link先を確認
Aditi Chaudhary, Arun Sampath, Ashwin Sheshadri, Antonios Anastasopoulos, Graham Neubig(参考訳) 言語教育における課題の1つは、構文、意味論、音韻学に関する規則を有意義に整理する最善の方法である。 これは、コンテンツクリエーターが教育的なスキルを持つだけでなく、その言語の深い理解も必要としている。 このようなカリキュラムを開発するための包括的な資料は英語といくつかの広義の言語で利用可能であるが、他の多くの言語では教師が生徒のニーズに応じて手作業で作成する必要がある。 これは難しいことです 一 当該専門家がアクセスし、必要な資源を有しなければならないこと。 二 言語のすべての複雑さを記述することは、時間がかかり、省略しがちである。 本研究では,文法記述を自動的に発見・可視化することで,このプロセスを容易にすることを目的とする。 我々は、形態素構文(単語順、一致、ケースマーキング、または単語形成の学習)と意味論(語彙の学習)に関する質問に答える自然なテキストコーパスから記述を抽出する。 英語とは違って、第二言語学習のための十分に発達した資源を持たないカンナダ語とマラティ語を2つのインド語で教える手法を応用する。 抽出した教材の有効性を評価するため,北米の学校から言語教育者の助けを借りて手作業による評価を行い,教材が授業準備や学習者評価に活用できる可能性を見出した。

One of the challenges in language teaching is how best to organize rules regarding syntax, semantics, or phonology in a meaningful manner. This not only requires content creators to have pedagogical skills, but also have that language's deep understanding. While comprehensive materials to develop such curricula are available in English and some broadly spoken languages, for many other languages, teachers need to manually create them in response to their students' needs. This is challenging because i) it requires that such experts be accessible and have the necessary resources, and ii) describing all the intricacies of a language is time-consuming and prone to omission. In this work, we aim to facilitate this process by automatically discovering and visualizing grammar descriptions. We extract descriptions from a natural text corpus that answer questions about morphosyntax (learning of word order, agreement, case marking, or word formation) and semantics (learning of vocabulary). We apply this method for teaching two Indian languages, Kannada and Marathi, which, unlike English, do not have well-developed resources for second language learning. To assess the perceived utility of the extracted material, we enlist the help of language educators from schools in North America to perform a manual evaluation, who find the materials have potential to be used for their lesson preparation and learner evaluation.
翻訳日:2023-10-31 18:46:07 公開日:2023-10-27
# Fairness ROAD: 対向的デバイアスに対するロバスト最適化について

On the Fairness ROAD: Robust Optimization for Adversarial Debiasing ( http://arxiv.org/abs/2310.18413v1 )

ライセンス: Link先を確認
Vincent Grari, Thibault Laugel, Tatsunori Hashimoto, Sylvain Lamprier, Marcin Detyniecki(参考訳) アルゴリズム的公平性の分野では、人口統計学的パリティや等化オッズといった集団的公平性基準が注目されている。 それにもかかわらず、これらの目標がグローバル平均として測定され、センシティブなグループ間の永続的な局所的格差に対する懸念が高まっている。 本研究は,人口全体に対する期待だけでなく,訓練時未知の機能空間のどの部分領域においても予測者が偏っていないことを保証する,局所的公平性の問題に対処する。 この目的を達成するために,敵が予測からセンシティブな属性を推論しようとする対面学習目的において,分散ロバスト最適化(DRO)フレームワークを活用する新しいアプローチであるROADを導入する。 ROADはインスタンスレベルの再重み付け戦略を用いて、局所的に不公平である可能性のある入力を優先順位付けするように設計されている。 数値実験により,3つの標準データセットにまたがる大域的公正度レベルに対する局所的公正度と精度に関してパレート優位性を実現し,分布シフトの下での公平性一般化を向上する。

In the field of algorithmic fairness, significant attention has been put on group fairness criteria, such as Demographic Parity and Equalized Odds. Nevertheless, these objectives, measured as global averages, have raised concerns about persistent local disparities between sensitive groups. In this work, we address the problem of local fairness, which ensures that the predictor is unbiased not only in terms of expectations over the whole population, but also within any subregion of the feature space, unknown at training time. To enforce this objective, we introduce ROAD, a novel approach that leverages the Distributionally Robust Optimization (DRO) framework within a fair adversarial learning objective, where an adversary tries to infer the sensitive attribute from the predictions. Using an instance-level re-weighting strategy, ROAD is designed to prioritize inputs that are likely to be locally unfair, i.e. where the adversary faces the least difficulty in reconstructing the sensitive attribute. Numerical experiments demonstrate the effectiveness of our method: it achieves Pareto dominance with respect to local fairness and accuracy for a given global fairness level across three standard datasets, and also enhances fairness generalization under distribution shift.
翻訳日:2023-10-31 18:45:44 公開日:2023-10-27
# 古典的および量子イジングマシンの一般学習スキーム

A general learning scheme for classical and quantum Ising machines ( http://arxiv.org/abs/2310.18411v1 )

ライセンス: Link先を確認
Ludwig Schmid, Enrico Zardini, Davide Pastorello(参考訳) イジングマシンは、イジングモデルの基底状態を見つけるために特別に設計されたハードウェアである。 関連する例として、コヒーレントなイジングマシンや量子アニールがある。 本稿では,イジング構造に基づいて,勾配降下を用いて効率的に学習できる新しい機械学習モデルを提案する。 部分微分が明示的に計算されるのではなく、イジングマシン自体によって推定される損失関数を最適化した訓練過程の数学的特徴付けを提供する。 さらに,提案した学習モデルの訓練と実行に関する実験結果を示す。 これらの結果は、Isingマシンが異なる学習タスクにもたらす新たな可能性を示している。 特に量子領域では、量子リソースはモデルの実行とトレーニングの両方に使用され、量子機械学習において有望な視点を提供する。

An Ising machine is any hardware specifically designed for finding the ground state of the Ising model. Relevant examples are coherent Ising machines and quantum annealers. In this paper, we propose a new machine learning model that is based on the Ising structure and can be efficiently trained using gradient descent. We provide a mathematical characterization of the training process, which is based upon optimizing a loss function whose partial derivatives are not explicitly calculated but estimated by the Ising machine itself. Moreover, we present some experimental results on the training and execution of the proposed learning model. These results point out new possibilities offered by Ising machines for different learning tasks. In particular, in the quantum realm, the quantum resources are used for both the execution and the training of the model, providing a promising perspective in quantum machine learning.
翻訳日:2023-10-31 18:45:23 公開日:2023-10-27
# 量子コンピュータにおける量子化学の初期状態準備

Initial state preparation for quantum chemistry on quantum computers ( http://arxiv.org/abs/2310.18410v1 )

ライセンス: Link先を確認
Stepan Fomichev, Kasra Hejazi, Modjtaba Shokrian Zini, Matthew Kiser, Joana Fraxanet Morales, Pablo Antonio Moreno Casares, Alain Delgado, Joonsuk Huh, Arne-Christian Voigt, Jonathan E. Mueller, Juan Miguel Arrazola(参考訳) 化学系の基底状態エネルギー推定のための量子アルゴリズムは高品質な初期状態を必要とする。 しかしながら、初期状態の準備は完全に無視されるか、Hartree-Fockのような単純な製品状態によって解決されると仮定される。 非自明な状態が準備されたとしても、強い相関関係により、基底状態は品質評価に不十分である。 本研究は,初期状態生成問題に,初期状態の品質を準備し,定量化するエンドツーエンドのアルゴリズムで対処し,後者を新しい計量であるエネルギー分布で達成する。 より複雑な初期状態を作成するために、全ての以前のアプローチよりもはるかに優れたスケーリングを示すスレーター行列式の和という形で状態の実装技術を導入する。 また,低精度な量子位相推定法(qpe)を提案する。 この完全アルゴリズムは、エネルギー推定のための高品質な状態を生成することができ、最良の単一製品状態 ansatz と比較した場合、全体の推定コストを数桁削減するいくつかのケースで示される。 より広義に、エネルギー分布図は、QPEのゴールは初期状態のエネルギーと他の古典的推定値と比較して改善をもたらすものとして再解釈されるべきであり、QPEが直接基底状態に射影しない場合でも達成可能であることを示唆している。 最後に、エネルギー分布が潜在的な量子優位性を特定するのにどのように役立つかを示す。

Quantum algorithms for ground-state energy estimation of chemical systems require a high-quality initial state. However, initial state preparation is commonly either neglected entirely, or assumed to be solved by a simple product state like Hartree-Fock. Even if a nontrivial state is prepared, strong correlations render ground state overlap inadequate for quality assessment. In this work, we address the initial state preparation problem with an end-to-end algorithm that prepares and quantifies the quality of initial states, accomplishing the latter with a new metric -- the energy distribution. To be able to prepare more complicated initial states, we introduce an implementation technique for states in the form of a sum of Slater determinants that exhibits significantly better scaling than all prior approaches. We also propose low-precision quantum phase estimation (QPE) for further state quality refinement. The complete algorithm is capable of generating high-quality states for energy estimation, and is shown in select cases to lower the overall estimation cost by several orders of magnitude when compared with the best single product state ansatz. More broadly, the energy distribution picture suggests that the goal of QPE should be reinterpreted as generating improvements compared to the energy of the initial state and other classical estimates, which can still be achieved even if QPE does not project directly onto the ground state. Finally, we show how the energy distribution can help in identifying potential quantum advantage.
翻訳日:2023-10-31 18:45:11 公開日:2023-10-27
# オフポリティ評価のための状態動作類似性に基づく表現

State-Action Similarity-Based Representations for Off-Policy Evaluation ( http://arxiv.org/abs/2310.18409v1 )

ライセンス: Link先を確認
Brahma S. Pavse and Josiah P. Hanna(参考訳) 強化学習では、1つ以上の異なるポリシーを実行することで収集された固定データセットが与えられた場合、評価ポリシーの期待した回帰を推定する。 OPEのより経験的に成功したアルゴリズムの1つは、時間差分更新を用いてアクション値関数を学習し、評価ポリシーの期待した戻り値を推定する適合Q-evaluation (FQE)アルゴリズムである。 通常、元の固定データセットはFQEに直接入力され、評価ポリシーのアクション値関数を学習する。 本稿では、まず、学習エンコーダを用いて固定データセットを変換し、次に変換されたデータセットをFQEに変換することにより、FQEのデータ効率の向上を図る。 このようなエンコーダを学習するために、OPEが調整した状態行動類似度メトリックを導入し、このメトリックと固定データセットを使用して、このメトリックをモデル化するエンコーダを学ぶ。 理論的には、この計量はOPE推定結果の誤差を束縛できることを示している。 実験により、他の状態-作用類似度指標は評価ポリシーの行動-値関数を表現できない表現につながり、状態-作用表現法はFQEのデータ効率を高め、OPEタスクに挑戦する他のOPEベースの表現学習手法と比較してOPEエラーを低減させることを示した。 また, 分布変化の異なるfqeの発散を, 学習表現が著しく軽減することを示す。 私たちのコードは、https://github.com/Badger-RL/ROPE.comで利用可能です。

In reinforcement learning, off-policy evaluation (OPE) is the problem of estimating the expected return of an evaluation policy given a fixed dataset that was collected by running one or more different policies. One of the more empirically successful algorithms for OPE has been the fitted q-evaluation (FQE) algorithm that uses temporal difference updates to learn an action-value function, which is then used to estimate the expected return of the evaluation policy. Typically, the original fixed dataset is fed directly into FQE to learn the action-value function of the evaluation policy. Instead, in this paper, we seek to enhance the data-efficiency of FQE by first transforming the fixed dataset using a learned encoder, and then feeding the transformed dataset into FQE. To learn such an encoder, we introduce an OPE-tailored state-action behavioral similarity metric, and use this metric and the fixed dataset to learn an encoder that models this metric. Theoretically, we show that this metric allows us to bound the error in the resulting OPE estimate. Empirically, we show that other state-action similarity metrics lead to representations that cannot represent the action-value function of the evaluation policy, and that our state-action representation method boosts the data-efficiency of FQE and lowers OPE error relative to other OPE-based representation learning methods on challenging OPE tasks. We also empirically show that the learned representations significantly mitigate divergence of FQE under varying distribution shifts. Our code is available here: https://github.com/Badger-RL/ROPE.
翻訳日:2023-10-31 18:44:49 公開日:2023-10-27
# ダークマター用マグレブ:浮遊超伝導体を用いたダークフォトンとアクシオンダークマターセンシング

Maglev for Dark Matter: Dark-photon and axion dark matter sensing with levitated superconductors ( http://arxiv.org/abs/2310.18398v1 )

ライセンス: Link先を確認
Gerard Higgins, Saarik Kalia, Zhen Liu(参考訳) 超精密機械式センサーは、新しい物理学をテストするためのエキサイティングな道を提供する。 これらのセンサーの多くは慣性力を検出するために調整されているが、磁気浮上式(Maglev)システムは電磁力にも敏感であるという点で特に興味深い。 本研究では,磁気浮上型超伝導体を用いてダーク光子とアクシオンダークマターを電磁気学に結合して検出する手法を提案する。 既存の実験では、これらのダークマター候補を高周波数で探索するが、$\mathrm{1\,kHz}$以下の周波数に敏感であるものはほとんどない(ダークマター質量は$m_\mathrm{DM}\lesssim10^{-12}\,\mathrm{eV}$)。 機械共振器として、磁気浮上型超伝導体は低周波に敏感であり、現在実験で探索されていないパラメータ空間を探索することができる。 ダークフォトンとアクシオンダークマターは、磁気浮上超伝導体の運動を駆動する振動磁場を発生させることができる。 この運動は、ダークマターコンプトン周波数が浮遊超伝導体のトラップ周波数と一致するときに共鳴的に増強される。 我々は、磁気浮上超伝導体がダークマターに敏感になるために必要な修正について概説する。 我々は、f_\mathrm{DM}\lesssim f_\mathrm{kHz}$ frequency rangeにおいて、我々の技術は暗黒光子とアクシオンダークマターの両方の実験プローブの先行感度を達成することができることを示した。

Ultraprecise mechanical sensors offer an exciting avenue for testing new physics. While many of these sensors are tailored to detect inertial forces, magnetically levitated (Maglev) systems are particularly interesting, in that they are also sensitive to electromagnetic forces. In this work, we propose the use of magnetically levitated superconductors to detect dark-photon and axion dark matter through their couplings to electromagnetism. Several existing laboratory experiments search for these dark-matter candidates at high frequencies, but few are sensitive to frequencies below $\mathrm{1\,kHz}$ (corresponding to dark-matter masses $m_\mathrm{DM}\lesssim10^{-12}\,\mathrm{eV}$). As a mechanical resonator, magnetically levitated superconductors are sensitive to lower frequencies, and so can probe parameter space currently unexplored by laboratory experiments. Dark-photon and axion dark matter can source an oscillating magnetic field that drives the motion of a magnetically levitated superconductor. This motion is resonantly enhanced when the dark matter Compton frequency matches the levitated superconductor's trapping frequency. We outline the necessary modifications to make magnetically levitated superconductors sensitive to dark matter, including specifications for both broadband and resonant schemes. We show that in the $\mathrm{Hz}\lesssim f_\mathrm{DM}\lesssim\mathrm{kHz}$ frequency range our technique can achieve the leading sensitivity amongst laboratory probes of both dark-photon and axion dark matter.
翻訳日:2023-10-31 18:44:18 公開日:2023-10-27
# エンティティ埋め込み : 大規模言語モデルのための全モダリティ時代の展望

Entity Embeddings : Perspectives Towards an Omni-Modality Era for Large Language Models ( http://arxiv.org/abs/2310.18390v1 )

ライセンス: Link先を確認
Eren Unlu, Unver Ciftci(参考訳) 大規模言語モデル(LLM)は、テキスト、画像、音声などの複数のモダリティを統一言語空間に統合するために進化している。 テキストのシーケンスで定義された概念的実体をモダリティとみなすことができる,この枠組みに基づく今後の方向性を想定する。 このような定式化は、現在のモデルの認知的および計算的限界を克服する可能性がある。 そのような潜在的な暗黙的様相のいくつかの例が与えられる。 仮説構造に関する膨大な約束とともに、期待される課題も議論されている。

Large Language Models (LLMs) are evolving to integrate multiple modalities, such as text, image, and audio into a unified linguistic space. We envision a future direction based on this framework where conceptual entities defined in sequences of text can also be imagined as modalities. Such a formulation has the potential to overcome the cognitive and computational limitations of current models. Several illustrative examples of such potential implicit modalities are given. Along with vast promises of the hypothesized structure, expected challenges are discussed as well.
翻訳日:2023-10-31 18:43:49 公開日:2023-10-27
# マルチモーダルデータの因果的絡み合い

Causal disentanglement of multimodal data ( http://arxiv.org/abs/2310.18471v1 )

ライセンス: Link先を確認
Elise Walker, Jonas A. Actor, Carianne Martinez, and Nathaniel Trask(参考訳) 因果表現学習アルゴリズムは、原因と効果の解読可能な解釈を認めるデータの低次元表現を発見し、そのような解釈可能な表現を達成することは困難であるため、多くの因果学習アルゴリズムは、(線形)構造因果モデル、介入データ、弱い監督といった先行情報を示す要素を利用する。 残念ながら、探索的因果表現学習では、そのような要素や事前情報は利用できないか、保証されない。 あるいは、科学データセットは、しばしば複数のモーダル性または物理に基づく制約を持ち、そのような科学的マルチモーダルデータを使用することで、完全に教師なしの環境での絡み合いを改善することが示されている。 その結果,因果関係を持つ重要な特徴の発見にマルチモーダルデータと既知の物理を利用する因果表現学習アルゴリズム (causalPIMA) を導入した。 我々の革新的アルゴリズムは、新しい微分可能パラメトリゼーションを用いて、有向非巡回グラフ(DAG)と変分オートエンコーダの潜在空間を、単一の有界損失関数を導出して、エンドツーエンドの微分可能フレームワークで学習する。 我々は,潜伏空間上にガウス混合体を配置し,それぞれの混合体をDAGノードの結果と同一視し,因果関係を持つ特徴発見を可能にする。 本研究は, 合成および科学的データセットを用いて, 解析可能な因果構造を学習すると同時に, 教師なし環境において重要な特徴を同時に発見できることを実証した。

Causal representation learning algorithms discover lower-dimensional representations of data that admit a decipherable interpretation of cause and effect; as achieving such interpretable representations is challenging, many causal learning algorithms utilize elements indicating prior information, such as (linear) structural causal models, interventional data, or weak supervision. Unfortunately, in exploratory causal representation learning, such elements and prior information may not be available or warranted. Alternatively, scientific datasets often have multiple modalities or physics-based constraints, and the use of such scientific, multimodal data has been shown to improve disentanglement in fully unsupervised settings. Consequently, we introduce a causal representation learning algorithm (causalPIMA) that can use multimodal data and known physics to discover important features with causal relationships. Our innovative algorithm utilizes a new differentiable parametrization to learn a directed acyclic graph (DAG) together with a latent space of a variational autoencoder in an end-to-end differentiable framework via a single, tractable evidence lower bound loss function. We place a Gaussian mixture prior on the latent space and identify each of the mixtures with an outcome of the DAG nodes; this novel identification enables feature discovery with causal relationships. Tested against a synthetic and a scientific dataset, our results demonstrate the capability of learning an interpretable causal structure while simultaneously discovering key features in a fully unsupervised setting.
翻訳日:2023-10-31 18:36:30 公開日:2023-10-27
# 半合成データを用いたガゼ推定

Semi-Synthetic Dataset Augmentation for Application-Specific Gaze Estimation ( http://arxiv.org/abs/2310.18469v1 )

ライセンス: Link先を確認
Cedric Leblond-Menard, Gabriel Picard-Krashevski, Sofiane Achiche(参考訳) 視線推定データセットの数は増加しているが、外見に基づく視線推定手法の適用は主に画面上の視線点の推定に限られている。 これは、ほとんどのデータセットが同じような方法で生成されるためであり、カメラの起点に近いスクリーンに視線目標があるためである。 補助ロボット工学やマーケティング研究のような他の応用では、3Dの視線はカメラの起源に近づかないかもしれない。 したがって、顔のテクスチャ化された3次元メッシュを生成し、既存のデータセットを増強する手段として、仮想カメラから特定の位置と向きでトレーニング画像をレンダリングすることを提案する。 私たちのテストでは、視線推定角誤差は平均47%減少しました。

Although the number of gaze estimation datasets is growing, the application of appearance-based gaze estimation methods is mostly limited to estimating the point of gaze on a screen. This is in part because most datasets are generated in a similar fashion, where the gaze target is on a screen close to camera's origin. In other applications such as assistive robotics or marketing research, the 3D point of gaze might not be close to the camera's origin, meaning models trained on current datasets do not generalize well to these tasks. We therefore suggest generating a textured tridimensional mesh of the face and rendering the training images from a virtual camera at a specific position and orientation related to the application as a mean of augmenting the existing datasets. In our tests, this lead to an average 47% decrease in gaze estimation angular error.
翻訳日:2023-10-31 18:36:04 公開日:2023-10-27
# 帯域フィードバックを用いたミニマックス最適部分モジュラ最適化

Minimax Optimal Submodular Optimization with Bandit Feedback ( http://arxiv.org/abs/2310.18465v1 )

ライセンス: Link先を確認
Artin Tajdini, Lalit Jain, Kevin Jamieson(参考訳) 確率的バンディットフィードバックの下での単調な部分モジュラー集合関数 $f: 2^{[n]} \rightarrow [0,1]$ の最大化を考える。 具体的には、$f$ は学習者には知られていないが、各時点で$t=1,\dots,t$ 学習者は $s_t \subset [n]$ と $|s_t| \leq k$ を選択し、$f(s_t) + \eta_t$ を受け取る。 目的は、最大$f(s_*)$ と$|s_*| = k$ の近似に対して、学習者の後悔を($-e^{-1}$) で最小化することである。 現在まで、文献の最大の後悔は、$k n^{1/3} T^{2/3}$である。 そして、すべての集合を一意なアームとして自明に扱うことで、$\sqrt{ {n \choose k} T }$ も達成可能であると推測する。 本研究では、この設定に対して、$\mathcal{O}(\min_{i \le k}(in^{1/3}T^{2/3} + \sqrt{n^{k-i}T})$ のようにスケールする最初のミニマックス下限を確立する。 さらに,下限の後悔と一致するアルゴリズムを提案する。

We consider maximizing a monotonic, submodular set function $f: 2^{[n]} \rightarrow [0,1]$ under stochastic bandit feedback. Specifically, $f$ is unknown to the learner but at each time $t=1,\dots,T$ the learner chooses a set $S_t \subset [n]$ with $|S_t| \leq k$ and receives reward $f(S_t) + \eta_t$ where $\eta_t$ is mean-zero sub-Gaussian noise. The objective is to minimize the learner's regret over $T$ times with respect to ($1-e^{-1}$)-approximation of maximum $f(S_*)$ with $|S_*| = k$, obtained through greedy maximization of $f$. To date, the best regret bound in the literature scales as $k n^{1/3} T^{2/3}$. And by trivially treating every set as a unique arm one deduces that $\sqrt{ {n \choose k} T }$ is also achievable. In this work, we establish the first minimax lower bound for this setting that scales like $\mathcal{O}(\min_{i \le k}(in^{1/3}T^{2/3} + \sqrt{n^{k-i}T}))$. Moreover, we propose an algorithm that is capable of matching the lower bound regret.
翻訳日:2023-10-31 18:35:51 公開日:2023-10-27
# Pe Tailor: バイオメディカルトリプル抽出におけるTempored Chunk Scorerによる大規模言語モデルの改善

PeTailor: Improving Large Language Model by Tailored Chunk Scorer in Biomedical Triple Extraction ( http://arxiv.org/abs/2310.18463v1 )

ライセンス: Link先を確認
Mingchen Li, M.Chen, Huixue Zhou, Rui Zhang(参考訳) バイオメディカルエンティティの自動抽出と非構造化データからの相互作用は、専門家ラベル付き標準データセットの不足のため、依然として困難な課題である。 本稿では,検索に基づく言語フレームワークであるPETAI-LORについて述べる。 入力文と候補文書セットの類似度を算出して関連文書を取得する従来の検索型言語モデル(lm)とは異なり、ペテラーは文をチャンクに分割し、前処理したチャンクベース関係キー値メモリから関連チャンクを取得する。 さらに, PEAI-LORは, LMの具体的な要件を理解するために, 調整したチャンクスコアラーをLMに適応させる。 また,より関連性の高いバイオメディカルトリプル抽出データセットであるGM-CIHTを紹介する。 このデータセットは、非薬物治療と一般的なバイオメディカルドメインに集中している。 さらに,生物医学領域に適用した場合の一般領域における3重抽出モデルの有効性について検討した。 PETAI-LORはGM-CIHTの最先端性能を実現する。

The automatic extraction of biomedical entities and their interaction from unstructured data remains a challenging task due to the limited availability of expert-labeled standard datasets. In this paper, we introduce PETAI-LOR, a retrieval-based language framework that is augmented by tailored chunk scorer. Unlike previous retrieval-augmented language models (LM) that retrieve relevant documents by calculating the similarity between the input sentence and the candidate document set, PETAILOR segments the sentence into chunks and retrieves the relevant chunk from our pre-computed chunk-based relational key-value memory. Moreover, in order to comprehend the specific requirements of the LM, PETAI-LOR adapt the tailored chunk scorer to the LM. We also introduce GM-CIHT, an expert annotated biomedical triple extraction dataset with more relation types. This dataset is centered on the non-drug treatment and general biomedical domain. Additionally, we investigate the efficacy of triple extraction models trained on general domains when applied to the biomedical domain. Our experiments reveal that PETAI-LOR achieves state-of-the-art performance on GM-CIHT
翻訳日:2023-10-31 18:35:19 公開日:2023-10-27
# デバイアス言語表現モデルにおける保護グループを傷つけるな

Do Not Harm Protected Groups in Debiasing Language Representation Models ( http://arxiv.org/abs/2310.18458v1 )

ライセンス: Link先を確認
Chloe Qinyu Zhu, Rickard Stureborg, Brandon Fain(参考訳) 実世界のデータで訓練された言語表現モデル(LRM)は、望ましくない偏見を捉え、悪化させ、様々な人口集団の人々の不公平な扱いを引き起こす可能性がある。 単語埋め込みなどのベンチマーク評価におけるバイアスを取り除くため, LRMに介入する手法がいくつか研究されている。 しかし、デバイアス介入の副作用は通常下流タスクでは明らかにされない。 本稿では,偏見の公平性を評価するための評価セットであるxGAP-DEBIASを提案する。 本研究は,現実のテキスト分類タスクにおける4つのデバイアス手法について検討し,デバイアス化手法が保護を目的としているものを含め,すべての人口集団において,バイアスの低減が性能低下のコストとなることを示す。 我々は,保護集団に害を与えないような制約で,デバイアスング技術は下流のパフォーマンスを良くするべきだと主張する。

Language Representation Models (LRMs) trained with real-world data may capture and exacerbate undesired bias and cause unfair treatment of people in various demographic groups. Several techniques have been investigated for applying interventions to LRMs to remove bias in benchmark evaluations on, for example, word embeddings. However, the negative side effects of debiasing interventions are usually not revealed in the downstream tasks. We propose xGAP-DEBIAS, a set of evaluations on assessing the fairness of debiasing. In this work, We examine four debiasing techniques on a real-world text classification task and show that reducing biasing is at the cost of degrading performance for all demographic groups, including those the debiasing techniques aim to protect. We advocate that a debiasing technique should have good downstream performance with the constraint of ensuring no harm to the protected group.
翻訳日:2023-10-31 18:35:01 公開日:2023-10-27
# LLMSTEP: リーンにおけるLLMの証明ステップの提案

LLMSTEP: LLM proofstep suggestions in Lean ( http://arxiv.org/abs/2310.18457v1 )

ライセンス: Link先を確認
Sean Welleck and Rahul Saha(参考訳) LLMSTEPは,言語モデルをリーン証明アシスタントに統合するためのツールである。 LLMSTEPはLean 4の戦術で、ユーザの証明状態を言語モデルをホストするサーバに送る。 言語モデルは提案を生成し、リーンでチェックされ、開発環境でユーザに表示される。 我々は、ベースライン言語モデルと、さらなる開発をサポートするための微調整と評価のためのコードを提供します。 CPU、CUDA GPU、またはGoogle Colabノートブックで動作するサーバ実装を、高速で効率的な言語モデル提案へのステップとして提供します。

We present LLMSTEP, a tool for integrating a language model into the Lean proof assistant. LLMSTEP is a Lean 4 tactic that sends a user's proof state to a server hosting a language model. The language model generates suggestions, which are checked in Lean and displayed to a user in their development environment. We provide a baseline language model, along with code for fine-tuning and evaluation to support further development. We provide server implementations that run on CPU, a CUDA GPU, or a Google Colab notebook, as a step towards fast, effective language model suggestions for any user.
翻訳日:2023-10-31 18:34:46 公開日:2023-10-27
# オフライン(多パス)確率勾配降下における近似重テール

Approximate Heavy Tails in Offline (Multi-Pass) Stochastic Gradient Descent ( http://arxiv.org/abs/2310.18455v1 )

ライセンス: Link先を確認
Krunoslav Lehman Pavasovic, Alain Durmus, Umut Simsekli(参考訳) 最近の実証研究で、SGDは実践的な環境で重い尾の挙動を示し、尾の重みは全体的なパフォーマンスと相関していることが示された。 本稿では,このような重い尾の出現について検討する。 この問題に対する以前の研究は、我々の知る限り、オンライン(シングルパスとも呼ばれる)のsgdのみを考慮し、理論的な発見における重い尾の出現は、無限の量のデータにアクセスすることによるものである。 したがって、トレーニングデータの量が有限である実用的な環境で報告された重み付け行動を生成するメカニズムは、まだ十分に理解されていない。 私たちの貢献はこのギャップを埋めることを目的としています。 特に,オフライン (multi-pass) sgd の定常分布が '約' のパワーローテールを示し, その近似誤差は, トレーニングデータの経験的分布がワッサースタイン計量における真の基礎データ分布に収束する速度によって制御されることを示す。 データポイントの数が増えるにつれて、オフラインのSGDはますます「強力な法則」のように振る舞います。 この結果を達成するために,オフラインsgdからオンラインsgdへの非漸近的なwaserstein収束限界を,データポイント数の増加に伴って証明した。 最後に,本理論を合成データとニューラルネットワークを用いて行った各種実験について述べる。

A recent line of empirical studies has demonstrated that SGD might exhibit a heavy-tailed behavior in practical settings, and the heaviness of the tails might correlate with the overall performance. In this paper, we investigate the emergence of such heavy tails. Previous works on this problem only considered, up to our knowledge, online (also called single-pass) SGD, in which the emergence of heavy tails in theoretical findings is contingent upon access to an infinite amount of data. Hence, the underlying mechanism generating the reported heavy-tailed behavior in practical settings, where the amount of training data is finite, is still not well-understood. Our contribution aims to fill this gap. In particular, we show that the stationary distribution of offline (also called multi-pass) SGD exhibits 'approximate' power-law tails and the approximation error is controlled by how fast the empirical distribution of the training data converges to the true underlying data distribution in the Wasserstein metric. Our main takeaway is that, as the number of data points increases, offline SGD will behave increasingly 'power-law-like'. To achieve this result, we first prove nonasymptotic Wasserstein convergence bounds for offline SGD to online SGD as the number of data points increases, which can be interesting on their own. Finally, we illustrate our theory on various experiments conducted on synthetic data and neural networks.
翻訳日:2023-10-31 18:34:35 公開日:2023-10-27
# T5 meet with Tybalt: Author Attribution in Early Modern English Drama using Large Language Models

T5 meets Tybalt: Author Attribution in Early Modern English Drama Using Large Language Models ( http://arxiv.org/abs/2310.18454v1 )

ライセンス: Link先を確認
Rebecca M. M. Hicke and David Mimno(参考訳) 大規模言語モデルは、多くのNLPドメインにおいてブレークスルーの可能性を示している。 ここでは、テクスチャロメトリー、特に現代英語ドラマにおける著者識別について考察する。 llmは驚くほど短い文章の著者を正確に予測することができるが、特定の著者に自信を持って誤ったテキストを配布する可能性も高い。 微調整された t5-large モデルは、ロジスティック回帰、線形カーネル付きSVM、コサインデルタなど、テスト対象のベースラインをすべて上回る。 しかし、モデルの事前学習データに特定の著者が存在することが予測結果に影響を及ぼし、評価が困難であることを示す。

Large language models have shown breakthrough potential in many NLP domains. Here we consider their use for stylometry, specifically authorship identification in Early Modern English drama. We find both promising and concerning results; LLMs are able to accurately predict the author of surprisingly short passages but are also prone to confidently misattribute texts to specific authors. A fine-tuned t5-large model outperforms all tested baselines, including logistic regression, SVM with a linear kernel, and cosine delta, at attributing small passages. However, we see indications that the presence of certain authors in the model's pre-training data affects predictive results in ways that are difficult to assess.
翻訳日:2023-10-31 18:34:10 公開日:2023-10-27
# 引用からの力の融合:参照情報の統合による影響の強化

Fusion of the Power from Citations: Enhance your Influence by Integrating Information from References ( http://arxiv.org/abs/2310.18451v1 )

ライセンス: Link先を確認
Cong Qi, Qin Liu, Kan Liu(参考訳) 影響予測は学術社会において重要な役割を担っている。 学者の影響力は、その作品が他人に受け入れられるかどうかを決定する。 既存の研究は、論文の引用回数を一定期間後に予測することや、著者に対する個々の論文の否定的あるいは肯定的な影響を集中することなく、大量の候補者の中で最も影響力のある論文を特定することに焦点を当てている。 そこで本研究では,ある論文が研究者の影響力を高めることができるかどうかを判断するための予測問題を定式化することを目的としており,論文を出版する前に著者にフィードバックを与えることができる。 まず, 著者の年次論文, 引用数, 貢献度に基づいて, 著者の影響を年々測定するために, 自己適応型acc(average annual citation counts)指標を各論文に提示した。 そこで我々は,参照深度の異なる不均一なグラフ情報を,注意係数を割り当てることで統合するためのrd-gatモデルを提案した。 AMinerデータセットの実験では、提案したACCメトリクスが著者に効果的に影響を与え、RD-GATモデルは学術的引用ネットワーク上でより効率的であり、ベースラインモデルと比較して過度に適合する問題に対して強い堅牢性を有することを示した。 この研究の枠組みを適用することで、研究者は論文が将来の影響力を高めることができるかどうかを特定できる。

Influence prediction plays a crucial role in the academic community. The amount of scholars' influence determines whether their work will be accepted by others. Most existing research focuses on predicting one paper's citation count after a period or identifying the most influential papers among the massive candidates, without concentrating on an individual paper's negative or positive impact on its authors. Thus, this study aims to formulate the prediction problem to identify whether one paper can increase scholars' influence or not, which can provide feedback to the authors before they publish their papers. First, we presented the self-adapted ACC (Average Annual Citation Counts) metric to measure authors' impact yearly based on their annual published papers, paper citation counts, and contributions in each paper. Then, we proposed the RD-GAT (Reference-Depth Graph Attention Network) model to integrate heterogeneous graph information from different depth of references by assigning attention coefficients on them. Experiments on AMiner dataset demonstrated that the proposed ACC metrics could represent the authors influence effectively, and the RD-GAT model is more efficiently on the academic citation network, and have stronger robustness against the overfitting problem compared with the baseline models. By applying the framework in this work, scholars can identify whether their papers can improve their influence in the future.
翻訳日:2023-10-31 18:33:57 公開日:2023-10-27
# 潜在決定モデルによる隠れ制約付きベイズ最適化

Bayesian Optimization with Hidden Constraints via Latent Decision Models ( http://arxiv.org/abs/2310.18449v1 )

ライセンス: Link先を確認
Wenqian Xing, Jungho Lee, Chong Liu, Shixiang Zhu(参考訳) ベイズ最適化(BO)は、特に警察管区のような公共政策領域において、複雑な意思決定課題に対処するための強力なツールとして登場した。 しかし、公共政策におけるその広範な適用は、実現可能な地域を定義する複雑さと意思決定の高次元性によって妨げられている。 本稿では、遅延決定モデルと統合された新しいBO法であるHidden-Constrained Latent Space Bayesian Optimization (HC-LSBO)を紹介する。 このアプローチは変分オートエンコーダを利用して実現可能な決定の分布を学習し、元の決定空間と低次元の潜在空間との双方向マッピングを可能にする。 そうすることでhc-lsboは、公共の政策立案に固有の隠れた制約のニュアンスを捉え、潜在空間における最適化を可能にし、元の空間における目標を評価する。 本手法は,ジョージア州アトランタの大規模警察管区問題に特化して,合成データと実データの両方を用いた数値実験により検証する。 その結果,HC-LSBOはベースラインに比べて性能と効率が向上していることがわかった。

Bayesian optimization (BO) has emerged as a potent tool for addressing intricate decision-making challenges, especially in public policy domains such as police districting. However, its broader application in public policymaking is hindered by the complexity of defining feasible regions and the high-dimensionality of decisions. This paper introduces the Hidden-Constrained Latent Space Bayesian Optimization (HC-LSBO), a novel BO method integrated with a latent decision model. This approach leverages a variational autoencoder to learn the distribution of feasible decisions, enabling a two-way mapping between the original decision space and a lower-dimensional latent space. By doing so, HC-LSBO captures the nuances of hidden constraints inherent in public policymaking, allowing for optimization in the latent space while evaluating objectives in the original space. We validate our method through numerical experiments on both synthetic and real data sets, with a specific focus on large-scale police districting problems in Atlanta, Georgia. Our results reveal that HC-LSBO offers notable improvements in performance and efficiency compared to the baselines.
翻訳日:2023-10-31 18:33:32 公開日:2023-10-27
# 動的最適輸送問題のための新しいスキップ直交リスト

A Novel Skip Orthogonal List for Dynamic Optimal Transport Problem ( http://arxiv.org/abs/2310.18446v1 )

ライセンス: Link先を確認
Xiaoyang Xu, Hu Ding(参考訳) 最適な輸送は、過去数十年間、機械学習コミュニティから多くの注目を集めてきた基本的なトピックである。 本稿では,データポイントの重みや位置が変化するとき,最適輸送計画を効率的に更新できるかという,興味深い離散的動的最適輸送問題を考える。 この問題は、機械学習のいくつかの応用によって自然に動機付けられている。 例えば、2つの異なるデータセット間の最適な輸送コストを計算する必要がある。いくつかのデータポイントに何らかの変更が発生した場合、高複雑性コスト関数を再計算するか、あるいは効率的な動的データ構造によってコストを更新するべきか? これまでいくつかの動的最大フローアルゴリズムが提案されてきたが、我々の知る限りでは、動的最小コストフロー問題の研究はまだかなり限られている。 本稿では,新しい2次元スキップ直交リストと動的木手法を提案する。 このアルゴリズムは従来のsimplex法に基づいているが、各ピボット操作をo(|v|)$時間で効率的に完了でき、そこでは$v$が全ての需給ノードの集合である確率が高い。 動的修正は通常大きな変更を起こさないため、我々のアルゴリズムは実際に数回の単純な反復しか必要としない。 したがって、一般的な場合、O(|E|) = O(|V|^2)$変数に対して少なくとも1つのトラバーサルを必要とする最適な輸送コストを再計算するよりも効率的である。 実験により,本アルゴリズムが動的シナリオにおいて既存のアルゴリズムを大きく上回ることを示した。

Optimal transportation is a fundamental topic that has attracted a great amount of attention from machine learning community in the past decades. In this paper, we consider an interesting discrete dynamic optimal transport problem: can we efficiently update the optimal transport plan when the weights or the locations of the data points change? This problem is naturally motivated by several applications in machine learning. For example, we often need to compute the optimal transportation cost between two different data sets; if some change happens to a few data points, should we re-compute the high complexity cost function or update the cost by some efficient dynamic data structure? We are aware that several dynamic maximum flow algorithms have been proposed before, however, the research on dynamic minimum cost flow problem is still quite limited, to the best of our knowledge. We propose a novel 2D Skip Orthogonal List together with some dynamic tree techniques. Although our algorithm is based on the conventional simplex method, it can efficiently complete each pivoting operation within $O(|V|)$ time with high probability where $V$ is the set of all supply and demand nodes. Since dynamic modifications typically do not introduce significant changes, our algorithm requires only a few simplex iterations in practice. So our algorithm is more efficient than re-computing the optimal transportation cost that needs at least one traversal over all the $O(|E|) = O(|V|^2)$ variables in general cases. Our experiments demonstrate that our algorithm significantly outperforms existing algorithms in the dynamic scenarios.
翻訳日:2023-10-31 18:33:12 公開日:2023-10-27
# M3C:混合グラフマッチングとクラスタリングの収束、柔軟性、教師なし学習のためのフレームワーク

M3C: A Framework towards Convergent, Flexible, and Unsupervised Learning of Mixture Graph Matching and Clustering ( http://arxiv.org/abs/2310.18444v1 )

ライセンス: Link先を確認
Jiaxin Lu, Zetian Jiang, Tianzhe Wang, Junchi Yan(参考訳) 既存のグラフマッチング法は通常、グラフの間に類似した構造があり、それらが一致可能であると仮定する。 しかし、これらの仮定は現実世界のアプリケーションと一致しない。 この作業は、グラフが様々なモードを示す、より現実的なシナリオに対処する。 minorize-maximization matching and clustering (m3c)は、minorize-maximizationフレームワークによる理論的収束を保証する、学習フリーなアルゴリズムである。 m3cに基づいて、新しいエッジアフィニティ学習と擬似ラベル選択を組み込んだ教師なしモデルum3cを開発した。 公開ベンチマークの広範な実験結果から,本手法は最先端のグラフマッチングおよび混合グラフマッチングおよびクラスタリングアプローチを精度と効率の両方で上回っている。 ソースコードは公開される予定だ。

Existing graph matching methods typically assume that there are similar structures between graphs and they are matchable. However, these assumptions do not align with real-world applications. This work addresses a more realistic scenario where graphs exhibit diverse modes, requiring graph grouping before or along with matching, a task termed mixture graph matching and clustering. We introduce Minorize-Maximization Matching and Clustering (M3C), a learning-free algorithm that guarantees theoretical convergence through the Minorize-Maximization framework and offers enhanced flexibility via relaxed clustering. Building on M3C, we develop UM3C, an unsupervised model that incorporates novel edge-wise affinity learning and pseudo label selection. Extensive experimental results on public benchmarks demonstrate that our method outperforms state-of-the-art graph matching and mixture graph matching and clustering approaches in both accuracy and efficiency. Source code will be made publicly available.
翻訳日:2023-10-31 18:32:48 公開日:2023-10-27
# 集合的構成説明による神経細胞の理解を深める

Towards a fuller understanding of neurons with Clustered Compositional Explanations ( http://arxiv.org/abs/2310.18443v1 )

ライセンス: Link先を確認
Biagio La Rosa, Leilani H. Gilpin, Roberto Capobianco(参考訳) 構成説明は、ニューロンの振る舞いを近似する概念の論理式を特定する方法である。 しかし、これらの説明はアライメントをチェックするのに使用されるニューロン活性化のスペクトル(すなわち最も高いスペクトル)と結びついており、完全性が欠如している。 本稿では,合成説明とクラスタリングを融合したクラスタ化合成説明(clustered compositional explanations)と,ニューロンの行動のより広いスペクトルを近似する新しい探索ヒューリスティック(search heuristic)を提案する。 我々は,これらの手法をアクティベーションの多岐にわたる範囲に適用することに関連する問題を定義し,対処し,アルゴリズムを用いて検索可能な洞察を分析し,異なるアルゴリズムで返される説明を研究するために使用できるdesiderata品質を提案する。

Compositional Explanations is a method for identifying logical formulas of concepts that approximate the neurons' behavior. However, these explanations are linked to the small spectrum of neuron activations (i.e., the highest ones) used to check the alignment, thus lacking completeness. In this paper, we propose a generalization, called Clustered Compositional Explanations, that combines Compositional Explanations with clustering and a novel search heuristic to approximate a broader spectrum of the neurons' behavior. We define and address the problems connected to the application of these methods to multiple ranges of activations, analyze the insights retrievable by using our algorithm, and propose desiderata qualities that can be used to study the explanations returned by different algorithms.
翻訳日:2023-10-31 18:32:30 公開日:2023-10-27
# 法的推論のモデリング:人間の合意の端におけるLMアノテーション

Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement ( http://arxiv.org/abs/2310.18440v1 )

ライセンス: Link先を確認
Rosamond Thalken, Edward H. Stiglitz, David Mimno, and Matthew Wilkens(参考訳) 生成言語モデル(LM)は、文書のクラス予測タスクにますます使われ、コストと効率の大幅な改善を約束します。 既存の研究では、単純な分類タスクを調べることが多いが、複雑なタスクや専門的なタスクを分類するLMの能力はあまり理解されていない。 我々は、非常に複雑なタスクであり、人間にとっても困難な課題である。法哲学に基づく法的推論の分類である。 ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新たなデータセットを用いて、様々なLMの性能を体系的にテストする。 生成モデルは、コードブックを通じて人間のアノテータに提示される命令に等しい命令(即ちプロンプト)が与えられると、性能が悪くなる。 我々の最強の結果は、アノテーション付きデータセットの微調整モデルから得られ、最も優れたパフォーマンスモデルはドメイン内モデルであるLEGAL-BERTである。 我々は,この微調整モデルを用いて,有意な定性的歴史的記述と整合し,それらの記述における改善可能性のある領域を指摘する運動である,法学における歴史的傾向の研究に応用する。 本研究は, 複雑なタスクにおけるジェネレーティブ LM の使用について, 微調整を伴わずに注意を喚起し, ヒトのアノテーション集約型分類法との関連を指摘する。

Generative language models (LMs) are increasingly used for document class-prediction tasks and promise enormous improvements in cost and efficiency. Existing research often examines simple classification tasks, but the capability of LMs to classify on complex or specialized tasks is less well understood. We consider a highly complex task that is challenging even for humans: the classification of legal reasoning according to jurisprudential philosophy. Using a novel dataset of historical United States Supreme Court opinions annotated by a team of domain experts, we systematically test the performance of a variety of LMs. We find that generative models perform poorly when given instructions (i.e. prompts) equal to the instructions presented to human annotators through our codebook. Our strongest results derive from fine-tuning models on the annotated dataset; the best performing model is an in-domain model, LEGAL-BERT. We apply predictions from this fine-tuned model to study historical trends in jurisprudence, an exercise that both aligns with prominent qualitative historical accounts and points to areas of possible refinement in those accounts. Our findings generally sound a note of caution in the use of generative LMs on complex tasks without fine-tuning and point to the continued relevance of human annotation-intensive classification methods.
翻訳日:2023-10-31 18:32:15 公開日:2023-10-27
# 2D-3D対応による衣服交換者の再同定のための形状埋め込みの探索

Exploring Shape Embedding for Cloth-Changing Person Re-Identification via 2D-3D Correspondences ( http://arxiv.org/abs/2310.18438v1 )

ライセンス: Link先を確認
Yubin Wang, Huimin Yu, Yuming Yan, Shuyi Song, Biyang Liu, Yichong Lu(参考訳) 衣服交換者再識別(CC-ReID)は、ファッションが常に時間とともに変化し、人々の美的嗜好が石に設定されないため、一般的で現実的な問題である。 既存のReID法の多くは、粗いセマンティックキュー(シルエットや部分セグメンテーションマップなど)から布に依存しないアイデンティティ表現の学習に重点を置いているが、ピクセルレベルでの連続的な形状分布は無視している。 本稿では,布交換リードのための新しい形状埋め込みパラダイムである連続面対応学習(cscl)を提案する。 CSCLは、2次元画像平面と正準3次元体表面との連続的な対応を画素対頂点分類により確立し、人像を3次元人体モデルの表面に自然に整列させ、同時に画素面埋め込みを得る。 さらに,細粒度形状特徴を学習面埋め込みから抽出し,注意深く設計したクロスモダリティ融合モジュールを用いてグローバルrgb機能と統合する。 2D-3D対応に基づく形状埋め込みパラダイムは、モデル全体の人体形状の理解を著しく向上させる。 衣料変化時のreid研究を促進するために,3次元高密度人物(dp3d)を構築し,2d-3d対応と3次元メッシュの密接な注釈付き2d-3d対応を提供する最初の大規模布交換型reidデータセットである。 クロスチェンジとクロスコンテンシスタンスreidベンチマークの両面で実験を行い,本手法の有効性を検証した。

Cloth-Changing Person Re-Identification (CC-ReID) is a common and realistic problem since fashion constantly changes over time and people's aesthetic preferences are not set in stone. While most existing cloth-changing ReID methods focus on learning cloth-agnostic identity representations from coarse semantic cues (e.g. silhouettes and part segmentation maps), they neglect the continuous shape distributions at the pixel level. In this paper, we propose Continuous Surface Correspondence Learning (CSCL), a new shape embedding paradigm for cloth-changing ReID. CSCL establishes continuous correspondences between a 2D image plane and a canonical 3D body surface via pixel-to-vertex classification, which naturally aligns a person image to the surface of a 3D human model and simultaneously obtains pixel-wise surface embeddings. We further extract fine-grained shape features from the learned surface embeddings and then integrate them with global RGB features via a carefully designed cross-modality fusion module. The shape embedding paradigm based on 2D-3D correspondences remarkably enhances the model's global understanding of human body shape. To promote the study of ReID under clothing change, we construct 3D Dense Persons (DP3D), which is the first large-scale cloth-changing ReID dataset that provides densely annotated 2D-3D correspondences and a precise 3D mesh for each person image, while containing diverse cloth-changing cases over all four seasons. Experiments on both cloth-changing and cloth-consistent ReID benchmarks validate the effectiveness of our method.
翻訳日:2023-10-31 18:31:52 公開日:2023-10-27
# 3DCoMPaT$^{++}$: 合成認識のための大規模3次元視覚データセットの改良

3DCoMPaT$^{++}$: An improved Large-scale 3D Vision Dataset for Compositional Recognition ( http://arxiv.org/abs/2310.18511v1 )

ライセンス: Link先を確認
Habib Slim, Xiang Li, Yuchen Li, Mahmoud Ahmed, Mohamed Ayman, Ujjwal Upadhyay, Ahmed Abdelreheem, Arpit Prajapati, Suhail Pothigara, Peter Wonka, Mohamed Elhoseiny(参考訳) 本研究では,RGB点雲,3Dテクスチャメッシュ,深度マップ,セグメンテーションマスクと合わせて,1000万以上のスタイリングされた3D形状を慎重に注釈付けしたマルチモーダル2D/3Dデータセットである3DCoMPaT$^{++}を提示する。 3DCoMPaT$^{++}$は、41の形状カテゴリ、275のきめ細かい部分カテゴリ、293のきめ細かい材料クラスをカバーし、3Dオブジェクトの一部に合成することができる。 4つの等間隔ビューと4つのランダムビューから100万のスタイリングされた形状のサブセットを描画し、合計1億6000万のレンダリングを実現しました。 パーツはインスタンスレベルでセグメンテーションされ、粗い粒度ときめ細かいセマンティックレベルを持つ。 我々は,3Dオブジェクトの部品の合成を総合的に認識し,グラウンドドコMPaT認識(GCR)と呼ばれる新しいタスクを導入する。 さらに,cvpr2023で組織されたデータチャレンジの結果を報告するとともに,6次元入力で学習した修正されたpointnet$^{++}$モデルの利用例を示し,gcr強化のための代替手法を検討する。 われわれの研究が、作曲3Dビジョンの今後の研究を容易にすることを願っている。

In this work, we present 3DCoMPaT$^{++}$, a multimodal 2D/3D dataset with 160 million rendered views of more than 10 million stylized 3D shapes carefully annotated at the part-instance level, alongside matching RGB point clouds, 3D textured meshes, depth maps, and segmentation masks. 3DCoMPaT$^{++}$ covers 41 shape categories, 275 fine-grained part categories, and 293 fine-grained material classes that can be compositionally applied to parts of 3D objects. We render a subset of one million stylized shapes from four equally spaced views as well as four randomized views, leading to a total of 160 million renderings. Parts are segmented at the instance level, with coarse-grained and fine-grained semantic levels. We introduce a new task, called Grounded CoMPaT Recognition (GCR), to collectively recognize and ground compositions of materials on parts of 3D objects. Additionally, we report the outcomes of a data challenge organized at CVPR2023, showcasing the winning method's utilization of a modified PointNet$^{++}$ model trained on 6D inputs, and exploring alternative techniques for GCR enhancement. We hope our work will help ease future research on compositional 3D Vision.
翻訳日:2023-10-31 18:23:01 公開日:2023-10-27
# プロトンの絡み合いエントロピーと熱力学的エントロピーとの関係

Entanglement entropy of proton and its relation to thermodynamic entropy ( http://arxiv.org/abs/2310.18510v1 )

ライセンス: Link先を確認
Krzysztof Kutak(参考訳) グルーオン系の絡み合いエントロピーの公式の項力学に基づく導出について論じる。 導出は私の以前の論文 \cite{Kutak:2011rb} に基づいており、そこでは飽和とウンルー効果に基づく議論が式を得るために使われた。 この公式は、密度行列と陽子の二分割に基づく議論が式を得るために用いられる、より最近の結果である cite{Kharzeev:2017qzs} の漸近的な状態に一致する。 さらに, 飽和に基づくアプローチと二重導対数アプローチが, 絡み合いエントロピーの表現の関数形式において一致する理由として, 進化方程式の性質に基づく議論を行う。

I discuss the termodynamics based derivation of the formula for entanglement entropy of a system of gluons. The derivation is based on my earlier paper \cite{Kutak:2011rb} where the arguments based on saturation and Unruh effect were used to obtain the formula. The formula agrees in asymptotic regime up to numerical factor with more recent results by \cite{Kharzeev:2017qzs} where arguments based on density matrix and bipartition of proton were used to obtain the formula. Furthermore, I give arguments based on properties of evolution equations why the saturation based approach as well as double leading logaritmic approach agree in functional form of expression for entanglement entropy.
翻訳日:2023-10-31 18:22:32 公開日:2023-10-27
# 超音速ストライクにおける武器配置を目標とする深層強化学習

Deep Reinforcement Learning for Weapons to Targets Assignment in a Hypersonic strike ( http://arxiv.org/abs/2310.18509v1 )

ライセンス: Link先を確認
Brian Gaudet, Kris Drozd, Roberto Furfaro(参考訳) 深部強化学習(RL)を用いて、複数の目標に対するマルチ車両超音速ストライクの目標割り当て(WTA)ポリシーを最適化する。 目的は各エピソードで破壊されたターゲットの総価値を最大化することである。 各ランダムに生成されたエピソードは、極超音速攻撃兵器(hsw)と目標の数と初期条件、目標の値分布、およびhswが傍受される確率を変化させる。 我々は、このWTAポリシーの性能を非線形整数プログラミング(NLIP)を用いたベンチマークWTAポリシーと比較し、RL WTAポリシーが計算時間を1000倍高速化し、ミッションエンドゲームにおける自律的な意思決定を容易にするリアルタイム操作を可能にすることを見出した。

We use deep reinforcement learning (RL) to optimize a weapons to target assignment (WTA) policy for multi-vehicle hypersonic strike against multiple targets. The objective is to maximize the total value of destroyed targets in each episode. Each randomly generated episode varies the number and initial conditions of the hypersonic strike weapons (HSW) and targets, the value distribution of the targets, and the probability of a HSW being intercepted. We compare the performance of this WTA policy to that of a benchmark WTA policy derived using non-linear integer programming (NLIP), and find that the RL WTA policy gives near optimal performance with a 1000X speedup in computation time, allowing real time operation that facilitates autonomous decision making in the mission end game.
翻訳日:2023-10-31 18:22:19 公開日:2023-10-27
# 熱流体利用のための多孔質組織多面体設計

Multi-fidelity Design of Porous Microstructures for Thermofluidic Applications ( http://arxiv.org/abs/2310.18505v1 )

ライセンス: Link先を確認
Jonathan Tammer Eweis-LaBolle, Chuanning Zhao, Yoonjin Won, and Ramin Bostanabad(参考訳) 現代の電子機器は小型化と統合化が進んでいるため、その性能は効果的な熱管理に大きく依存している。 構造多孔質表面上での薄膜蒸発を利用した多孔質表面による二相冷却法がポテンシャル溶液として出現している。 このような多孔質構造では、最適放熱能力は質量と熱移動に依存する2つの競合する目的に依存する。 これらの目的を評価する計算コスト、構造表現をボクセル化した設計空間の高次元、および製造性制約は熱管理の最適化プロセスを妨げる。 これらの課題に対処するため, 冷却用途に最適な多孔質構造を設計するためのデータ駆動型フレームワークを開発した。 我々のフレームワークでは、スペクトル密度関数(SDF)を利用して、少数の解釈可能な変数を通して設計空間を符号化し、効率よく探索する。 オフラインシミュレーションにより, 熱流動特性と候補設計の可能性を定量化する物理式を開発した。 コストのかかるシミュレーションへの依存を減らすため,多要素データを生成し,パレート最適設計を求めるエミュレータを構築する。 本手法を蒸発器ウィック設計における標準問題に適用し, 工業用途でもよく見られる最適微細構造におけるフィン様トポロジーを得る。

As modern electronic devices are increasingly miniaturized and integrated, their performance relies more heavily on effective thermal management. Two-phase cooling methods enhanced by porous surfaces, which capitalize on thin-film evaporation atop structured porous surfaces, are emerging as potential solutions. In such porous structures, the optimum heat dissipation capacity relies on two competing objectives that depend on mass and heat transfer. The computational costs of evaluating these objectives, the high dimensionality of the design space which a voxelated microstructure representation, and the manufacturability constraints hinder the optimization process for thermal management. We address these challenges by developing a data-driven framework for designing optimal porous microstructures for cooling applications. In our framework we leverage spectral density functions (SDFs) to encode the design space via a handful of interpretable variables and, in turn, efficiently search it. We develop physics-based formulas to quantify the thermofluidic properties and feasibility of candidate designs via offline simulations. To decrease the reliance on expensive simulations, we generate multi-fidelity data and build emulators to find Pareto-optimal designs. We apply our approach to a canonical problem on evaporator wick design and obtain fin-like topologies in the optimal microstructures which are also characteristics often observed in industrial applications.
翻訳日:2023-10-31 18:22:05 公開日:2023-10-27
# 子どもの物語の自動生成と簡易化について

On the Automatic Generation and Simplification of Children's Stories ( http://arxiv.org/abs/2310.18502v1 )

ライセンス: Link先を確認
Maria Valentini, Jennifer Weber, Jesus Salcido, T\'ea Wright, Eliana Colunga, Katharina Kann(参考訳) 近年の大型言語モデル (LLM) の進歩により, 子どもの教材を自動的に生成するという概念が現実化しつつある。 生成した教育用テキストにおける年齢不適切な単純さの目標に向けて,まず,適切な語彙レベルと可読性レベルを調整した物語を生成するために,いくつかの人気のあるLCMの能力を検討する。 llmの能力が増大しているにもかかわらず、彼らはまだ若い年齢層に適したレベルまで語彙を制限する能力を持っていないことが分かっています。 第2の実験として,子どもの物語の領域に一般化し,その自動生成のための効率的なパイプラインを作成するための,最先端の語彙単純化モデルの能力について検討する。 これらのモデルを検証するために、最初の実験でLLM生成した物語を例に、子指向の語彙単純化事例のデータセットを開発する。 現状の語彙単純化モデルは、背景にある大きな言語モデルに依存しているため、子供向けに設計された素材ではあまり性能が良くないが、一般的なデータでかなり強力な結果が得られるモデルの中には、適切な微調整を施した子供向けデータで、そのパフォーマンスを模倣または改善できるものもある。

With recent advances in large language models (LLMs), the concept of automatically generating children's educational materials has become increasingly realistic. Working toward the goal of age-appropriate simplicity in generated educational texts, we first examine the ability of several popular LLMs to generate stories with properly adjusted lexical and readability levels. We find that, in spite of the growing capabilities of LLMs, they do not yet possess the ability to limit their vocabulary to levels appropriate for younger age groups. As a second experiment, we explore the ability of state-of-the-art lexical simplification models to generalize to the domain of children's stories and, thus, create an efficient pipeline for their automatic generation. In order to test these models, we develop a dataset of child-directed lexical simplification instances, with examples taken from the LLM-generated stories in our first experiment. We find that, while the strongest-performing current lexical simplification models do not perform as well on material designed for children due to their reliance on large language models behind the scenes, some models that still achieve fairly strong results on general data can mimic or even improve their performance on children-directed data with proper fine-tuning, which we conduct using our newly created child-directed simplification dataset.
翻訳日:2023-10-31 18:21:44 公開日:2023-10-27
# 光力学的不安定性を有するシステムのハード励起モード

Hard excitation mode of system with optomechanical instability ( http://arxiv.org/abs/2310.18501v1 )

ライセンス: Link先を確認
Artem Mukhamedyanov, Alexander A. Zyablovsky, Evgeny S. Andrianov(参考訳) 強い光子-フォノン相互作用と光力学的不安定性を持つシステムは、コヒーレントフォノンとフォノンの生成の展望である。 典型的には、光力学的不安定性の閾値を超えると、光子強度はポンプで直線的に増加する。 このようなシステムでは、光子強度のジャンプが増加すると、励起のハードモードが実現可能であることを実証する。 このようなジャンプ増加に対する解析式決定条件を導出する。 非ゼロ溶液の存在に対する相条件の追加により, 光学不安定な系の強励起モードが生じることを実証した。 検出された強励起モードは、高感度センサーと光トランジスタの作成の道を開く。

System with strong photon-phonon interaction and optomechanical instability are perspective for generation of coherent phonons and photons. Typically, above the threshold of optomechanical instability, the photon intensity increases linearly with pumping. We demonstrate that in such systems, it is possible to achieve hard mode of excitation when jump increase in the photon intensity takes place. We derive the analytical expression determining conditions for such a jump increase. We demonstrate that the hard excitation mode in system with optomechanical instability arises due to an additional phase condition for the existence of a nonzero solution. The discovered hard excitation mode paves the way for creation highly sensitive sensors and optical transistors.
翻訳日:2023-10-31 18:21:22 公開日:2023-10-27
# D^{(2)}_3$スピン鎖の開境界条件と共形場理論のセクター

Open boundary conditions of the $D^{(2)}_3$ spin chain and sectors of conformal field theories ( http://arxiv.org/abs/2310.18499v1 )

ライセンス: Link先を確認
Pete Rigas(参考訳) 我々は, 6-vertexモデルとの接続をスタガーリングと反強磁性ポッツモデルで共有する$d^{(2)}_3$スピン鎖の開境界条件について検討した。 適切な伝達行列を定式化することにより、可積分で開なハミルトニアンが得られるので、ハミルトニアンの固有値から基底となる共形場理論の異なる領域を分類することができる。

We study open boundary conditions for the $D^{(2)}_3$ spin chain, which shares connections with the six-vertex model, under staggering, and also to the antiferromagnetic Potts model. By formulating a suitable transfer matrix, we obtain an integrable, open Hamiltonian, hence allowing for us to classify different regions of the underlying conformal field theory from eigenvalues of the Hamiltonian.
翻訳日:2023-10-31 18:21:14 公開日:2023-10-27
# gpt-4 医用画像分類のビジョン --covid-19データセットのケーススタディ-

GPT-4 Vision on Medical Image Classification -- A Case Study on COVID-19 Dataset ( http://arxiv.org/abs/2310.18498v1 )

ライセンス: Link先を確認
Ruibo Chen, Tianyi Xiong, Yihan Wu, Guodong Liu, Zhengmian Hu, Lichang Chen, Yanshuo Chen, Chenxi Liu, Heng Huang(参考訳) この技術報告は、新型コロナウイルス画像分類の微妙な領域におけるGPT-4 Vision(GPT-4V)の応用を掘り下げ、文脈内学習の変換可能性を利用して診断プロセスを強化する。

This technical report delves into the application of GPT-4 Vision (GPT-4V) in the nuanced realm of COVID-19 image classification, leveraging the transformative potential of in-context learning to enhance diagnostic processes.
翻訳日:2023-10-31 18:21:05 公開日:2023-10-27
# 機能付加型説明器は、機能付加型予測器をどの程度うまく説明できるのか?

How Well Do Feature-Additive Explainers Explain Feature-Additive Predictors? ( http://arxiv.org/abs/2310.18496v1 )

ライセンス: Link先を確認
Zachariah Carmichael, Walter J. Scheirer(参考訳) 高度なドメインからのディープラーニングへの関心が高まり、ブラックボックスニューラルネットワークの不可解な性質に対する懸念が高まっている。 説明可能なAI(XAI)の研究は、これらのブラックボックスに多くの説明アルゴリズムをもたらした。 このようなポストホックな説明は人間に理解しやすい説明を与えるが、モデルに対する彼らの忠実さはよく理解されていない。 本稿では,特徴付加的説明者 (LIME, SHAP, SHAPR, MAPLE, PDP) が特徴付加的予測者を説明することができるか? 本稿では,モデルの加法構造から解析的に導出される基底真理上の説明器について評価する。 我々は, 記号表現, ニューラルネットワーク, 一般化加法モデルに適用したこれらの説明器の理解において, 何千もの実世界の課題に対するアプローチの有効性を実証する。 以上の結果から,すべての説明者が最終的に,特に意思決定プロセスが機能インタラクションに関わる場合に,機能の重要性を正しく認識できないことが示唆された。

Surging interest in deep learning from high-stakes domains has precipitated concern over the inscrutable nature of black box neural networks. Explainable AI (XAI) research has led to an abundance of explanation algorithms for these black boxes. Such post hoc explainers produce human-comprehensible explanations, however, their fidelity with respect to the model is not well understood - explanation evaluation remains one of the most challenging issues in XAI. In this paper, we ask a targeted but important question: can popular feature-additive explainers (e.g., LIME, SHAP, SHAPR, MAPLE, and PDP) explain feature-additive predictors? Herein, we evaluate such explainers on ground truth that is analytically derived from the additive structure of a model. We demonstrate the efficacy of our approach in understanding these explainers applied to symbolic expressions, neural networks, and generalized additive models on thousands of synthetic and several real-world tasks. Our results suggest that all explainers eventually fail to correctly attribute the importance of features, especially when a decision-making process involves feature interactions.
翻訳日:2023-10-31 18:21:00 公開日:2023-10-27
# マンモグラフィーAIの比較評価のためのシリコモデルとデータセットの知識に基づく乳房特性、病変の特異性、用量の比較

Knowledge-based in silico models and dataset for the comparative evaluation of mammography AI for a range of breast characteristics, lesion conspicuities and doses ( http://arxiv.org/abs/2310.18494v1 )

ライセンス: Link先を確認
Elena Sizikova, Niloufar Saharkhiz, Diksha Sharma, Miguel Lago, Berkman Sahiner, Jana G. Delfino, Aldo Badano(参考訳) ai(artificial intelligence, ai)を有効にした医療機器の安全性と有効性に関するエビデンスを生成するためには、いくつかの患者でaiモデルを評価する必要がある。 本稿では,人間の解剖学の確率的デジタルモデル(対象空間内)をデジタルレプリカ画像取得システムを用いて画像化し,リアルな合成画像データセットを生成する,サイリコ画像パイプラインを用いた医用画像AIモデルの評価手法を提案する。 そこで我々は,モンテカルロX線シミュレーションとVICTRE(Virtual Imaging Clinical Trial for Regulatory Evaluation)ツールキットを用いて,乳房線維粒度分布の異なる4種類のコホートのデータセットM-SYNTHをリリースした。 合成データセットを用いてAIモデルの性能を解析し,乳房密度の増大とともにモデル性能が低下し,期待どおりの質量密度が増大することを確認した。 曝露レベルが低下すると、AIモデルの性能は、乳房型に推奨される推奨投与量よりも低い被曝レベルで達成された最高性能で低下する。

To generate evidence regarding the safety and efficacy of artificial intelligence (AI) enabled medical devices, AI models need to be evaluated on a diverse population of patient cases, some of which may not be readily available. We propose an evaluation approach for testing medical imaging AI models that relies on in silico imaging pipelines in which stochastic digital models of human anatomy (in object space) with and without pathology are imaged using a digital replica imaging acquisition system to generate realistic synthetic image datasets. Here, we release M-SYNTH, a dataset of cohorts with four breast fibroglandular density distributions imaged at different exposure levels using Monte Carlo x-ray simulations with the publicly available Virtual Imaging Clinical Trial for Regulatory Evaluation (VICTRE) toolkit. We utilize the synthetic dataset to analyze AI model performance and find that model performance decreases with increasing breast density and increases with higher mass density, as expected. As exposure levels decrease, AI model performance drops with the highest performance achieved at exposure levels lower than the nominal recommended dose for the breast type.
翻訳日:2023-10-31 18:20:41 公開日:2023-10-27
# 言語モデルのためのパブリック検出可能な透かし

Publicly Detectable Watermarking for Language Models ( http://arxiv.org/abs/2310.18491v1 )

ライセンス: Link先を確認
Jaiden Fairoze, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody and Mingyuan Wang(参考訳) 我々は,公的な検出性や検証性を備えた言語モデルに対する最初の証明可能な透かし方式を構築し,透かしの秘密鍵と透かし検出のための公開鍵を用いる。 我々のプロトコルは,生成したテキストに統計信号を埋め込まない最初の透かし方式である。 むしろ、リジェクションサンプリングの形式を用いて、公開検証可能な暗号署名を直接埋め込む。 提案手法は,厳密な形式的セキュリティ保証を満たし,秘密鍵透かし設定のスキームに見られる多くの望ましいプロパティを保存できることを示す。 特に,我々の透かし方式は歪み自由度とモデル非依存性を保っている。 提案手法を実装し、7Bパラメータ範囲のオープンモデル上で実験的な測定を行う。 我々の実験は,テキストの品質を維持しつつ,我々の公式な主張に合致することを示す。

We construct the first provable watermarking scheme for language models with public detectability or verifiability: we use a private key for watermarking and a public key for watermark detection. Our protocol is the first watermarking scheme that does not embed a statistical signal in generated text. Rather, we directly embed a publicly-verifiable cryptographic signature using a form of rejection sampling. We show that our construction meets strong formal security guarantees and preserves many desirable properties found in schemes in the private-key watermarking setting. In particular, our watermarking scheme retains distortion-freeness and model agnosticity. We implement our scheme and make empirical measurements over open models in the 7B parameter range. Our experiments suggest that our watermarking scheme meets our formal claims while preserving text quality.
翻訳日:2023-10-31 18:20:21 公開日:2023-10-27
# MOSEL:動的モード選択を用いた推論サービング

MOSEL: Inference Serving Using Dynamic Modality Selection ( http://arxiv.org/abs/2310.18481v1 )

ライセンス: Link先を確認
Bodun Hu, Le Xu, Jeongyoon Moon, Neeraja J. Yadwadkar, Aditya Akella(参考訳) 長年にわたる急速な進歩は、機械学習モデルがこれまで達成し難い目標に達するのに役立っている。 しかし、所望の精度を達成するため、モデルのサイズと計算要件が大幅に増加した。 したがって、最近の推論サービスシステムの構築や、入力に基づいてモデルに動的に適応するアルゴリズム的アプローチにもかかわらず、これらのモデルからの予測をアプリケーションの目標レイテンシとコスト要件に合わせることは、依然として重要な課題である。 本稿では,モデル品質を維持しつつ推論入力からモダリティを適応的に選択するダイナミズム(モダリティ選択)の形式を提案する。 MOSELはマルチモーダルMLモデルのための自動推論システムであり,ユーザ定義の性能と精度の要求に基づいて要求毎の入力モダリティを慎重に選択する。 moselはモダリティ構成を広範囲に活用し、システムスループットを3.6$\times$にし、精度保証とジョブ完了時間を11$\times$に短縮する。

Rapid advancements over the years have helped machine learning models reach previously hard-to-achieve goals, sometimes even exceeding human capabilities. However, to attain the desired accuracy, the model sizes and in turn their computational requirements have increased drastically. Thus, serving predictions from these models to meet any target latency and cost requirements of applications remains a key challenge, despite recent work in building inference-serving systems as well as algorithmic approaches that dynamically adapt models based on inputs. In this paper, we introduce a form of dynamism, modality selection, where we adaptively choose modalities from inference inputs while maintaining the model quality. We introduce MOSEL, an automated inference serving system for multi-modal ML models that carefully picks input modalities per request based on user-defined performance and accuracy requirements. MOSEL exploits modality configurations extensively, improving system throughput by 3.6$\times$ with an accuracy guarantee and shortening job completion times by 11$\times$.
翻訳日:2023-10-31 18:20:09 公開日:2023-10-27
# 重み付きサンプル分割学習(wssl) : 分散学習環境におけるプライバシ,堅牢性,公平性のバランス

Weighted Sampled Split Learning (WSSL): Balancing Privacy, Robustness, and Fairness in Distributed Learning Environments ( http://arxiv.org/abs/2310.18479v1 )

ライセンス: Link先を確認
Manish Osti, Aashray Thakuri, Basheer Qolomany, and Aos Mulahuwaish(参考訳) 本研究では、分散機械学習システムにおけるプライバシ、ロバスト性、公正性を向上するための革新的なフレームワークであるWeighted Sampled Split Learning (WSSL)を提案する。 従来のアプローチとは異なり、WSSLは学習プロセスを複数のクライアントに分散させ、データの機密性を保護する。 WSSLの有効性の中心は、加重サンプリングの利用である。 このアプローチは、貢献に基づいて影響力のあるクライアントを戦術的に選択することで、公平な学習を保証する。 wsslの評価は様々なクライアント構成にまたがり、人間の歩行センサーとcifar-10という2つの異なるデータセットを用いた。 モデル精度の向上,堅牢性の向上,多様なクライアント構成に対する公正性の維持という,3つの主なメリットを観察した。 特に、我々の分散フレームワークは、Human Gait SensorとCIFAR-10データセットでそれぞれ82.63%と75.51%の精度のピークを登録し、一貫して集中的なフレームワークを上回った。 これらの数字は、中央集権システムによって達成された81.12%と58.60%のトップアキュラシーとは対照的である。 私たちの発見は、WSSLを従来の集中型学習の強力な、スケーラブルな後継として支持し、プライバシを重視し、レジリエントで、公平な分散機械学習における重要な一歩と位置づけています。

This study presents Weighted Sampled Split Learning (WSSL), an innovative framework tailored to bolster privacy, robustness, and fairness in distributed machine learning systems. Unlike traditional approaches, WSSL disperses the learning process among multiple clients, thereby safeguarding data confidentiality. Central to WSSL's efficacy is its utilization of weighted sampling. This approach ensures equitable learning by tactically selecting influential clients based on their contributions. Our evaluation of WSSL spanned various client configurations and employed two distinct datasets: Human Gait Sensor and CIFAR-10. We observed three primary benefits: heightened model accuracy, enhanced robustness, and maintained fairness across diverse client compositions. Notably, our distributed frameworks consistently surpassed centralized counterparts, registering accuracy peaks of 82.63% and 75.51% for the Human Gait Sensor and CIFAR-10 datasets, respectively. These figures contrast with the top accuracies of 81.12% and 58.60% achieved by centralized systems. Collectively, our findings champion WSSL as a potent and scalable successor to conventional centralized learning, marking it as a pivotal stride forward in privacy-focused, resilient, and impartial distributed machine learning.
翻訳日:2023-10-31 18:19:50 公開日:2023-10-27
# アンサンブル対人防御の理解と改善

Understanding and Improving Ensemble Adversarial Defense ( http://arxiv.org/abs/2310.18477v1 )

ライセンス: Link先を確認
Yian Deng, Tingting Mu(参考訳) アンサンブルの戦略は、協調的な方法で敵の攻撃から防御するために複数のベース分類器を訓練する敵防御に人気がある。 実証的な成功にもかかわらず、なぜ敵対的に訓練された分類器の集合が単体よりも頑丈なのかという理論的説明はいまだにない。 このギャップを埋めるために,アンサンブルな対向防御を理解するための新しい誤り理論を開発し,対向防御シナリオにおいて,挑戦的なサンプル集合に対する0-1の損失低減を示す。 この理論を導いた本研究では,対話的グローバル対人訓練(iGAT)と呼ばれる,アンサンブル対人防御を改善する効果的なアプローチを提案する。 本提案は,(1) アンサンブルに難易度の高い異なる基本分類器に対して選択的に割り当てる確率分布規則,(2) 基本分類器の深刻な弱点を解消するための正規化項を含む。 既存のさまざまなアンサンブル対防御技術でテストされているiGATは、ホワイトボックスとブラックボックスの両方の攻撃下で、CIFAR10とCIFAR100データセットを使用して評価された最大17%の性能を向上させることができる。

The strategy of ensemble has become popular in adversarial defense, which trains multiple base classifiers to defend against adversarial attacks in a cooperative manner. Despite the empirical success, theoretical explanations on why an ensemble of adversarially trained classifiers is more robust than single ones remain unclear. To fill in this gap, we develop a new error theory dedicated to understanding ensemble adversarial defense, demonstrating a provable 0-1 loss reduction on challenging sample sets in an adversarial defense scenario. Guided by this theory, we propose an effective approach to improve ensemble adversarial defense, named interactive global adversarial training (iGAT). The proposal includes (1) a probabilistic distributing rule that selectively allocates to different base classifiers adversarial examples that are globally challenging to the ensemble, and (2) a regularization term to rescue the severest weaknesses of the base classifiers. Being tested over various existing ensemble adversarial defense techniques, iGAT is capable of boosting their performance by increases up to 17% evaluated using CIFAR10 and CIFAR100 datasets under both white-box and black-box attacks.
翻訳日:2023-10-31 18:19:26 公開日:2023-10-27
# 臨床ノートからの転移検出のためのパラメータ効率のよい方法

Parameter-Efficient Methods for Metastases Detection from Clinical Notes ( http://arxiv.org/abs/2310.18472v1 )

ライセンス: Link先を確認
Maede Ashofteh Barabadi, Xiaodan Zhu, Wai Yip Chan, Amber L. Simpson, Richard K.G. Do(参考訳) がんの進行を理解することは、患者の治療を定義する上で重要である。 本研究の目的は,CT(Free-style Computed Tomography)ラジオグラフィーによる転移性肝疾患の検出を自動化することである。 本研究は,3つのアプローチによる知識の伝達がモデル性能を向上させることを示す。 まず,自己教師あり方式で事前学習した汎用言語モデル(lms)を利用する。 第2に,大規模なラベル付きデータセットを自動的にアノテートすることで,モデルのトレーニングに半教師付きアプローチを用いる。 最後に,マルチタスクトランスファー学習手法の設計により,関連するタスクから知識を転送する。 パラメータ効率の高いLM適応戦略の最近の進歩を活用し,性能向上と訓練効率の向上を図る。 われわれのデータセットは,12年間にわたってメモリアル・スローン・ケタリング癌センター(MSKCC)で収集されたCTデータからなる。 2,641件の報告は,手動で診断され,そのうち841件が肝転移と診断されている。 我々の最良のモデルはF1スコア73.8%、精度84%、リコール65.8%を達成した。

Understanding the progression of cancer is crucial for defining treatments for patients. The objective of this study is to automate the detection of metastatic liver disease from free-style computed tomography (CT) radiology reports. Our research demonstrates that transferring knowledge using three approaches can improve model performance. First, we utilize generic language models (LMs), pretrained in a self-supervised manner. Second, we use a semi-supervised approach to train our model by automatically annotating a large unlabeled dataset; this approach substantially enhances the model's performance. Finally, we transfer knowledge from related tasks by designing a multi-task transfer learning methodology. We leverage the recent advancement of parameter-efficient LM adaptation strategies to improve performance and training efficiency. Our dataset consists of CT reports collected at Memorial Sloan Kettering Cancer Center (MSKCC) over the course of 12 years. 2,641 reports were manually annotated by domain experts; among them, 841 reports have been annotated for the presence of liver metastases. Our best model achieved an F1-score of 73.8%, a precision of 84%, and a recall of 65.8%.
翻訳日:2023-10-31 18:19:03 公開日:2023-10-27
# ドメイン間テキスト間SQLモデルとベンチマークの評価

Evaluating Cross-Domain Text-to-SQL Models and Benchmarks ( http://arxiv.org/abs/2310.18538v1 )

ライセンス: Link先を確認
Mohammadreza Pourreza and Davood Rafiei(参考訳) テキストからSQLへのベンチマークは、フィールドにおける進歩と異なるモデルのランキングを評価する上で重要な役割を果たす。 しかし、ベンチマークでモデル生成のSQLクエリと参照SQLクエリを正確に一致させることは、不特定な自然言語クエリ、モデル生成と参照クエリの両方に固有の仮定、特定の条件下でのSQL出力の非決定論的性質など、様々な理由で失敗する。 本稿では、SQLクエリを手動で評価し、同等の式で書き換えることにより、いくつかの顕著なクロスドメインテキスト-SQLベンチマークについて広範な研究を行い、これらのベンチマークの中で最高のパフォーマンスモデルを再評価する。 評価の結果,得られたサンプルから得られる複数の解釈により,これらのベンチマークで完全な性能を達成することは不可能であることが判明した。 さらに,モデルの真の性能は過小評価され,再評価後の相対的な性能変化が確認された。 GPT4ベースの最近のモデルでは、人間の評価においてスパイダーベンチマークのゴールド標準基準クエリを超えています。 この発見は、ベンチマーク評価を慎重に解釈することの重要性を強調し、また、分野の進歩を推進する上で追加の独立した評価が重要な役割を担っていることも認めている。

Text-to-SQL benchmarks play a crucial role in evaluating the progress made in the field and the ranking of different models. However, accurately matching a model-generated SQL query to a reference SQL query in a benchmark fails for various reasons, such as underspecified natural language queries, inherent assumptions in both model-generated and reference queries, and the non-deterministic nature of SQL output under certain conditions. In this paper, we conduct an extensive study of several prominent cross-domain text-to-SQL benchmarks and re-evaluate some of the top-performing models within these benchmarks, by both manually evaluating the SQL queries and rewriting them in equivalent expressions. Our evaluation reveals that attaining a perfect performance on these benchmarks is unfeasible due to the multiple interpretations that can be derived from the provided samples. Furthermore, we find that the true performance of the models is underestimated and their relative performance changes after a re-evaluation. Most notably, our evaluation reveals a surprising discovery: a recent GPT4-based model surpasses the gold standard reference queries in the Spider benchmark in our human evaluation. This finding highlights the importance of interpreting benchmark evaluations cautiously, while also acknowledging the critical role of additional independent evaluations in driving advancements in the field.
翻訳日:2023-10-31 18:10:31 公開日:2023-10-27
# PageRank値の不等式最小化のヒューリスティックス

Heuristics for Inequality minimization in PageRank values ( http://arxiv.org/abs/2310.18537v1 )

ライセンス: Link先を確認
Subhajit Sahu(参考訳) 本研究では,PageRankアルゴリズムを用いて得られた頂点ランクの不等式最小化について検討した。 PageRankはウェブページのランク付けに広く使われているアルゴリズムであり、ウェブトラフィックを決定する上で重要な役割を果たしている。 本研究では,各種グラフ上のPageRank分布の不平等を評価するために,収入/富の不平等の尺度であるGini係数を用いた。 この調査には、デッドエンドノードを扱うための戦略を変更する実験と、不平等を減らすための6つの決定論的手法を探索する実験が含まれる。 以上の結果から, 2つの異なるヒューリスティックの組合せは不等式を最小化する効果的な戦略である可能性が示唆された。

This research study investigates the minimization of inequality in the ranks of vertices obtained using the PageRank algorithm. PageRank is a widely used algorithm for ranking webpages and plays a significant role in determining web traffic. This study employs the Gini coefficient, a measure of income/wealth inequality, to assess the inequality in PageRank distributions on various types of graphs. The investigation involves two experiments: one that modifies strategies for handling dead-end nodes and another that explores six deterministic methods for reducing inequality. Our findings indicate that a combination of two distinct heuristics may present an effective strategy for minimizing inequality.
翻訳日:2023-10-31 18:10:07 公開日:2023-10-27
# 文脈的確率的二レベル最適化

Contextual Stochastic Bilevel Optimization ( http://arxiv.org/abs/2310.18535v1 )

ライセンス: Link先を確認
Yifan Hu, Jie Wang, Yao Xie, Andreas Krause, Daniel Kuhn(参考訳) 文脈的確率的二レベル最適化(csbo) - いくつかの文脈情報と上位レベルの決定変数に基づく期待条件を最小化する低レベル問題を伴う確率的二レベル最適化フレームワーク。 このフレームワークは、下層の意思決定者が上層の意思決定者だけでなく、何らかの側の情報や複数のあるいは無限のフォロワーが存在する場合にも、古典的な確率的二段階最適化を拡張する。 メタラーニング、パーソナライズド・フェデレーション・ラーニング、エンドツーエンド・ラーニング、wasserstein distributionally robust optimization with side information (wdro-si)といった重要な応用を捉えている。 文脈情報が存在するため、従来の確率的二段階最適化のための単一ループ法は収束できない。 この課題を克服するために,マルチレベルモンテカルロ(MLMC)技術に基づく効率的な二重ループ勾配法を導入し,そのサンプルおよび計算複雑性を確立する。 確率的非凸最適化に特化した場合,本手法は既存の下限に適合する。 メタラーニングでは,提案手法の複雑さはタスク数に依存しない。 数値実験は我々の理論結果をさらに検証する。

We introduce contextual stochastic bilevel optimization (CSBO) -- a stochastic bilevel optimization framework with the lower-level problem minimizing an expectation conditioned on some contextual information and the upper-level decision variable. This framework extends classical stochastic bilevel optimization when the lower-level decision maker responds optimally not only to the decision of the upper-level decision maker but also to some side information and when there are multiple or even infinite many followers. It captures important applications such as meta-learning, personalized federated learning, end-to-end learning, and Wasserstein distributionally robust optimization with side information (WDRO-SI). Due to the presence of contextual information, existing single-loop methods for classical stochastic bilevel optimization are unable to converge. To overcome this challenge, we introduce an efficient double-loop gradient method based on the Multilevel Monte-Carlo (MLMC) technique and establish its sample and computational complexities. When specialized to stochastic nonconvex optimization, our method matches existing lower bounds. For meta-learning, the complexity of our method does not depend on the number of tasks. Numerical experiments further validate our theoretical results.
翻訳日:2023-10-31 18:09:55 公開日:2023-10-27
# マルチタイムスケール世界モデル

Multi Time Scale World Models ( http://arxiv.org/abs/2310.18534v1 )

ライセンス: Link先を確認
Vaisakh Shaj, Saleh Gholam Zadeh, Ozan Demir, Luiz Ricardo Douat, Gerhard Neumann(参考訳) インテリジェントエージェントは、内部世界モデルを使用して、さまざまな行動コースを多くのスケールで推論し、予測する。 複雑な不確実性予測を処理しながら、複数のレベルの時間的抽象化で動作する世界モデルを学ぶことができる学習パラダイムとアーキテクチャの開発は、大きな技術的ハードルである。 本研究では,多時間スケール状態空間(mts3)モデルと呼ぶ多時間スケール世界モデルを学ぶための確率論的形式を提案する。 本モデルでは,複数時間スケールでの計算効率のよい推論手法を用いて,高精度な長距離予測と数秒間の不確実性推定を行う。 MTS3は, 複雑なシミュレーションや実世界の力学系を含むいくつかのシステム識別ベンチマークにおいて, 最近の手法よりも優れていることを示す。

Intelligent agents use internal world models to reason and make predictions about different courses of their actions at many scales. Devising learning paradigms and architectures that allow machines to learn world models that operate at multiple levels of temporal abstractions while dealing with complex uncertainty predictions is a major technical hurdle. In this work, we propose a probabilistic formalism to learn multi-time scale world models which we call the Multi Time Scale State Space (MTS3) model. Our model uses a computationally efficient inference scheme on multiple time scales for highly accurate long-horizon predictions and uncertainty estimates over several seconds into the future. Our experiments, which focus on action conditional long horizon future predictions, show that MTS3 outperforms recent methods on several system identification benchmarks including complex simulated and real-world dynamical systems.
翻訳日:2023-10-31 18:09:36 公開日:2023-10-27
# SkipAnalyzer: 大規模言語モデルを用いたコード分析のためのエンボディエージェント

SkipAnalyzer: An Embodied Agent for Code Analysis with Large Language Models ( http://arxiv.org/abs/2310.18532v1 )

ライセンス: Link先を確認
Mohammad Mahdi Mohajer, Reem Aleithan, Nima Shiri Harzevili, Moshi Wei, Alvine Boaye Belle, Hung Viet Pham, Song Wang(参考訳) 静的コード解析のための最初の大規模言語モデル(LLM)を用いたエンボディエージェントであるSkipAnalyzerを紹介する。 バグを検出し、偽陽性の警告をフィルタリングし、人間の介入なしに検出されたバグをパッチする。 SkipAnalyzerは3つのコンポーネントから構成される。 1) ソースコードをスキャンして特定の種類のバグを報告するLLMベースの静的バグ検出装置。 2) 静的なバグ検出結果から偽陽性のバグを識別できるllmベースの偽陽性フィルタにより,検出精度が向上する。 3) 検出されたバグに対してパッチを生成できるllmベースのパッチジェネレータ。 概念実証として、SkipAnalyzerはChatGPT上に構築されている。 SkipAnalyzerを評価するために、静的バグ検出(Null Dereference)とResource Leak(Resource Leak)の2つのタイプに着目した。 10のオープンソースプロジェクトから2つのバグタイプを収集するためにinferを採用しています。 その結果、実験データセットには、Null Dereferenceバグの222インスタンスとResource Leakバグの46インスタンスが含まれている。 本研究では,SkipAnalyzerが,バグ検出,偽陽性警告除去,バグ修復などの静的解析タスクにおいて顕著な性能を発揮することを示す。 静的なバグ検出では、skipanalyzerは最大68.37%の精度でnull参照バグを検出でき、76.95%のリソースリークバグを検出できる。 偽陽性の警告を除去するために、SkipAnalyzerは、Null Dereferenceバグで93.88%、Resource Leakバグで63.33%の精度に達することができる。 さらにskipanalyzerは最先端の偽陽性警告削除ツールを超えている。 さらに、バグ修正では、SkipAnalyzerは構文的に正しいパッチを生成し、検出されたバグを97.30%の成功率で修正することができる。

We introduce SkipAnalyzer, the first large language model (LLM)-powered embodied agent for static code analysis. It can detect bugs, filter false positive warnings, and patch the detected bugs without human intervention. SkipAnalyzer consists of three components, 1) an LLM-based static bug detector that scans source code and reports specific types of bugs, 2) an LLM-based false-positive filter that can identify false-positive bugs in the results of static bug detectors to improve detection accuracy, and 3) an LLM-based patch generator that can generate patches for the detected bugs above. As a proof-of-concept, SkipAnalyzer is built on ChatGPT, which has exhibited outstanding performance in various software engineering tasks. To evaluate SkipAnalyzer, we focus on two types of typical and critical bugs that are targeted by static bug detection, i.e., Null Dereference and Resource Leak as subjects. We employ Infer to aid the gathering of these two bug types from 10 open-source projects. Consequently, our experiment dataset contains 222 instances of Null Dereference bugs and 46 instances of Resource Leak bugs. Our study demonstrates that SkipAnalyzer achieves remarkable performance in the mentioned static analysis tasks, including bug detection, false-positive warning removal, and bug repair. In static bug detection, SkipAnalyzer achieves accuracy values of up to 68.37% for detecting Null Dereference bugs and 76.95% for detecting Resource Leak bugs, outperforming the current leading bug detector, Infer. For removing false-positive warnings, SkipAnalyzer can reach a precision of up to 93.88% for Null Dereference bugs and 63.33% for Resource Leak bugs. Additionally, SkipAnalyzer surpasses state-of-the-art false-positive warning removal tools. Furthermore, in bug repair, SkipAnalyzer can generate syntactically correct patches to fix its detected bugs with a success rate of up to 97.30%.
翻訳日:2023-10-31 18:09:23 公開日:2023-10-27
# コントラスト分析設定における特徴選択

Feature Selection in the Contrastive Analysis Setting ( http://arxiv.org/abs/2310.18531v1 )

ライセンス: Link先を確認
Ethan Weinberger, Ian Covert, Su-In Lee(参考訳) コントラスト分析(Contrastive Analysis、CA)とは、特定のタスクに無関係な変動源から生成された対応する背景データセットと比較して、ターゲットデータセットに独自に濃縮された変動を探索することである。 例えば、バイオメディカルデータアナリストは、健康管理対象(背景)とは対照的に、与えられた疾患(標的)の患者にのみ存在するゲノムデータの変異の指標として使用する、少数の遺伝子セットを見つけたいかもしれない。 しかし、CA設定における機能選択の問題は、まだ機械学習コミュニティからはほとんど注目されていない。 本稿では,CA設定における特徴選択を行う手法として,コントラスト特徴選択(CFS)を提案する。 我々は、CA設定における表現学習の新たな情報理論分析により、我々のアプローチを動機付け、半合成データセットと4つの実世界のバイオメディカルデータセットでCFSを実証的に検証した。 提案手法は,従来提案されていたca設定に適合しない教師なし特徴選択手法を一貫して上回っていることが判明した。 このメソッドのオープンソース実装は、https://github.com/suinleelab/cfsで入手できる。

Contrastive analysis (CA) refers to the exploration of variations uniquely enriched in a target dataset as compared to a corresponding background dataset generated from sources of variation that are irrelevant to a given task. For example, a biomedical data analyst may wish to find a small set of genes to use as a proxy for variations in genomic data only present among patients with a given disease (target) as opposed to healthy control subjects (background). However, as of yet the problem of feature selection in the CA setting has received little attention from the machine learning community. In this work we present contrastive feature selection (CFS), a method for performing feature selection in the CA setting. We motivate our approach with a novel information-theoretic analysis of representation learning in the CA setting, and we empirically validate CFS on a semi-synthetic dataset and four real-world biomedical datasets. We find that our method consistently outperforms previously proposed state-of-the-art supervised and fully unsupervised feature selection methods not designed for the CA setting. An open-source implementation of our method is available at https://github.com/suinleelab/CFS.
翻訳日:2023-10-31 18:08:45 公開日:2023-10-27
# 一般化表現によるサンプルベース説明

Sample based Explanations via Generalized Representers ( http://arxiv.org/abs/2310.18526v1 )

ライセンス: Link先を確認
Che-Ping Tsai, Chih-Kuan Yeh, Pradeep Ravikumar(参考訳) 本稿では,機械学習モデルのサンプルベース説明の一般クラスを提案し,これを一般化表現器と呼ぶ。 モデルのテスト予測に対するトレーニングサンプルの効果を測定するために、一般化された表現者は、モデルに対するトレーニングポイントの重要性を定量化し、テストサンプルに不変であるグローバルサンプル重要度と、トレーニングサンプルとカーネルとのテストポイントとの類似度を測定するローカルサンプル重要度という2つのコンポーネントを使用する。 この論文の重要な貢献は、一般表現者が自然な公理的性質を満たすサンプルベース説明の唯一のクラスであることを示すことである。 我々は, カーネルが与えるグローバル重要度を抽出する手法と, 現代的な非線形モデルが与えるカーネルの自然選択について論じる。 示すように、多くの一般的なサンプルベースの説明は、カーネルの特定の選択とグローバルな重要性を抽出するためのアプローチで一般化された表現子としてキャストすることができる。 さらに、2つの画像と2つのテキスト分類データセットについて、異なる一般化表現者の経験的比較を行う。

We propose a general class of sample based explanations of machine learning models, which we term generalized representers. To measure the effect of a training sample on a model's test prediction, generalized representers use two components: a global sample importance that quantifies the importance of the training point to the model and is invariant to test samples, and a local sample importance that measures similarity between the training sample and the test point with a kernel. A key contribution of the paper is to show that generalized representers are the only class of sample based explanations satisfying a natural set of axiomatic properties. We discuss approaches to extract global importances given a kernel, and also natural choices of kernels given modern non-linear models. As we show, many popular existing sample based explanations could be cast as generalized representers with particular choices of kernels and approaches to extract global importances. Additionally, we conduct empirical comparisons of different generalized representers on two image and two text classification datasets.
翻訳日:2023-10-31 18:08:28 公開日:2023-10-27
# 偏光対磁場--レーザー駆動原子における競合固有基底

Polarization vs. magnetic field: competing eigenbases in laser-driven atoms ( http://arxiv.org/abs/2310.18525v1 )

ライセンス: Link先を確認
Nicol\'as Adri\'an Nu\~nez Barreto, Cecilia Cormick, Christian Tom\'as Schmiegelow(参考訳) 本稿では, 競合する固有塩基が蛍光原子のダイナミクスをいかに決定できるかを示す実験結果と理論モデルを提案する。 磁場がなければ、原子は暗い状態に閉じ込められ、蛍光が阻害される。 一般に、基底状態の磁気的縮退が励起状態の1つよりも大きい場合に起こる。 暗黒状態への光ポンピングを避けるための標準的な方法は、励起光の偏光に対する角度で磁場を適用することである。 これにより、レーザーまたは磁場が支配する2つの状態間の交差として現れる固有基底の競合が生じる。 このクロスオーバーを、ポールトラップ内の1つのレーザー冷却カルシウムイオンの蛍光測定で説明し、外部磁場に比例する臨界レーザー強度で発生することを見出した。 本研究は, 原子レベルの数値シミュレーションと対比し, 実験結果との整合性が良く, ダイナミクスの理解が容易な単純な理論モデルを提案する。

We present experimental results and a theoretical model that illustrate how competing eigenbases can determine the dynamics of a fluorescing atom. In the absence of a magnetic field, the atom can get trapped in a dark state, which inhibits fluorescence. In general, this will happen when the magnetic degeneracy of the ground state is greater than the one of the excited state. A canonical way to avoid optical pumping to dark states is to apply a magnetic field at an angle with respect to the polarization of the exciting light. This generates a competition of eigenbases which manifests as a crossover between two regimes dominated either by the laser or the magnetic field. We illustrate this crossover with fluorescence measurements on a single laser-cooled calcium ion in a Paul trap and find that it occurs at a critical laser intensity that is proportional to the external magnetic field. We contrast our results with numerical simulations of the atomic levels involved and also present a simple theoretical model that provides excellent agreement with experimental results and facilitates the understanding of the dynamics.
翻訳日:2023-10-31 18:08:14 公開日:2023-10-27
# 畳み込みニューラルネットワークを用いた合成STEMデータに基づく3次元ヘテロアグリゲートの立体的評価

Using convolutional neural networks for stereological characterization of 3D hetero-aggregates based on synthetic STEM data ( http://arxiv.org/abs/2310.18523v1 )

ライセンス: Link先を確認
Lukas Fuchs, Tom Kirstein, Christoph Mahr, Orkun Furat, Valentin Baric, Andreas Rosenauer, Lutz Maedler, Volker Schmidt(参考訳) 3Dにおけるヘテロアグリゲートの構造的特徴は、例えばプロセス構造や構造-プロパティ関係の導出に非常に興味がある。 しかし、3Dイメージング技術は時間とコストを重んじるだけでなく、実行が難しいことが多いため、2D画像データに基づくヘテロアグリゲートの特性は望ましいが、しばしば非自明である。 2次元計測から3次元構造を特徴づける問題を克服するために,機械学習と空間確率モデリングの手法を組み合わせて,後者を合成学習データの生成に利用する手法を提案する。 このようなトレーニングデータには、異なる構造化材料を合成するための時間を要する実験と、その3dイメージングを回避できるという利点がある。 より正確には、パラメトリック確率的3Dモデルを示し、そこから様々な仮想ヘテロアグリゲートを生成できる。 さらに、仮想構造を物理シミュレーションツールに渡して、仮想走査透過電子顕微鏡(STEM)画像を生成する。 シミュレーションSTEM画像とともに3Dモデルのプリセットパラメータは、畳み込みニューラルネットワークのトレーニングのためのデータベースとして機能し、基礎となる3Dモデルのパラメータを決定でき、2D STEM画像からヘテロアグリゲートの3D構造を予測することができる。 さらに、トレーニングされたニューラルネットワークの構造記述子(例えばヘテロ座標数)に対する予測力を評価するためにエラー解析を行う。

The structural characterization of hetero-aggregates in 3D is of great interest, e.g., for deriving process-structure or structure-property relationships. However, since 3D imaging techniques are often difficult to perform as well as time and cost intensive, a characterization of hetero-aggregates based on 2D image data is desirable, but often non-trivial. To overcome the issues of characterizing 3D structures from 2D measurements, a method is presented that relies on machine learning combined with methods of spatial stochastic modeling, where the latter are utilized for the generation of synthetic training data. This kind of training data has the advantage that time-consuming experiments for the synthesis of differently structured materials followed by their 3D imaging can be avoided. More precisely, a parametric stochastic 3D model is presented, from which a wide spectrum of virtual hetero-aggregates can be generated. Additionally, the virtual structures are passed to a physics-based simulation tool in order to generate virtual scanning transmission electron microscopy (STEM) images. The preset parameters of the 3D model together with the simulated STEM images serve as a database for the training of convolutional neural networks, which can be used to determine the parameters of the underlying 3D model and, consequently, to predict 3D structures of hetero-aggregates from 2D STEM images. Furthermore, an error analysis is performed to evaluate the prediction power of the trained neural networks with respect to structural descriptors, e.g. the hetero-coordination number.
翻訳日:2023-10-31 18:07:57 公開日:2023-10-27
# 多状態量子計測のための練習型時間後処理装置

Practical trainable temporal post-processor for multi-state quantum measurement ( http://arxiv.org/abs/2310.18519v1 )

ライセンス: Link先を確認
Saeed A. Khan, Ryan Kaufman, Boris Mesits, Michael Hatridge, Hakan E. T\"ureci(参考訳) 我々は、任意のノイズ処理を施した量子計測データの最適な処理を任意の数の量子状態を読み取るために、単純だが汎用的な機械学習アルゴリズムを用いて、トレーニング可能な時間後処理(TPP)を開発し、実証する。 特定の雑音条件にのみ適用可能でありながら、従来マッチングフィルタによる時間処理に依存してきた量子ビット状態読み出しの基本タスクをtppで実証する。 以上の結果から,TPPは高出力化などの複雑な読み出し条件下での標準的なフィルタリング手法よりも確実に性能を向上できることが示された。 量子計測ノイズ源のシミュレーションを用いて、この利点は、位相保存量子増幅器によって付加される量子ジャンプや相関ノイズなど、データ内の一般的な量子ノイズ相関を考慮した最適な線形フィルタを学習するtppの能力に依存していることを示す。 さらに、ガウス白色雑音過程の信号に対して、tppは任意の数の状態に対するマッチングフィルタリングの線形スケーリング半解析一般化を提供する。 TPPは、測定データに対して効率よく、自律的に、確実に訓練でき、線形演算のみを必要とするため、一般的な量子システムからの測定データのリアルタイム処理にcQEDでのFPGA実装に最適である。

We develop and demonstrate a trainable temporal post-processor (TPP), harnessing a simple but versatile machine learning algorithm to provide optimal processing of quantum measurement data subject to arbitrary noise processes, for the readout of an arbitrary number of quantum states. We demonstrate the TPP on the essential task of qubit state readout, which has historically relied on temporal processing via matched filters in spite of their applicability only for specific noise conditions. Our results show that the TPP can reliably outperform standard filtering approaches under complex readout conditions, such as high power readout. Using simulations of quantum measurement noise sources, we show that this advantage relies on the TPP's ability to learn optimal linear filters that account for general quantum noise correlations in data, such as those due to quantum jumps, or correlated noise added by a phase-preserving quantum amplifier. Furthermore, for signals subject to Gaussian white noise processes, the TPP provides a linearly-scaling semi-analytic generalization of matched filtering to an arbitrary number of states. The TPP can be efficiently, autonomously, and reliably trained on measurement data, and requires only linear operations, making it ideal for FPGA implementations in cQED for real-time processing of measurement data from general quantum systems.
翻訳日:2023-10-31 18:07:31 公開日:2023-10-27
# 部分入力による隠蔽物体と小物体の認識

Learning to recognize occluded and small objects with partial inputs ( http://arxiv.org/abs/2310.18517v1 )

ライセンス: Link先を確認
Hasib Zunair and A. Ben Hamza(参考訳) 画像内の複数のオブジェクトを認識することは、オクルージョンのため困難であり、オブジェクトが小さい場合にはさらに難しくなります。 有望ではあるが、既存のマルチラベル画像認識モデルはコンテキストベースの表現を明示的に学習しないため、小さく、隠蔽されたオブジェクトを正しく認識するのに苦労する。 直感的には、隠蔽対象を認識するには部分的な入力の知識が必要である。 そこで本研究では,マルチラベル画像認識のための単段モデル非依存学習パラダイムであるmasked supervised learning (msl)を提案する。 重要なアイデアは、マスクされたブランチを使ってコンテキストベースの表現を学習し、ラベル一貫性を使ってラベル共起をモデル化することだ。 実験により,従来のマルチラベル画像認識ベンチマークに対するMSLの簡易性,適用性,さらに重要な性能が示された。 さらに,MSLはランダムマスキングに頑健であり,非マスキング物体の認識に有効であることを示す。 コードと事前トレーニングされたモデルはgithubで入手できる。

Recognizing multiple objects in an image is challenging due to occlusions, and becomes even more so when the objects are small. While promising, existing multi-label image recognition models do not explicitly learn context-based representations, and hence struggle to correctly recognize small and occluded objects. Intuitively, recognizing occluded objects requires knowledge of partial input, and hence context. Motivated by this intuition, we propose Masked Supervised Learning (MSL), a single-stage, model-agnostic learning paradigm for multi-label image recognition. The key idea is to learn context-based representations using a masked branch and to model label co-occurrence using label consistency. Experimental results demonstrate the simplicity, applicability and more importantly the competitive performance of MSL against previous state-of-the-art methods on standard multi-label image recognition benchmarks. In addition, we show that MSL is robust to random masking and demonstrate its effectiveness in recognizing non-masked objects. Code and pretrained models are available on GitHub.
翻訳日:2023-10-31 18:07:09 公開日:2023-10-27
# 強化一般化によるタンパク質-タンパク質相互作用設計の学習

Learning to design protein-protein interactions with enhanced generalization ( http://arxiv.org/abs/2310.18515v1 )

ライセンス: Link先を確認
Anton Bushuiev, Roman Bushuiev, Anatolii Filkin, Petr Kouba, Marketa Gabrielova, Michal Gabriel, Jiri Sedlar, Tomas Pluskal, Jiri Damborsky, Stanislav Mazurenko, Josef Sivic(参考訳) タンパク質-タンパク質相互作用(PPI)を増強する変異の発見は、生物医学研究の進展と改善された治療法の開発に重要である。 機械学習のアプローチはこの分野を大いに進歩させたが、実際のシナリオでトレーニングデータを超えた一般化に苦慮することが多い。 この作品の貢献は3倍である。 まず,3次元タンパク質間相互作用の最大かつ非冗長なデータセットであるPPIRefを構築し,大規模学習を効果的に行う。 第2に、PPIRefデータセットをプリトレーニングPPIformerに利用し、多種多様なタンパク質結合変異を一般化する新しいSE(3)-equivariantモデルを提案する。 我々はPPIフォーマを微調整し,タンパク質とタンパク質の相互作用に対する変異の影響を予測する。 最後に,標準ラベル付きppi変異データの非リーキング分割と,sars-cov-2に対するヒト抗体の最適化とstaphylokinaseの血栓溶解活性の増大に関する独立したケーススタディにおいて,新たなppiホルマアプローチの一般化を実証した。

Discovering mutations enhancing protein-protein interactions (PPIs) is critical for advancing biomedical research and developing improved therapeutics. While machine learning approaches have substantially advanced the field, they often struggle to generalize beyond training data in practical scenarios. The contributions of this work are three-fold. First, we construct PPIRef, the largest and non-redundant dataset of 3D protein-protein interactions, enabling effective large-scale learning. Second, we leverage the PPIRef dataset to pre-train PPIformer, a new SE(3)-equivariant model generalizing across diverse protein-binder variants. We fine-tune PPIformer to predict effects of mutations on protein-protein interactions via a thermodynamically motivated adjustment of the pre-training loss function. Finally, we demonstrate the enhanced generalization of our new PPIformer approach by outperforming other state-of-the-art methods on new, non-leaking splits of standard labeled PPI mutational data and independent case studies optimizing a human antibody against SARS-CoV-2 and increasing the thrombolytic activity of staphylokinase.
翻訳日:2023-10-31 18:06:51 公開日:2023-10-27
# 言語モデルが推論を隠すのを防ぐ

Preventing Language Models From Hiding Their Reasoning ( http://arxiv.org/abs/2310.18512v1 )

ライセンス: Link先を確認
Fabien Roger, Ryan Greenblatt(参考訳) 大規模言語モデル(LLM)は、複雑な問題に対する回答を生成する中間ステップの恩恵を受けることが多い。 このような推論の中間段階をモデルの活動を監視するために使用する場合、この明示的な推論が忠実であること、すなわちモデルが実際に推論していることを反映することが不可欠である。 本研究では,LLMが生成したテキスト中の推論の中間ステップを人間の読み手には理解できない方法で符号化できるような,推論の中間ステップを符号化する手法について検討する。 言語モデルは、ユーザが推論の中間ステップを理解することなく、符号化推論を利用して高い性能を得るように訓練できることを示す。 言語モデルが強くなるにつれて、この行動が自然に現れる傾向が強くなる、と我々は主張する。 最後に,エンコードされた推論に対する防御の評価を可能にする手法について述べるとともに,適切な条件下では,我々が構築した最善のエンコードスキームでさえ,テキスト1kbあたり3ビット以上の情報をエンコードすることができないことを示す。

Large language models (LLMs) often benefit from intermediate steps of reasoning to generate answers to complex problems. When these intermediate steps of reasoning are used to monitor the activity of the model, it is essential that this explicit reasoning is faithful, i.e. that it reflects what the model is actually reasoning about. In this work, we focus on one potential way intermediate steps of reasoning could be unfaithful: encoded reasoning, where an LLM could encode intermediate steps of reasoning in the generated text in a way that is not understandable to human readers. We show that language models can be trained to make use of encoded reasoning to get higher performance without the user understanding the intermediate steps of reasoning. We argue that, as language models get stronger, this behavior becomes more likely to appear naturally. Finally, we describe a methodology that enables the evaluation of defenses against encoded reasoning, and show that, under the right conditions, paraphrasing successfully prevents even the best encoding schemes we built from encoding more than 3 bits of information per KB of text.
翻訳日:2023-10-31 18:06:31 公開日:2023-10-27
# AdaTask: 適応型マルチタスクオンライン学習

AdaTask: Adaptive Multitask Online Learning ( http://arxiv.org/abs/2205.15802v2 )

ライセンス: Link先を確認
Pierre Laforgue, Andrea Della Vecchia, Nicol\`o Cesa-Bianchi, Lorenzo Rosasco(参考訳) 我々は,タスクの未知構造に適応するマルチタスクオンライン学習アルゴリズムadataskを紹介し,解析する。 N$タスクが確率的にアクティベートされると、AdaTaskの後悔は、$\sqrt{N}$と同じ大きさの要因によって、各タスクに対して1つの独立したアルゴリズムを実行することで達成される後悔よりも、よいことが示されます。 adataskは、マハラノビスノルムポテンシャルを持つフォロー・ザ・レギュラライズド・リーダーのコンパレータ適応版と見なすことができる。 このポテンシャルの変分定式化を通じて,AdaTaskがタスクとその構造を共同で学習する方法を明らかにする。 以上の知見を裏付ける実験を行った。

We introduce and analyze AdaTask, a multitask online learning algorithm that adapts to the unknown structure of the tasks. When the $N$ tasks are stochastically activated, we show that the regret of AdaTask is better, by a factor that can be as large as $\sqrt{N}$, than the regret achieved by running $N$ independent algorithms, one for each task. AdaTask can be seen as a comparator-adaptive version of Follow-the-Regularized-Leader with a Mahalanobis norm potential. Through a variational formulation of this potential, our analysis reveals how AdaTask jointly learns the tasks and their structure. Experiments supporting our findings are presented.
翻訳日:2023-10-30 19:06:14 公開日:2023-10-27
# 非平衡定常状態における広範囲な長距離絡み合い

Extensive Long-Range Entanglement in a Nonequilibrium Steady State ( http://arxiv.org/abs/2205.12991v2 )

ライセンス: Link先を確認
Shachar Fraenkel and Moshe Goldstein(参考訳) 絡み合い測度は、平衡から量子多体系の定量的記述において強力な道具である。 本研究では,ゼロ温度の非相互作用フェルミオンモデルにおける散乱体の存在下での電流伝達定常状態の絡み合いについて検討した。 散乱器の反対側, およびそれと類似した距離において, フェミオン陰性度およびコヒーレント情報によって測定された, 分離によらず, ボリュームローの絡み合いを保っていることを示す。 間隔の相互情報は、それらの間の合計相関を定量化し、同様のスケーリングに従う。 興味深いことに、このスケーリングは特に、区間の1つの位置が固定されている場合、相関測度は区間間の距離に非単調に依存する。 これらの量に関して正確な式を導出することにより、散乱確率に対するそれらの単純な機能的依存を証明し、バイアス電圧ウィンドウ内の伝播粒子の透過部と反射部のコヒーレンスによって強い長距離絡み合いが生じることを示す。 このモデルの一般化と単純さは、この挙動が大きな非平衡定常状態のクラスを特徴づけるべきであることを示唆している。

Entanglement measures constitute powerful tools in the quantitative description of quantum many-body systems out of equilibrium. We study entanglement in the current-carrying steady state of a paradigmatic one-dimensional model of noninteracting fermions at zero temperature in the presence of a scatterer. We show that disjoint intervals located on opposite sides of the scatterer, and within similar distances from it, maintain volume-law entanglement regardless of their separation, as measured by their fermionic negativity and coherent information. The mutual information of the intervals, which quantifies the total correlations between them, follows a similar scaling. Interestingly, this scaling entails in particular that if the position of one of the intervals is kept fixed, then the correlation measures depend non-monotonically on the distance between the intervals. By deriving exact expressions for the extensive terms of these quantities, we prove their simple functional dependence on the scattering probabilities, and demonstrate that the strong long-range entanglement is generated by the coherence between the transmitted and reflected parts of propagating particles within the bias-voltage window. The generality and simplicity of the model suggest that this behavior should characterize a large class of nonequilibrium steady states.
翻訳日:2023-10-30 19:06:03 公開日:2023-10-27
# TOCH:モーションリファインメントのための時空間オブジェクト対ハンド対応

TOCH: Spatio-Temporal Object-to-Hand Correspondence for Motion Refinement ( http://arxiv.org/abs/2205.07982v3 )

ライセンス: Link先を確認
Keyang Zhou, Bharat Lal Bhatnagar, Jan Eric Lenssen, Gerard Pons-Moll(参考訳) 本稿では,データプリエントを用いた不正確な3次元ハンドオブジェクトインタラクションシーケンスを精錬する手法であるtochを提案する。 既存のハンドトラッカー、特にごく少数のカメラに頼っているものは、しばしば視覚的に非現実的な結果をもたらす。 このような誤りを修正するには、インタラクションの時間的側面を推論する必要があるが、以前のほとんどの作品は静的な把握とコンタクトに焦点を当てている。 本手法のコアはTOCHフィールドであり,インタラクション中の手と物体の対応をモデル化するための新しい時空間表現である。 TOCHフィールドは、オブジェクトに対して手の位置を符号化する、ポイントワイドなオブジェクト中心表現である。 この新しい表現を活用し、時間的デノイジングオートエンコーダを持つ可算なトーチ場の潜在多様体を学習する。 実験により、TOCHは静的な把握と接触に限られる最先端の3Dハンドオブジェクト相互作用モデルより優れていることが示された。 さらに,本手法は接触前後でも円滑に相互作用する。 一つの訓練されたトーチモデルを用いて,既成のrgb/rgb-dハンドオブジェクト復元法から誤りシーケンスを補正し,オブジェクト間の把持の移動に定量的・定性的に有用性を示す。

We present TOCH, a method for refining incorrect 3D hand-object interaction sequences using a data prior. Existing hand trackers, especially those that rely on very few cameras, often produce visually unrealistic results with hand-object intersection or missing contacts. Although correcting such errors requires reasoning about temporal aspects of interaction, most previous works focus on static grasps and contacts. The core of our method are TOCH fields, a novel spatio-temporal representation for modeling correspondences between hands and objects during interaction. TOCH fields are a point-wise, object-centric representation, which encode the hand position relative to the object. Leveraging this novel representation, we learn a latent manifold of plausible TOCH fields with a temporal denoising auto-encoder. Experiments demonstrate that TOCH outperforms state-of-the-art 3D hand-object interaction models, which are limited to static grasps and contacts. More importantly, our method produces smooth interactions even before and after contact. Using a single trained TOCH model, we quantitatively and qualitatively demonstrate its usefulness for correcting erroneous sequences from off-the-shelf RGB/RGB-D hand-object reconstruction methods and transferring grasps across objects.
翻訳日:2023-10-30 19:05:42 公開日:2023-10-27
# NeuroBack: グラフニューラルネットワークによるCDCL SAT解決の改善

NeuroBack: Improving CDCL SAT Solving using Graph Neural Networks ( http://arxiv.org/abs/2110.14053v5 )

ライセンス: Link先を確認
Wenxi Wang, Yang Hu, Mohit Tiwari, Sarfraz Khurshid, Kenneth McMillan, Risto Miikkulainen(参考訳) 提案的満足度(SAT)は、計画、検証、セキュリティなど、多くの研究分野に影響を与えるNP完全問題である。 主流のSATソルバは、Conflict-Driven Clause Learning (CDCL)アルゴリズムに基づいている。 グラフニューラルネットワーク(GNN)を用いたCDCL SATソルバの高速化を目的とした最近の研究。 しかし、これまでのところこのアプローチは、より効果的に解決できないか、または頻繁にオンラインモデル推論のために、相当なgpuリソースを必要とした。 本稿では,GNNの改良を現実的なものにすることを目的としたNeuroBackという手法を提案する。(1)CDCL SATの解法において,満たされる課題の多数(あるいはすべて)に現れる変数の位相(すなわち値)を予測すること,(2)SATの解法が始まる前に1回だけ神経モデルに問い合わせること,である。 トレーニングが完了すると、オフラインモデル推論によって、neurobackはcpuのみで動作するようになり、gpuリソースへの依存がなくなる。 NeuroBackをトレーニングするために、120,286のデータサンプルを含むDataBackと呼ばれる新しいデータセットが作成される。 最後に、NeuroBackはKissatと呼ばれる最先端のSATソルバの拡張として実装されている。 その結果、Kissatは最近のSAT競合問題SATCOMP-2022でさらに5.2%の問題を解決することができた。 したがってneurobackは、sat解決を効果的かつ実用的な方法で改善するために機械学習をどのように活用できるかを示している。

Propositional satisfiability (SAT) is an NP-complete problem that impacts many research fields, such as planning, verification, and security. Mainstream modern SAT solvers are based on the Conflict-Driven Clause Learning (CDCL) algorithm. Recent work aimed to enhance CDCL SAT solvers using Graph Neural Networks (GNNs). However, so far this approach either has not made solving more effective, or required substantial GPU resources for frequent online model inferences. Aiming to make GNN improvements practical, this paper proposes an approach called NeuroBack, which builds on two insights: (1) predicting phases (i.e., values) of variables appearing in the majority (or even all) of the satisfying assignments are essential for CDCL SAT solving, and (2) it is sufficient to query the neural model only once for the predictions before the SAT solving starts. Once trained, the offline model inference allows NeuroBack to execute exclusively on the CPU, removing its reliance on GPU resources. To train NeuroBack, a new dataset called DataBack containing 120,286 data samples is created. Finally, NeuroBack is implemented as an enhancement to a state-of-the-art SAT solver called Kissat. As a result, it allowed Kissat to solve 5.2% more problems on the recent SAT competition problem set, SATCOMP-2022. NeuroBack therefore shows how machine learning can be harnessed to improve SAT solving in an effective and practical manner.
翻訳日:2023-10-30 19:04:55 公開日:2023-10-27
# 隣接剛性変換ネットワーク : 3次元形状のタスク条件アライメント

Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes ( http://arxiv.org/abs/2102.01161v3 )

ライセンス: Link先を確認
Keyang Zhou, Bharat Lal Bhatnagar, Bernt Schiele, Gerard Pons-Moll(参考訳) 3Dデータ(ポイントクラウド、メッシュ)のほとんどの学習方法は、データが標準向きに慎重に整列されていない場合に、大幅なパフォーマンス低下を被る。 異なるソースから収集された現実世界の3Dデータを調整することは簡単ではなく、手動で介入する必要がある。 本稿では,様々な3Dネットワークと統合し,その性能を大幅に向上させるニューラルネットワークモジュールであるAdjoint Rigid Transform (ART) Networkを提案する。 ARTは入力の形状を学習された正準方向へと回転させることを学び、形状再構成、補間、非剛性登録、潜時乱れといった多くのタスクに不可欠である。 ARTは、予測された回転に対する自己スーパービジョンと回転同値制約によってこれを達成している。 注目すべき結果は、自己スーパービジョンだけで、アートは剛体型と非剛体型の両方のユニークな正準指向を学習し、前述のタスクのパフォーマンスを著しく向上させることである。 さらなる研究のために、コードと事前学習したモデルをリリースします。

Most learning methods for 3D data (point clouds, meshes) suffer significant performance drops when the data is not carefully aligned to a canonical orientation. Aligning real world 3D data collected from different sources is non-trivial and requires manual intervention. In this paper, we propose the Adjoint Rigid Transform (ART) Network, a neural module which can be integrated with a variety of 3D networks to significantly boost their performance. ART learns to rotate input shapes to a learned canonical orientation, which is crucial for a lot of tasks such as shape reconstruction, interpolation, non-rigid registration, and latent disentanglement. ART achieves this with self-supervision and a rotation equivariance constraint on predicted rotations. The remarkable result is that with only self-supervision, ART facilitates learning a unique canonical orientation for both rigid and nonrigid shapes, which leads to a notable boost in performance of aforementioned tasks. We will release our code and pre-trained models for further research.
翻訳日:2023-10-30 19:04:10 公開日:2023-10-27
# TLSトレースからの適応Webページフィンガープリント

Adaptive Webpage Fingerprinting from TLS Traces ( http://arxiv.org/abs/2010.10294v2 )

ライセンス: Link先を確認
Vasilios Mavroudis, Jamie Hayes(参考訳) ウェブページのフィンガープリントにおいて、オンパスの敵は、ユーザのブラウザとウェブサイトのサーバ間で交換された暗号化TLSトラフィックのパターンを分析して、被害者がロードした特定のWebページを推測する。 本研究は、TLSプロトコルに対する現代のWebページフィンガープリントの敵について研究し、その能力に光を当て、潜在的な防御を知らせることを目的としている。 この研究領域の重要性(グローバルインターネットユーザーの大多数はTLSを使った標準的なWebブラウジングに依存している)と潜在的に現実的な影響にもかかわらず、過去のほとんどの研究は匿名ネットワーク(例えばTor)に特化した攻撃に焦点を当ててきた。 TLS固有のモデルを紹介します。 1) 前例のない数のターゲットWebページにスケールする。 2)訓練中に遭遇したことのない何千ものクラスを正確に分類できる。 3) 頻繁なページ更新のシナリオにおいても,運用コストは低い。 これらの知見に基づき,TLS固有の対策について考察し,TLS 1.3が提供する既存のパディング機能の有効性を評価する。

In webpage fingerprinting, an on-path adversary infers the specific webpage loaded by a victim user by analysing the patterns in the encrypted TLS traffic exchanged between the user's browser and the website's servers. This work studies modern webpage fingerprinting adversaries against the TLS protocol; aiming to shed light on their capabilities and inform potential defences. Despite the importance of this research area (the majority of global Internet users rely on standard web browsing with TLS) and the potential real-life impact, most past works have focused on attacks specific to anonymity networks (e.g., Tor). We introduce a TLS-specific model that: 1) scales to an unprecedented number of target webpages, 2) can accurately classify thousands of classes it never encountered during training, and 3) has low operational costs even in scenarios of frequent page updates. Based on these findings, we then discuss TLS-specific countermeasures and evaluate the effectiveness of the existing padding capabilities provided by TLS 1.3.
翻訳日:2023-10-30 19:03:52 公開日:2023-10-27
# 分散工学ジョセフソン接合アレイに基づく非退化パラメトリック増幅器

Non-degenerate parametric amplifiers based on dispersion engineered Josephson junction arrays ( http://arxiv.org/abs/1909.08037v3 )

ライセンス: Link先を確認
Patrick Winkel, Ivan Takmakov, Dennis Rieger, Luca Planat, Wiebke Hasch-Guichard, Lukas Gr\"unhaupt, Nataliya Maleeva, Farshad Foroughi, Fabio Henriques, Kiril Borisov, Julian Ferrero, Alexey V. Ustinov, Wolfgang Wernsdorfer, Nicolas Roch, Ioan M. Pop(参考訳) 量子情報処理において、緩和時間よりもずっと短い時間スケールで量子ビットの状態を決定することが必須条件である。 新しいタイプの非退化パラメトリック増幅器の助けを借りて、状態判別において90%の忠実度を持つトランモン量子ビットの量子ジャンプの連続的な検出を実証する。 標準的な2段階の光学リソグラフィー技術で作製されたこのパラメトリック増幅器は、分散工学されたジョセフソン接合(JJ)アレイで構成されている。 10^3$ jjs を含む長い配列を使用することで、キュービット読み出しの典型的な範囲である 10~\mathrm{ghz}$ 以下の複数の固有モードでの増幅が得られる。 さらに、超伝導量子干渉素子(SQUID)ジャンクションを用いることで、各モードの適度な磁束調整性を導入することで、単一増幅器は1〜10の周波数帯域全体をカバーできる可能性がある。

Determining the state of a qubit on a timescale much shorter than its relaxation time is an essential requirement for quantum information processing. With the aid of a new type of non-degenerate parametric amplifier, we demonstrate the continuous detection of quantum jumps of a transmon qubit with 90% fidelity in state discrimination. Entirely fabricated with standard two-step optical lithography techniques, this type of parametric amplifier consists of a dispersion engineered Josephson junction (JJ) array. By using long arrays, containing $10^3$ JJs, we can obtain amplification at multiple eigenmodes with frequencies below $10~\mathrm{GHz}$, which is the typical range for qubit readout. Moreover, by introducing a moderate flux tunability of each mode, employing superconducting quantum interference device (SQUID) junctions, a single amplifier device could potentially cover the entire frequency band between 1 and $10~\mathrm{GHz}$.
翻訳日:2023-10-30 19:03:37 公開日:2023-10-27
# グラフニューラルネットワークを説明する必要性と十分性について--下限最適化アプローチ

On the Probability of Necessity and Sufficiency of Explaining Graph Neural Networks: A Lower Bound Optimization Approach ( http://arxiv.org/abs/2212.07056v3 )

ライセンス: Link先を確認
Ruichu Cai, Yuxuan Zhu, Xuexin Chen, Yuan Fang, Min Wu, Jie Qiao, Zhifeng Hao(参考訳) グラフニューラルネットワーク(GNN)の説明可能性は、さまざまなGNNアプリケーションに不可欠だが、それでも大きな課題である。 説得力のある説明は必要かつ十分同時に行うべきである。 しかし、既存のGNNの説明アプローチは2つの側面のうちの1つにのみ焦点を当てている。 理論的には、必要十分性確率(pns)は、説明の必要性と十分性を数学的に定量化できるため、最も必要かつ十分な説明を特定する可能性を持っている。 それにもかかわらず、非単調性によるpns獲得の困難さと反事実的推定の難しさは幅広い使用範囲を制限している。 PNSの非識別性に対処するために、我々は、逆ファクト推定によって最適化できる低域のPNSを活用し、その低域を最適化することで、GNN(NSEG)のための必要十分かつ十分記述する枠組みを提案する。 具体的には、GNNを構造因果モデル(Structuor causal model, SCM)として記述し、SCMの下での介入により、対実の確率を推定する。 さらに,低バウンダリを最適化してスケーラビリティを向上させるために,サンプリング戦略による連続マスクを活用する。 実験の結果、nsegは最先端の手法よりも優れており、一貫して必要かつ十分な説明を生み出している。

The explainability of Graph Neural Networks (GNNs) is critical to various GNN applications, yet it remains a significant challenge. A convincing explanation should be both necessary and sufficient simultaneously. However, existing GNN explaining approaches focus on only one of the two aspects, necessity or sufficiency, or a heuristic trade-off between the two. Theoretically, the Probability of Necessity and Sufficiency (PNS) holds the potential to identify the most necessary and sufficient explanation since it can mathematically quantify the necessity and sufficiency of an explanation. Nevertheless, the difficulty of obtaining PNS due to non-monotonicity and the challenge of counterfactual estimation limit its wide use. To address the non-identifiability of PNS, we resort to a lower bound of PNS that can be optimized via counterfactual estimation, and propose a framework of Necessary and Sufficient Explanation for GNN (NSEG) via optimizing that lower bound. Specifically, we depict the GNN as a structural causal model (SCM), and estimate the probability of counterfactual via the intervention under the SCM. Additionally, we leverage continuous masks with a sampling strategy to optimize the lower bound to enhance the scalability. Empirical results demonstrate that NSEG outperforms state-of-the-art methods, consistently generating the most necessary and sufficient explanations.
翻訳日:2023-10-30 18:58:17 公開日:2023-10-27
# ステアブルCNNのための暗黙の畳み込みカーネル

Implicit Convolutional Kernels for Steerable CNNs ( http://arxiv.org/abs/2212.06096v3 )

ライセンス: Link先を確認
Maksim Zhdanov, Nico Hoffmann and Gabriele Cesa(参考訳) ステアブル畳み込みニューラルネットワーク(cnns)は、リフレクションやローテーションのような原点保存群 $g$ の変換と変換に等価なニューラルネットワークを構築するための一般的なフレームワークを提供する。 それらは、カーネル空間に課されるグループ固有の等分散制約を解析的に解いて得られる、$g$-steerable kernelの標準畳み込みに依存する。 解は特定の群 $G$ に調整されるので、カーネル基底の実装は他の対称性変換に一般化せず、一般群同変モデルの開発を複雑にする。 本稿では,多層パーセプトロン(MLP)による暗黙的神経表現を用いて,$G$-steerableカーネルのパラメータ化を提案する。 結果として得られるフレームワークは、ステアブルCNNの実装をシンプルで柔軟な方法で提供し、任意のグループ$G$に一般化し、$G$-equivariant MLPを構築できる。 我々は,N体シミュレーション,点雲分類,分子特性予測など,複数のタスクにおける本手法の有効性を実証する。

Steerable convolutional neural networks (CNNs) provide a general framework for building neural networks equivariant to translations and transformations of an origin-preserving group $G$, such as reflections and rotations. They rely on standard convolutions with $G$-steerable kernels obtained by analytically solving the group-specific equivariance constraint imposed onto the kernel space. As the solution is tailored to a particular group $G$, implementing a kernel basis does not generalize to other symmetry transformations, complicating the development of general group equivariant models. We propose using implicit neural representation via multi-layer perceptrons (MLPs) to parameterize $G$-steerable kernels. The resulting framework offers a simple and flexible way to implement Steerable CNNs and generalizes to any group $G$ for which a $G$-equivariant MLP can be built. We prove the effectiveness of our method on multiple tasks, including N-body simulations, point cloud classification and molecular property prediction.
翻訳日:2023-10-30 18:57:49 公開日:2023-10-27
# 非contrastive sslにおける暗黙的分散正規化

Implicit variance regularization in non-contrastive SSL ( http://arxiv.org/abs/2212.04858v2 )

ライセンス: Link先を確認
Manu Srinath Halvagal, Axel Laborieux, Friedemann Zenke(参考訳) BYOLやSimSiamのような非競合的なSSLメソッドは、非対称予測ネットワークに依存して、否定的なサンプルなしで表現的崩壊を避ける。 しかし、予測ネットワークが安定した学習を促進する方法は完全には理解されていない。 以前の理論解析はユークリッドの損失を想定していたが、ほとんどの実用的な実装はコサインの類似性に依存している。 非contrastive sslのさらなる理論的知見を得るために,閉形式線形予測ネットワークの固有空間におけるユークリッドおよびコサイン類似性とともに,学習ダイナミクスを解析的に研究する。 動的メカニズムが異なるにもかかわらず、暗黙の分散正則化による崩壊を避けることが示される。 さらに,固有値が効果的な学習率乗算器として働くことを見出し,固有モード間の収束率を等しい等方損失関数(isoloss)の族を提案する。 経験上、isolossは初期学習のダイナミクスを高速化し、堅牢性を高めます。 本分析では,非コントラストSSLの分散正則化機構に光を当て,予測子のスペクトルの学習力学を形作る新しい損失関数を構築するための理論的根拠を定めている。

Non-contrastive SSL methods like BYOL and SimSiam rely on asymmetric predictor networks to avoid representational collapse without negative samples. Yet, how predictor networks facilitate stable learning is not fully understood. While previous theoretical analyses assumed Euclidean losses, most practical implementations rely on cosine similarity. To gain further theoretical insight into non-contrastive SSL, we analytically study learning dynamics in conjunction with Euclidean and cosine similarity in the eigenspace of closed-form linear predictor networks. We show that both avoid collapse through implicit variance regularization albeit through different dynamical mechanisms. Moreover, we find that the eigenvalues act as effective learning rate multipliers and propose a family of isotropic loss functions (IsoLoss) that equalize convergence rates across eigenmodes. Empirically, IsoLoss speeds up the initial learning dynamics and increases robustness, thereby allowing us to dispense with the EMA target network typically used with non-contrastive methods. Our analysis sheds light on the variance regularization mechanisms of non-contrastive SSL and lays the theoretical grounds for crafting novel loss functions that shape the learning dynamics of the predictor's spectrum.
翻訳日:2023-10-30 18:57:30 公開日:2023-10-27
# 近似モデルのためのベイズスコアキャリブレーション

Bayesian score calibration for approximate models ( http://arxiv.org/abs/2211.05357v4 )

ライセンス: Link先を確認
Joshua J Bon, David J Warne, David J Nott, Christopher Drovandi(参考訳) 科学者は、より現実的な知識を反映する、ますます複雑な力学モデルを開発し続けている。 これらのモデルを用いた統計的推測は、対応する可能性関数がしばしば難解であり、モデルシミュレーションが計算的に重荷となるため困難である。 幸運なことに、これらの状況の多くでは、代理モデルや近似的近似関数を採用することができる。 サロゲートと直接ベイズ推論を行うことは便利であるが、バイアスと不確かさの定量化に繋がる可能性がある。 本稿では, バイアスを低減し, より正確な不確実性定量化を実現するために, 近似後続サンプルを調整する新しい手法を提案する。 我々は、スコアリングルールを最大化する近似後部の変換を最適化することでこれを行う。 我々のアプローチでは、(固定)少数の複雑なモデルシミュレーションしか必要とせず、数値的に安定である。 複雑さが増大するいくつかの例において,新しい手法の優れた性能を示す。

Scientists continue to develop increasingly complex mechanistic models to reflect their knowledge more realistically. Statistical inference using these models can be challenging since the corresponding likelihood function is often intractable and model simulation may be computationally burdensome. Fortunately, in many of these situations, it is possible to adopt a surrogate model or approximate likelihood function. It may be convenient to conduct Bayesian inference directly with the surrogate, but this can result in bias and poor uncertainty quantification. In this paper we propose a new method for adjusting approximate posterior samples to reduce bias and produce more accurate uncertainty quantification. We do this by optimizing a transform of the approximate posterior that maximizes a scoring rule. Our approach requires only a (fixed) small number of complex model simulations and is numerically stable. We demonstrate good performance of the new method on several examples of increasing complexity.
翻訳日:2023-10-30 18:57:09 公開日:2023-10-27
# 多体量子ブーメラン効果

Many-body quantum boomerang effect ( http://arxiv.org/abs/2211.01870v2 )

ライセンス: Link先を確認
Jakub Janarek, Jakub Zakrzewski, and Dominique Delande(参考訳) 量子ブーメラン効果に対する多体相互作用の影響を数値的に研究する。 弱い相互作用のボソン、トンクス・ギラルドー気体、強い相互作用のボソン(弱い相互作用のフェルミオンにマッピングされる)である。 行列積状態に基づく準エクササイズ法である時間進化ブロックデシメーションアルゴリズムを用いて数値シミュレーションを行う。 弱い相互作用を持つボソンの場合、量子ブーメラン効果の部分的な破壊は、以前の平均場研究(Phys)と一致する。 rev. a \textbf{102}, 013303 (2020)]。 Tonks-Girardeau ガスについては、完全な量子ブーメラン効果の存在を示す。 強く相互作用するボソンに対しては、部分的ブーメラン効果を観察する。 量子ブーメラン効果の破壊は普遍的であり、粒子間の相互作用の詳細に依存しないことを示した。

We study numerically the impact of many-body interactions on the quantum boomerang effect. We consider various cases: weakly interacting bosons, the Tonks-Girardeau gas, and strongly interacting bosons (which may be mapped onto weakly interacting fermions). Numerical simulations are performed using the time-evolving block decimation algorithm, a quasi-exact method based on matrix product states. In the case of weakly interacting bosons, we find a partial destruction of the quantum boomerang effect, in agreement with the earlier mean-field study [Phys. Rev. A \textbf{102}, 013303 (2020)]. For the Tonks-Girardeau gas, we show the presence of the full quantum boomerang effect. For strongly interacting bosons, we observe a partial boomerang effect. We show that the destruction of the quantum boomerang effect is universal and does not depend on the details of the interaction between particles.
翻訳日:2023-10-30 18:56:54 公開日:2023-10-27
# 画像復元問題における後方サンプリングのための正規化条件付きGAN

A Regularized Conditional GAN for Posterior Sampling in Image Recovery Problems ( http://arxiv.org/abs/2210.13389v5 )

ライセンス: Link先を確認
Matthew Bendel, Rizwan Ahmad, and Philip Schniter(参考訳) 画像復元問題では、歪んだ、不完全な、またはノイズに汚染された測定から画像を推測しようとする。 このような問題は磁気共鳴イメージング(MRI)、コンピュータ断層撮影、デブリアリング、超解像、塗装、位相検索、画像から画像への変換、その他の応用で発生する。 信号/測定ペアのトレーニングセットを考えると、ひとつのよい画像推定を単に生成する以上のことをしたいと考えている。 むしろ、後方分布から迅速かつ正確にサンプリングすることを目指している。 そこで本研究では,数個の高品質後続サンプルを毎秒生成する正規化条件付きWasserstein GANを提案する。 我々の正規化は$\ell_1$のペナルティと適応的に重み付けされた標準緩和報酬を含んでいる。 条件付きFr\'{e}chet開始距離などの定量的評価指標を用いて, マルチコイルMRIと大規模塗布法の両方において, 最先端の後方試料を生成することを示した。 私たちのモデルのコードは以下のとおりです。 https://github.com/matt-bendel/rcgan

In image recovery problems, one seeks to infer an image from distorted, incomplete, and/or noise-corrupted measurements. Such problems arise in magnetic resonance imaging (MRI), computed tomography, deblurring, super-resolution, inpainting, phase retrieval, image-to-image translation, and other applications. Given a training set of signal/measurement pairs, we seek to do more than just produce one good image estimate. Rather, we aim to rapidly and accurately sample from the posterior distribution. To do this, we propose a regularized conditional Wasserstein GAN that generates dozens of high-quality posterior samples per second. Our regularization comprises an $\ell_1$ penalty and an adaptively weighted standard-deviation reward. Using quantitative evaluation metrics like conditional Fr\'{e}chet inception distance, we demonstrate that our method produces state-of-the-art posterior samples in both multicoil MRI and large-scale inpainting applications. The code for our model can be found here: https://github.com/matt-bendel/rcGAN
翻訳日:2023-10-30 18:56:39 公開日:2023-10-27
# 不確実因果ネットワークにおける因果効果同定

Causal Effect Identification in Uncertain Causal Networks ( http://arxiv.org/abs/2208.04627v3 )

ライセンス: Link先を確認
Sina Akbari, Fateme Jamshidi, Ehsan Mokhtarian, Matthew J. Vowels, Jalal Etesami, Negar Kiyavash(参考訳) 因果同定は因果推論の文献の中核であり、興味のある因果的クエリを特定するために完全なアルゴリズムが提案されている。 これらのアルゴリズムの妥当性は、正しく指定された因果構造にアクセスするという制限的な仮定に基づいている。 本研究では,因果構造の確率モデルが利用可能な設定について検討する。 具体的には、因果グラフの辺は不確実性と共に存在し、例えば、ドメインの専門家からの信条の程度を表す。 あるいは、エッジに関する不確実性は、特定の統計的テストの信頼性を反映する可能性がある。 このような確率グラフと関心の特定の因果効果を考えると、最も可能性の高い部分グラフと因果効果が識別できる部分グラフとは何でしょうか。 この問題に答えると、エッジID問題と呼ばれるNP完全組合せ最適化問題の解決に還元されることを示す。 本稿では,この問題を近似する効率的なアルゴリズムを提案し,実世界のネットワークとランダムに生成されたグラフに対して評価する。

Causal identification is at the core of the causal inference literature, where complete algorithms have been proposed to identify causal queries of interest. The validity of these algorithms hinges on the restrictive assumption of having access to a correctly specified causal structure. In this work, we study the setting where a probabilistic model of the causal structure is available. Specifically, the edges in a causal graph exist with uncertainties which may, for example, represent degree of belief from domain experts. Alternatively, the uncertainty about an edge may reflect the confidence of a particular statistical test. The question that naturally arises in this setting is: Given such a probabilistic graph and a specific causal effect of interest, what is the subgraph which has the highest plausibility and for which the causal effect is identifiable? We show that answering this question reduces to solving an NP-complete combinatorial optimization problem which we call the edge ID problem. We propose efficient algorithms to approximate this problem and evaluate them against both real-world networks and randomly generated graphs.
翻訳日:2023-10-30 18:56:06 公開日:2023-10-27
# ノイズ誘導復号による量子誤差補正

Quantum Error Correction via Noise Guessing Decoding ( http://arxiv.org/abs/2208.02744v3 )

ライセンス: Link先を確認
Diogo Cruz, Francisco A. Monteiro, Bruno C. Coutinho(参考訳) 量子誤り訂正符号(QECC)は、量子通信と量子計算の両方において中心的な役割を果たす。 スタビライザ符号のような実用的な量子誤り訂正符号は、一般に特定の用途に適合するように構成され、厳格な符号長と符号レートを示す。 本稿では,コードレートが十分高い場合の任意のコード長に対して,有限ブロック長規則の最大性能を達成できるQECCの構築と復号化が可能であることを示す。 最近提案されたGRAND (guessing random additive noise decoding) と呼ばれる古典的符号の復号化戦略は、有限ブロック長規則の最大値付近で実行される古典的ランダム線形符号 (RLC) を効率的に復号する扉を開いた。 ノイズ統計を用いて、grandは、単純なコードメンバーシップテストが存在する限り、古典的なコードのためのノイズ中心の効率的なユニバーサルデコーダである。 これらの条件は特に量子システムに適しているため、この論文はこれらの概念を量子ランダム線形符号 (qrlcs) に拡張している。 QRLCと新たに提案された量子GRANDを組み合わせることで、変化する条件に適応しやすいQECCをデコード可能であることを示す。 本論文は、QRLCの漸近的性能に到達するために必要な符号化回路のゲート数を最小化することから始まり、その後、適応的なコードメンバーシップテストを構築するだけでなく、シンドロームデコーディングを効率的に実装するために、量子ノイズ統計を利用する量子GRANDアルゴリズムを提案する。

Quantum error correction codes (QECCs) play a central role in both quantum communications and quantum computation. Practical quantum error correction codes, such as stabilizer codes, are generally structured to suit a specific use, and present rigid code lengths and code rates. This paper shows that it is possible to both construct and decode QECCs that can attain the maximum performance of the finite blocklength regime, for any chosen code length when the code rate is sufficiently high. A recently proposed strategy for decoding classical codes called GRAND (guessing random additive noise decoding) opened doors to efficiently decode classical random linear codes (RLCs) performing near the maximum rate of the finite blocklength regime. By using noise statistics, GRAND is a noise-centric efficient universal decoder for classical codes, provided that a simple code membership test exists. These conditions are particularly suitable for quantum systems, and therefore the paper extends these concepts to quantum random linear codes (QRLCs), which were known to be possible to construct but whose decoding was not yet feasible. By combining QRLCs and a newly proposed quantum-GRAND, this work shows that it is possible to decode QECCs that are easy to adapt to changing conditions. The paper starts by assessing the minimum number of gates in the coding circuit needed to reach the QRLCs' asymptotic performance, and subsequently proposes a quantum-GRAND algorithm that makes use of quantum noise statistics, not only to build an adaptive code membership test, but also to efficiently implement syndrome decoding.
翻訳日:2023-10-30 18:55:50 公開日:2023-10-27
# 推論タスクに人間のようなコンテンツ効果を示す言語モデル

Language models show human-like content effects on reasoning tasks ( http://arxiv.org/abs/2207.07051v2 )

ライセンス: Link先を確認
Ishita Dasgupta, Andrew K. Lampinen, Stephanie C. Y. Chan, Hannah R. Sheahan Antonia Creswell, Dharshan Kumaran, James L. McClelland, Felix Hill(参考訳) 抽象推論はインテリジェントシステムにとって重要な能力である。 大規模言語モデル (LM) は抽象的推論タスクにおいて上述のパフォーマンスを達成するが、多くの不完全性を示す。 しかし、人間の抽象的推論も不完全である。 例えば、人間の推論は現実世界の知識と信念に影響され、顕著な「コンテンツ効果」を示す。 これらの内容に絡み合った推論パターンは、人間の知性の基本的性質に関する議論において中心的な役割を果たす。 ここでは、言語モデル $\unicode{x2014}$ が人間の知識のいくつかの側面を捉えた事前の期待値 $\unicode{x2014}$ が、同様にコンテンツを論理問題への解に混合するかどうかを考察する。 自然言語推論,文節の論理的妥当性の判断,wason選択課題の3つの論理的推論課題について検討した。 言語モデルは、これらのタスクで観察されるのと同じパターンの多くを反映している。$\unicode{x2014}$ 人間と同様に、タスクのセマンティックコンテンツが論理的推論をサポートする場合、モデルはより正確に答える。 これらの並列性は、応答パターンと、モデル応答分布と人間の応答時間の関係のような低レベルの特徴の両方に反映される。 本研究は,これらの認知的影響と言語モデルの性能に寄与する要因の両方を理解することにつながる。

Abstract reasoning is a key ability for an intelligent system. Large language models (LMs) achieve above-chance performance on abstract reasoning tasks, but exhibit many imperfections. However, human abstract reasoning is also imperfect. For example, human reasoning is affected by our real-world knowledge and beliefs, and shows notable "content effects"; humans reason more reliably when the semantic content of a problem supports the correct logical inferences. These content-entangled reasoning patterns play a central role in debates about the fundamental nature of human intelligence. Here, we investigate whether language models $\unicode{x2014}$ whose prior expectations capture some aspects of human knowledge $\unicode{x2014}$ similarly mix content into their answers to logical problems. We explored this question across three logical reasoning tasks: natural language inference, judging the logical validity of syllogisms, and the Wason selection task. We evaluate state of the art large language models, as well as humans, and find that the language models reflect many of the same patterns observed in humans across these tasks $\unicode{x2014}$ like humans, models answer more accurately when the semantic content of a task supports the logical inferences. These parallels are reflected both in answer patterns, and in lower-level features like the relationship between model answer distributions and human response times. Our findings have implications for understanding both these cognitive effects in humans, and the factors that contribute to language model performance.
翻訳日:2023-10-30 18:54:41 公開日:2023-10-27
# 量子ジュータをほぼ最適にテストし学習する

Testing and Learning Quantum Juntas Nearly Optimally ( http://arxiv.org/abs/2207.05898v3 )

ライセンス: Link先を確認
Thomas Chen, Shivam Nadimpalli, Henry Yuen(参考訳) 量子$k$-juntas:$n$-qubitユニタリ行列は、$n$ qubitsのわずか$k$で非自明に作用し、残りはアイデンティティとして機能する。 アルゴリズムの主な結果として、私たちは a)$\widetilde{O}(\sqrt{k})$-query量子アルゴリズムで、量子$k$-juntasと量子$k$-juntaの「遠い」ユニタリ行列を区別することができる。 (b)量子$k$-juntasを学ぶための$O(4^k)$-queryアルゴリズム。 我々は、量子$k$-juntasのテストと量子$k$-juntasを、それぞれ$\Omega(\sqrt{k})$と$\Omega(\frac{4^k}{k})$のほぼ一致する下界で学習するための上限を補完する。 我々の手法はフーリエ解析であり、ユニタリに対するキュービットの影響の概念を利用する。

We consider the problem of testing and learning quantum $k$-juntas: $n$-qubit unitary matrices which act non-trivially on just $k$ of the $n$ qubits and as the identity on the rest. As our main algorithmic results, we give (a) a $\widetilde{O}(\sqrt{k})$-query quantum algorithm that can distinguish quantum $k$-juntas from unitary matrices that are "far" from every quantum $k$-junta; and (b) a $O(4^k)$-query algorithm to learn quantum $k$-juntas. We complement our upper bounds for testing quantum $k$-juntas and learning quantum $k$-juntas with near-matching lower bounds of $\Omega(\sqrt{k})$ and $\Omega(\frac{4^k}{k})$, respectively. Our techniques are Fourier-analytic and make use of a notion of influence of qubits on unitaries.
翻訳日:2023-10-30 18:54:15 公開日:2023-10-27
# 経験的Xリスク最小化のアルゴリズム基礎

Algorithmic Foundations of Empirical X-risk Minimization ( http://arxiv.org/abs/2206.00439v6 )

ライセンス: Link先を確認
Tianbao Yang(参考訳) この原稿は、機械学習とAIのための新しい最適化フレームワークを導入し、EXM(experiical X-risk minimization)と名付けられた。 X-riskは、構成測度や目的の族を表現するために導入された用語で、各データポイントを、リスク関数を定義するために明示的にまたは暗黙的に多数の項目と比較する。 例えば、AUROC, AUPRC, partial AUROC, NDCG, MAP, precision/recall at top $K$ position, precision at a certain recall level, listwise loss, p-norm push, top push, global contrastive lossなどである。 これらの非合成目的とその最適化アルゴリズムは、機械学習、コンピュータビジョン、情報検索などの文献で研究されているが、これらの目的の最適化は、ディープラーニングに特有の課題に遭遇している。 本稿では,アルゴリズムの基礎とその応用に焦点をあてた最近のEXMの厳密な取り組みについて述べる。 滑らかな非凸目的のEXMを解くためのアルゴリズム手法のクラスを導入する。 我々はEXMを,非凸構成最適化,非凸min-max最適化,非凸バイレベル最適化の3つの特別なファミリーに分類する。 それぞれの問題に対して,既存の結果を改善するためのさらなる研究の動機となる強固なベースラインアルゴリズムとその複雑さを示す。 最後に、提示された結果と今後の研究について論じる。 多様なXリスクを最適化する効率的なアルゴリズムは、LibAUCライブラリの \url{www.libauc.org} に実装されている。

This manuscript introduces a new optimization framework for machine learning and AI, named {\bf empirical X-risk minimization (EXM)}. X-risk is a term introduced to represent a family of compositional measures or objectives, in which each data point is compared with a large number of items explicitly or implicitly for defining a risk function. It includes surrogate objectives of many widely used measures and non-decomposable losses, e.g., AUROC, AUPRC, partial AUROC, NDCG, MAP, precision/recall at top $K$ positions, precision at a certain recall level, listwise losses, p-norm push, top push, global contrastive losses, etc. While these non-decomposable objectives and their optimization algorithms have been studied in the literature of machine learning, computer vision, information retrieval, and etc, optimizing these objectives has encountered some unique challenges for deep learning. In this paper, we present recent rigorous efforts for EXM with a focus on its algorithmic foundations and its applications. We introduce a class of algorithmic techniques for solving EXM with smooth non-convex objectives. We formulate EXM into three special families of non-convex optimization problems belonging to non-convex compositional optimization, non-convex min-max optimization and non-convex bilevel optimization, respectively. For each family of problems, we present some strong baseline algorithms and their complexities, which will motivate further research for improving the existing results. Discussions about the presented results and future studies are given at the end. Efficient algorithms for optimizing a variety of X-risks are implemented in the LibAUC library at \url{www.libauc.org}.
翻訳日:2023-10-30 18:53:54 公開日:2023-10-27
# 不均質分布シフト下における統計的学習

Statistical Learning under Heterogeneous Distribution Shift ( http://arxiv.org/abs/2302.13934v4 )

ライセンス: Link先を確認
Max Simchowitz, Anurag Ajay, Pulkit Agrawal, Akshay Krishnamurthy(参考訳) 本論では、一対の確率変数 $(\mathbf{x},\mathbf{y})$ からターゲット $\mathbf{z}$ の予測について検討する。そこで、基底トラス予測子は加法的 $\mathbb{E}[\mathbf{z} \mid \mathbf{x},\mathbf{y}] = f_\star(\mathbf{x}) +g_{\star}(\mathbf{y})$ である。 実験的リスク最小化(ERM)を,与えられたトレーニング分布に適合する関数$f+g$,$f \in F$,$g \in G$に対して検討するが,共変量シフトを示すテスト分布で評価する。 我々は、クラス$F$が$G$よりも「単純」であるとき(例えば、計量エントロピーの観点から測れば)、我々の予測子は、$\mathbf{x}$のシフトが$\mathbf{y}$のそれよりもはるかに大きい異種共変シフトに対してより弾力的であることを示す。 ERMが予測器の$f$-componentを回復する速度は、加法構造によって導入された部分的不確定性のために調整されたクラス$G$の複雑さへの低次依存しか持たない。 これらの結果は,ダドリー積分に対する新しいH\"古いスタイルの不等式に依存しており,多くの領域にまたがる「単純"な特徴の変化に対するレジリエンスの向上を示す実験により,我々の理論的知見を裏付けるものである。

This paper studies the prediction of a target $\mathbf{z}$ from a pair of random variables $(\mathbf{x},\mathbf{y})$, where the ground-truth predictor is additive $\mathbb{E}[\mathbf{z} \mid \mathbf{x},\mathbf{y}] = f_\star(\mathbf{x}) +g_{\star}(\mathbf{y})$. We study the performance of empirical risk minimization (ERM) over functions $f+g$, $f \in F$ and $g \in G$, fit on a given training distribution, but evaluated on a test distribution which exhibits covariate shift. We show that, when the class $F$ is "simpler" than $G$ (measured, e.g., in terms of its metric entropy), our predictor is more resilient to heterogeneous covariate shifts} in which the shift in $\mathbf{x}$ is much greater than that in $\mathbf{y}$. Our analysis proceeds by demonstrating that ERM behaves qualitatively similarly to orthogonal machine learning: the rate at which ERM recovers the $f$-component of the predictor has only a lower-order dependence on the complexity of the class $G$, adjusted for partial non-indentifiability introduced by the additive structure. These results rely on a novel H\"older style inequality for the Dudley integral which may be of independent interest. Moreover, we corroborate our theoretical findings with experiments demonstrating improved resilience to shifts in "simpler" features across numerous domains.
翻訳日:2023-10-30 18:46:16 公開日:2023-10-27
# 変分オートエンコーダの分布学習:合成データ生成への応用

Distributional Learning of Variational AutoEncoder: Application to Synthetic Data Generation ( http://arxiv.org/abs/2302.11294v3 )

ライセンス: Link先を確認
Seunghwan An, Jong-June Jeon(参考訳) ガウス性仮定は、計算モデリングの効率にもかかわらず、変分オートエンコーダ(VAE)の主な制限として一貫して批判されている。 本稿では,VAEフレームワークの計算的優位性を犠牲にすることなく,モデル容量(分散ファミリーの表現力)を拡大する手法を提案する。 我々のVAEモデルのデコーダは、連続変数に対する一般分布適合能力を有する非対称ラプラス分布の無限混合からなる。 我々のモデルは、一般量子関数を推定するための非パラメトリックM-推定器の特別な形式で表現され、提案モデルと量子推定との関係を理論的に確立する。 提案モデルを合成データ生成に適用し,特にデータプライバシのレベル調整が容易であることを示す。

The Gaussianity assumption has been consistently criticized as a main limitation of the Variational Autoencoder (VAE) despite its efficiency in computational modeling. In this paper, we propose a new approach that expands the model capacity (i.e., expressive power of distributional family) without sacrificing the computational advantages of the VAE framework. Our VAE model's decoder is composed of an infinite mixture of asymmetric Laplace distribution, which possesses general distribution fitting capabilities for continuous variables. Our model is represented by a special form of a nonparametric M-estimator for estimating general quantile functions, and we theoretically establish the relevance between the proposed model and quantile estimation. We apply the proposed model to synthetic data generation, and particularly, our model demonstrates superiority in easily adjusting the level of data privacy.
翻訳日:2023-10-30 18:45:39 公開日:2023-10-27
# 再利用可能なスロットワイズ機構

Reusable Slotwise Mechanisms ( http://arxiv.org/abs/2302.10503v2 )

ライセンス: Link先を確認
Trang Nguyen, Amin Mansouri, Kanika Madan, Khuong Nguyen, Kartik Ahuja, Dianbo Liu, and Yoshua Bengio(参考訳) オブジェクトのダイナミクスを理解する能力と推論能力を持つエージェントは、新しいシナリオにおいてより堅牢性と一般化を示すことが期待される。 しかし、この機能を実現するには、効果的なシーン表現だけでなく、オブジェクトサブセット間の相互作用を管理するメカニズムの理解も必要である。 近年の研究では,オブジェクトスロットを用いたシーンの表現が著しく進歩している。 本稿では、各オブジェクトスロットの将来の状態を予測するための再利用可能なメカニズムを動的に選択可能なモジュールアーキテクチャとともに、スロット間の通信を活用してオブジェクトダイナミクスをモデル化するフレームワークであるReusable Slotwise Mechanisms(RCM)を紹介する。 重要なことに、rsmはセントラルコンテクスト情報(cci)を活用して、ボトルネックを通じて残りのスロットにアクセスするための選択されたメカニズムを可能にし、オブジェクトのスパースなサブセットを必要とする複雑なインタラクションのモデリングを効果的に可能にする。 実験結果から, 視覚質問応答や行動計画など, 将来の予測や下流業務における最先端手法と比較して, RSMの優れた性能を示すことができた。 さらに,複雑なシナリオでシーンを扱うrsmのアウト・オブ・ディストリビューション・ジェネライゼーション機能についても紹介する。

Agents with the ability to comprehend and reason about the dynamics of objects would be expected to exhibit improved robustness and generalization in novel scenarios. However, achieving this capability necessitates not only an effective scene representation but also an understanding of the mechanisms governing interactions among object subsets. Recent studies have made significant progress in representing scenes using object slots. In this work, we introduce Reusable Slotwise Mechanisms, or RSM, a framework that models object dynamics by leveraging communication among slots along with a modular architecture capable of dynamically selecting reusable mechanisms for predicting the future states of each object slot. Crucially, RSM leverages the Central Contextual Information (CCI), enabling selected mechanisms to access the remaining slots through a bottleneck, effectively allowing for modeling of higher order and complex interactions that might require a sparse subset of objects. Experimental results demonstrate the superior performance of RSM compared to state-of-the-art methods across various future prediction and related downstream tasks, including Visual Question Answering and action planning. Furthermore, we showcase RSM's Out-of-Distribution generalization ability to handle scenes in intricate scenarios.
翻訳日:2023-10-30 18:45:25 公開日:2023-10-27
# replicableクラスタリング

Replicable Clustering ( http://arxiv.org/abs/2302.10359v3 )

ライセンス: Link先を確認
Hossein Esfandiari, Amin Karbasi, Vahab Mirrokni, Grigoris Velegkas, Felix Zhou(参考訳) 最近導入されたimpagliazzoらによる再現性の概念に基づいて,統計クラスタリングの文脈でレプリカブルアルゴリズムを設計する。 [2022]. この定義によれば、クラスタリングアルゴリズムは、高い確率で、その出力が同一の分布から引き出された異なる入力に対する2つの実行の後、その実行中に内部ランダム性が共有されると、サンプル空間の全く同じ分割を誘導する。 そこで本研究では,統計量k$-medians,統計値k$-means,統計値k$-centers問題に対する近似ルーチンをブラックボックス方式で利用するアルゴリズムを提案する。 特に、統計的ユークリッドの$k$-medians(k$-means)に対して$\operatorname{poly}(d)$サンプル複雑性を持つレプリカブルな$O(1)$-approximationアルゴリズムを実証する。 また、統計的ユークリッド$k$-centersに対して$O(1)$-approximationアルゴリズムを付加的な$O(1)$-additive errorで記述する。 さらに,sklearn の $k$-means++ 実装をブラックボックスとして2次元の合成分布実験を行い,理論的結果を検証する。

We design replicable algorithms in the context of statistical clustering under the recently introduced notion of replicability from Impagliazzo et al. [2022]. According to this definition, a clustering algorithm is replicable if, with high probability, its output induces the exact same partition of the sample space after two executions on different inputs drawn from the same distribution, when its internal randomness is shared across the executions. We propose such algorithms for the statistical $k$-medians, statistical $k$-means, and statistical $k$-centers problems by utilizing approximation routines for their combinatorial counterparts in a black-box manner. In particular, we demonstrate a replicable $O(1)$-approximation algorithm for statistical Euclidean $k$-medians ($k$-means) with $\operatorname{poly}(d)$ sample complexity. We also describe an $O(1)$-approximation algorithm with an additional $O(1)$-additive error for statistical Euclidean $k$-centers, albeit with $\exp(d)$ sample complexity. In addition, we provide experiments on synthetic distributions in 2D using the $k$-means++ implementation from sklearn as a black-box that validate our theoretical results.
翻訳日:2023-10-30 18:45:05 公開日:2023-10-27
# リレーショナルトリプル抽出における90%F1スコア:真か?

90% F1 Score in Relational Triple Extraction: Is it Real ? ( http://arxiv.org/abs/2302.09887v2 )

ライセンス: Link先を確認
Pratik Saini and Samiran Pal and Tapas Nayak and Indrajit Bhattacharya(参考訳) テキストからリレーショナルトリプルを抽出することは知識ベースを構築する上で重要な課題である。 最近のジョイントエンティティと関係抽出モデルの進歩は、フリーテキストからリレーショナルトリプルを正確に抽出する上で、顕著なf1スコア($\ge 90\%$)を示している。 しかし、これらのモデルは制限的な実験設定と非現実的なデータセットで評価されている。 彼らは三重項(0-cardinality)を持つ文を見落とし、タスクを単純化する。 本稿では,よりリアルな環境下での最先端の関節エンティティと関係抽出モデルのベンチマーク研究を行う。 実験には三つ組を欠いた文が含まれており、包括的な評価を提供しています。 この現実的な実験装置では,モデルのF1スコアに有意な低下(データセットの約10~15.%,データセットの6~14.%)がみられた。 さらに,単純なbertベース分類器を用いた2段階モデリング手法を提案する。 このアプローチは、現実的な実験環境でこれらのモデルの全体的なパフォーマンス改善につながる。

Extracting relational triples from text is a crucial task for constructing knowledge bases. Recent advancements in joint entity and relation extraction models have demonstrated remarkable F1 scores ($\ge 90\%$) in accurately extracting relational triples from free text. However, these models have been evaluated under restrictive experimental settings and unrealistic datasets. They overlook sentences with zero triples (zero-cardinality), thereby simplifying the task. In this paper, we present a benchmark study of state-of-the-art joint entity and relation extraction models under a more realistic setting. We include sentences that lack any triples in our experiments, providing a comprehensive evaluation. Our findings reveal a significant decline (approximately 10-15\% in one dataset and 6-14\% in another dataset) in the models' F1 scores within this realistic experimental setup. Furthermore, we propose a two-step modeling approach that utilizes a simple BERT-based classifier. This approach leads to overall performance improvement in these models within the realistic experimental setting.
翻訳日:2023-10-30 18:44:44 公開日:2023-10-27
# フィードバックグラフを用いた実践的コンテキスト帯域

Practical Contextual Bandits with Feedback Graphs ( http://arxiv.org/abs/2302.08631v3 )

ライセンス: Link先を確認
Mengxiao Zhang, Yuheng Zhang, Olga Vrousgou, Haipeng Luo, Paul Mineiro(参考訳) 文脈的帯域幅は成熟した理論を持つが、学習のペースを高めるために様々なフィードバックパターンを効果的に活用することは、まだ不明である。 フィードバックグラフを持つバンドは、全情報と帯域構成を補間し、学習の統計的複雑さを軽減するための有望なフレームワークを提供する。 本稿では,回帰への還元に基づくフィードバックグラフを用いた文脈的包帯に対するアプローチを提案し,分析する。 得られたアルゴリズムは計算的に実用的であり、確立されたミニマックスレートを達成する。

While contextual bandit has a mature theory, effectively leveraging different feedback patterns to enhance the pace of learning remains unclear. Bandits with feedback graphs, which interpolates between the full information and bandit regimes, provides a promising framework to mitigate the statistical complexity of learning. In this paper, we propose and analyze an approach to contextual bandits with feedback graphs based upon reduction to regression. The resulting algorithms are computationally practical and achieve established minimax rates, thereby reducing the statistical complexity in real-world applications.
翻訳日:2023-10-30 18:44:30 公開日:2023-10-27
# ブラインドスーパーレゾリューションのためのカーネル化バックプロジェクションネットワーク

Kernelized Back-Projection Networks for Blind Super Resolution ( http://arxiv.org/abs/2302.08478v3 )

ライセンス: Link先を確認
Tomoki Yoshida, Yuki Kondo, Takahiro Maeda, Kazutoshi Akita, Norimichi Ukita(参考訳) 非盲検超解像(SR)は、任意の劣化で劣化した低分解能画像の超解像化に失敗するため、劣化モデルによるSRが必要である。 しかし本論文では,ブラインドsrの劣化モデルと同等の性能を示す非ブラインドsrについて述べる。 この結果は、高性能な非盲検SRを再検討し、それをぼやけたカーネルを持つ盲検SRに拡張する動機となる。 本稿では、カーネル推定とSR分岐を反復的に統合した2つのSRネットワークを提案する。 Kernel Conditioned Back-Projection Network (KCBPN)と呼ばれる最初のモデルでは、SRブランチの条件付けのために低次元のカーネル表現が推定される。 2つ目のモデルであるKBPN(Kernelized BackProjection Network)では、生のカーネルを推定し、直接画像劣化をモデル化する。 推定されたカーネルは、残差をバックプロパゲーションするだけでなく、残差を反復ステージに前進させるためにも用いられる。 このフォワードプロパゲーションは、各ステージに大きな残差を持つピクセルに焦点をあてることで、これらのステージが異なるステージで様々な特徴を学ぶことを奨励する。 実験結果は,提案ネットワークによるカーネル推定とsrの有効性を検証する。 この作業のためにコードをリリースします。

Since non-blind Super Resolution (SR) fails to super-resolve Low-Resolution (LR) images degraded by arbitrary degradations, SR with the degradation model is required. However, this paper reveals that non-blind SR that is trained simply with various blur kernels exhibits comparable performance as those with the degradation model for blind SR. This result motivates us to revisit high-performance non-blind SR and extend it to blind SR with blur kernels. This paper proposes two SR networks by integrating kernel estimation and SR branches in an iterative end-to-end manner. In the first model, which is called the Kernel Conditioned Back-Projection Network (KCBPN), the low-dimensional kernel representations are estimated for conditioning the SR branch. In our second model, the Kernelized BackProjection Network (KBPN), a raw kernel is estimated and directly employed for modeling the image degradation. The estimated kernel is employed not only for back-propagating its residual but also for forward-propagating the residual to iterative stages. This forward-propagation encourages these stages to learn a variety of different features in different stages by focusing on pixels with large residuals in each stage. Experimental results validate the effectiveness of our proposed networks for kernel estimation and SR. We will release the code for this work.
翻訳日:2023-10-30 18:44:19 公開日:2023-10-27
# 非ペア化マルチドメイン因果表現学習

Unpaired Multi-Domain Causal Representation Learning ( http://arxiv.org/abs/2302.00993v2 )

ライセンス: Link先を確認
Nils Sturma, Chandler Squires, Mathias Drton, Caroline Uhler(参考訳) 因果表現学習の目標は、因果関係の潜在変数からなるデータの表現を見つけることである。 因果表現を共有する可能性のある複数のドメインからのデータにアクセスするセットアップを検討する。 重要なことは、異なる領域における観測は不対面であると仮定され、すなわち、各領域における限界分布のみを観測するが、それらの共同分布は観測しない。 本稿では,線形配置におけるジョイント分布と共有因果グラフの識別性について十分な条件を与える。 Identifiability は、各領域の辺分布から結合分布と共有因果表現を一意に回収できるかどうかを判断する。 我々は、識別可能性の結果を共有因果グラフを復元する実用的な方法に変換する。

The goal of causal representation learning is to find a representation of data that consists of causally related latent variables. We consider a setup where one has access to data from multiple domains that potentially share a causal representation. Crucially, observations in different domains are assumed to be unpaired, that is, we only observe the marginal distribution in each domain but not their joint distribution. In this paper, we give sufficient conditions for identifiability of the joint distribution and the shared causal graph in a linear setup. Identifiability holds if we can uniquely recover the joint distribution and the shared causal representation from the marginal distributions in each domain. We transform our identifiability results into a practical method to recover the shared latent causal graph.
翻訳日:2023-10-30 18:43:57 公開日:2023-10-27
# リワードモデリングを伴わない直接選好型政策最適化

Direct Preference-based Policy Optimization without Reward Modeling ( http://arxiv.org/abs/2301.12842v3 )

ライセンス: Link先を確認
Gaon An, Junhyeok Lee, Xingdong Zuo, Norio Kosaka, Kyung-Min Kim, Hyun Oh Song(参考訳) 嗜好に基づく強化学習(PbRL)は、RLエージェントが嗜好から学習できるアプローチであり、報酬関数の定式化には特に有用である。 既存のPbRL法では、まず与えられた嗜好データに基づいて報酬モデルを学習し、学習された報酬モデルを用いて既製の強化学習アルゴリズムを採用する。 しかし、選好情報のみから、特に人間教師からの選好の場合、正確な報奨モデルを得ることは困難である。 代わりに、報酬モデルを必要としない好みから直接学習するPbRLアルゴリズムを提案する。 これを達成するために、我々は、与えられた嗜好に沿った政策に高いスコアを割り当てる新しい政策スコアリング指標を設計するために、対照的な学習フレームワークを採用する。 我々は,本アルゴリズムを実際の人選好ラベル付きオフラインRLタスクに適用し,既存のPbRL手法と同等あるいは同等であることを示す。 特に,高次元制御タスクでは,オフラインのrl法を超越し,地上報酬情報で学習する。 最後に,このアルゴリズムを大規模言語モデルに適用できることを示す。

Preference-based reinforcement learning (PbRL) is an approach that enables RL agents to learn from preference, which is particularly useful when formulating a reward function is challenging. Existing PbRL methods generally involve a two-step procedure: they first learn a reward model based on given preference data and then employ off-the-shelf reinforcement learning algorithms using the learned reward model. However, obtaining an accurate reward model solely from preference information, especially when the preference is from human teachers, can be difficult. Instead, we propose a PbRL algorithm that directly learns from preference without requiring any reward modeling. To achieve this, we adopt a contrastive learning framework to design a novel policy scoring metric that assigns a high score to policies that align with the given preferences. We apply our algorithm to offline RL tasks with actual human preference labels and show that our algorithm outperforms or is on par with the existing PbRL methods. Notably, on high-dimensional control tasks, our algorithm surpasses offline RL methods that learn with ground-truth reward information. Finally, we show that our algorithm can be successfully applied to fine-tune large language models.
翻訳日:2023-10-30 18:43:34 公開日:2023-10-27
# 攻撃型音声分類器の視覚的攻撃と騒音聴取:攻撃性に関する人間と機械の識別

Vicarious Offense and Noise Audit of Offensive Speech Classifiers: Unifying Human and Machine Disagreement on What is Offensive ( http://arxiv.org/abs/2301.12534v3 )

ライセンス: Link先を確認
Tharindu Cyril Weerasooriya and Sujan Dutta and Tharindu Ranasinghe and Marcos Zampieri and Christopher M. Homan and Ashiqur R. KhudaBukhsh(参考訳) 攻撃的音声検出はコンテンツモデレーションの重要な要素である。 しかし、攻撃的であることは極めて主観的である。 本稿では、実世界のソーシャルウェブの政治談話に関して、機械と人間のモデレーターが不快な点についてどのように意見が一致しているかを考察する。 1)モデレーター(人間と機械)の間には広範囲にわたる不一致があり、(2)人間と大言語モデルの分類器は、政治的傾向に基づいて他の人格がどう反応するかを予測できない。 1) 機械と人の両方の応答を組み合わせた前例のない規模で騒音監査を行う。 2)では,暴力的犯罪の第一種データセットを導入する。 ノイズ監査の結果、モデレーションの結果は異なるマシンモデレーターによって大きく異なることが明らかとなった。 人間のモデレーターによる実験では、政治的傾向とセンシティブな問題の組み合わせが、一人称と悪質な犯罪の両方に影響を及ぼすことが示唆された。 データセットはhttps://github.com/homan-lab/voicedで入手できる。

Offensive speech detection is a key component of content moderation. However, what is offensive can be highly subjective. This paper investigates how machine and human moderators disagree on what is offensive when it comes to real-world social web political discourse. We show that (1) there is extensive disagreement among the moderators (humans and machines); and (2) human and large-language-model classifiers are unable to predict how other human raters will respond, based on their political leanings. For (1), we conduct a noise audit at an unprecedented scale that combines both machine and human responses. For (2), we introduce a first-of-its-kind dataset of vicarious offense. Our noise audit reveals that moderation outcomes vary wildly across different machine moderators. Our experiments with human moderators suggest that political leanings combined with sensitive issues affect both first-person and vicarious offense. The dataset is available through https://github.com/Homan-Lab/voiced.
翻訳日:2023-10-30 18:43:14 公開日:2023-10-27
# ReSQueing並列とプライベート確率凸最適化

ReSQueing Parallel and Private Stochastic Convex Optimization ( http://arxiv.org/abs/2301.00457v2 )

ライセンス: Link先を確認
Yair Carmon, Arun Jambulapati, Yujia Jin, Yin Tat Lee, Daogao Liu, Aaron Sidford, Kevin Tian(参考訳) 確率凸最適化(SCO)のための新しいツール:(ガウス)確率密度と関連する関数の勾配に対するReweighted Stochastic Query (ReSQue) 推定器を提案する。 ReSQueと最近のボールオラクル加速技術 [CJJJLST20, ACJJS21] を組み合わせることで, SCOの並列およびプライベート設定における最先端の複雑さを実現するアルゴリズムを開発した。 $\mathbb{R}^d$ の単位球に制約されたSCO対象に対して、以下の結果が得られる(多対数因子まで)。 最適化誤差を$d^{1/3}\epsilon_{\text{opt}}$ with $d^{1/3}\epsilon_{\text{opt}}^{-2/3}$gradient oracle query depth and $d^{1/3}\epsilon_{\text{opt}}^{-2/3} + \epsilon_{\text{opt}}^{-2}$gradient queryを合計で得る並列アルゴリズムを与える。 in [d^{-1}, d^{-1/4}]$\epsilon_{\text{opt}} \in [d^{-1}, d^{-1/4}]$ では、アルゴリズムは[bjlls19]の最先端のオラクル深さと一致し、確率的勾配降下の最適な総作業を維持する。 リプシッツ損失関数の n$ が与えられたとき、先行研究 [bftt19, bfgt20, afkt21, kll21] は、もし $n \gtrsim d \epsilon_{\text{dp}}^{-2}$, $(\epsilon_{\text{dp}}, \delta)$-differential privacy がscoユーティリティの漸近的なコストで達成されると定めている。 しかし、これらの先行作業はすべて、勾配クエリの超線形数を必要とした。 このギャップを十分に大きい$n \gtrsim d^2 \epsilon_{\text{dp}}^{-3}$で埋め、ReSQueを用いて、この状態におけるほぼ線形勾配のクエリの複雑さを持つアルゴリズムを設計する。

We introduce a new tool for stochastic convex optimization (SCO): a Reweighted Stochastic Query (ReSQue) estimator for the gradient of a function convolved with a (Gaussian) probability density. Combining ReSQue with recent advances in ball oracle acceleration [CJJJLST20, ACJJS21], we develop algorithms achieving state-of-the-art complexities for SCO in parallel and private settings. For a SCO objective constrained to the unit ball in $\mathbb{R}^d$, we obtain the following results (up to polylogarithmic factors). We give a parallel algorithm obtaining optimization error $\epsilon_{\text{opt}}$ with $d^{1/3}\epsilon_{\text{opt}}^{-2/3}$ gradient oracle query depth and $d^{1/3}\epsilon_{\text{opt}}^{-2/3} + \epsilon_{\text{opt}}^{-2}$ gradient queries in total, assuming access to a bounded-variance stochastic gradient estimator. For $\epsilon_{\text{opt}} \in [d^{-1}, d^{-1/4}]$, our algorithm matches the state-of-the-art oracle depth of [BJLLS19] while maintaining the optimal total work of stochastic gradient descent. Given $n$ samples of Lipschitz loss functions, prior works [BFTT19, BFGT20, AFKT21, KLL21] established that if $n \gtrsim d \epsilon_{\text{dp}}^{-2}$, $(\epsilon_{\text{dp}}, \delta)$-differential privacy is attained at no asymptotic cost to the SCO utility. However, these prior works all required a superlinear number of gradient queries. We close this gap for sufficiently large $n \gtrsim d^2 \epsilon_{\text{dp}}^{-3}$, by using ReSQue to design an algorithm with near-linear gradient query complexity in this regime.
翻訳日:2023-10-30 18:42:56 公開日:2023-10-27
# ジェネレーションシーケンスラベリングにおけるビームサーチはどのようにスパンレベル信頼度推定を改善するか?

How Does Beam Search improve Span-Level Confidence Estimation in Generative Sequence Labeling? ( http://arxiv.org/abs/2212.10767v2 )

ライセンス: Link先を確認
Kazuma Hashimoto and Iftekhar Naim and Karthik Raman(参考訳) シーケンスラベリングはie/irシステムのテキスト理解におけるコアタスクである。 テキスト生成モデルは、このようなタスク(エンティティ抽出やダイアログスロットの充填など)のゴーツーソリューションになりつつある。 ほとんどの研究はラベル付けの精度に重点を置いているが、重要な実践的重要性を持つ重要な側面は、モデルの信頼性を理解することである。 より具体的には、ラベル付きスパン毎の予測においてモデルの信頼度を確実に評価する方法の原則的な理解が欠けている。 本稿では,生成配列ラベリングにおけるモデル信頼度の推定に関する実証的な知見を提供する。 最も注目すべきは、デコーダの出力確率 \textbf{is} を単純に使うだけで、よく校正された信頼推定を実現することができることである。 異なるタスクの6つの公開データセットで検証した結果、ビームサーチによる上位$kの予測統計を利用する提案手法は、生成シーケンスラベルモデルの予測のキャリブレーションエラーを著しく低減することがわかった。

Sequence labeling is a core task in text understanding for IE/IR systems. Text generation models have increasingly become the go-to solution for such tasks (e.g., entity extraction and dialog slot filling). While most research has focused on the labeling accuracy, a key aspect -- of vital practical importance -- has slipped through the cracks: understanding model confidence. More specifically, we lack a principled understanding of how to reliably gauge the confidence of a model in its predictions for each labeled span. This paper aims to provide some empirical insights on estimating model confidence for generative sequence labeling. Most notably, we find that simply using the decoder's output probabilities \textbf{is not} the best in realizing well-calibrated confidence estimates. As verified over six public datasets of different tasks, we show that our proposed approach -- which leverages statistics from top-$k$ predictions by a beam search -- significantly reduces calibration errors of the predictions of a generative sequence labeling model.
翻訳日:2023-10-30 18:41:49 公開日:2023-10-27
# テキスト対画像生成における空間関係のベンチマーク

Benchmarking Spatial Relationships in Text-to-Image Generation ( http://arxiv.org/abs/2212.10015v3 )

ライセンス: Link先を確認
Tejas Gokhale, Hamid Palangi, Besmira Nushi, Vibhav Vineet, Eric Horvitz, Ece Kamar, Chitta Baral, Yezhou Yang(参考訳) 空間的理解はコンピュータビジョンの基本的な側面であり、画像に関する人間レベルの推論に不可欠なものであり、基底言語理解にとって重要な要素である。 最近のtext-to-image synthesis (t2i)モデルでは、フォトリアリズムが前例のない改善を遂げているが、それらが信頼できる空間理解能力を持っているかどうかは不明である。 本稿では,オブジェクト間の空間関係を正確に生成するT2Iモデルと,画像中のテキストに記述された空間関係がどの程度正確に生成されるかを評価する評価指標であるVISORについて述べる。 既存のモデルをベンチマークするために,2つ以上のオブジェクトとそれらの間の空間的関係を記述する文を含むデータセットである$\mathrm{SR}_{2D}$を導入する。 オブジェクトとその空間的関係を認識するための自動評価パイプラインを構築し,T2Iモデルの大規模評価に利用する。 我々の実験は、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成する能力や、それらの間の特定の空間関係が著しく制限されていることを明らかにする。 本研究は,t2iモデルのバイアスやアーチファクトとして,複数のオブジェクトの生成の難しさ,最初のオブジェクトを生成するためのバイアス,等価な関係に対する空間的不整合アウトプット,オブジェクト共起性と空間理解能力の相関などを示す。 空間的理解に関する人間の判断とVISORの整合性を示す人間の研究を行う。 我々は、T2I推論研究を支援するために、$\mathrm{SR}_{2D}$データセットとVISORメトリックをコミュニティに提供する。

Spatial understanding is a fundamental aspect of computer vision and integral for human-level reasoning about images, making it an important component for grounded language understanding. While recent text-to-image synthesis (T2I) models have shown unprecedented improvements in photorealism, it is unclear whether they have reliable spatial understanding capabilities. We investigate the ability of T2I models to generate correct spatial relationships among objects and present VISOR, an evaluation metric that captures how accurately the spatial relationship described in text is generated in the image. To benchmark existing models, we introduce a dataset, $\mathrm{SR}_{2D}$, that contains sentences describing two or more objects and the spatial relationships between them. We construct an automated evaluation pipeline to recognize objects and their spatial relationships, and employ it in a large-scale evaluation of T2I models. Our experiments reveal a surprising finding that, although state-of-the-art T2I models exhibit high image quality, they are severely limited in their ability to generate multiple objects or the specified spatial relations between them. Our analyses demonstrate several biases and artifacts of T2I models such as the difficulty with generating multiple objects, a bias towards generating the first object mentioned, spatially inconsistent outputs for equivalent relationships, and a correlation between object co-occurrence and spatial understanding capabilities. We conduct a human study that shows the alignment between VISOR and human judgement about spatial understanding. We offer the $\mathrm{SR}_{2D}$ dataset and the VISOR metric to the community in support of T2I reasoning research.
翻訳日:2023-10-30 18:41:29 公開日:2023-10-27
# 非エルミタン量子センサの基本感度限界

Fundamental Sensitivity Limits for non-Hermitian Quantum Sensors ( http://arxiv.org/abs/2304.08374v3 )

ライセンス: Link先を確認
Wenkui Ding, Xiaoguang Wang, Shu Chen(参考訳) 拡張量子システムを用いて実装された非エルミート系を考えると、量子情報の観点から非エルミートセンサの感度の基本的な限界を決定する。 非エルミート型センサは、パラメータに関する量子情報のばらつきのため、感度性能においてエルミート型センサ(パラメータと直接結合する)を上回らないことが証明される。 フル量子システムを用いて実装された2つの具体的な非エルミートセンシング提案を精査することにより、これらのセンサの感度が我々の予測と一致していることを示す。 この理論は、非エルミート量子センサの基本的な限界を理解するための包括的かつモデルに依存しない枠組みを提供し、非エルミート物理学と量子メソロジーの間の橋渡しを構築する。

Considering non-Hermitian systems implemented by utilizing enlarged quantum systems, we determine the fundamental limits for the sensitivity of non-Hermitian sensors from the perspective of quantum information. We prove that non-Hermitian sensors do not outperform their Hermitian counterparts (directly couples to the parameter) in the performance of sensitivity, due to the invariance of the quantum information about the parameter. By scrutinizing two concrete non-Hermitian sensing proposals, which are implemented using full quantum systems, we demonstrate that the sensitivity of these sensors is in agreement with our predictions. Our theory offers a comprehensive and model-independent framework for understanding the fundamental limits of non-Hermitian quantum sensors and builds the bridge over the gap between non-Hermitian physics and quantum metrology.
翻訳日:2023-10-30 18:34:08 公開日:2023-10-27
# 降雨・降雨・降雨用変圧器の効率化に向けて

Towards an Effective and Efficient Transformer for Rain-by-snow Weather Removal ( http://arxiv.org/abs/2304.02860v2 )

ライセンス: Link先を確認
Tao Gao, Yuanbo Wen, Kaihao Zhang, Peng Cheng, and Ting Chen(参考訳) 降雨による除雪は、降雨と雪粒子の共存を解消することを目的とした、気象劣化画像復元の専門分野である。 本稿では,この課題に対処する効率的な変換器であるRSFormerを提案する。 まず,階層的アーキテクチャにおける畳み込みネットワーク (convnets) と視覚トランスフォーマー (vits) の近接について検討し,ステージ内特徴学習における性能について実験的に検討した。 そこで我々は,Transformerライクな畳み込みブロック(TCB)を用いて,入力コンテンツに適応するための注意特性を保ちながら,計算コストのかかる自己アテンションを置き換える。 また,クロスステージ進行がパフォーマンス向上に不可欠であることを実証し,グローバル依存とローカル依存の両方を捉えつつ,機能をダウン/アップサンプリングするグローバルローカルセルフアテンションサンプリング機構(glasm)を提案する。 最後に、提案したRSFormerを評価するために、2つの新しい雨季データセットRSCityScapeとRS100Kを合成する。 RSFormerは、他の修復方法と比較して、パフォーマンスと時間消費の最良のトレードオフを実現する。 例えば、パラメータ数を1.53%削減し、推論時間を15.6%削減することで、restormerを上回っている。 データセット、ソースコード、事前訓練されたモデルは、 \url{https://github.com/chdwyb/RSFormer} で入手できる。

Rain-by-snow weather removal is a specialized task in weather-degraded image restoration aiming to eliminate coexisting rain streaks and snow particles. In this paper, we propose RSFormer, an efficient and effective Transformer that addresses this challenge. Initially, we explore the proximity of convolution networks (ConvNets) and vision Transformers (ViTs) in hierarchical architectures and experimentally find they perform approximately at intra-stage feature learning. On this basis, we utilize a Transformer-like convolution block (TCB) that replaces the computationally expensive self-attention while preserving attention characteristics for adapting to input content. We also demonstrate that cross-stage progression is critical for performance improvement, and propose a global-local self-attention sampling mechanism (GLASM) that down-/up-samples features while capturing both global and local dependencies. Finally, we synthesize two novel rain-by-snow datasets, RSCityScape and RS100K, to evaluate our proposed RSFormer. Extensive experiments verify that RSFormer achieves the best trade-off between performance and time-consumption compared to other restoration methods. For instance, it outperforms Restormer with a 1.53% reduction in the number of parameters and a 15.6% reduction in inference time. Datasets, source code and pre-trained models are available at \url{https://github.com/chdwyb/RSFormer}.
翻訳日:2023-10-30 18:33:36 公開日:2023-10-27
# 分散構造とスタイル--文書階層化によるニュースの政治的バイアス検出

Disentangling Structure and Style: Political Bias Detection in News by Inducing Document Hierarchy ( http://arxiv.org/abs/2304.02247v2 )

ライセンス: Link先を確認
Jiwoo Hong, Yejin Cho, Jaemin Jung, Jiyoung Han, James Thorne(参考訳) 我々はニュース記事の政治的偏見を検出する上で重要なギャップに対処する。 文書分類を行う以前の作品は、各ニュースメディアの書き込みスタイルに影響され、過剰フィッティングと一般化可能性の制限につながる。 このアプローチは文レベルの意味論と文書レベルの修辞構造の両方を考慮してこの制限を克服し、ニュース記事の政治的バイアスを検出するためのより堅牢でスタイルに依存しないアプローチを生み出した。 本稿では,多彩なアテンションヘッドを通した長文構造を効果的に符号化するマルチヘッド階層アテンションモデルを提案する。 ジャーナリズムは形式化された修辞構造に従うが、執筆スタイルはニュースメディアによって異なるかもしれない。 本手法は,このドメイン依存性を克服し,従来のロバスト性と正確性に対するアプローチよりも優れていることを示す。 さらに分析と人的評価を行い,ジャーナリズムにおける共通談話構造を捉える能力を示した。 私たちのコードは、https://github.com/xfactlab/emnlp2023-Document-Hierarchyで利用可能です。

We address an important gap in detecting political bias in news articles. Previous works that perform document classification can be influenced by the writing style of each news outlet, leading to overfitting and limited generalizability. Our approach overcomes this limitation by considering both the sentence-level semantics and the document-level rhetorical structure, resulting in a more robust and style-agnostic approach to detecting political bias in news articles. We introduce a novel multi-head hierarchical attention model that effectively encodes the structure of long documents through a diverse ensemble of attention heads. While journalism follows a formalized rhetorical structure, the writing style may vary by news outlet. We demonstrate that our method overcomes this domain dependency and outperforms previous approaches for robustness and accuracy. Further analysis and human evaluation demonstrate the ability of our model to capture common discourse structures in journalism. Our code is available at: https://github.com/xfactlab/emnlp2023-Document-Hierarchy
翻訳日:2023-10-30 18:33:10 公開日:2023-10-27
# Zeno Regime of Collective Emission: Non-Markovianity beyond Retardation

Zeno Regime of Collective Emission: Non-Markovianity beyond Retardation ( http://arxiv.org/abs/2304.00722v2 )

ライセンス: Link先を確認
Yu-Xiang Zhang(参考訳) 集団放出を起こすために、アンサンブル内の原子は仮想光子を交換することでその挙動を調整しなければならない。 我々は、この非マルコフ過程を1次元(1次元)導波路に結合したサブ波長原子鎖で研究し、非マルコフ性の唯一の原因ではないことを発見した。 もう1つの要因はフォトニック環境の記憶であり、1つの励起原子が2次崩壊から指数崩壊に移行するのに有限時間を必要とするゼノ状態である。 導波路のセットアップでは、このクロスオーバーは遅延よりも長い時間スケールを持ち、集団行動の発生に影響を与える。 完全な量子処理と遅延効果のみを組み込んだアプローチを比較することで、原子励起の集団によって特徴づけられるフィールドメモリ効果は、単一原子の崩壊よりも集団放出においてはるかに顕著であることが分かる。 この結果は、コンパクト原子配列に基づく量子情報処理の散逸工学に有用であると考えられる。

To build up a collective emission, the atoms in an ensemble must coordinate their behavior by exchanging virtual photons. We study this non-Markovian process in a subwavelength atom chain coupled to a one-dimensional (1D) waveguide and find that retardation is not the only cause of non-Markovianity. The other factor is the memory of the photonic environment, for which a single excited atom needs a finite time, the Zeno regime, to transition from quadratic decay to exponential decay. In the waveguide setup, this crossover has a time scale longer than the retardation, thus impacting the development of collective behavior. By comparing a full quantum treatment with an approach incorporating only the retardation effect, we find that the field memory effect, characterized by the population of atomic excitation, is much more pronounced in collective emissions than that in the decay of a single atom. Our results maybe useful for the dissipation engineering of quantum information processings based on compact atom arrays.
翻訳日:2023-10-30 18:32:53 公開日:2023-10-27
# 分子オブザーバのフォールトトレラント量子計算

Fault-tolerant quantum computation of molecular observables ( http://arxiv.org/abs/2303.14118v2 )

ライセンス: Link先を確認
Mark Steudtner, Sam Morley-Short, William Pol, Sukin Sim, Cristian L. Cortes, Matthias Loipersberger, Robert M. Parrish, Matthias Degroote, Nikolaj Moll, Raffaele Santagati, Michael Streif(参考訳) 過去30年間で、量子コンピュータを用いて分子ハミルトニアンの基底状態エネルギーを推定するコストが大幅に削減された。 しかし,多くの産業用途において重要な,他の観測対象の観測対象の期待値の推定には,比較的注意が払われていない。 本研究では,システムの任意の固有状態に対する任意の可観測値の期待値を推定するために適用可能な,新しい期待値推定(eve)量子アルゴリズムを提案する。 特に、標準量子位相推定に基づく std-EVE と量子信号処理(QSP)技術を用いた QSP-EVE の2つの変種を考える。 両変種について厳密な誤差解析を行い、QSPEVEの個別位相因子数を最小化する。 これらの誤差分析により、様々な分子系と観測可能な領域にわたって、std-EVEとQSP-EVEの双方に対して、定数要素の量子リソース推定を作成できる。 検討したシステムでは,QSP-EVEは最大3桁のゲート数を減少させ,std-EVEに比べて最大25%のビット幅を減少させる。 第1世代のフォールトトレラント量子コンピュータでは、推定資源数はまだ高すぎるが、予測値推定と最新のQSPベースの技術の両方の適用において、我々の推定値が最初のものである。

Over the past three decades significant reductions have been made to the cost of estimating ground-state energies of molecular Hamiltonians with quantum computers. However, comparatively little attention has been paid to estimating the expectation values of other observables with respect to said ground states, which is important for many industrial applications. In this work we present a novel expectation value estimation (EVE) quantum algorithm which can be applied to estimate the expectation values of arbitrary observables with respect to any of the system's eigenstates. In particular, we consider two variants of EVE: std-EVE, based on standard quantum phase estimation, and QSP-EVE, which utilizes quantum signal processing (QSP) techniques. We provide rigorous error analysis for both both variants and minimize the number of individual phase factors for QSPEVE. These error analyses enable us to produce constant-factor quantum resource estimates for both std-EVE and QSP-EVE across a variety of molecular systems and observables. For the systems considered, we show that QSP-EVE reduces (Toffoli) gate counts by up to three orders of magnitude and reduces qubit width by up to 25% compared to std-EVE. While estimated resource counts remain far too high for the first generations of fault-tolerant quantum computers, our estimates mark a first of their kind for both the application of expectation value estimation and modern QSP-based techniques.
翻訳日:2023-10-30 18:32:35 公開日:2023-10-27
# eP-ALM: 言語モデルの効率的な知覚増強

eP-ALM: Efficient Perceptual Augmentation of Language Models ( http://arxiv.org/abs/2303.11403v4 )

ライセンス: Link先を確認
Mustafa Shukor, Corentin Dancette, Matthieu Cord(参考訳) 大規模言語モデル(LLM)は、これまでになく大規模なモデルで現れる前例のない機能で、世界に印象を与えてきました。 視覚面では、トランスフォーマーモデル(すなわちViT)は同じ傾向を辿り、挑戦的なベンチマークで最高のパフォーマンスを達成する。 このようなユニモーダルモデルが豊富に存在すると、自然な疑問が生まれ、マルチモーダルなタスクに取り組むためにこの傾向に従う必要があるのだろうか? 本研究では,既存のモデルの効率的な適応のために,むしろ直接的な努力をすることを提案し,知覚を伴う言語モデルの拡張を提案する。 視覚言語タスクに事前学習されたモデルを適用する既存のアプローチは、その効率を妨げるいくつかの重要なコンポーネントに依存している。 特に、多くのパラメータをトレーニングし、大きなマルチモーダルプリトレーニングに依存し、巨大な画像テキストデータセットでトレーニングされたエンコーダ(クリップなど)を使用し、大きな推論オーバーヘッドを追加する。 加えて、これらのアプローチのほとんどはゼロショットとコンテキスト学習に重点を置いており、直接の微調整にはほとんど努力していない。 マルチモーダルタスクに単調モデルを適用するのに必要な最小限の計算労力について検討し、単調事前学習モデルに効率よく適応する異なるアプローチとともに、新しい挑戦的なセットアップを提案する。 我々は,全パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを前倒しすることで,提案した設定に従って,VQA と Captioning の他のベースラインを著しく上回ることを示す。 コードは、https://github.com/mshukor/eP-ALM.comで入手できる。

Large Language Models (LLMs) have so far impressed the world, with unprecedented capabilities that emerge in models at large scales. On the vision side, transformer models (i.e., ViT) are following the same trend, achieving the best performance on challenging benchmarks. With the abundance of such unimodal models, a natural question arises; do we need also to follow this trend to tackle multimodal tasks? In this work, we propose to rather direct effort to efficient adaptations of existing models, and propose to augment Language Models with perception. Existing approaches for adapting pretrained models for vision-language tasks still rely on several key components that hinder their efficiency. In particular, they still train a large number of parameters, rely on large multimodal pretraining, use encoders (e.g., CLIP) trained on huge image-text datasets, and add significant inference overhead. In addition, most of these approaches have focused on Zero-Shot and In Context Learning, with little to no effort on direct finetuning. We investigate the minimal computational effort needed to adapt unimodal models for multimodal tasks and propose a new challenging setup, alongside different approaches, that efficiently adapts unimodal pretrained models. We show that by freezing more than 99% of total parameters, training only one linear projection layer, and prepending only one trainable token, our approach (dubbed eP-ALM) significantly outperforms other baselines on VQA and Captioning across Image, Video, and Audio modalities, following the proposed setup. The code is available here: https://github.com/mshukor/eP-ALM.
翻訳日:2023-10-30 18:32:12 公開日:2023-10-27
# 光子交換と真空揺らぎによってシードされるスピン及び運動量関連原子対

Spin- and momentum-correlated atom pairs mediated by photon exchange and seeded by vacuum fluctuations ( http://arxiv.org/abs/2303.11326v2 )

ライセンス: Link先を確認
Fabian Finger, Rodrigo Rosa-Medina, Nicola Reiter, Panagiotis Christodoulou, Tobias Donner, Tilman Esslinger(参考訳) 内部自由度と外部自由度を同時に相関する巨大な粒子の工学的ペアは大きな課題であるが、物理学と量子技術の基本的なテストを進めるには不可欠である。 本研究では、スピンモードと運動量モードで原子対を生成する機構を実験的に実証する。 この機構は、縮退したボースガスから超放射光子交換過程を光学キャビティで結合し、対を1つまたは2つの識別可能なチャネルで生成する。 このスキームは衝突相互作用とは独立であり、高速で調整可能である。 運動量空間におけるペアの生成とスピン間の相関を総合的に観測した。 我々は初期対統計を特徴付け、観測された力学は対応する原子モードの真空ゆらぎによって主にシードされるのと一致している。 運動量モードをよく定義したコヒーレント多体振動の観測と合わせて,量子エンハンス干渉法および量子シミュレーション実験の可能性を示す。

Engineering pairs of massive particles that are simultaneously correlated in their external and internal degrees of freedom is a major challenge, yet essential for advancing fundamental tests of physics and quantum technologies. In this work, we experimentally demonstrate a mechanism for generating pairs of atoms in well-defined spin and momentum modes. This mechanism couples atoms from a degenerate Bose gas via a superradiant photon-exchange process in an optical cavity, producing pairs via a single or two discernible channels. The scheme is independent of collisional interactions, fast and tunable. We observe a collectively enhanced production of pairs and probe inter-spin correlations in momentum space. We characterize the emergent pair statistics, and find that the observed dynamics is consistent with being primarily seeded by vacuum fluctuations in the corresponding atomic modes. Together with our observations of coherent many-body oscillations involving well-defined momentum modes, our results offer promising prospects for quantum-enhanced interferometry and quantum simulation experiments using entangled matter waves.
翻訳日:2023-10-30 18:31:38 公開日:2023-10-27
# McKean-Vlasov型PDEのためのエントロピー拡散インフォームニューラルネットワーク

Entropy-dissipation Informed Neural Network for McKean-Vlasov Type PDEs ( http://arxiv.org/abs/2303.11205v2 )

ライセンス: Link先を確認
Zebang Shen and Zhenfu Wang(参考訳) 我々は、Fokker-Planck方程式(FPE)の自己整合性の概念を、より一般的なMcKean-Vlasov方程式(MVE)に拡張する。 FPEはドリフトと拡散中の粒子のマクロな挙動を記述しているが、MVEは物理系においてしばしば非常に特異な粒子間相互作用を説明できる。 本稿では,クーロン相互作用を持つMVEと2次元ナビエ・ストークス方程式の渦性定式化について考察する。 一般化された自己整合ポテンシャルは、エントロピー散逸を通じて仮説解と基底真理の間のKL偏差を制御することを示す。 そこで本研究では,このポテンシャル関数を最小化し,関数近似にニューラルネットワークを活用し,mveの解法を提案する。 提案手法の実証的性能を,最先端のNNベースのPDEソルバと比較することにより検証した。

We extend the concept of self-consistency for the Fokker-Planck equation (FPE) to the more general McKean-Vlasov equation (MVE). While FPE describes the macroscopic behavior of particles under drift and diffusion, MVE accounts for the additional inter-particle interactions, which are often highly singular in physical systems. Two important examples considered in this paper are the MVE with Coulomb interactions and the vorticity formulation of the 2D Navier-Stokes equation. We show that a generalized self-consistency potential controls the KL-divergence between a hypothesis solution to the ground truth, through entropy dissipation. Built on this result, we propose to solve the MVEs by minimizing this potential function, while utilizing the neural networks for function approximation. We validate the empirical performance of our approach by comparing with state-of-the-art NN-based PDE solvers on several example problems.
翻訳日:2023-10-30 18:31:18 公開日:2023-10-27
# 合成体験リプレイ

Synthetic Experience Replay ( http://arxiv.org/abs/2303.06614v4 )

ライセンス: Link先を確認
Cong Lu, Philip J. Ball, Yee Whye Teh, Jack Parker-Holder(参考訳) 過去10年の主なテーマは、大規模なニューラルネットワークと大規模なデータセットを組み合わせることで、素晴らしい結果が得られることだ。 deep reinforcement learning(rl)では、このパラダイムは経験リプレイを通じて一般的に実現され、過去の経験のデータセットがポリシやバリュー関数のトレーニングに使用される。 しかし、教師付き学習や自己教師型学習とは異なり、RLエージェントは、しばしば制限される独自のデータを集める必要がある。 したがって、ディープラーニングのメリットを享受することは困難であり、トレーニング開始時に小さなニューラルネットワークでさえ過度に適合する可能性がある。 本研究では,生成モデルにおける最近の大きな進歩を活かし,エージェントの収集した経験を柔軟に評価するための拡散ベースアプローチであるsynthetic experience replay(synther)を提案する。 提案手法では,syntherはオフライン環境とオンライン環境でのrlエージェントのトレーニングに有効な手法であることを示す。 オフライン設定では、小さなオフラインデータセットをアップサンプリングする際の大幅な改善を観察し、追加の合成データによって、より大きなネットワークを効果的にトレーニングすることができることを確認する。 さらに、SynthERはオンラインエージェントが以前よりもはるかに高い更新とデータの比率でトレーニングできるので、アルゴリズムの変更なしにサンプル効率が大幅に向上する。 我々は、限られたデータからリプレイベースのRLアルゴリズムの深層学習の可能性を実現するために、合成トレーニングデータが扉を開くことができると考えている。 最後に、コードをhttps://github.com/conglu 1997/SynthER.comでオープンソース化します。

A key theme in the past decade has been that when large neural networks and large datasets combine they can produce remarkable results. In deep reinforcement learning (RL), this paradigm is commonly made possible through experience replay, whereby a dataset of past experiences is used to train a policy or value function. However, unlike in supervised or self-supervised learning, an RL agent has to collect its own data, which is often limited. Thus, it is challenging to reap the benefits of deep learning, and even small neural networks can overfit at the start of training. In this work, we leverage the tremendous recent progress in generative modeling and propose Synthetic Experience Replay (SynthER), a diffusion-based approach to flexibly upsample an agent's collected experience. We show that SynthER is an effective method for training RL agents across offline and online settings, in both proprioceptive and pixel-based environments. In offline settings, we observe drastic improvements when upsampling small offline datasets and see that additional synthetic data also allows us to effectively train larger networks. Furthermore, SynthER enables online agents to train with a much higher update-to-data ratio than before, leading to a significant increase in sample efficiency, without any algorithmic changes. We believe that synthetic training data could open the door to realizing the full potential of deep learning for replay-based RL algorithms from limited data. Finally, we open-source our code at https://github.com/conglu1997/SynthER.
翻訳日:2023-10-30 18:30:17 公開日:2023-10-27
# 依存データを用いた線形回帰における雑音レベル

The noise level in linear regression with dependent data ( http://arxiv.org/abs/2305.11165v2 )

ライセンス: Link先を確認
Ingvar Ziemann, Stephen Tu, George J. Pappas, Nikolai Matni(参考訳) 任意の実現可能性仮定を欠いた従属($-mixing)データを持つランダム設計線形回帰の上限を導出する。 厳密に実現可能なマーチンゲールノイズとは対照的に、鋭いインスタンス最適化非漸近は文献では利用できない。 一定因子まで,中央極限定理によって予測される分散項 -- 問題の雑音レベル -- を正しく復元し,不特定化を導入することで優雅な劣化を示す。 バーンインを過ぎると、中程度の偏差が顕著になり、特に時間因子を混合することで先行順序項が膨らむことはない。

We derive upper bounds for random design linear regression with dependent ($\beta$-mixing) data absent any realizability assumptions. In contrast to the strictly realizable martingale noise regime, no sharp instance-optimal non-asymptotics are available in the literature. Up to constant factors, our analysis correctly recovers the variance term predicted by the Central Limit Theorem -- the noise level of the problem -- and thus exhibits graceful degradation as we introduce misspecification. Past a burn-in, our result is sharp in the moderate deviations regime, and in particular does not inflate the leading order term by mixing time factors.
翻訳日:2023-10-30 18:20:24 公開日:2023-10-27
# 可積分系における量子クエンチ後の負三成分相互情報

Negative tripartite mutual information after quantum quenches in integrable systems ( http://arxiv.org/abs/2305.10245v2 )

ライセンス: Link先を確認
Fabio Caceffo, Vincenzo Alba(参考訳) 我々は、自由フェルミオン理論にマッピングできるスピン鎖の量子クエンチの後に三成分相互情報(tmi)の準粒子像を構築する。 非ゼロのTMI(等しくトポロジカルエントロピー)は、量子多体系の3つの領域間の量子相関を信号する。 tmiは2つ以上の準粒子の絡み合い多重に敏感であり、標準準粒子画像の絡み合いペアパラダイムを超えている。 驚くべきことに、いくつかの非自明な絡み合った多重数に対して、TMIは中間時間において負である。 これは、相互情報はホログラフィック理論と同様に単ガムであることを意味する。 反対に、「古典的に」絡み合っている多重対に対して、TMIは正である。 重要なことに、負のTMIは、多重項の絡み合いの内容が、ポストクエンチ定常状態を記述する一般化ギブズアンサンブル(GGE)に直接関連していないことを反映している。 したがって、TMIは絡み合いと熱力学の関係の弱みを観察する理想的なレンズである。 我々は、この結果をXX連鎖と横フィールドIsing鎖でベンチマークする。 長周期および大間隔の流体力学的限界において、その比が固定された正確な格子結果は準粒子像と一致する。

We build the quasiparticle picture for the tripartite mutual information (TMI) after quantum quenches in spin chains that can be mapped onto free-fermion theories. A nonzero TMI (equivalently, topological entropy) signals quantum correlations between three regions of a quantum many-body system. The TMI is sensitive to entangled multiplets of more than two quasiparticles, i.e., beyond the entangled-pair paradigm of the standard quasiparticle picture. Surprisingly, for some nontrivially entangled multiplets the TMI is negative at intermediate times. This means that the mutual information is monogamous, similar to holographic theories. Oppositely, for multiplets that are "classically" entangled, the TMI is positive. Crucially, a negative TMI reflects that the entanglement content of the multiplets is not directly related to the Generalized Gibbs Ensemble (GGE) that describes the post-quench steady state. Thus, the TMI is the ideal lens to observe the weakening of the relationship between entanglement and thermodynamics. We benchmark our results in the XX chain and in the transverse field Ising chain. In the hydrodynamic limit of long times and large intervals, with their ratio fixed, exact lattice results are in agreement with the quasiparticle picture.
翻訳日:2023-10-30 18:19:29 公開日:2023-10-27
# ConvXAI:人間とAIの科学的記述を支援するための会話による異種AI説明の提供

ConvXAI: Delivering Heterogeneous AI Explanations via Conversations to Support Human-AI Scientific Writing ( http://arxiv.org/abs/2305.09770v6 )

ライセンス: Link先を確認
Hua Shen, Chieh-Yang Huang, Tongshuang Wu, Ting-Hao 'Kenneth' Huang(参考訳) XAIメソッドの急激な収集にもかかわらず、ユーザーは依然として必要なAI説明を得るのに苦労している。 従来の研究では、チャットボットは動的ソリューションとして提案されていたが、現実的な人間のニーズに対する会話型XAIエージェントの効果的な設計は未検討のままである。 本稿では,AIを活用した科学書記タスクのための会話型XAIについて述べる。 人間の言語理論と形成的研究から,「多面的」,「制御可能性」,「混入的」,「文脈認識的ドリルダウン」の4つの設計根拠を同定した。 我々はそれらをインタラクティブなプロトタイプであるConvXAIに組み込み、対話を通じて科学的記述のための異種AI説明を容易にする。 21人のユーザによる2つの研究において、ConvXAIは、人間の知覚する理解と記述の改善にGUIベースのベースラインを上回ります。 本稿は,ConvXAIとのインタラクションにおける実践的人間利用パターンについても論じる。

Despite a surge collection of XAI methods, users still struggle to obtain required AI explanations. Previous research suggests chatbots as dynamic solutions, but the effective design of conversational XAI agents for practical human needs remains under-explored. This paper focuses on Conversational XAI for AI-assisted scientific writing tasks. Drawing from human linguistic theories and formative studies, we identify four design rationales: "multifaceted", "controllability", "mix-initiative", "context-aware drill-down". We incorporate them into an interactive prototype, ConvXAI, which facilitates heterogeneous AI explanations for scientific writing through dialogue. In two studies with 21 users, ConvXAI outperforms a GUI-based baseline on improving human-perceived understanding and writing improvement. The paper further discusses the practical human usage patterns in interacting with ConvXAI for scientific co-writing.
翻訳日:2023-10-30 18:19:11 公開日:2023-10-27
# 量子絡み合いを用いたプライベート製品計算

Private Product Computation using Quantum Entanglement ( http://arxiv.org/abs/2305.05993v2 )

ライセンス: Link先を確認
Ren\'e B{\o}dker Christensen and Petar Popovski(参考訳) そこで本研究では, エンタングル量子ビット対を用いて, 製品をプライベートに計算できることを示す。 より正確には、有限体からのプライベート入力を持つ2人の参加者は、共有ベル様の量子状態上で局所演算を行い、これらの量子ビットが後に第3の参加者に送られると、第3の参加者は入力の積を決定することができるが、個々の入力についてより詳しく知ることはない。 素数次任意の有限体に対する積計算を実現するための具体的方法を与える。

In this work, we show that a pair of entangled qubits can be used to compute a product privately. More precisely, two participants with a private input from a finite field can perform local operations on a shared, Bell-like quantum state, and when these qubits are later sent to a third participant, the third participant can determine the product of the inputs, but without learning more about the individual inputs. We give a concrete way to realize this product computation for arbitrary finite fields of prime order.
翻訳日:2023-10-30 18:18:27 公開日:2023-10-27
# 量子コンピュータ上での$\mathbb{Z}_2$格子ゲージ理論のシミュレーション

Simulating $\mathbb{Z}_2$ lattice gauge theory on a quantum computer ( http://arxiv.org/abs/2305.02361v2 )

ライセンス: Link先を確認
Clement Charles, Erik J. Gustafson, Elizabeth Hardt, Florian Herren, Norman Hogan, Henry Lamm, Sara Starecheski, Ruth S. Van de Water, Michael L. Wagman(参考訳) 格子ゲージ理論をシミュレートするための量子コンピュータの有用性は現在、物理ハードウェアのノイズによって制限されている。 様々な量子誤差軽減戦略は、改良されたアルゴリズムと分析戦略によって量子シミュレーションにおける統計的および体系的な不確実性を減少させる。 我々は1+1d$$\mathbb{Z}_2$ゲージ理論の量子シミュレーションを行い、読み出し誤差軽減法、ランダムコンパイル法、再スケーリング法、動的デカップリング法の有効性と相互作用を研究する。 この収束ゲージ理論におけるミンコフスキー相関関数を計算し、最も軽いスピン-1状態の質量を適合から時間依存まで抽出する。 量子誤差緩和は、相関関数の計算が6倍の精度で正確であり、信頼性の高い質量を得るのに不可欠である時間範囲を広げる。

The utility of quantum computers for simulating lattice gauge theories is currently limited by the noisiness of the physical hardware. Various quantum error mitigation strategies exist to reduce the statistical and systematic uncertainties in quantum simulations via improved algorithms and analysis strategies. We perform quantum simulations of $1+1d$ $\mathbb{Z}_2$ gauge theory with matter to study the efficacy and interplay of different error mitigation methods: readout error mitigation, randomized compiling, rescaling, and dynamical decoupling. We compute Minkowski correlation functions in this confining gauge theory and extract the mass of the lightest spin-1 state from fits to their time dependence. Quantum error mitigation extends the range of times over which our correlation function calculations are accurate by a factor of six and is therefore essential for obtaining reliable masses.
翻訳日:2023-10-30 18:17:48 公開日:2023-10-27
# 動的システムに基づく経路計画と教師なし学習を組み合わせた実生活環境の自動探索

Autonomous search of real-life environments combining dynamical system-based path planning and unsupervised learning ( http://arxiv.org/abs/2305.01834v2 )

ライセンス: Link先を確認
Uyiosa Philip Amadasun, Patrick McNamee, Zahra Nili Ahmadabadi, Peiman Naseradinmousavi(参考訳) 近年,環境条件が限定された空間の自律探索と横断にカオス的カバレッジ・パス・プランナーを使用することが目標となっている。 しかし、実験的な研究がほとんど行われていないため、この分野の状況はまだ初期段階にある。 現在の実験では、現実的な環境を適度なカバレッジ時間でスキャンするために、カオス的なカバレッジパスプランナーが克服する必要がある問題の即時セットを満足するロバストな方法が開発されていない。 これらの課題は,(1)ロボットの動きの運動効率を全般的に維持する障害物回避技術,(2)カバーが必要な環境(特に大型・複合型環境において重要な)にカオス軌道を拡大する手段,(3)正確な細胞サイズに依存しないリアルタイムカバレッジ計算技術である。 本稿では, 障害物回避, カオス軌道分散, 正確なカバレッジ計算を行う手法を提供することで, これらの問題に対処するアルゴリズムを提案することにより, 分野の進展を図ることを目的とする。 このアルゴリズムは一般に滑らかなカオス軌道を生成し、高い走査範囲の環境を提供する。 これらのアルゴリズムはROSフレームワーク内で作成され、新しく開発されたカオスパス計画アプリケーションを構成する。 このアプリケーションの性能は従来の最適経路プランナーに匹敵するものだった。 実環境とガゼボシミュレーションの両方において, 各種サイズ, 形状, 障害物密度の環境下で性能試験を行った。

In recent years, advancements have been made towards the goal of using chaotic coverage path planners for autonomous search and traversal of spaces with limited environmental cues. However, the state of this field is still in its infancy as there has been little experimental work done. Current experimental work has not developed robust methods to satisfactorily address the immediate set of problems a chaotic coverage path planner needs to overcome in order to scan realistic environments within reasonable coverage times. These immediate problems are as follows: (1) an obstacle avoidance technique which generally maintains the kinematic efficiency of the robot's motion, (2) a means to spread chaotic trajectories across the environment (especially crucial for large and/or complex-shaped environments) that need to be covered, and (3) a real-time coverage calculation technique that is accurate and independent of cell size. This paper aims to progress the field by proposing algorithms that address all of these problems by providing techniques for obstacle avoidance, chaotic trajectory dispersal, and accurate coverage calculation. The algorithms produce generally smooth chaotic trajectories and provide high scanning coverage of environments. These algorithms were created within the ROS framework and make up a newly developed chaotic path planning application. The performance of this application was comparable to that of a conventional optimal path planner. The performance tests were carried out in environments of various sizes, shapes, and obstacle densities, both in real-life and Gazebo simulations.
翻訳日:2023-10-30 18:17:34 公開日:2023-10-27
# 3次元顔モデルの実現に向けて

Towards Realistic Generative 3D Face Models ( http://arxiv.org/abs/2304.12483v3 )

ライセンス: Link先を確認
Aashish Rai, Hiresh Gupta, Ayush Pandey, Francisco Vicente Carrasco, Shingo Jason Takagi, Amaury Aubel, Daeil Kim, Aayush Prakash, Fernando de la Torre(参考訳) 近年,アニメーション,合成データ生成,デジタルアバターなどの応用によって2次元顔モデルが大幅に進歩している。 しかし、3D情報がないため、これらの2Dモデルは、ポーズ、表情、照明といった顔の特徴を正確に切り離すのに苦労し、編集能力を制限します。 そこで本稿では,既存の2次元生成モデルを用いて高品質なアルベドと高精度な3次元形状を実現するための3次元制御可能な生成顔モデルを提案する。 2次元顔生成モデルとセマンティック顔操作を組み合わせることで、詳細な3次元顔の編集を可能にする。 提案手法は形状とアルベドの交互降下最適化手法を用いる。 異なるレンダリングは高品質な形状とアルベドを3D監督なしで訓練するために使われる。 さらに、この手法は、形状再構成のためのよく知られたNoWベンチマークにおいて、最先端のSOTA法よりも優れている。 また、新しいポーズでレンダリングされた顔のアイデンティティを平均10%の精度で復元する際に、SOTA再構成モデルよりも優れている。 さらに, 3次元顔のテキスト編集につながる潜在空間を利用して, 3次元顔における表現の直接制御を示す。

In recent years, there has been significant progress in 2D generative face models fueled by applications such as animation, synthetic data generation, and digital avatars. However, due to the absence of 3D information, these 2D models often struggle to accurately disentangle facial attributes like pose, expression, and illumination, limiting their editing capabilities. To address this limitation, this paper proposes a 3D controllable generative face model to produce high-quality albedo and precise 3D shape leveraging existing 2D generative models. By combining 2D face generative models with semantic face manipulation, this method enables editing of detailed 3D rendered faces. The proposed framework utilizes an alternating descent optimization approach over shape and albedo. Differentiable rendering is used to train high-quality shapes and albedo without 3D supervision. Moreover, this approach outperforms the state-of-the-art (SOTA) methods in the well-known NoW benchmark for shape reconstruction. It also outperforms the SOTA reconstruction models in recovering rendered faces' identities across novel poses by an average of 10%. Additionally, the paper demonstrates direct control of expressions in 3D faces by exploiting latent space leading to text-based editing of 3D faces.
翻訳日:2023-10-30 18:16:54 公開日:2023-10-27
# chatgptは検索が得意か? エージェントとしての大規模言語モデルの検討

Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents ( http://arxiv.org/abs/2304.09542v2 )

ライセンス: Link先を確認
Weiwei Sun, Lingyong Yan, Xinyu Ma, Shuaiqiang Wang, Pengjie Ren, Zhumin Chen, Dawei Yin, Zhaochun Ren(参考訳) 大規模言語モデル(llm)は、検索エンジンを含む様々な言語関連タスクにわたる顕著なゼロショット一般化を示している。 しかし、既存の研究は、直接通過ランキングではなく、情報検索(IR)のためのLLMの生成能力を活用している。 LLMの事前学習目標とランキング目標との相違は、もうひとつの課題である。 本稿ではまず,ChatGPT や GPT-4 などのジェネレーティブ LLM をIR の関連性ランキングとして検討する。 意外なことに、我々の実験は、LLMを適切に訓練することで、一般的なIRベンチマークにおける最先端の教師付き手法に対して、競争力、さらには優れた結果を得ることができることを示した。 さらに,LSMのデータ汚染に関する懸念に対処するため,最新の知識に基づいて,未知の知識をランク付けするモデルの能力を検証することを目的とした,NovereEvalと呼ばれる新しいテストセットを収集した。 最後に, 実世界の応用における効率を向上させるため, 置換蒸留方式を用いてChatGPTのランキング能力を小型の特殊モデルに蒸留する可能性を探る。 その結果,蒸留した440MモデルはBEIRベンチマークで3B教師付きモデルよりも優れていた。 結果を再現するコードはwww.github.com/sunnweiwei/RankGPTで入手できる。

Large Language Models (LLMs) have demonstrated remarkable zero-shot generalization across various language-related tasks, including search engines. However, existing work utilizes the generative ability of LLMs for Information Retrieval (IR) rather than direct passage ranking. The discrepancy between the pre-training objectives of LLMs and the ranking objective poses another challenge. In this paper, we first investigate generative LLMs such as ChatGPT and GPT-4 for relevance ranking in IR. Surprisingly, our experiments reveal that properly instructed LLMs can deliver competitive, even superior results to state-of-the-art supervised methods on popular IR benchmarks. Furthermore, to address concerns about data contamination of LLMs, we collect a new test set called NovelEval, based on the latest knowledge and aiming to verify the model's ability to rank unknown knowledge. Finally, to improve efficiency in real-world applications, we delve into the potential for distilling the ranking capabilities of ChatGPT into small specialized models using a permutation distillation scheme. Our evaluation results turn out that a distilled 440M model outperforms a 3B supervised model on the BEIR benchmark. The code to reproduce our results is available at www.github.com/sunnweiwei/RankGPT.
翻訳日:2023-10-30 18:16:38 公開日:2023-10-27
# スケーラブルなシミュレーションに基づく推論のためのフローマッチング

Flow Matching for Scalable Simulation-Based Inference ( http://arxiv.org/abs/2305.17161v2 )

ライセンス: Link先を確認
Maximilian Dax, Jonas Wildberger, Simon Buchholz, Stephen R. Green, Jakob H. Macke, Bernhard Sch\"olkopf(参考訳) 離散正規化フローに基づく神経後部推定法はシミュレーションベース推論(SBI)の確立されたツールとなっているが,高次元問題への拡張は困難である。 本稿では, 連続正規化流を用いたsbi手法であるfmpe(flow matching posterior estimation)について述べる。 拡散モデルや離散フローとは対照的に、フローマッチングは制約のないアーキテクチャを可能にし、複雑なデータモダリティに対する柔軟性を高める。 したがって、フローマッチングは、正確な密度評価、高速なトレーニング、大規模なアーキテクチャへのシームレスなスケーラビリティを可能にします。 我々は,FMPEが確立したSBIベンチマーク上での競争性能を達成し,その拡張性を,重力波推論において,FMPEが同等の離散フローに基づく手法より優れ,トレーニング時間を30%短縮し,精度を大幅に向上することを示す。 我々の研究は、FMPEが挑戦的な推論シナリオのパフォーマンスを向上させる可能性を強調し、科学的な問題へのより高度な応用の道を開く。

Neural posterior estimation methods based on discrete normalizing flows have become established tools for simulation-based inference (SBI), but scaling them to high-dimensional problems can be challenging. Building on recent advances in generative modeling, we here present flow matching posterior estimation (FMPE), a technique for SBI using continuous normalizing flows. Like diffusion models, and in contrast to discrete flows, flow matching allows for unconstrained architectures, providing enhanced flexibility for complex data modalities. Flow matching, therefore, enables exact density evaluation, fast training, and seamless scalability to large architectures--making it ideal for SBI. We show that FMPE achieves competitive performance on an established SBI benchmark, and then demonstrate its improved scalability on a challenging scientific problem: for gravitational-wave inference, FMPE outperforms methods based on comparable discrete flows, reducing training time by 30% with substantially improved accuracy. Our work underscores the potential of FMPE to enhance performance in challenging inference scenarios, thereby paving the way for more advanced applications to scientific problems.
翻訳日:2023-10-30 18:09:10 公開日:2023-10-27
# 学習効率のよい視覚強化学習のための効果的な強化

Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning ( http://arxiv.org/abs/2305.16379v2 )

ライセンス: Link先を確認
Guozheng Ma, Linrui Zhang, Haoyu Wang, Lu Li, Zilin Wang, Zhen Wang, Li Shen, Xueqian Wang, Dacheng Tao(参考訳) データ拡張(da)は、視覚強化学習(rl)アルゴリズムのサンプル効率を向上させるための重要な技術である。 特に、単純な観察変換のみを用いると、追加の補助的な表現タスクや事前訓練されたエンコーダなしで優れた性能が得られる。 しかし, サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。 本研究は, この課題を解明し, DAの可能性を探るため, DAの属性が有効性に与える影響を評価するための総合的な実験を行い, 個々のDA操作において, 空間的多様性とわずかな硬さの両方が不可欠であることを明らかにする。 そこで,本研究ではランダムパドレサイズ (rand pr) を提案する。 2) 多種類のDA融合スキームでは,DA硬度の増加と不安定なデータ分布により,現在の融合スキームは個々の操作よりも高いサンプリング効率を達成できない。 RLの非定常的な性質を考慮に入れ,データ分散の整合性を維持しつつ,異なるDA操作の周期サイクルを実行し,型多様性を向上させるRL調整型多型DA融合スキーム(CycAug)を提案する。 DeepMind Control スイートと CARLA 駆動シミュレータの広範囲な評価により,本手法が従来の最先端手法に比べて優れたサンプル効率を実現することが示された。

Data augmentation (DA) is a crucial technique for enhancing the sample efficiency of visual reinforcement learning (RL) algorithms. Notably, employing simple observation transformations alone can yield outstanding performance without extra auxiliary representation tasks or pre-trained encoders. However, it remains unclear which attributes of DA account for its effectiveness in achieving sample-efficient visual RL. To investigate this issue and further explore the potential of DA, this work conducts comprehensive experiments to assess the impact of DA's attributes on its efficacy and provides the following insights and improvements: (1) For individual DA operations, we reveal that both ample spatial diversity and slight hardness are indispensable. Building on this finding, we introduce Random PadResize (Rand PR), a new DA operation that offers abundant spatial diversity with minimal hardness. (2) For multi-type DA fusion schemes, the increased DA hardness and unstable data distribution result in the current fusion schemes being unable to achieve higher sample efficiency than their corresponding individual operations. Taking the non-stationary nature of RL into account, we propose a RL-tailored multi-type DA fusion scheme called Cycling Augmentation (CycAug), which performs periodic cycles of different DA operations to increase type diversity while maintaining data distribution consistency. Extensive evaluations on the DeepMind Control suite and CARLA driving simulator demonstrate that our methods achieve superior sample efficiency compared with the prior state-of-the-art methods.
翻訳日:2023-10-30 18:08:50 公開日:2023-10-27
# テキスト・画像生成と評価のためのビジュアルプログラミング

Visual Programming for Text-to-Image Generation and Evaluation ( http://arxiv.org/abs/2305.15328v2 )

ライセンス: Link先を確認
Jaemin Cho, Abhay Zala, Mohit Bansal(参考訳) 多くのドメインで大きな言語モデルが印象的なパフォーマンスを示しているため、近年では視覚および言語タスクのためのビジュアルモジュールのコントローラとして言語モデル(lms)が採用されている。 既存の研究は、lmsを視覚的理解に活用することに焦点を当てているが、テキスト・ツー・イメージ(t2i)生成と評価のための2つの新しい解釈可能/説明可能なビジュアルプログラミングフレームワークを提案する。 まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。 最初の2つのステップ(object/count生成とlayout生成)をテキストレイアウトペアで微調整するためにlmを使用します。 我々のステップバイステップT2I生成フレームワークは、エンドツーエンドモデルよりも強力な空間制御を提供する。 さらに、事前に定義されたオブジェクトクラスのみを扱うことができる以前のレイアウト誘導T2I作業の制限を克服し、事前訓練されたLMの世界知識を活用する。 我々のVPGenは、最先端のT2I生成モデルよりも、オブジェクトのカウント/空間関係/スケールの制御を改善したことを示す。 第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。 従来のT2I評価と異なり、あるスキルでは正確だが他のスキルでは信頼性が低い単一のスコアリングモデルでは、VPEvalは異なるスキルの専門家である視覚モジュールのセットを呼び出す評価プログラムを生成し、評価結果の視覚的・テキスト的説明を提供する。 分析の結果、vpevalは、広く使われている単一モデルに基づく評価よりも、スキル固有のオープンエンドプロンプトに対して、より人間関係的な評価を提供することがわかった。 T2Iモデルの解釈・説明可能な生成・評価の今後の進展を期待する。

As large language models have demonstrated impressive performance in many domains, recent works have adopted language models (LMs) as controllers of visual modules for vision-and-language tasks. While existing work focuses on equipping LMs with visual understanding, we propose two novel interpretable/explainable visual programming frameworks for text-to-image (T2I) generation and evaluation. First, we introduce VPGen, an interpretable step-by-step T2I generation framework that decomposes T2I generation into three steps: object/count generation, layout generation, and image generation. We employ an LM to handle the first two steps (object/count generation and layout generation), by finetuning it on text-layout pairs. Our step-by-step T2I generation framework provides stronger spatial control than end-to-end models, the dominant approach for this task. Furthermore, we leverage the world knowledge of pretrained LMs, overcoming the limitation of previous layout-guided T2I works that can only handle predefined object classes. We demonstrate that our VPGen has improved control in counts/spatial relations/scales of objects than state-of-the-art T2I generation models. Second, we introduce VPEval, an interpretable and explainable evaluation framework for T2I generation based on visual programming. Unlike previous T2I evaluations with a single scoring model that is accurate in some skills but unreliable in others, VPEval produces evaluation programs that invoke a set of visual modules that are experts in different skills, and also provides visual+textual explanations of the evaluation results. Our analysis shows that VPEval provides a more human-correlated evaluation for skill-specific and open-ended prompts than widely used single model-based evaluation. We hope that our work encourages future progress on interpretable/explainable generation and evaluation for T2I models.
翻訳日:2023-10-30 18:08:23 公開日:2023-10-27
# ケースベース推論を用いた機械読解

Machine Reading Comprehension using Case-based Reasoning ( http://arxiv.org/abs/2305.14815v2 )

ライセンス: Link先を確認
Dung Thai, Dhruv Agarwal, Mudit Chaudhary, Rajarshi Das, Manzil Zaheer, Jay-Yoon Lee, Hannaneh Hajishirzi, Andrew McCallum(参考訳) 本稿では,古典的AIからケースベース推論(CBR)を連想させる機械読解における解答抽出法を提案する。 提案手法(cbr-mrc)は,類似質問に対する文脈的回答が相互に意味的類似性を持つという仮説に基づいている。 テスト質問が与えられた場合、CBR-MRCはまず、非パラメトリックメモリから類似したケースの集合を検索し、次に、検索されたケースの回答の文脈化された表現に最もよく似たテストコンテキストにおけるスパンを選択することで、回答を予測する。 このアプローチの半パラメトリックな性質により、特定のエビデンスケースのセットに予測を関連付けることができ、信頼性とデバッグ可能なQAシステムを構築する上で望ましい選択となる。 我々は,CBR-MRCが大規模リーダモデルに匹敵する精度を示し,NaturalQuestionsとNewsQAでそれぞれ11.5と8.4のEMでベースラインを上回ります。 さらに,CBR-MRCが正解トークンだけでなく,最も関連性の高い証拠も識別できることを示す。 そして,CBR-MRCは,完全パラメトリック手法を用いた性能が低下する一方で,これらの変動に対して頑健であることが確認された。

We present an accurate and interpretable method for answer extraction in machine reading comprehension that is reminiscent of case-based reasoning (CBR) from classical AI. Our method (CBR-MRC) builds upon the hypothesis that contextualized answers to similar questions share semantic similarities with each other. Given a test question, CBR-MRC first retrieves a set of similar cases from a non-parametric memory and then predicts an answer by selecting the span in the test context that is most similar to the contextualized representations of answers in the retrieved cases. The semi-parametric nature of our approach allows it to attribute a prediction to the specific set of evidence cases, making it a desirable choice for building reliable and debuggable QA systems. We show that CBR-MRC provides high accuracy comparable with large reader models and outperforms baselines by 11.5 and 8.4 EM on NaturalQuestions and NewsQA, respectively. Further, we demonstrate the ability of CBR-MRC in identifying not just the correct answer tokens but also the span with the most relevant supporting evidence. Lastly, we observe that contexts for certain question types show higher lexical diversity than others and find that CBR-MRC is robust to these variations while performance using fully-parametric methods drops.
翻訳日:2023-10-30 18:07:49 公開日:2023-10-27
# 画像キャプションのための様々なコンテキスト内構成の探索

Exploring Diverse In-Context Configurations for Image Captioning ( http://arxiv.org/abs/2305.14800v4 )

ライセンス: Link先を確認
Xu Yang, Yongliang Wu, Mingzhuo Yang, Haokun Chen, Xin Geng(参考訳) 言語モデル(LM)が文脈内数ショット学習者にとって良いことを発見した後、コンテキスト内シーケンス設定を最適化するための多くの戦略が提案されている。 近年、Vision-Language(VL)ドメインの研究者たちは、最も単純な方法であるieしか使用せずに、数発の学習者も開発している。 テキスト内のイメージとテキストのペアを設定する。 様々な構成がVLインコンテキスト学習に与える影響を検討するために,画像選択のための4つの戦略と,画像キャプションのためのインコンテキスト画像-テキストペアを構成するキャプション代入のための4つの戦略を考案した。 ここでは、視覚条件のLMとして見ることができるため、ケーススタディとして画像キャプションが使用される。 我々の総合的な実験は2つの反直感的だが有意義な洞察を与え、マルチモーダル・シナジーによるVLインコンテキスト学習の特徴をNLPの場合と比較した。 さらに, 最適組み合わせ戦略の探索において, ベースラインと比較して20.7のciderスコアを平均的に向上させた。 コードはhttps://github.com/yongliang-wu/explorecfgで与えられる。

After discovering that Language Models (LMs) can be good in-context few-shot learners, numerous strategies have been proposed to optimize in-context sequence configurations. Recently, researchers in Vision-Language (VL) domains also develop their few-shot learners, while they only use the simplest way, ie., randomly sampling, to configure in-context image-text pairs. In order to explore the effects of varying configurations on VL in-context learning, we devised four strategies for image selection and four for caption assignment to configure in-context image-text pairs for image captioning. Here Image Captioning is used as the case study since it can be seen as the visually-conditioned LM. Our comprehensive experiments yield two counter-intuitive but valuable insights, highlighting the distinct characteristics of VL in-context learning due to multi-modal synergy, as compared to the NLP case. Furthermore, in our exploration of optimal combination strategies, we observed an average performance enhancement of 20.7 of CIDEr scores compared to the baseline. The code is given in https://github.com/yongliang-wu/ExploreCfg.
翻訳日:2023-10-30 18:07:23 公開日:2023-10-27
# DUBLIN -- 言語画像ネットワークによる文書理解

DUBLIN -- Document Understanding By Language-Image Network ( http://arxiv.org/abs/2305.14218v4 )

ライセンス: Link先を確認
Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu, Monojit Choudhury, Hardik Hansrajbhai Chauhan, Subhojit Som, Vishrav Chaudhary, Saurabh Tiwary(参考訳) 視覚的文書理解は、文書画像中のテキストとビジュアル要素の両方を分析する複雑なタスクである。 既存のモデルは、しばしば手動の機能エンジニアリングやドメイン固有のパイプラインに依存しており、異なるドキュメントタイプや言語での一般化能力を制限する。 本稿では,文書画像の空間的情報と意味的情報の両方を活用する,masked Document Text Generation Task,Bunding Box Task,Rendered Question Answering Taskの3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。 本モデルは,webベースの構造的読解,文書の視覚的質問応答,キー情報抽出,ダイアグラム理解,テーブル質問応答など,いくつかのベンチマークにおいて,競争的あるいは最先端的な結果を達成する。 特に, DUBLIN は WebSRC データセット上で 77.75 と 84.25 の EM を達成する最初のピクセルベースモデルであることを示す。 また,我々のモデルでは,docvqa,infographicsvqa,ocr-vqa,ai2dデータセットの画素ベースのsataモデルが4.6%,6.5%,2.6%,21%であった。 また、RVL-CDIP文書分類における競合性能も達成する。 さらに、文書画像としてレンダリングすることでテキストベースのデータセットの新しいベースラインを作成し、この方向の研究を促進する。

Visual document understanding is a complex task that involves analyzing both the text and the visual elements in document images. Existing models often rely on manual feature engineering or domain-specific pipelines, which limit their generalization ability across different document types and languages. In this paper, we propose DUBLIN, which is pretrained on web pages using three novel objectives: Masked Document Text Generation Task, Bounding Box Task, and Rendered Question Answering Task, that leverage both the spatial and semantic information in the document images. Our model achieves competitive or state-of-the-art results on several benchmarks, such as Web-Based Structural Reading Comprehension, Document Visual Question Answering, Key Information Extraction, Diagram Understanding, and Table Question Answering. In particular, we show that DUBLIN is the first pixel-based model to achieve an EM of 77.75 and F1 of 84.25 on the WebSRC dataset. We also show that our model outperforms the current pixel-based SOTA models on DocVQA, InfographicsVQA, OCR-VQA and AI2D datasets by 4.6%, 6.5%, 2.6% and 21%, respectively. We also achieve competitive performance on RVL-CDIP document classification. Moreover, we create new baselines for text-based datasets by rendering them as document images to promote research in this direction.
翻訳日:2023-10-30 18:06:20 公開日:2023-10-27
# テキストからSQLへのチェーン型プロンプトの探索

Exploring Chain-of-Thought Style Prompting for Text-to-SQL ( http://arxiv.org/abs/2305.14215v2 )

ライセンス: Link先を確認
Chang-You Tai, Ziru Chen, Tianshu Zhang, Xiang Deng and Huan Sun(参考訳) 大規模言語モデル(llms)を用いたコンテキスト内学習は、様々なタスクにおいて優れた少数ショットパフォーマンスのため、最近注目を集めている。 しかし、テキストからsqlへのパースのパフォーマンスは改善の余地がある。 本稿では,LLMのテキスト-SQL解析における重要な側面が多段階推論能力である,という仮説を立てる。 そこで我々は,思考の連鎖(CoT)スタイルのプロンプト(Wei et al.,2022b)や最短のプロンプト(Zhou et al.,2023)などを通じて,LLMの推論能力を高める方法を体系的に研究した。 Zhouら(2023)のような反復的なプロンプトは、テキストからSQLへのパースには不要であり、詳細な推論手順を使用すると、よりエラーの伝播の問題が発生する傾向にある。 そこで本研究では,テキストからSQLへの解析のための新しいCoTスタイルのプロンプト手法を提案する。 クモの現像集合とクモの写実的集合にそれぞれ5.2ポイントと6.5ポイントの絶対ゲインをもたらし、推理段階のない標準プロンプト法と比べて2.4ポイントと1.5ポイントの絶対ゲインをもたらす。

In-context learning with large language models (LLMs) has recently caught increasing attention due to its superior few-shot performance on various tasks. However, its performance on text-to-SQL parsing still has much room for improvement. In this paper, we hypothesize that a crucial aspect of LLMs to improve for text-to-SQL parsing is their multi-step reasoning ability. Thus, we systematically study how to enhance LLMs' reasoning ability through chain of thought (CoT) style prompting, including the original chain-of-thought prompting (Wei et al., 2022b) and least-to-most prompting (Zhou et al., 2023). Our experiments demonstrate that iterative prompting as in Zhou et al. (2023) may be unnecessary for text-to-SQL parsing, and using detailed reasoning steps tends to have more error propagation issues. Based on these findings, we propose a new CoT-style prompting method for text-to-SQL parsing. It brings 5.2 and 6.5 point absolute gains on the Spider development set and the Spider Realistic set, respectively, compared to the standard prompting method without reasoning steps; 2.4 and 1.5 point absolute gains, compared to the least-to-most prompting method.
翻訳日:2023-10-30 18:05:53 公開日:2023-10-27
# 大規模言語モデルは人間の声を抑えることができるか?

Can Large Language Models Capture Dissenting Human Voices? ( http://arxiv.org/abs/2305.13788v2 )

ライセンス: Link先を確認
Noah Lee, Na Min An and James Thorne(参考訳) 大規模言語モデル(LLM)は、幅広いタスクの解決において素晴らしい成果を上げている。 命令の微調整により、llmはゼロショット設定でも一般化することが示されている。 しかし、LLMが人間の不一致分布と密接に一致しているかどうかは、特に自然言語推論(NLI)の範囲内ではよく研究されていない。 本稿では,多項分布を推定する手法であるモンテカルロ推定 (mce) とログ確率推定 (lpe) を用いて,人間とllm分布の性能とアライメントを評価する。 その結果、llmはnli課題の解決に限定的な能力を示し、同時に人間の不一致分布を捉えられなかった。 推論と人間のアライメントのパフォーマンスは、人間の不一致レベルが高いデータサンプルにさらに依存し、自然言語理解(nlu)能力とより大きな人口に対する代表性に関する懸念が高まった。 実験のソースコードはhttps://github.com/xfactlab/emnlp2023-llm-disagreementで入手できる。

Large language models (LLMs) have shown impressive achievements in solving a broad range of tasks. Augmented by instruction fine-tuning, LLMs have also been shown to generalize in zero-shot settings as well. However, whether LLMs closely align with the human disagreement distribution has not been well-studied, especially within the scope of natural language inference (NLI). In this paper, we evaluate the performance and alignment of LLM distribution with humans using two different techniques to estimate the multinomial distribution: Monte Carlo Estimation (MCE) and Log Probability Estimation (LPE). As a result, we show LLMs exhibit limited ability in solving NLI tasks and simultaneously fail to capture human disagreement distribution. The inference and human alignment performances plunge even further on data samples with high human disagreement levels, raising concerns about their natural language understanding (NLU) ability and their representativeness to a larger human population. The source code for the experiments is available at https://github.com/xfactlab/emnlp2023-LLM-Disagreement
翻訳日:2023-10-30 18:05:29 公開日:2023-10-27
# Clembench: チャット最適化言語モデルを会話エージェントとして評価するためにゲームプレイを使用する

Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as Conversational Agents ( http://arxiv.org/abs/2305.13455v2 )

ライセンス: Link先を確認
Kranti Chalamalasetti and Jana G\"otze and Sherzod Hakimov and Brielen Madureira and Philipp Sadler and David Schlangen(参考訳) 近年,豊かな言語的・非言語的文脈で行動する「言語理解エージェント(situated language understanding agents)」-エイジェントを,注意深く構築された対話的環境でテストすることで体系的に評価する手法が提案されている。 その他の最近の研究は、もし適切に設定されたとしても、Large Language Models (LLMs) はそのようなエージェント(シミュレーション)として理解できると主張している。 LLMは、特定の機能に挑戦するために構築された制約付きゲームライクな設定に公開することで、有意義に評価することができますか? そこで本研究では,現在のチャット最適化LDMがゲームプレイの指示に従うことができる程度に,5つのインタラクション設定について検討する。 この能力とゲームプレイの品質は、異なるゲームの目的がどの程度うまく満たされているかによって測定され、開発サイクルに従って、より新しいモデルのパフォーマンスが向上する。 比較的単純な例のゲームでもメトリクスは飽和していないため、提案された機器は診断値を持つことになる。 LLMを使ったゲームの実装と評価のための一般的なフレームワークはhttps://github.com/clp-research/clembench.comにある。

Recent work has proposed a methodology for the systematic evaluation of "Situated Language Understanding Agents"-agents that operate in rich linguistic and non-linguistic contexts-through testing them in carefully constructed interactive settings. Other recent work has argued that Large Language Models (LLMs), if suitably set up, can be understood as (simulators of) such agents. A connection suggests itself, which this paper explores: Can LLMs be evaluated meaningfully by exposing them to constrained game-like settings that are built to challenge specific capabilities? As a proof of concept, this paper investigates five interaction settings, showing that current chat-optimised LLMs are, to an extent, capable to follow game-play instructions. Both this capability and the quality of the game play, measured by how well the objectives of the different games are met, follows the development cycle, with newer models performing better. The metrics even for the comparatively simple example games are far from being saturated, suggesting that the proposed instrument will remain to have diagnostic value. Our general framework for implementing and evaluating games with LLMs is available at https://github.com/clp-research/clembench.
翻訳日:2023-10-30 18:04:52 公開日:2023-10-27
# MultiTurnCleanup: マルチTurnの会話トランスクリプトクリーンアップのためのベンチマーク

MultiTurnCleanup: A Benchmark for Multi-Turn Spoken Conversational Transcript Cleanup ( http://arxiv.org/abs/2305.12029v2 )

ライセンス: Link先を確認
Hua Shen, Vicky Zayats, Johann C. Rocholl, Daniel D. Walker, Dirk Padfield(参考訳) 現在のディフルエンシ検出モデルは、1つの話者からの個々の発話に焦点を当てている。 しかし,複数回にまたがる会話書き起こしにおける不連続現象が多数発生し,人間の可読性を阻害し,下流のNLPタスクの性能が低下する。 本研究は,会話の書き起こしに革新的なマルチトゥルンクリーンアップタスクを提案し,新たなデータセットであるMultiTurnCleanup1を収集することによって,これらの現象に対処する。 データラベリングスキーマを設計し,高品質なデータセットを収集し,広範なデータ分析を行う。 さらに,2つのモデリング手法を実験的評価に活用し,今後の研究のベンチマークを行う。

Current disfluency detection models focus on individual utterances each from a single speaker. However, numerous discontinuity phenomena in spoken conversational transcripts occur across multiple turns, hampering human readability and the performance of downstream NLP tasks. This study addresses these phenomena by proposing an innovative Multi-Turn Cleanup task for spoken conversational transcripts and collecting a new dataset, MultiTurnCleanup1. We design a data labeling schema to collect the high-quality dataset and provide extensive data analysis. Furthermore, we leverage two modeling approaches for experimental evaluation as benchmarks for future research.
翻訳日:2023-10-30 18:04:07 公開日:2023-10-27
# tie-merging: モデルマージ時の干渉を解決する

TIES-Merging: Resolving Interference When Merging Models ( http://arxiv.org/abs/2306.01708v2 )

ライセンス: Link先を確認
Prateek Yadav, Derek Tam, Leshem Choshen, Colin Raffel, Mohit Bansal(参考訳) トランスファーラーニング(Transfer Learning) - 下流タスクで事前訓練されたモデルをさらに微調整することで、下流のパフォーマンスの向上、収束の高速化、サンプル効率の向上など、大きなメリットを期待できる。 これらの利点は、通常1つのタスクしか実行できず、互いに恩恵を受けないタスク固有の微調整モデルの普及につながっている。 近年,複数のタスク固有のモデルを追加のトレーニングを行わずに単一のマルチタスクモデルに組み合わせる手法として,モデルマージ技術が登場している。 しかし、既存のマージ手法は異なるモデルのパラメータ間の干渉を無視することが多く、複数のモデルのマージ時に大きなパフォーマンス低下が発生する。 本稿では,2つの主要な干渉源により,事前統合技術が必然的に貴重な情報を失うことを実証する。 (a)冗長パラメータ値による干渉と (b)モデル間のパラメータの値の符号の不一致。 そこで本研究では,(1)微調整時に少量しか変化しないパラメータの再設定,(2)符号衝突の解消,(3)最終合意符号と一致したパラメータのみをマージする,という3つの新しいステップを導入する手法であるtrim,elect sign & merge (ties-merging)を提案する。 TIES-Mergingは、様々なモード、ドメイン、タスク数、モデルサイズ、アーキテクチャ、微調整設定を含む様々な設定において、既存のメソッドよりも優れています。 さらに,モデルパラメータに対する様々な干渉の影響を解析し,符号干渉の解消の重要性を強調した。 私たちのコードはhttps://github.com/prateeky2806/ties-mergingで利用可能です。

Transfer learning - i.e., further fine-tuning a pre-trained model on a downstream task - can confer significant advantages, including improved downstream performance, faster convergence, and better sample efficiency. These advantages have led to a proliferation of task-specific fine-tuned models, which typically can only perform a single task and do not benefit from one another. Recently, model merging techniques have emerged as a solution to combine multiple task-specific models into a single multitask model without performing additional training. However, existing merging methods often ignore the interference between parameters of different models, resulting in large performance drops when merging multiple models. In this paper, we demonstrate that prior merging techniques inadvertently lose valuable information due to two major sources of interference: (a) interference due to redundant parameter values and (b) disagreement on the sign of a given parameter's values across models. To address this, we propose our method, TRIM, ELECT SIGN & MERGE (TIES-Merging), which introduces three novel steps when merging models: (1) resetting parameters that only changed a small amount during fine-tuning, (2) resolving sign conflicts, and (3) merging only the parameters that are in alignment with the final agreed-upon sign. We find that TIES-Merging outperforms several existing methods in diverse settings covering a range of modalities, domains, number of tasks, model sizes, architectures, and fine-tuning settings. We further analyze the impact of different types of interference on model parameters, and highlight the importance of resolving sign interference. Our code is available at https://github.com/prateeky2806/ties-merging
翻訳日:2023-10-30 17:57:13 公開日:2023-10-27
# 曲率感度モデルによる連続結果の部分的反事実同定

Partial Counterfactual Identification of Continuous Outcomes with a Curvature Sensitivity Model ( http://arxiv.org/abs/2306.01424v2 )

ライセンス: Link先を確認
Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel(参考訳) 反事実推論は、レトロスペクティブの "what if" 質問に答えることを目的としており、パールの因果関係のはしごで最もきめ細かい推論のタイプに属する。 連続的な結果に対する反実的推論の既存の方法は、点同定を目標とし、基礎となる構造因果モデルについて強く不自然な仮定を行う。 本稿では,これらの仮定を緩和し,反事実クエリが有意な境界を持つ無知区間に存在する場合,連続的な結果の部分的反事実識別を目指す。 我々は,構造的因果モデルの関数が連続的に微分可能である場合,反事実的問合せの無知区間が非帰納的境界を持つことを一般に証明する。 治療として, 曲率感度モデルという新しい感度モデルを提案する。 これにより、関数のレベル集合の曲率を有界にすることで、情報的境界を得ることができる。 さらに, 曲率の限界がゼロに設定された場合, 既存の点反事実同定手法が曲率感度モデルの特別な場合であることを示す。 そこで我々は,Augmented Pseudo-Invertible Decoderと呼ばれる新しい深層生成モデルの形で,曲率感性モデルの実装を提案する。 我々の実施は (i)残差正規化流 (ii)変分増補。 拡張擬似可逆デコーダの有効性を実証的に示す。 我々の知る限りでは、マルコフ構造因果モデルに連続的な結果を持つ最初の部分的同定モデルである。

Counterfactual inference aims to answer retrospective "what if" questions and thus belongs to the most fine-grained type of inference in Pearl's causality ladder. Existing methods for counterfactual inference with continuous outcomes aim at point identification and thus make strong and unnatural assumptions about the underlying structural causal model. In this paper, we relax these assumptions and aim at partial counterfactual identification of continuous outcomes, i.e., when the counterfactual query resides in an ignorance interval with informative bounds. We prove that, in general, the ignorance interval of the counterfactual queries has non-informative bounds, already when functions of structural causal models are continuously differentiable. As a remedy, we propose a novel sensitivity model called Curvature Sensitivity Model. This allows us to obtain informative bounds by bounding the curvature of level sets of the functions. We further show that existing point counterfactual identification methods are special cases of our Curvature Sensitivity Model when the bound of the curvature is set to zero. We then propose an implementation of our Curvature Sensitivity Model in the form of a novel deep generative model, which we call Augmented Pseudo-Invertible Decoder. Our implementation employs (i) residual normalizing flows with (ii) variational augmentations. We empirically demonstrate the effectiveness of our Augmented Pseudo-Invertible Decoder. To the best of our knowledge, ours is the first partial identification model for Markovian structural causal models with continuous outcomes.
翻訳日:2023-10-30 17:56:42 公開日:2023-10-27
# オブジェクトポップアップ:人間のインタラクションだけで3Dオブジェクトとそのポーズを推測できますか?

Object pop-up: Can we infer 3D objects and their poses from human interactions alone? ( http://arxiv.org/abs/2306.00777v2 )

ライセンス: Link先を確認
Ilya A. Petrov, Riccardo Marin, Julian Chibane, Gerard Pons-Moll(参考訳) 物体と人間のポーズの間の密接な絡み合いは、行動科学、認知心理学、コンピュータビジョンのコミュニティにとって、特に大きな関心事である。 近年では、アイテムから学び、人間のポーズとダイナミクスを現実的な方法で合成し、幾何学的および機能的期待の両方を満たす、オブジェクト中心のアプローチが開発されている。 しかし、逆の視点は明らかに研究されていない。3Dオブジェクトとそのポーズを人間の相互作用だけで推測できるのか? 私たちの調査では、一般的な3dヒューマンポイントクラウドは、ユーザーが機能(例えば双眼鏡を通して見る)を模倣しているだけでは、目立たないオブジェクトをポップアップするのに十分であることが示されています。 本手法は,xr/vrに適用可能な合成データとシーケンスを用いて,定性的かつ定量的に検証する。 コードはhttps://github.com/ptrvilya/object-popupで入手できる。

The intimate entanglement between objects affordances and human poses is of large interest, among others, for behavioural sciences, cognitive psychology, and Computer Vision communities. In recent years, the latter has developed several object-centric approaches: starting from items, learning pipelines synthesizing human poses and dynamics in a realistic way, satisfying both geometrical and functional expectations. However, the inverse perspective is significantly less explored: Can we infer 3D objects and their poses from human interactions alone? Our investigation follows this direction, showing that a generic 3D human point cloud is enough to pop up an unobserved object, even when the user is just imitating a functionality (e.g., looking through a binocular) without involving a tangible counterpart. We validate our method qualitatively and quantitatively, with synthetic data and sequences acquired for the task, showing applicability for XR/VR. The code is available at https://github.com/ptrvilya/object-popup.
翻訳日:2023-10-30 17:55:52 公開日:2023-10-27
# Trncated Affinity Maximization: グラフ異常検出のための一級ホモフィリモデリング

Truncated Affinity Maximization: One-class Homophily Modeling for Graph Anomaly Detection ( http://arxiv.org/abs/2306.00006v3 )

ライセンス: Link先を確認
Hezhe Qiao and Guansong Pang(参考訳) 実世界のグラフ異常検出(GAD)データセットで経験的に見られる1つの一般的な特性は、通常のノードは互いに強い接続/親和性を持つ傾向にあり、一方異常ノードのホモフィリは通常のノードよりも著しく弱い。 しかし、この異常識別特性は、データ再構成のような従来の異常検出目的を用いて構築される既存のGAD法では無視される。 本研究では,GAD の非教師付き異常評価尺度 (ローカルノード親和性) を導入し,ノード属性/表現の類似性として定義される親和性を用いて,隣接ノードの関連性が低いノードにより大きな異常スコアを割り当てる。 さらに, 隣接ノードの局所親和性を最大化することにより, 異常測度に適したノード表現を学習するTruncated Affinity Maximization (TAM)を提案する。 元のグラフ構造に最適化することは、非ホモフィリーエッジ(つまり正常ノードと異常ノードを接続するエッジ)によってバイアスされる。 したがって、tamはこのバイアスを緩和するために非ホモフィリーエッジを反復的に削除する切断グラフに最適化される。 学習された表現は、正常なノードに対して異常なノードよりもはるかに強い局所親和性をもたらす。 6つの実世界のGADデータセットに対する大規模な実験結果によると、TAMは7つの競合モデルを大幅に上回り、AUROC/AUPRCの10%以上を達成している。 私たちのコードはhttps: //github.com/mala-lab/TAM-master/で利用可能になります。

One prevalent property we find empirically in real-world graph anomaly detection (GAD) datasets is a one-class homophily, i.e., normal nodes tend to have strong connection/affinity with each other, while the homophily in abnormal nodes is significantly weaker than normal nodes. However, this anomaly-discriminative property is ignored by existing GAD methods that are typically built using a conventional anomaly detection objective, such as data reconstruction. In this work, we explore this property to introduce a novel unsupervised anomaly scoring measure for GAD -- local node affinity -- that assigns a larger anomaly score to nodes that are less affiliated with their neighbors, with the affinity defined as similarity on node attributes/representations. We further propose Truncated Affinity Maximization (TAM) that learns tailored node representations for our anomaly measure by maximizing the local affinity of nodes to their neighbors. Optimizing on the original graph structure can be biased by non-homophily edges (i.e., edges connecting normal and abnormal nodes). Thus, TAM is instead optimized on truncated graphs where non-homophily edges are removed iteratively to mitigate this bias. The learned representations result in significantly stronger local affinity for normal nodes than abnormal nodes. Extensive empirical results on six real-world GAD datasets show that TAM substantially outperforms seven competing models, achieving over 10% increase in AUROC/AUPRC compared to the best contenders on challenging datasets. Our code will be made available at https: //github.com/mala-lab/TAM-master/.
翻訳日:2023-10-30 17:55:04 公開日:2023-10-27
# 投薬組み合わせのための信頼性のあるオフポリシー学習

Reliable Off-Policy Learning for Dosage Combinations ( http://arxiv.org/abs/2305.19742v2 )

ライセンス: Link先を確認
Jonas Schweisthal, Dennis Frauen, Valentyn Melnychuk, Stefan Feuerriegel(参考訳) がん治療や重篤な治療などのパーソナライズド医療における意思決定は、しばしば服用の組み合わせ、すなわち複数の継続的治療を選択する必要がある。 既存の作業は、個別に複数の治療の効果をモデル化し、共同効果を推定することはほとんど注目されていないが、非自明な課題が伴っている。 本稿では, 投薬の組み合わせに対する信頼性の高いオフポリシー学習法を提案する。 提案手法は3つのステップに沿って進行する: 1) 複数の依存量による連関効果を考慮しつつ、個別化された線量応答関数を推定するニューラルネットワークを開発する。 2) 共変量処理空間の重複が限定された領域を検出するために, 条件付き正規化フローを用いた一般化確率スコアを推定する。 (3)最適な個別化量の組み合わせを見つけるための勾配に基づく学習アルゴリズムを提案する。 ここでは,重複の少ない地域を避けて,政策価値の信頼性の高い推定を行う。 最終的に,本手法の有効性を示すため,広範囲な評価を行った。 我々の知識を最大限に活用するため、我々の研究は最適な投与量の組合せのための信頼できるオフポリシー学習の方法を提供する最初の研究である。

Decision-making in personalized medicine such as cancer therapy or critical care must often make choices for dosage combinations, i.e., multiple continuous treatments. Existing work for this task has modeled the effect of multiple treatments independently, while estimating the joint effect has received little attention but comes with non-trivial challenges. In this paper, we propose a novel method for reliable off-policy learning for dosage combinations. Our method proceeds along three steps: (1) We develop a tailored neural network that estimates the individualized dose-response function while accounting for the joint effect of multiple dependent dosages. (2) We estimate the generalized propensity score using conditional normalizing flows in order to detect regions with limited overlap in the shared covariate-treatment space. (3) We present a gradient-based learning algorithm to find the optimal, individualized dosage combinations. Here, we ensure reliable estimation of the policy value by avoiding regions with limited overlap. We finally perform an extensive evaluation of our method to show its effectiveness. To the best of our knowledge, ours is the first work to provide a method for reliable off-policy learning for optimal dosage combinations.
翻訳日:2023-10-30 17:54:32 公開日:2023-10-27
# 自己教師あり画像再構成法のサンプル複雑さの解析

Analyzing the Sample Complexity of Self-Supervised Image Reconstruction Methods ( http://arxiv.org/abs/2305.19079v2 )

ライセンス: Link先を確認
Tobit Klug, Dogukan Atik, Reinhard Heckel(参考訳) クリーンな画像とノイズ測定のペアによるディープニューラルネットワークのトレーニングは、多くの画像再構成タスクにおいて最先端のパフォーマンスを達成するが、そのようなトレーニングペアの収集は困難である。 自己監督手法は、クリーンな画像なしでノイズ測定のみに基づくトレーニングを可能にする。 本研究では,ノイズ2ノイズ法を含む教師付き損失の勾配の偏りのない推定値の計算を可能にする自己教師型メソッドの,サンプリング複雑性の観点から,自己教師型トレーニングのコストを検討する。 このような自己教師型トレーニングで訓練されたモデルは、教師型トレーニングと同じモデルであることを示すが、自己教師型トレーニングは教師型トレーニングよりも多くの例を必要とする。 そこで我々は,MRIの自己指導・加速を実証的に研究し,追加サンプル数の観点から自己指導訓練のコストを特徴付けるとともに,自己指導訓練と教師訓練のパフォーマンスギャップが,問題依存率で,我々の理論によって予測される訓練例の関数として消滅することを発見した。

Supervised training of deep neural networks on pairs of clean image and noisy measurement achieves state-of-the-art performance for many image reconstruction tasks, but such training pairs are difficult to collect. Self-supervised methods enable training based on noisy measurements only, without clean images. In this work, we investigate the cost of self-supervised training in terms of sample complexity for a class of self-supervised methods that enable the computation of unbiased estimates of gradients of the supervised loss, including noise2noise methods. We analytically show that a model trained with such self-supervised training is as good as the same model trained in a supervised fashion, but self-supervised training requires more examples than supervised training. We then study self-supervised denoising and accelerated MRI empirically and characterize the cost of self-supervised training in terms of the number of additional samples required, and find that the performance gap between self-supervised and supervised training vanishes as a function of the training examples, at a problem-dependent rate, as predicted by our theory.
翻訳日:2023-10-30 17:53:26 公開日:2023-10-27
# 含意論理制約を用いた事象性知識グラフの複雑解法

Complex Query Answering on Eventuality Knowledge Graph with Implicit Logical Constraints ( http://arxiv.org/abs/2305.19068v2 )

ライセンス: Link先を確認
Jiaxin Bai, Xin Liu, Weiqi Wang, Chen Luo, Yangqiu Song(参考訳) ディープラーニングアプローチを用いた知識グラフ(KG)のクエリは、推論と一般化能力を活用して、より良い回答を推論することができる。 従来のニューラルネットワーククエリ応答(CQA)アプローチは主にエンティティ中心のKGで動作する。 しかし, 現実世界では, ヨシュア・ベンジオが提唱したシステムIからシステムIIへ学習システムをプッシュするために, 事象, 状態, 活動(事象, 状況)に関する論理的推論を行う必要がある。 結果中心のkg(evkg)から論理的に問い合わせると、自然にこのような直感的かつ論理的な推論への参照を提供できる。 そこで本稿では,従来の一階述語論理の制約だけでなく,その発生と順序に関する結果に関する暗黙の論理制約も満たせる,evkgに基づく複雑な論理クエリにニューラルネットワークを適用する新しい枠組みを提案する。 例えば、"personx add soy sauce" の前に"food is bad" が起きていると分かっている場合、"personx add soy sauce" が"food is bad"の原因になる可能性は低い。 EVKGにおける一貫した推論を容易にするために,CQAのより厳密な定義である複合事象検索(CEQA)を提案する。 そこで本研究では,統計的制約を満たすために,ベンチマークデータセットを構築するための定理生成法を提案する。 また,ceqaタスクにおける最先端のニューラルネットワーククエリエンコーダの性能を大幅に向上するためのメモリエンハンスドクエリエンコーディング(meqe)手法を提案する。

Querying knowledge graphs (KGs) using deep learning approaches can naturally leverage the reasoning and generalization ability to learn to infer better answers. Traditional neural complex query answering (CQA) approaches mostly work on entity-centric KGs. However, in the real world, we also need to make logical inferences about events, states, and activities (i.e., eventualities or situations) to push learning systems from System I to System II, as proposed by Yoshua Bengio. Querying logically from an EVentuality-centric KG (EVKG) can naturally provide references to such kind of intuitive and logical inference. Thus, in this paper, we propose a new framework to leverage neural methods to answer complex logical queries based on an EVKG, which can satisfy not only traditional first-order logic constraints but also implicit logical constraints over eventualities concerning their occurrences and orders. For instance, if we know that "Food is bad" happens before "PersonX adds soy sauce", then "PersonX adds soy sauce" is unlikely to be the cause of "Food is bad" due to implicit temporal constraint. To facilitate consistent reasoning on EVKGs, we propose Complex Eventuality Query Answering (CEQA), a more rigorous definition of CQA that considers the implicit logical constraints governing the temporal order and occurrence of eventualities. In this manner, we propose to leverage theorem provers for constructing benchmark datasets to ensure the answers satisfy implicit logical constraints. We also propose a Memory-Enhanced Query Encoding (MEQE) approach to significantly improve the performance of state-of-the-art neural query encoders on the CEQA task.
翻訳日:2023-10-30 17:53:07 公開日:2023-10-27
# 強化学習のためのWildビデオを用いた事前学習型世界モデル

Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning ( http://arxiv.org/abs/2305.18499v2 )

ライセンス: Link先を確認
Jialong Wu, Haoyu Ma, Chaoyi Deng, Mingsheng Long(参考訳) 大規模かつ多様なデータセットを用いた教師なし事前トレーニング手法は、さまざまなドメインで大きな成功を収めています。 最近の研究は、モデルベース強化学習(MBRL)の教師なし事前学習法を研究しているが、ドメイン固有データやシミュレーションデータに限られている。 本稿では,下流の視覚的制御タスクを効率的に学習するために,映像を多用した事前学習型世界モデルの課題について検討する。 しかし、この動画は複雑な背景やテクスチャ的な外観といった様々な文脈要因に複雑であり、世界モデルが共有世界知識を抽出してより一般化することを妨げる。 この問題に対処するため,本稿では,コンテキストモデルと動的モデリングを明確に分離するContextualized World Models (ContextWM)を導入し,映像の複雑さと多様性を克服し,異なるシーン間の知識伝達を容易にする。 具体的には、コンテキストエンコーダを組み込んでコンテキスト情報を保持し、画像デコーダの権限を付与することにより、潜在力学モデルの文脈化拡張を精巧に実現し、潜在力学モデルが本質的な時間的変動に集中するように促す。 本実験では,コンテクストwmを内蔵したインザワイルドビデオプリトレーニングにより,ロボット操作やロコモーション,自律運転など,様々な領域におけるmbrlのサンプル効率が大幅に向上することを示す。 https://github.com/thuml/contextwm。

Unsupervised pre-training methods utilizing large and diverse datasets have achieved tremendous success across a range of domains. Recent work has investigated such unsupervised pre-training methods for model-based reinforcement learning (MBRL) but is limited to domain-specific or simulated data. In this paper, we study the problem of pre-training world models with abundant in-the-wild videos for efficient learning of downstream visual control tasks. However, in-the-wild videos are complicated with various contextual factors, such as intricate backgrounds and textured appearance, which precludes a world model from extracting shared world knowledge to generalize better. To tackle this issue, we introduce Contextualized World Models (ContextWM) that explicitly separate context and dynamics modeling to overcome the complexity and diversity of in-the-wild videos and facilitate knowledge transfer between distinct scenes. Specifically, a contextualized extension of the latent dynamics model is elaborately realized by incorporating a context encoder to retain contextual information and empower the image decoder, which encourages the latent dynamics model to concentrate on essential temporal variations. Our experiments show that in-the-wild video pre-training equipped with ContextWM can significantly improve the sample efficiency of MBRL in various domains, including robotic manipulation, locomotion, and autonomous driving. Code is available at this repository: https://github.com/thuml/ContextWM.
翻訳日:2023-10-30 17:52:36 公開日:2023-10-27
# 共分散ニューラルネットワークを用いた説明可能な脳年齢予測

Explainable Brain Age Prediction using coVariance Neural Networks ( http://arxiv.org/abs/2305.18370v3 )

ライセンス: Link先を確認
Saurabh Sihag, Gonzalo Mateos, Corey McMillan, Alejandro Ribeiro(参考訳) 計算神経科学において、脳画像データを利用して個人に「脳年齢」の見積もりを提供する機械学習アルゴリズムの開発への関心が高まっている。 重要なことは、脳年齢と時間年齢の不一致(「脳年齢ギャップ」と呼ばれる)は、健康状態の悪化による老化の加速を捉え、神経疾患や認知障害に対する脆弱性の増加を反映することができる。 しかし、既存の脳年齢予測アルゴリズムの透明性の欠如と方法論的正当化のために、臨床的意思決定支援のための脳年齢の広範な採用が妨げられている。 本稿では,コバリアンスニューラルネットワーク(VNN)を用いて,皮質厚み特徴を用いた脳年齢予測のための説明駆動型,解剖学的解釈可能なフレームワークを提案する。 具体的には、私たちの脳年齢予測フレームワークは、アルツハイマー病(AD)の脳年齢ギャップの粗い指標を超えて拡張され、2つの重要な観察を行います。 i)VNNは、貢献する脳領域を同定することにより、ADの脳年齢差の増大に解剖学的解釈性を割り当てることができる。 (ii)vnnsが提供する解釈性は、解剖学的共分散行列の特定の固有ベクトルを利用する能力に起因している。 これらの観察は共に、脳年齢予測のタスクに対する説明可能かつ解剖学的に解釈可能な視点を促進する。

In computational neuroscience, there has been an increased interest in developing machine learning algorithms that leverage brain imaging data to provide estimates of "brain age" for an individual. Importantly, the discordance between brain age and chronological age (referred to as "brain age gap") can capture accelerated aging due to adverse health conditions and therefore, can reflect increased vulnerability towards neurological disease or cognitive impairments. However, widespread adoption of brain age for clinical decision support has been hindered due to lack of transparency and methodological justifications in most existing brain age prediction algorithms. In this paper, we leverage coVariance neural networks (VNN) to propose an explanation-driven and anatomically interpretable framework for brain age prediction using cortical thickness features. Specifically, our brain age prediction framework extends beyond the coarse metric of brain age gap in Alzheimer's disease (AD) and we make two important observations: (i) VNNs can assign anatomical interpretability to elevated brain age gap in AD by identifying contributing brain regions, (ii) the interpretability offered by VNNs is contingent on their ability to exploit specific eigenvectors of the anatomical covariance matrix. Together, these observations facilitate an explainable and anatomically interpretable perspective to the task of brain age prediction.
翻訳日:2023-10-30 17:52:11 公開日:2023-10-27
# jigsaw: 複数の割れたオブジェクトを組み立てる学習

Jigsaw: Learning to Assemble Multiple Fractured Objects ( http://arxiv.org/abs/2305.17975v2 )

ライセンス: Link先を確認
Jiaxin Lu, Yifan Sun, Qixing Huang(参考訳) 3次元骨折の自動化は, 整形外科, 考古学, 日常生活に不可欠である。 本稿では,物理的に破損した3dオブジェクトを複数のピースから組み立てる新しいフレームワークjigsawを提案する。 本手法は,大域的および局所的形状の階層的特徴を活用し,破壊面を整合・整列する。 本研究の枠組みは,(1)注意層を有するフロントエンド・ポイント特徴抽出器,(2)破面と原点を分離する表面分割,(3)破面点間の対応を求めるために一致した複数部分,(4)大域的足跡を回復するためのロバスト・グローバルアライメントの4つの構成要素からなる。 セグメンテーションとマッチングを共同で学習し,機能マッチングと剛性制約をシームレスに統合する方法を示す。 破壊的バッドデータセットにおけるjigsawを評価し,最先端の手法と比較して優れた性能を実現する。 また, 様々な破壊モード, 物体, および未発見のインスタンスに対してよく一般化する。 私たちの知る限りでは、これは複数の部品にまたがる3d骨折の組み立てのために特別に設計された最初の学習ベースの方法です。 私たちのコードはhttps://jiaxin-lu.github.io/Jigsaw/で利用可能です。

Automated assembly of 3D fractures is essential in orthopedics, archaeology, and our daily life. This paper presents Jigsaw, a novel framework for assembling physically broken 3D objects from multiple pieces. Our approach leverages hierarchical features of global and local geometry to match and align the fracture surfaces. Our framework consists of four components: (1) front-end point feature extractor with attention layers, (2) surface segmentation to separate fracture and original parts, (3) multi-parts matching to find correspondences among fracture surface points, and (4) robust global alignment to recover the global poses of the pieces. We show how to jointly learn segmentation and matching and seamlessly integrate feature matching and rigidity constraints. We evaluate Jigsaw on the Breaking Bad dataset and achieve superior performance compared to state-of-the-art methods. Our method also generalizes well to diverse fracture modes, objects, and unseen instances. To the best of our knowledge, this is the first learning-based method designed specifically for 3D fracture assembly over multiple pieces. Our code is available at https://jiaxin-lu.github.io/Jigsaw/.
翻訳日:2023-10-30 17:51:52 公開日:2023-10-27
# すべての単光子状態に対するエネルギー密度の非局所性

Nonlocality of the energy density for all single-photon states ( http://arxiv.org/abs/2306.09793v3 )

ライセンス: Link先を確認
Maxime Federico and Hans-Rudolf Jauslin(参考訳) 単光子の状態の非局所性は、いくつかの異なる視点から分析されてきた。 本稿では、電磁エネルギー密度を観測可能とし、周波数演算子 $\omega=c(-\delta)^{1/2}$ の反局所性に基づくデモンストレーションを提案する。 この証明は、電磁場の標準量子化に基づいており、運動量表現やランダウとピールズ [Z] の位置表現で等価に定式化することができる。 Phys Bia{\l}ynicki-Birula [\textit{Progress in Optics}, E. Wolf (Elsevier, Amsterdam, 1996) による。 我々の証明は、Bia{\l}ynicki-Birulaの結果を全単光子状態に拡張し、2つの特定の状態のクラスで定式化した。 Rev. Lett. bf80}, 5247 (1998)] または電気的または磁気的に局在した状態[Phys.Rev]である。 a {\bf79}, 032112 (2009)]。 我々のアプローチは、ナイトの厳密なローカライゼーションの定義[j]で定式化されている。 数学 Phys {\bf 2}, 459 (1961)] は、局所可観測物の単光子状態と真空の期待値の比較に基づく。

The nonlocality of single-photon states has been analyzed from several different but interrelared perspectives. In this article, we propose a demonstration based on the electromagnetic energy density observable and on the anti-local property of the frequency operator $\Omega=c(-\Delta)^{1/2}$. The present proof is based on the standard quantization of the electromagnetic field, which can be formulated equivalently in the momentum representations or in the position representations of Landau and Peierls [Z. Phys. {\bf 62}, 188 (1930)] and of Bia{\l}ynicki-Birula [\textit{Progress in Optics}, edited by E. Wolf (Elsevier, Amsterdam, 1996)]. Our proof extends to all single-photon states the results of Bia{\l}ynicki-Birula, which were formulated for two particular classes of states, those involving a uniform localization [Phys. Rev. Lett. {\bf80}, 5247 (1998)] or alternatively states that are electrically or magnetically localized [Phys.Rev. A {\bf79}, 032112 (2009)]. Our approach is formulated in terms of Knight's definition of strict localization [J. Math. Phys. {\bf 2}, 459 (1961)], based on the comparison of expectation values of single-photon states of local observables with those of the vacuum.
翻訳日:2023-10-30 17:45:51 公開日:2023-10-27
# Semantic HELM:強化学習のためのヒューマン可読メモリ

Semantic HELM: A Human-Readable Memory for Reinforcement Learning ( http://arxiv.org/abs/2306.09312v2 )

ライセンス: Link先を確認
Fabian Paischer, Thomas Adler, Markus Hofmarcher, Sepp Hochreiter(参考訳) 現実世界にデプロイされた強化学習エージェントは、部分的に観察可能な環境に対処する必要がある。 したがって、ほとんどのエージェントは環境の状態の近似にメモリ機構を用いる。 最近、部分的に観察可能な環境をマスターする素晴らしい成功談が生まれており、主にDota 2、StarCraft II、MineCraftといったコンピュータゲームの世界にある。 しかし、既存の手法では、エージェントがメモリに格納したものが人間には理解できないという意味で解釈可能性に欠ける。 本稿では,過去の出来事を人間の言語で表現する新しい記憶機構を提案する。 この手法はCLIPを用いて視覚入力と言語トークンを関連付ける。 そして、これらのトークンを、エージェントをメモリとして機能させる事前訓練された言語モデルに供給し、過去の一貫性のある人間可読表現を提供する。 部分的に観測可能な環境上でメモリ機構をトレーニングし、メモリコンポーネントを必要とするタスクに優れていることを確認します。 過去を記憶する難易度の高い連続認識タスクでは,メモリ機構が従来の手法よりも2桁早く収束する。 メモリメカニズムは人間が読めるので、エージェントのメモリを覗き、重要な情報が保存されているかどうかを確認することができます。 これはトラブルシューティングを大幅に強化し、より解釈可能なエージェントへの道を開く。

Reinforcement learning agents deployed in the real world often have to cope with partially observable environments. Therefore, most agents employ memory mechanisms to approximate the state of the environment. Recently, there have been impressive success stories in mastering partially observable environments, mostly in the realm of computer games like Dota 2, StarCraft II, or MineCraft. However, existing methods lack interpretability in the sense that it is not comprehensible for humans what the agent stores in its memory. In this regard, we propose a novel memory mechanism that represents past events in human language. Our method uses CLIP to associate visual inputs with language tokens. Then we feed these tokens to a pretrained language model that serves the agent as memory and provides it with a coherent and human-readable representation of the past. We train our memory mechanism on a set of partially observable environments and find that it excels on tasks that require a memory component, while mostly attaining performance on-par with strong baselines on tasks that do not. On a challenging continuous recognition task, where memorizing the past is crucial, our memory mechanism converges two orders of magnitude faster than prior methods. Since our memory mechanism is human-readable, we can peek at an agent's memory and check whether crucial pieces of information have been stored. This significantly enhances troubleshooting and paves the way toward more interpretable agents.
翻訳日:2023-10-30 17:44:46 公開日:2023-10-27
# グラフ構造化力学系に対する深いガウス的マルコフランダム場

Deep Gaussian Markov Random Fields for Graph-Structured Dynamical Systems ( http://arxiv.org/abs/2306.08445v2 )

ライセンス: Link先を確認
Fiona Lippert, Bart Kranstauber, E. Emiel van Loon, Patrick Forr\'e(参考訳) 高次元状態空間モデルにおける確率的推論は計算上困難である。 しかし、多くの時空間系では、状態変数の依存性構造に関する事前知識が利用可能である。 この構造を利用して、(部分的に)未知のダイナミクスと限られた履歴データを持つグラフ構造状態空間モデルにおける状態推定と学習のための計算効率の高い手法を開発する。 ガウスマルコフ確率場(英語版)(GMRF)の原理推論とディープラーニングからのアイデアを組み合わせた最近の手法に基づいて、簡単な空間グラフ層と時間グラフ層によって定義されたディープGMRFとしてグラフ構造化状態空間モデルを再構成する。 これにより、変動推論によって単一の時間列から効率的に学習できるフレキシブルな時空間前処理が実現される。 線形ガウスの仮定の下では、共役勾配法を用いて効率的にサンプリングできる閉形式後部を保ち、古典カルマンフィルタに基づくアプローチと比較して好ましくスケーリングする。

Probabilistic inference in high-dimensional state-space models is computationally challenging. For many spatiotemporal systems, however, prior knowledge about the dependency structure of state variables is available. We leverage this structure to develop a computationally efficient approach to state estimation and learning in graph-structured state-space models with (partially) unknown dynamics and limited historical data. Building on recent methods that combine ideas from deep learning with principled inference in Gaussian Markov random fields (GMRF), we reformulate graph-structured state-space models as Deep GMRFs defined by simple spatial and temporal graph layers. This results in a flexible spatiotemporal prior that can be learned efficiently from a single time sequence via variational inference. Under linear Gaussian assumptions, we retain a closed-form posterior, which can be sampled efficiently using the conjugate gradient method, scaling favourably compared to classical Kalman filter based approaches
翻訳日:2023-10-30 17:44:10 公開日:2023-10-27
# 直交微調整によるテキストから画像への拡散制御

Controlling Text-to-Image Diffusion by Orthogonal Finetuning ( http://arxiv.org/abs/2306.07280v2 )

ライセンス: Link先を確認
Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng, Zhen Liu, Dan Zhang, Adrian Weller, Bernhard Sch\"olkopf(参考訳) 大きなテキストから画像への拡散モデルでは、テキストプロンプトからフォトリアリスティックな画像を生成することができる。 異なる下流タスクを実行するためにこれらの強力なモデルを効果的にガイドし、制御する方法は、重要なオープンな問題である。 そこで本研究では,テキストから画像への拡散モデルを下流タスクに適応させるための原理的微調整法である直交微調整法(oft)を提案する。 既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。 テキストから画像への拡散モデルのセマンティック生成能力を維持するためには,この特性が重要である。 微調整安定性を向上させるため,超球面に新たな半径制限を課す制約付き直交微調整(COFT)を提案する。 具体的には、対象の少数の画像とテキストプロンプトが与えられた被験者固有の画像を生成することを目的とする主観駆動生成と、モデルが追加の制御信号を入力できるようにすることを目標とする制御可能な生成である。 我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。

Large text-to-image diffusion models have impressive capabilities in generating photorealistic images from text prompts. How to effectively guide or control these powerful models to perform different downstream tasks becomes an important open problem. To tackle this challenge, we introduce a principled finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image diffusion models to downstream tasks. Unlike existing methods, OFT can provably preserve hyperspherical energy which characterizes the pairwise neuron relationship on the unit hypersphere. We find that this property is crucial for preserving the semantic generation ability of text-to-image diffusion models. To improve finetuning stability, we further propose Constrained Orthogonal Finetuning (COFT) which imposes an additional radius constraint to the hypersphere. Specifically, we consider two important finetuning text-to-image tasks: subject-driven generation where the goal is to generate subject-specific images given a few images of a subject and a text prompt, and controllable generation where the goal is to enable the model to take in additional control signals. We empirically show that our OFT framework outperforms existing methods in generation quality and convergence speed.
翻訳日:2023-10-30 17:43:54 公開日:2023-10-27
# 関数近似を用いた強化学習における重機付きリワードの処理:ミニマックス最適およびインスタンス依存レグレト境界

Tackling Heavy-Tailed Rewards in Reinforcement Learning with Function Approximation: Minimax Optimal and Instance-Dependent Regret Bounds ( http://arxiv.org/abs/2306.06836v2 )

ライセンス: Link先を確認
Jiayi Huang, Han Zhong, Liwei Wang, Lin F. Yang(参考訳) 多くの研究は、一様有界の報酬を持つ強化学習(rl)のための効率的なアルゴリズムを考案することに焦点をあてているが、いくつかの$\epsilon\in(0,1]$ に対して有限$(1+\epsilon)$-th moments の報酬が \emph{heavy-tailed} である場合、大きな状態作用空間を持つrlのサンプルまたは時間効率のよいアルゴリズムが存在するかどうかという疑問が残されている。 本稿では、線形関数近似を用いたRLにおけるそのような報酬の課題に対処する。 まず,重尾付き線形バンドイットのアルゴリズムである \textsc{heavy-oful} を設計し,$\tilde{o}\big(d t^{\frac{1-\epsilon}{2(1+\epsilon)}} \sqrt{\sum_{t=1}^t \nu_t^2} + d t^{\frac{1-\epsilon}{2(1+\epsilon)}}\big)$,この種の \emph{first} を達成する。 ここで、$d$は特徴次元であり、$\nu_t^{1+\epsilon}$は$(1+\epsilon)$-th central moment of the reward at the $t$-th roundである。 さらに, 確率的および決定論的線形バンドイットの最悪の場合に適用した場合, 上記の境界はミニマックス最適であることを示した。 次に、このアルゴリズムを線形関数近似を用いてRL設定に拡張する。 このアルゴリズムは \textsc{heavy-lsvi-ucb} と呼ばれ、計算効率のよい \emph{instance-dependent} $k$-episode regret of $\tilde{o}(d \sqrt{h \mathcal{u}^*} k^\frac{1}{1+\epsilon} + d \sqrt{h \mathcal{v}^* k})$ を達成する。 ここで、$H$はエピソードの長さであり、$\mathcal{U}^* と \mathcal{V}^*$ はそれぞれ、報酬と値関数の中心モーメントを持つインスタンス依存の量スケーリングである。 また、マッチングされたミニマックス下界 $\Omega(d H K^{\frac{1}{1+\epsilon}} + d \sqrt{H^3K})$ を提供し、最悪の場合、アルゴリズムの最適性を示す。 我々の結果は、オンライン回帰問題全般において重み付きノイズを扱うことに独立した関心を持つような、新しい堅牢な自己正規化集中不等式によって達成される。

While numerous works have focused on devising efficient algorithms for reinforcement learning (RL) with uniformly bounded rewards, it remains an open question whether sample or time-efficient algorithms for RL with large state-action space exist when the rewards are \emph{heavy-tailed}, i.e., with only finite $(1+\epsilon)$-th moments for some $\epsilon\in(0,1]$. In this work, we address the challenge of such rewards in RL with linear function approximation. We first design an algorithm, \textsc{Heavy-OFUL}, for heavy-tailed linear bandits, achieving an \emph{instance-dependent} $T$-round regret of $\tilde{O}\big(d T^{\frac{1-\epsilon}{2(1+\epsilon)}} \sqrt{\sum_{t=1}^T \nu_t^2} + d T^{\frac{1-\epsilon}{2(1+\epsilon)}}\big)$, the \emph{first} of this kind. Here, $d$ is the feature dimension, and $\nu_t^{1+\epsilon}$ is the $(1+\epsilon)$-th central moment of the reward at the $t$-th round. We further show the above bound is minimax optimal when applied to the worst-case instances in stochastic and deterministic linear bandits. We then extend this algorithm to the RL settings with linear function approximation. Our algorithm, termed as \textsc{Heavy-LSVI-UCB}, achieves the \emph{first} computationally efficient \emph{instance-dependent} $K$-episode regret of $\tilde{O}(d \sqrt{H \mathcal{U}^*} K^\frac{1}{1+\epsilon} + d \sqrt{H \mathcal{V}^* K})$. Here, $H$ is length of the episode, and $\mathcal{U}^*, \mathcal{V}^*$ are instance-dependent quantities scaling with the central moment of reward and value functions, respectively. We also provide a matching minimax lower bound $\Omega(d H K^{\frac{1}{1+\epsilon}} + d \sqrt{H^3 K})$ to demonstrate the optimality of our algorithm in the worst case. Our result is achieved via a novel robust self-normalized concentration inequality that may be of independent interest in handling heavy-tailed noise in general online regression problems.
翻訳日:2023-10-30 17:43:33 公開日:2023-10-27
# カオスダイナミクス学習のための一般教師強制

Generalized Teacher Forcing for Learning Chaotic Dynamics ( http://arxiv.org/abs/2306.04406v2 )

ライセンス: Link先を確認
Florian Hess, Zahra Monfared, Manuel Brenner, Daniel Durstewitz(参考訳) カオス力学系(DS)は自然と社会においてユビキタスである。 しばしば、観測された時系列から予測や機械的洞察の系を再構築することに興味があり、再構築することで、問題となるシステムの幾何学的および不変な時間的特性を学習することを意味する(アトラクタなど)。 しかし,そのようなシステム上での回帰ニューラルネットワーク(recurrent neural networks, rnns)のようなリコンストラクションアルゴリズムの学習は困難である。 これは主にカオス系における軌道の指数的なばらつきによる爆発的な勾配に起因する。 さらに、(科学的)解釈可能性については、できるだけ低次元の再構成を望み、好ましくは数学的に扱いやすいモデルである。 本稿では,教師強制の驚くほど単純な修正により,カオスシステムのトレーニングにおいて,厳密な全時間有界勾配が生じることを報告する。また,抽出可能なRNN設計の簡単なアーキテクチャ再構成と組み合わせることで,観測されたシステムの大部分の空間における忠実な再構築を可能にする。 これらの修正により、従来のSOTAアルゴリズムよりもずっと低い次元でDSを再構築できることを示す。 パフォーマンスの違いは、他のほとんどのメソッドが苦労した実世界のデータに特に魅力的でした。 これにより、シンプルながら強力なDS再構成アルゴリズムが実現され、同時に高い解釈が可能となった。

Chaotic dynamical systems (DS) are ubiquitous in nature and society. Often we are interested in reconstructing such systems from observed time series for prediction or mechanistic insight, where by reconstruction we mean learning geometrical and invariant temporal properties of the system in question (like attractors). However, training reconstruction algorithms like recurrent neural networks (RNNs) on such systems by gradient-descent based techniques faces severe challenges. This is mainly due to exploding gradients caused by the exponential divergence of trajectories in chaotic systems. Moreover, for (scientific) interpretability we wish to have as low dimensional reconstructions as possible, preferably in a model which is mathematically tractable. Here we report that a surprisingly simple modification of teacher forcing leads to provably strictly all-time bounded gradients in training on chaotic systems, and, when paired with a simple architectural rearrangement of a tractable RNN design, piecewise-linear RNNs (PLRNNs), allows for faithful reconstruction in spaces of at most the dimensionality of the observed system. We show on several DS that with these amendments we can reconstruct DS better than current SOTA algorithms, in much lower dimensions. Performance differences were particularly compelling on real world data with which most other methods severely struggled. This work thus led to a simple yet powerful DS reconstruction algorithm which is highly interpretable at the same time.
翻訳日:2023-10-30 17:42:04 公開日:2023-10-27
# wasserstein-based high probability generalization boundsによる学習

Learning via Wasserstein-Based High Probability Generalisation Bounds ( http://arxiv.org/abs/2306.04375v2 )

ライセンス: Link先を確認
Paul Viallard, Maxime Haddouche, Umut \c{S}im\c{s}ekli, Benjamin Guedj(参考訳) 人口リスクや一般化ギャップの上限を最小化することは、構造的リスク最小化(srm)において広く用いられてきた。 PAC-Bayesianフレームワークの限界は、その成功と、近年の関心の急激さにもかかわらず、ほとんどの境界がKL(Kullback-Leibler)の発散項(あるいはそのバリエーション)を含んでいることであり、これは不規則な振る舞いを示し、学習問題の基盤となる幾何学的構造を捉えるのに失敗する可能性がある。 治療薬として、最近の研究は、PAC-ベイズ境界におけるKLの発散をワッサーシュタイン距離に置き換えようと試みている。 これらの境界は、上記の問題をある程度緩和するが、期待を保ち、有界な損失を期待するか、SRMフレームワークで最小化するのは自明である。 本研究では,この一連の研究に寄与し,独立分散データと同一分散データ(i.i.d.データ)を用いたバッチ学習と,非i.i.d.データによるオンライン学習の両方に対して,新しいwasserstein距離ベースpac-ベイズ一般化境界を証明した。 従来の芸術とは対照的に、我々の限界はより強い。 (i)高い確率で保持する。 (ii)無制限(潜在的に重み付き)の損失に当てはまること、及び (iii)srmで使用できる最適化可能なトレーニング目標に導く。 その結果、新しいワッサーシュタインに基づくPAC-ベイジアン学習アルゴリズムが導出され、様々な実験においてその経験的優位性を示す。

Minimising upper bounds on the population risk or the generalisation gap has been widely used in structural risk minimisation (SRM) -- this is in particular at the core of PAC-Bayesian learning. Despite its successes and unfailing surge of interest in recent years, a limitation of the PAC-Bayesian framework is that most bounds involve a Kullback-Leibler (KL) divergence term (or its variations), which might exhibit erratic behavior and fail to capture the underlying geometric structure of the learning problem -- hence restricting its use in practical applications. As a remedy, recent studies have attempted to replace the KL divergence in the PAC-Bayesian bounds with the Wasserstein distance. Even though these bounds alleviated the aforementioned issues to a certain extent, they either hold in expectation, are for bounded losses, or are nontrivial to minimize in an SRM framework. In this work, we contribute to this line of research and prove novel Wasserstein distance-based PAC-Bayesian generalisation bounds for both batch learning with independent and identically distributed (i.i.d.) data, and online learning with potentially non-i.i.d. data. Contrary to previous art, our bounds are stronger in the sense that (i) they hold with high probability, (ii) they apply to unbounded (potentially heavy-tailed) losses, and (iii) they lead to optimizable training objectives that can be used in SRM. As a result we derive novel Wasserstein-based PAC-Bayesian learning algorithms and we illustrate their empirical advantage on a variety of experiments.
翻訳日:2023-10-30 17:41:42 公開日:2023-10-27
# FAMO: 高速適応型マルチタスク最適化

FAMO: Fast Adaptive Multitask Optimization ( http://arxiv.org/abs/2306.03792v2 )

ライセンス: Link先を確認
Bo Liu, Yihao Feng, Peter Stone, Qiang Liu(参考訳) AIの壮大な持続目標の1つは、マルチタスク学習(MTL)を通じて多様なデータから複数の異なるタスクを学習できる汎用エージェントを作成することである。 しかし、実際には、全タスクの平均損失に勾配降下(GD)を適用すると、特定のタスクの過度な過度な最適化により、マルチタスク性能が低下する可能性がある。 よりバランスの取れた損失削減のためにタスク勾配を操作する以前のアプローチでは、すべてのタスク勾配を格納して計算する必要がある(\mathcal{o}(k)$ space and time where $k$ is the number of tasks)。 本研究では,Fast Adaptive Multitask Optimization FAMOを紹介した。これは,$\mathcal{O}(1)$ space and time を用いて,バランスの取れた方法でタスク損失を低減する動的重み付け手法である。 マルチタスクの教師付きおよび強化学習問題を網羅する広範な実験を行う。 以上の結果から,famoは最先端の勾配操作技術と同等あるいは優れた性能を達成でき,空間と計算効率も大幅に向上した。 コードは \url{https://github.com/Cranial-XIX/FAMO} で入手できる。

One of the grand enduring goals of AI is to create generalist agents that can learn multiple different tasks from diverse data via multitask learning (MTL). However, in practice, applying gradient descent (GD) on the average loss across all tasks may yield poor multitask performance due to severe under-optimization of certain tasks. Previous approaches that manipulate task gradients for a more balanced loss decrease require storing and computing all task gradients ($\mathcal{O}(k)$ space and time where $k$ is the number of tasks), limiting their use in large-scale scenarios. In this work, we introduce Fast Adaptive Multitask Optimization FAMO, a dynamic weighting method that decreases task losses in a balanced way using $\mathcal{O}(1)$ space and time. We conduct an extensive set of experiments covering multi-task supervised and reinforcement learning problems. Our results indicate that FAMO achieves comparable or superior performance to state-of-the-art gradient manipulation techniques while offering significant improvements in space and computational efficiency. Code is available at \url{https://github.com/Cranial-XIX/FAMO}.
翻訳日:2023-10-30 17:41:10 公開日:2023-10-27
# PLANNER:潜時言語拡散モデルによる分散パラグラフの生成

PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model ( http://arxiv.org/abs/2306.02531v2 )

ライセンス: Link先を確認
Yizhe Zhang, Jiatao Gu, Zhuofeng Wu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly(参考訳) テキストの自動回帰モデルは、生成ステップ中にエラーが蓄積されるため、繰り返し、低品質の出力を生成することがある。 この問題は、しばしば露出バイアス(モデルがどのようにトレーニングされているか、そして推論中にどのように使用されるかの違い)に起因する。 デノイジング拡散モデルは、モデルが出力を再検討し、修正できる別のアプローチを提供する。 しかし、これらは計算コストが高く、テキストに対する以前の取り組みは、特に長いテキストや段落に対して、自己回帰モデルに比べて、より流動性の低い出力を生み出すモデルに導かれる。 本稿では,潜在意味拡散と自己回帰生成を組み合わせたモデルであるPLANNERを提案する。 このモデルでは、自己回帰的なデコーディングモジュールと、遅延拡散を用いた「計画」モジュールを組み合わせることで、セマンティックな段落の埋め込みを粗い方法で生成する。 提案手法は, 各種条件生成タスクに基づいて評価し, セマンティック生成, テキスト補完, 要約の結果から, 高品質な長文を効率よく生成できることを示す。

Autoregressive models for text sometimes generate repetitive and low-quality output because errors accumulate during the steps of generation. This issue is often attributed to exposure bias - the difference between how a model is trained, and how it is used during inference. Denoising diffusion models provide an alternative approach in which a model can revisit and revise its output. However, they can be computationally expensive and prior efforts on text have led to models that produce less fluent output compared to autoregressive models, especially for longer text and paragraphs. In this paper, we propose PLANNER, a model that combines latent semantic diffusion with autoregressive generation, to generate fluent text while exercising global control over paragraphs. The model achieves this by combining an autoregressive "decoding" module with a "planning" module that uses latent diffusion to generate semantic paragraph embeddings in a coarse-to-fine manner. The proposed method is evaluated on various conditional generation tasks, and results on semantic generation, text completion and summarization show its effectiveness in generating high-quality long-form text in an efficient manner.
翻訳日:2023-10-30 17:39:49 公開日:2023-10-27
# バイモーダルコントラスト学習によるH&Eヒストロジー画像からの空間分解遺伝子発現予測

Spatially Resolved Gene Expression Prediction from H&E Histology Images via Bi-modal Contrastive Learning ( http://arxiv.org/abs/2306.01859v2 )

ライセンス: Link先を確認
Ronald Xie, Kuan Pang, Sai W. Chung, Catia T. Perciani, Sonya A. MacParland, Bo Wang, Gary D. Bader(参考訳) 組織像は医学的診断と研究において重要なツールであり、顕微鏡レベルで組織構造と組成を調べることができる。 組織構造の基礎となる分子機構を理解することは、疾患のメカニズムを解明し、効果的な治療法を開発する上で重要である。 遺伝子発現プロファイリングは組織構造の基礎となる分子過程の洞察を与えるが、そのプロセスは時間と費用がかかる可能性がある。 BLEEP(Bi-modaL Embedding for Expression Prediction)は,全スライディングヘマトキシリンおよびエオシン(H&E)染色組織像の空間分解遺伝子発現プロファイルを生成可能なバイモーダル埋め込みフレームワークである。 BLEEPはコントラスト学習を用いて、顕微鏡解像度でペア画像と表現プロファイルを用いて参照データセットから低次元の関節埋め込み空間を構築する。 このアプローチでは、任意のクエリイメージパッチの遺伝子発現を、参照データセットからの表現プロファイルを使って暗示することができる。 10x Visiumプラットフォームを用いて得られたヒト肝組織データセットのパフォーマンスをベンチマークすることで,BLEEPが遺伝子発現予測に有効であることを示す。 以上の結果から,BLEEPは組織構造の基礎となる分子機構を解明し,様々な疾患の診断・研究に重要な意味を持つ可能性が示唆された。 提案手法は, 遺伝子発現プロファイリングに関連する時間とコストを大幅に削減し, 研究および臨床応用のための組織像の高スループット解析のための新たな道を開く。

Histology imaging is an important tool in medical diagnosis and research, enabling the examination of tissue structure and composition at the microscopic level. Understanding the underlying molecular mechanisms of tissue architecture is critical in uncovering disease mechanisms and developing effective treatments. Gene expression profiling provides insight into the molecular processes underlying tissue architecture, but the process can be time-consuming and expensive. We present BLEEP (Bi-modaL Embedding for Expression Prediction), a bi-modal embedding framework capable of generating spatially resolved gene expression profiles of whole-slide Hematoxylin and eosin (H&E) stained histology images. BLEEP uses contrastive learning to construct a low-dimensional joint embedding space from a reference dataset using paired image and expression profiles at micrometer resolution. With this approach, the gene expression of any query image patch can be imputed using the expression profiles from the reference dataset. We demonstrate BLEEP's effectiveness in gene expression prediction by benchmarking its performance on a human liver tissue dataset captured using the 10x Visium platform, where it achieves significant improvements over existing methods. Our results demonstrate the potential of BLEEP to provide insights into the molecular mechanisms underlying tissue architecture, with important implications in diagnosis and research of various diseases. The proposed approach can significantly reduce the time and cost associated with gene expression profiling, opening up new avenues for high-throughput analysis of histology images for both research and clinical applications.
翻訳日:2023-10-30 17:39:29 公開日:2023-10-27
# 1軸ねじれに基づくエコープロトコルを用いたラムゼー干渉法

Optimal Ramsey interferometry with echo protocols based on one-axis twisting ( http://arxiv.org/abs/2307.08510v3 )

ライセンス: Link先を確認
Maja S. Scharnagl, Timm Kielinski, Klemens Hammerer(参考訳) 本稿では, 位相印加前の1つの1軸ツイスト(OAT)演算と, その後の2つの操作を含む一般化ラムゼープロトコルの変分クラスについて検討する。 本稿では,信号インプリントの軸,OAT相互作用,および最終射影測定の方向を最適化する。 我々は、測定相上のスピン投影信号の対称的あるいは非対称的依存関係を示すプロトコルを区別する。 以上の結果から,任意の一軸ねじれ入力状態で達成可能な感度の限界を設定する量子フィッシャー情報は,ほぼ全ての初期ねじれ強度に対して,我々の変分プロトコルのクラス内で飽和可能であることが示唆された。 文献に記録されている多数のプロトコルを組み込むことで,本手法はoat状態と測定値を持つramsey echoプロトコルの統一フレームワークを作成する。

We study a variational class of generalised Ramsey protocols that include two one-axis twisting (OAT) operations, one performed before the phase imprint and the other after. In this framework, we optimise the axes of the signal imprint, the OAT interactions, and the direction of the final projective measurement. We distinguish between protocols that exhibit symmetric or antisymmetric dependencies of the spin projection signal on the measured phase. Our results show that the quantum Fisher information, which sets the limits on the sensitivity achievable with a given uniaxially twisted input state, can be saturated within our class of variational protocols for almost all initial twist strengths. By incorporating numerous protocols previously documented in the literature, our approach creates a unified framework for Ramsey echo protocols with OAT states and measurements.
翻訳日:2023-10-30 17:31:16 公開日:2023-10-27
# SageFormer: 長期多変量時系列予測のための時系列フレームワーク

SageFormer: Series-Aware Framework for Long-term Multivariate Time Series Forecasting ( http://arxiv.org/abs/2307.01616v2 )

ライセンス: Link先を確認
Zhenwei Zhang, Linghang Meng, Yuantao Gu(参考訳) モノのインターネットの急成長するエコシステムの中で、多変量時系列(MTS)データはユビキタスになり、多くのアプリケーションにわたる時系列予測の基本的な役割を強調している。 長期 MTS 予測の重要な課題は、シリーズ内およびシリーズ間依存関係の両方をキャプチャできるアドレプトモデルが必要である。 近年のディープラーニング、特にトランスフォーマーの進歩は、将来性を示している。 しかし、多くの一般的なメソッドは、シリーズ間の依存関係を限界にするか、完全に見落としている。 このギャップを埋めるために,本稿では,このような依存関係の重要性を強調するために設計された,新しいシリーズアウェアフレームワークを紹介する。 このフレームワークの中心には、SageFormerという特定の実装があります。 グラフ強化トランスフォーマーモデルとして、SageFormerはグラフ構造を用いてシリーズ間の複雑な関係を正確に識別し、モデル化する。 多様な時間パターンをキャプチャするだけでなく、シリーズ間で冗長な情報も収集する。 特に、シリーズ対応フレームワークは既存のTransformerベースのモデルとシームレスに統合され、シリーズ間の関係を理解する能力が強化されている。 実世界および合成データセットに関する広範な実験は、現代の最先端のアプローチに対するsageformerの優れた性能を検証する。

In the burgeoning ecosystem of Internet of Things, multivariate time series (MTS) data has become ubiquitous, highlighting the fundamental role of time series forecasting across numerous applications. The crucial challenge of long-term MTS forecasting requires adept models capable of capturing both intra- and inter-series dependencies. Recent advancements in deep learning, notably Transformers, have shown promise. However, many prevailing methods either marginalize inter-series dependencies or overlook them entirely. To bridge this gap, this paper introduces a novel series-aware framework, explicitly designed to emphasize the significance of such dependencies. At the heart of this framework lies our specific implementation: the SageFormer. As a Series-aware Graph-enhanced Transformer model, SageFormer proficiently discerns and models the intricate relationships between series using graph structures. Beyond capturing diverse temporal patterns, it also curtails redundant information across series. Notably, the series-aware framework seamlessly integrates with existing Transformer-based models, enriching their ability to comprehend inter-series relationships. Extensive experiments on real-world and synthetic datasets validate the superior performance of SageFormer against contemporary state-of-the-art approaches.
翻訳日:2023-10-30 17:31:02 公開日:2023-10-27
# ワイヤマスク誘導ブラックボックス最適化によるマクロ配置

Macro Placement by Wire-Mask-Guided Black-Box Optimization ( http://arxiv.org/abs/2306.16844v3 )

ライセンス: Link先を確認
Yunqi Shi, Ke Xue, Lei Song, Chao Qian(参考訳) 超大規模統合(VLSI)技術の開発は、チップフロアプランニングにおける電子設計自動化(EDA)技術に新たな課題を提起している。 この過程において、マクロ配置は重要なサブプロブレムであり、全マクロの位置を最小化することと重なりを避けることを目的として決定しようとする。 以前の方法としては、パッキングベース、分析、強化学習法がある。 本稿では,マクロ配置のための新しいblack-box optimization(bbo)フレームワーク(wiremask-bbo)を提案する。 異なるBBOアルゴリズムを組み込んだWireMask-BBOは、経験的に従来の手法よりも大幅に改善し、より少ない時間でHPWLを大幅に短縮する。 さらに、既存の配置を初期解として微調整することで、hpwlの50%の改善をもたらすことができる。 WireMask-BBOは、チップフロアプランニングの品質と効率を大幅に改善する可能性があり、EDAの研究者や実践者にアピールし、BBOの適用を促進する。 私たちのコードはhttps://github.com/lamda-bbo/WireMask-BBOで利用可能です。

The development of very large-scale integration (VLSI) technology has posed new challenges for electronic design automation (EDA) techniques in chip floorplanning. During this process, macro placement is an important subproblem, which tries to determine the positions of all macros with the aim of minimizing half-perimeter wirelength (HPWL) and avoiding overlapping. Previous methods include packing-based, analytical and reinforcement learning methods. In this paper, we propose a new black-box optimization (BBO) framework (called WireMask-BBO) for macro placement, by using a wire-mask-guided greedy procedure for objective evaluation. Equipped with different BBO algorithms, WireMask-BBO empirically achieves significant improvements over previous methods, i.e., achieves significantly shorter HPWL by using much less time. Furthermore, it can fine-tune existing placements by treating them as initial solutions, which can bring up to 50% improvement in HPWL. WireMask-BBO has the potential to significantly improve the quality and efficiency of chip floorplanning, which makes it appealing to researchers and practitioners in EDA and will also promote the application of BBO. Our code is available at https://github.com/lamda-bbo/WireMask-BBO.
翻訳日:2023-10-30 17:30:45 公開日:2023-10-27
# 三電子原子中の強磁場二重イオン化:モーメント分布解析

Strong-Field Double Ionization in a Three-Electron Atom: Momentum Distribution Analysis ( http://arxiv.org/abs/2306.15637v2 )

ライセンス: Link先を確認
Dmitry K. Efimov, Artur Maksymov, Jakub Zakrzewski, Jakub S. Prauzner-Bechcicki(参考訳) 3電子原子における強電界二重イオン化の研究を,3つの活性電子を用いた簡易な還元次元モデルを用いて行った。 波動関数の空間部分のスピン誘起対称性が最後の2光子運動量分布に及ぼす影響について考察した。 我々は、V構造と直イオン化の間の量子的支持接続を古典的に説明できるように、外部電子の異なるスピンの集合に由来する部分運動量分布を同定する。 簡易モデルで得られた運動量分布の変化は,文献から知られている実験データとよく関連していることが示された。 観察された依存関係と異なるイオン化機構の関係について論じる。

We study strong-field double ionization in a three-electron atom by applying a simplified, reduced-dimensionality model with three active electrons. The influence of the spin-induced symmetry of the spatial part of the wavefunction on the final two-photoectron momentum distribution is discussed. We identify partial momentum distributions originating from different sets of spins of outgoing electrons providing in this way a quantum support connection between V-structure and direct ionization typically explained classically. Changes in the momentum distribution with increasing field amplitude obtained in our simplified model are shown to be well-correlated with experimental data known from the literature. The possible relation between the observed dependencies and different ionization mechanisms is discussed.
翻訳日:2023-10-30 17:29:53 公開日:2023-10-27
# leandojo: 検索型言語モデルによる定理証明

LeanDojo: Theorem Proving with Retrieval-Augmented Language Models ( http://arxiv.org/abs/2306.15626v2 )

ライセンス: Link先を確認
Kaiyu Yang, Aidan M. Swope, Alex Gu, Rahul Chalamala, Peiyang Song, Shixing Yu, Saad Godil, Ryan Prenger, Anima Anandkumar(参考訳) 大規模言語モデル(LLM)は、Leanのような証明アシスタントを使って形式的な定理を証明することを約束している。 しかし、既存のメソッドは、プライベートコード、データ、大規模な計算要求のため、複製や構築が困難である。 これは、定理証明のための機械学習手法の研究に重大な障壁を生み出した。 本稿では、ツールキット、データ、モデル、ベンチマークで構成されるオープンソースのリーングラウンドであるLeanDojoを導入することで、これらの障壁を取り除く。 LeanDojoはLeanからデータを抽出し、プログラムで証明環境とのインタラクションを可能にする。 これは証明における前提の詳細なアノテーションを含み、前提選択のための貴重なデータを提供する:定理証明における重要なボトルネックである。 このデータを用いて,LLMベースの証明器であるReProver(Retrieval-Augmented Prover)を開発した。 価格は安く、gpuの1週間のトレーニングしか必要ない。 検索はLeanDojoのプログラム分析機能を利用して、アクセス可能な前提と厳しいネガティブな例を特定します。 さらに,Leanの数学ライブラリから抽出した98,734の定理と証明からなる新しいベンチマークを構築した。 これは、トレーニングで使われない新しい前提に依存する定理を一般化することを要求するデータ分割に挑戦する特徴である。 このベンチマークをトレーニングと評価に使用し,非検索ベースラインとGPT-4に対するReProverの有効性を実験的に検証した。 したがって、プロプライエタリなデータセットを使わずに、オープンソースのLCMベースの定理プローバーの最初のセットを提供し、さらなる研究を促進するために寛容なMITライセンスの下でリリースする。

Large language models (LLMs) have shown promise in proving formal theorems using proof assistants such as Lean. However, existing methods are difficult to reproduce or build on, due to private code, data, and large compute requirements. This has created substantial barriers to research on machine learning methods for theorem proving. This paper removes these barriers by introducing LeanDojo: an open-source Lean playground consisting of toolkits, data, models, and benchmarks. LeanDojo extracts data from Lean and enables interaction with the proof environment programmatically. It contains fine-grained annotations of premises in proofs, providing valuable data for premise selection: a key bottleneck in theorem proving. Using this data, we develop ReProver (Retrieval-Augmented Prover): an LLM-based prover augmented with retrieval for selecting premises from a vast math library. It is inexpensive and needs only one GPU week of training. Our retriever leverages LeanDojo's program analysis capability to identify accessible premises and hard negative examples, which makes retrieval much more effective. Furthermore, we construct a new benchmark consisting of 98,734 theorems and proofs extracted from Lean's math library. It features challenging data split requiring the prover to generalize to theorems relying on novel premises that are never used in training. We use this benchmark for training and evaluation, and experimental results demonstrate the effectiveness of ReProver over non-retrieval baselines and GPT-4. We thus provide the first set of open-source LLM-based theorem provers without any proprietary datasets and release it under a permissive MIT license to facilitate further research.
翻訳日:2023-10-30 17:29:43 公開日:2023-10-27
# RLにおける事前学習モデルのモデル化

Learning to Modulate pre-trained Models in RL ( http://arxiv.org/abs/2306.14884v2 )

ライセンス: Link先を確認
Thomas Schmied, Markus Hofmarcher, Fabian Paischer, Razvan Pascanu, Sepp Hochreiter(参考訳) 強化学習(RL)は、ロボット工学、ゲームプレイ、シミュレーションといった様々な分野で成功している。 RLエージェントは特定のタスクに印象的な能力を示してきたが、新しいタスクに十分に適応できなかった。 教師付き学習では、この適応問題は大規模な事前学習と、新しい下流タスクへの微調整によって解決される。 近年,複数のタスクの事前学習がRLで活発化している。 しかし、事前訓練されたモデルの微調整は、しばしば破滅的な忘れに苦しむ。 すなわち、新しいタスクを微調整すると、事前トレーニングタスクのパフォーマンスが低下する。 そこで我々は,メタワールドとdmcontrolという2つのベンチマークスイートから,データセットのモデルを事前学習した。 次に,自然言語処理において広く普及する様々な微調整手法について,新しいタスクの性能と,事前学習タスクにおける性能の保持について評価・比較を行う。 本研究は,ほとんどの微調整手法では,事前学習タスクの性能が著しく低下することを示す。 そこで本研究では,学習可能な変調プールを介して凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。 本手法は,事前学習タスクのパフォーマンスを維持しつつ,連続世界ベンチマークで最先端のパフォーマンスを実現する。 最後に、この分野における今後の研究を支援するため、50のMeta-Worldと16のDMControlタスクを含むデータセットをリリースする。

Reinforcement Learning (RL) has been successful in various domains like robotics, game playing, and simulation. While RL agents have shown impressive capabilities in their specific tasks, they insufficiently adapt to new tasks. In supervised learning, this adaptation problem is addressed by large-scale pre-training followed by fine-tuning to new down-stream tasks. Recently, pre-training on multiple tasks has been gaining traction in RL. However, fine-tuning a pre-trained model often suffers from catastrophic forgetting. That is, the performance on the pre-training tasks deteriorates when fine-tuning on new tasks. To investigate the catastrophic forgetting phenomenon, we first jointly pre-train a model on datasets from two benchmark suites, namely Meta-World and DMControl. Then, we evaluate and compare a variety of fine-tuning methods prevalent in natural language processing, both in terms of performance on new tasks, and how well performance on pre-training tasks is retained. Our study shows that with most fine-tuning approaches, the performance on pre-training tasks deteriorates significantly. Therefore, we propose a novel method, Learning-to-Modulate (L2M), that avoids the degradation of learned skills by modulating the information flow of the frozen pre-trained model via a learnable modulation pool. Our method achieves state-of-the-art performance on the Continual-World benchmark, while retaining performance on the pre-training tasks. Finally, to aid future research in this area, we release a dataset encompassing 50 Meta-World and 16 DMControl tasks.
翻訳日:2023-10-30 17:29:03 公開日:2023-10-27
# デカップリング拡散モデル:画像からゼロ、ノイズまで

Decoupled Diffusion Models: Image to Zero and Zero to Noise ( http://arxiv.org/abs/2306.13720v7 )

ライセンス: Link先を確認
Yuhang Huang and Zheng Qin and Xinwang Liu and Kai Xu(参考訳) 近年の拡散確率モデル (DPM) は, 生成物の顕著な性能を示すが, 複雑な前処理に悩まされることが多く, 逆処理やサンプリング時間の短縮が困難である。 本稿では, 複雑な拡散過程を2つの比較的単純なプロセスに分離し, 生成効率と速度を改善することを提案する拡散過程自体に着目し, 上記の課題に対処することを目的とする。 特に, ito拡散過程に基づくddm (decoupled diffusion models) と呼ばれる新しい拡散パラダイムを提案し, 雑音経路を標準ワイナー過程で制御しながら, 画像分布を明示的な遷移確率で近似する。 拡散過程の疎結合は学習の難しさを低減し、明示的な遷移確率は生成速度を大幅に向上させる。 我々はDPMの新しい学習目標を証明し、モデルが別々にノイズや画像成分を予測することを学べるようにした。 さらに、新しい前方拡散方程式を考えると、通常の微分方程式(ODE)ベースの加速器を使わずに、自然に生成のステップを少なくするDDMの逆分解式を導出する。 実験により,ddmは従来のdpmよりも少ない機能評価設定で大きな差を示し,長機能評価設定で同等の性能を得た。 また,このフレームワークは画像条件付き生成や高解像度画像合成にも適用可能であること,また,10機能評価のみで高品質な画像を生成することができることを示す。

Recent diffusion probabilistic models (DPMs) have shown remarkable abilities of generated content, however, they often suffer from complex forward processes, resulting in inefficient solutions for the reversed process and prolonged sampling times. In this paper, we aim to address the aforementioned challenges by focusing on the diffusion process itself that we propose to decouple the intricate diffusion process into two comparatively simpler process to improve the generative efficacy and speed. In particular, we present a novel diffusion paradigm named DDM (Decoupled Diffusion Models) based on the Ito diffusion process, in which the image distribution is approximated by an explicit transition probability while the noise path is controlled by the standard Wiener process. We find that decoupling the diffusion process reduces the learning difficulty and the explicit transition probability improves the generative speed significantly. We prove a new training objective for DPM, which enables the model to learn to predict the noise and image components separately. Moreover, given the novel forward diffusion equation, we derive the reverse denoising formula of DDM that naturally supports fewer steps of generation without ordinary differential equation (ODE) based accelerators. Our experiments demonstrate that DDM outperforms previous DPMs by a large margin in fewer function evaluations setting and gets comparable performances in long function evaluations setting. We also show that our framework can be applied to image-conditioned generation and high-resolution image synthesis, and that it can generate high-quality images with only 10 function evaluations.
翻訳日:2023-10-30 17:28:41 公開日:2023-10-27
# TACO:視覚強化学習のための時間遅延行動駆動型コントラスト損失

TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning ( http://arxiv.org/abs/2306.13229v2 )

ライセンス: Link先を確認
Ruijie Zheng, Xiyao Wang, Yanchao Sun, Shuang Ma, Jieyu Zhao, Huazhe Xu, Hal Daum\'e III, and Furong Huang(参考訳) 近年, 原画素データからの強化学習(RL)の進歩にもかかわらず, 試料の非効率性はかなりの障害を呈し続けている。 以前の研究は、将来の状態予測のためにエージェントの学習した表現を制御関連情報と共に強化することを目的として、自己監督の補助タスクを作成することで、この問題に対処しようとした。 しかし、これらの目的はしばしば最適なポリシーや値関数を表現できる表現を学ぶのに不十分であり、小さな抽象的な行動空間を持つタスクをよく考慮し、連続的な制御における行動表現学習の重要性を見落としている。 本稿では,エージェントの潜伏状態と行動表現の同時獲得を容易にする,シンプルながら強力な時間的コントラスト学習手法であるTACOを紹介する。 TACOは、動作シーケンスと組み合わせた現在の状態の表現と、対応する将来の状態の表現との相互情報を最適化することにより、状態と行動表現を同時に学習する。 理論的には、TACOは制御に十分な情報を含む状態と行動表現を学習し、サンプル効率を向上させることができる。 オンラインRLでは、Deepmind Control Suiteの9つの挑戦的な視覚的連続制御タスクに対して、平均100万の環境インタラクションステップを経て、TACOは40%のパフォーマンス向上を達成した。 さらに,既存のオフライン visual rl メソッドにプラグイン・アンド・プレイモジュールを追加して,オフライン visual rl のオフラインパフォーマンスを,品質の異なるオフラインデータセット間で確立することも可能だ。

Despite recent progress in reinforcement learning (RL) from raw pixel data, sample inefficiency continues to present a substantial obstacle. Prior works have attempted to address this challenge by creating self-supervised auxiliary tasks, aiming to enrich the agent's learned representations with control-relevant information for future state prediction. However, these objectives are often insufficient to learn representations that can represent the optimal policy or value function, and they often consider tasks with small, abstract discrete action spaces and thus overlook the importance of action representation learning in continuous control. In this paper, we introduce TACO: Temporal Action-driven Contrastive Learning, a simple yet powerful temporal contrastive learning approach that facilitates the concurrent acquisition of latent state and action representations for agents. TACO simultaneously learns a state and an action representation by optimizing the mutual information between representations of current states paired with action sequences and representations of the corresponding future states. Theoretically, TACO can be shown to learn state and action representations that encompass sufficient information for control, thereby improving sample efficiency. For online RL, TACO achieves 40% performance boost after one million environment interaction steps on average across nine challenging visual continuous control tasks from Deepmind Control Suite. In addition, we show that TACO can also serve as a plug-and-play module adding to existing offline visual RL methods to establish the new state-of-the-art performance for offline visual RL across offline datasets with varying quality.
翻訳日:2023-10-30 17:28:13 公開日:2023-10-27
# トポロジカルパララックス:深部知覚モデルのための幾何学的仕様

Topological Parallax: A Geometric Specification for Deep Perception Models ( http://arxiv.org/abs/2306.11835v2 )

ライセンス: Link先を確認
Abraham D. Smith, Michael J. Catanzaro, Gabrielle Angeloro, Nirav Patel, Paul Bendich(参考訳) aiシステムの安全性と堅牢性のために、訓練されたモデルと参照データセットを比較する理論および計算ツールとしてトポロジカルパララックスを導入する。 我々の証明と例は、このデータセットとモデル間の幾何学的類似性が信頼に値する補間と摂動に不可欠であることを示し、この新概念がディープラーニングの応用における過度適合と一般化の間の不明瞭な関係に関する現在の議論に価値をもたらすことを予想している。 典型的なdnnアプリケーションでは、モデルの明示的な幾何学的記述は不可能であるが、パララックスは参照データセットを用いて測地歪のリップ複合体への影響を調べることによって、モデルの位相的特徴(成分、サイクル、空隙など)を推定することができる。 したがって、パララックスは、モデルがデータセットと類似したマルチスケール幾何学的特徴を共有するかどうかを示す。 パララックスは、理論的には、トポロジカルデータ解析(TDA)をバイフィルタ永続モジュールとして提示し、このモジュールの重要な特性は、参照データセットの摂動下で安定である。

For safety and robustness of AI systems, we introduce topological parallax as a theoretical and computational tool that compares a trained model to a reference dataset to determine whether they have similar multiscale geometric structure. Our proofs and examples show that this geometric similarity between dataset and model is essential to trustworthy interpolation and perturbation, and we conjecture that this new concept will add value to the current debate regarding the unclear relationship between overfitting and generalization in applications of deep-learning. In typical DNN applications, an explicit geometric description of the model is impossible, but parallax can estimate topological features (components, cycles, voids, etc.) in the model by examining the effect on the Rips complex of geodesic distortions using the reference dataset. Thus, parallax indicates whether the model shares similar multiscale geometric features with the dataset. Parallax presents theoretically via topological data analysis [TDA] as a bi-filtered persistence module, and the key properties of this module are stable under perturbation of the reference dataset.
翻訳日:2023-10-30 17:27:47 公開日:2023-10-27
# IMP-MARL:MARLによる大規模インフラ管理計画のための環境スイート

IMP-MARL: a Suite of Environments for Large-scale Infrastructure Management Planning via MARL ( http://arxiv.org/abs/2306.11551v2 )

ライセンス: Link先を確認
Pascal Leroy, Pablo G. Morato, Jonathan Pisane, Athanasios Kolios, Damien Ernst(参考訳) 本稿では,大規模なインフラ管理計画(IMP)のためのマルチエージェント強化学習(MARL)環境のオープンソーススイートであるIMP-MARLを紹介する。 IMPでは、多成分工学系は、部品の損傷条件により故障する危険性がある。 具体的には、各エージェントは、システム障害リスクを最小限に抑えつつ、メンテナンスコストを最小限に抑えながら、特定のシステムコンポーネントの検査と修復を計画する。 IMP-MARLでは、持続的で信頼性の高いエネルギーシステムを支援するための経営戦略の改善に向けた今日のニーズを満たすため、オフショア風力構造システムに関連するものを含むいくつかの環境をリリースする。 IMPの実践的エンジニアリング環境によって最大100個のエージェントがサポートされ、最先端の協調型MARL手法のスケーラビリティと性能を専門家によるヒューリスティックポリシーと比較するベンチマークキャンペーンを実施している。 その結果、分散実行方式による集中型トレーニングは、完全に集中化されたRLアプローチや分散化されたRLアプローチよりもエージェント数でスケールし、多くのIMP環境で専門家ベースのヒューリスティックポリシーよりも優れていた。 この結果に基づき、今後のMARL手法が取り組まなければならないコラボレーションとスケーラビリティの課題についても概説する。 IMP-MARL を通じて,新しい環境の実装と MARL 手法のさらなる開発を奨励する。

We introduce IMP-MARL, an open-source suite of multi-agent reinforcement learning (MARL) environments for large-scale Infrastructure Management Planning (IMP), offering a platform for benchmarking the scalability of cooperative MARL methods in real-world engineering applications. In IMP, a multi-component engineering system is subject to a risk of failure due to its components' damage condition. Specifically, each agent plans inspections and repairs for a specific system component, aiming to minimise maintenance costs while cooperating to minimise system failure risk. With IMP-MARL, we release several environments including one related to offshore wind structural systems, in an effort to meet today's needs to improve management strategies to support sustainable and reliable energy systems. Supported by IMP practical engineering environments featuring up to 100 agents, we conduct a benchmark campaign, where the scalability and performance of state-of-the-art cooperative MARL methods are compared against expert-based heuristic policies. The results reveal that centralised training with decentralised execution methods scale better with the number of agents than fully centralised or decentralised RL approaches, while also outperforming expert-based heuristic policies in most IMP environments. Based on our findings, we additionally outline remaining cooperation and scalability challenges that future MARL methods should still address. Through IMP-MARL, we encourage the implementation of new environments and the further development of MARL methods.
翻訳日:2023-10-30 17:27:25 公開日:2023-10-27
# 量子モンテカルロシミュレーションのためのフローティングブロック法

Floating block method for quantum Monte Carlo simulations ( http://arxiv.org/abs/2306.11439v2 )

ライセンス: Link先を確認
Avik Sarkar, Dean Lee, and Ulf-G. Mei{\ss}ner(参考訳) 量子モンテカルロシミュレーションは、量子多体問題のための強力で汎用的なツールである。 通常のエネルギーと固有状態の観測値の計算に加えて、量子モンテカルロシミュレーションは原則として、固有ベクトル連続体や設計時依存のハミルトニアンを用いて高速で正確な多体エミュレータを構築することができる。 これらの新しい応用には、異なるハミルトニアンに対応する基底状態固有ベクトルの内積を計算するための効率的な量子モンテカルロスキームである出版文献から欠けているものが必要である。 本研究では,2つの異なるハミルトニアンを用いてユークリッド時間発展を行い,対応する時間ブロックをインターリーブすることにより,浮動小数点法というアルゴリズムを導入する。 浮動小数点ブロック法と核格子シミュレーションを用いて,局所的および非局所的相互作用結合の領域において,$^4$He,$^8$Be,$^{12}$C,$^{16}$O核の固有ベクトル継続エミュレータを構築する。 エミュレータデータから、アルファ粒子のボースガスから核液への量子相転移線を同定する。

Quantum Monte Carlo simulations are powerful and versatile tools for the quantum many-body problem. In addition to the usual calculations of energies and eigenstate observables, quantum Monte Carlo simulations can in principle be used to build fast and accurate many-body emulators using eigenvector continuation or design time-dependent Hamiltonians for adiabatic quantum computing. These new applications require something that is missing from the published literature, an efficient quantum Monte Carlo scheme for computing the inner product of ground state eigenvectors corresponding to different Hamiltonians. In this work, we introduce an algorithm called the floating block method, which solves the problem by performing Euclidean time evolution with two different Hamiltonians and interleaving the corresponding time blocks. We use the floating block method and nuclear lattice simulations to build eigenvector continuation emulators for energies of $^4$He, $^8$Be, $^{12}$C, and $^{16}$O nuclei over a range of local and non-local interaction couplings. From the emulator data, we identify the quantum phase transition line from a Bose gas of alpha particles to a nuclear liquid.
翻訳日:2023-10-30 17:27:01 公開日:2023-10-27
# インテリジェントエージェントの遺伝子

Genes in Intelligent Agents ( http://arxiv.org/abs/2306.10225v2 )

ライセンス: Link先を確認
Fu Feng, Jing Wang, Xu Yang and Xin Geng(参考訳) 自然界の遺伝子は、何十億年もの間、伝達と蓄積を通じて地球上の生命に現在の生物学的知性を与える。 バイオインテリジェンスにインスパイアされた人工知能(AI)は、マシンインテリジェンスの構築に力を入れている。 成功はしたものの、マシンインテリジェンスはまだ生物学的インテリジェンスよりずっと遅れている。 その理由は、動物は遺伝子にエンコードされた知性をもって生まれるが、機械はそのような知性に欠け、スクラッチから学習するからだ。 動物の遺伝子にインスパイアされ、'learngenes'と命名された機械の'`genes'を定義し、遺伝子強化学習(GRL)を提案する。 GRLは、強化学習(RL)における生物の進化をシミュレートし、学習遺伝子を活用して知能エージェントを学習し、進化させる計算フレームワークである。 GRLを利用すると、まず学習遺伝子がエージェントのニューラルネットワークの断片の形を取り、世代にわたって継承できることが示される。 第2に、学習遺伝子がエージェントに祖先経験を伝達し、本能と強力な学習能力をもたらすことを検証する。 第3に、知的エージェントのラマルク的継承と学習遺伝子の継続的な進化を正当化する。 全体として、学習者は機械知能を生物学的知性に向けてさらに一歩前進させた。

The genes in nature give the lives on earth the current biological intelligence through transmission and accumulation over billions of years. Inspired by the biological intelligence, artificial intelligence (AI) has devoted to building the machine intelligence. Although it has achieved thriving successes, the machine intelligence still lags far behind the biological intelligence. The reason may lie in that animals are born with some intelligence encoded in their genes, but machines lack such intelligence and learn from scratch. Inspired by the genes of animals, we define the ``genes'' of machines named as the ``learngenes'' and propose the Genetic Reinforcement Learning (GRL). GRL is a computational framework that simulates the evolution of organisms in reinforcement learning (RL) and leverages the learngenes to learn and evolve the intelligence agents. Leveraging GRL, we first show that the learngenes take the form of the fragments of the agents' neural networks and can be inherited across generations. Second, we validate that the learngenes can transfer ancestral experience to the agents and bring them instincts and strong learning abilities. Third, we justify the Lamarckian inheritance of the intelligent agents and the continuous evolution of the learngenes. Overall, the learngenes have taken the machine intelligence one more step toward the biological intelligence.
翻訳日:2023-10-30 17:26:38 公開日:2023-10-27
# 実用的シャープネス認識最小化はオプティマへの道のりで収束しない

Practical Sharpness-Aware Minimization Cannot Converge All the Way to Optima ( http://arxiv.org/abs/2306.09850v3 )

ライセンス: Link先を確認
Dongkuk Si, Chulhee Yun(参考訳) Sharpness-Aware Minimization (SAM) は、現在の点$x_t$の摂動の勾配に基づいて降下ステップを取る最適化器である。 既存の研究は、滑らかな函数に対するSAMの収束を証明しているが、それらは減衰する摂動サイズを$\rho$と仮定し、実践から切り離された$y_t$の勾配正規化をしない。 このギャップに対処するために、SAMの決定論的・確率的バージョンを実践的な構成(例えば、定数$\rho$ と $y_t$ の勾配正規化)で研究し、(非)凸性仮定を持つ滑らかな函数上のそれらの収束性を探る。 おそらく、多くのシナリオにおいて、SAM が大域ミニマ点や定常点に収束する能力に制限があることが分かる。 滑らかな強凸函数に対して、決定論的SAMは$\tilde \Theta(\frac{1}{T^2})$の厳密な大域収束率を享受する一方で、確率的SAMの収束境界は必然的な加法的項$O(\rho^2)$を被り、オプティマの近傍のみの収束を示す。 実際、そのような$O(\rho^2)$の因子は、私たちが考慮しているすべての設定において確率的SAMに対して、また非凸の場合において決定論的SAMに対して生じる。 その結果,摂動サイズや勾配正規化を損なうことなく,対数でsamの特性が大きく異なることが明らかとなり,一方のバージョンから得られる直観は他方に当てはまらない可能性が示唆された。

Sharpness-Aware Minimization (SAM) is an optimizer that takes a descent step based on the gradient at a perturbation $y_t = x_t + \rho \frac{\nabla f(x_t)}{\lVert \nabla f(x_t) \rVert}$ of the current point $x_t$. Existing studies prove convergence of SAM for smooth functions, but they do so by assuming decaying perturbation size $\rho$ and/or no gradient normalization in $y_t$, which is detached from practice. To address this gap, we study deterministic/stochastic versions of SAM with practical configurations (i.e., constant $\rho$ and gradient normalization in $y_t$) and explore their convergence properties on smooth functions with (non)convexity assumptions. Perhaps surprisingly, in many scenarios, we find out that SAM has limited capability to converge to global minima or stationary points. For smooth strongly convex functions, we show that while deterministic SAM enjoys tight global convergence rates of $\tilde \Theta(\frac{1}{T^2})$, the convergence bound of stochastic SAM suffers an inevitable additive term $O(\rho^2)$, indicating convergence only up to neighborhoods of optima. In fact, such $O(\rho^2)$ factors arise for stochastic SAM in all the settings we consider, and also for deterministic SAM in nonconvex cases; importantly, we prove by examples that such terms are unavoidable. Our results highlight vastly different characteristics of SAM with vs. without decaying perturbation size or gradient normalization, and suggest that the intuitions gained from one version may not apply to the other.
翻訳日:2023-10-30 17:26:17 公開日:2023-10-27
# TPMソフトウェアスタックの形式検証に向けて

Towards Formal Verification of a TPM Software Stack ( http://arxiv.org/abs/2307.16821v2 )

ライセンス: Link先を確認
Yani Ziani and Nikolai Kosmatov and Fr\'ed\'eric Loulergue and Daniel Gracia P\'erez and T\'eo Bernier(参考訳) Trusted Platform Module (TPM) は、現代のコンピュータの完全性とセキュリティを保護するために設計された暗号プロセッサである。 TPMとの通信は、オープンソースライブラリtpm2-tssであるTPM Software Stack (TSS)を介して行われる。 コードの脆弱性により、攻撃者は機密情報を回復し、システムを制御できる。 本稿では,Frama-C 検証プラットフォームを用いた tpm2-ts の形式的検証について述べる。 リンクリストと複雑なデータ構造をベースとしたライブラリコードは、検証ツールにとって非常に難しいようだ。 対象とするいくつかの問題と制限を提示し、機能特性の検証と関数の代表的なサブセットに対する実行時エラーの欠如を可能にする例とソリューションを示します。 対象コードの完全な形式的検証を実現するために必要な検証結果と所望のツール改善について述べる。

The Trusted Platform Module (TPM) is a cryptoprocessor designed to protect integrity and security of modern computers. Communications with the TPM go through the TPM Software Stack (TSS), a popular implementation of which is the open-source library tpm2-tss. Vulnerabilities in its code could allow attackers to recover sensitive information and take control of the system. This paper describes a case study on formal verification of tpm2-tss using the Frama-C verification platform. Heavily based on linked lists and complex data structures, the library code appears to be highly challenging for the verification tool. We present several issues and limitations we faced, illustrate them with examples and present solutions that allowed us to verify functional properties and the absence of runtime errors for a representative subset of functions. We describe verification results and desired tool improvements necessary to achieve a full formal verification of the target code.
翻訳日:2023-10-30 17:18:00 公開日:2023-10-27
# 測定に基づく総括的固有状態の調製

Generic eigenstate preparation via measurement-based purification ( http://arxiv.org/abs/2307.16496v2 )

ライセンス: Link先を確認
Jia-shun Yan, Jun Jing(参考訳) 量子系がハミルトニアンの直接遷移ではなく、結合量子ビット上の繰り返しの測定によって標的固有状態に精製されるという一般的な意見ではない。 補助量子ビットの射影測度は、対象の状態以外の不要な状態をフィルタリングできるシステム上の正の演算子評価測度をもたらす。 本稿では,最大混合状態あるいは分離状態から最大絡み合う状態(ベル状態およびグリーンベルガー・ホーネ・ザイリンガー状態)を蒸留できる測定ベースの絡み合い浄化法について論じる。 また,同様の測定により刺激されたラマン断熱路の著しい加速を示す。 提案手法は任意の固有状態生成を可能にし, 部分空間浄化のためのマルチパーティイトシステムにおける効率を明らかにする。 有望で汎用的な量子制御フレームワークを提供し、量子測定の機能を高める。

It is not a general opinion that that a quantum system could be purified into a target eigenstate via repeated measurements on a coupled qubit rather than direct transitions in the Hamiltonian. The projective measurement on the ancillary qubit gives rise to the positive operator-valued measures on the system that can filter out the unwanted states except the target one. In application, we discuss the measurement-based entanglement purification by which maximally entangled states (Bell states and Greenberger-Horne-Zeilinger states) can be distilled from the maximally mixed states or separable states. We also demonstrate the significant acceleration of a stimulated Raman adiabatic passage assisted by similar measurements. Our scheme allows arbitrary eigenstate preparation and reveals efficiency in multipartite systems for subspace purification. It offers a promising and generic quantum-control framework enriching the functionalities of quantum measurement.
翻訳日:2023-10-30 17:17:47 公開日:2023-10-27
# リーマン幾何学のレンズによる拡散モデルの潜在空間の理解

Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry ( http://arxiv.org/abs/2307.12868v2 )

ライセンス: Link先を確認
Yong-Hyun Park, Mingi Kwon, Jaewoong Choi, Junghyo Jo, Youngjung Uh(参考訳) 拡散モデル(DM)の成功にもかかわらず、我々はその潜在空間を十分に理解していない。 潜在空間 $\mathbf{x}_t \in \mathcal{X}$ を理解するために、幾何学的観点から解析する。 我々のアプローチは、それらのエンコーディングフィーチャマップに関連付けられたプルバックメトリックを利用することで、$\mathcal{x}$内の局所的潜在基底を導出します。 注目すべきことに、発見されたローカル潜伏基底は、特定の時間ステップで基底ベクトルに沿ってDMの潜伏空間である$\mathbf{x}_t$を移動することで、画像編集機能を実現する。 さらに,DMの幾何学的構造が拡散時間経過とともにどのように進化し,異なるテキスト条件で異なるかを解析する。 これは、粗大な生成の既知の現象を確認し、タイムステップ間の$\mathbf{x}_t$の相違、データセットの複雑さの影響、テキストプロンプトの時間変化の影響など、新しい洞察を明らかにしている。 私たちの知る限りでは、この論文は$\mathbf{x}$-space トラバーサルによる画像編集を最初に提示し、追加のトレーニングなしで特定の時間ステップ $t$ でのみ編集し、dmsの潜在構造を徹底的に分析する。 実験を再現するコードは、https://github.com/enkeejunior1/Diffusion-Pullback.orgにある。

Despite the success of diffusion models (DMs), we still lack a thorough understanding of their latent space. To understand the latent space $\mathbf{x}_t \in \mathcal{X}$, we analyze them from a geometrical perspective. Our approach involves deriving the local latent basis within $\mathcal{X}$ by leveraging the pullback metric associated with their encoding feature maps. Remarkably, our discovered local latent basis enables image editing capabilities by moving $\mathbf{x}_t$, the latent space of DMs, along the basis vector at specific timesteps. We further analyze how the geometric structure of DMs evolves over diffusion timesteps and differs across different text conditions. This confirms the known phenomenon of coarse-to-fine generation, as well as reveals novel insights such as the discrepancy between $\mathbf{x}_t$ across timesteps, the effect of dataset complexity, and the time-varying influence of text prompts. To the best of our knowledge, this paper is the first to present image editing through $\mathbf{x}$-space traversal, editing only once at specific timestep $t$ without any additional training, and providing thorough analyses of the latent structure of DMs. The code to reproduce our experiments can be found at https://github.com/enkeejunior1/Diffusion-Pullback.
翻訳日:2023-10-30 17:16:42 公開日:2023-10-27
# in situモデルフリー最適化による高性能実世界光コンピューティング

High-performance real-world optical computing trained by in situ model-free optimization ( http://arxiv.org/abs/2307.11957v2 )

ライセンス: Link先を確認
Guangyuan Zhao, and Xin Shu(参考訳) 光コンピューティングシステムは、高速で低エネルギーなデータ処理を提供するが、計算的に要求されるトレーニングとシミュレーションと現実のギャップの欠如に直面している。 スコア勾配推定アルゴリズムに基づく光学計算機システムの軽量その場最適化のためのモデルフリーソリューションを提案する。 このアプローチは、システムをブラックボックスとして扱い、光学重みの確率分布に直接損失を逆伝播させ、計算重みとバイアス付きシステムのシミュレーションの必要性を回避する。 我々は,MNISTとFMNISTのデータセットに対して,単層回折光学計算システムの実験を通じて,より優れた分類精度を示す。 さらに,画像のない高速セル解析の可能性を示した。 提案手法の本質的な単純さは,計算資源の低需要と相まって,実験室から実世界の応用への光コンピューティングの移行を早める。

Optical computing systems can provide high-speed and low-energy data processing but face deficiencies in computationally demanding training and simulation-to-reality gap. We propose a model-free solution for lightweight in situ optimization of optical computing systems based on the score gradient estimation algorithm. This approach treats the system as a black box and back-propagates loss directly to the optical weights' probabilistic distributions, hence circumventing the need for computation-heavy and biased system simulation. We demonstrate a superior classification accuracy on the MNIST and FMNIST datasets through experiments on a single-layer diffractive optical computing system. Furthermore, we show its potential for image-free and high-speed cell analysis. The inherent simplicity of our proposed method, combined with its low demand for computational resources, expedites the transition of optical computing from laboratory demonstrations to real-world applications.
翻訳日:2023-10-30 17:16:17 公開日:2023-10-27
# Android in the Wild - Androidデバイスコントロールのための大規模データセット

Android in the Wild: A Large-Scale Dataset for Android Device Control ( http://arxiv.org/abs/2307.10088v2 )

ライセンス: Link先を確認
Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap(参考訳) ユーザインタフェースを直接制御することで、人間の自然言語命令を解釈し、デジタルデバイス上で実行するデバイス制御システムへの関心が高まっている。 本稿では,デバイス制御研究のためのデータセットであるandroid in the wild (aitw)について述べる。 データセットには、画面やアクションを含むデバイスインタラクションの人間によるデモと、対応する自然言語命令が含まれている。 30kのユニークな命令と4種類のandroid(v10-13)、画面解像度の異なる8種類のデバイス(pixel 2 xlからpixel 6)で構成される。 言語と視覚的コンテキストの意味的理解を必要とするマルチステップタスクが含まれている。 ユーザインターフェースを通じて利用可能なアクションは、視覚的な外観から推測されなければなりません。 そして、単純なUI要素ベースのアクションの代わりに、アクション空間は正確なジェスチャー(カルーセルウィジェットを操作する水平スクロールなど)で構成される。 我々は、新しいタスク記述、新しいアプリケーション、または新しいプラットフォームバージョンの存在下で、システムがいかにうまく機能するかという、デバイス制御システムの堅牢性分析を促進するために、データセットを編成する。 2つのエージェントを開発し、データセット全体のパフォーマンスを報告する。 データセットはhttps://github.com/google-research/google-research/tree/master/android_in_the_wildで利用可能である。

There is a growing interest in device-control systems that can interpret human natural language instructions and execute them on a digital device by directly controlling its user interface. We present a dataset for device-control research, Android in the Wild (AITW), which is orders of magnitude larger than current datasets. The dataset contains human demonstrations of device interactions, including the screens and actions, and corresponding natural language instructions. It consists of 715k episodes spanning 30k unique instructions, four versions of Android (v10-13),and eight device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It contains multi-step tasks that require semantic understanding of language and visual context. This dataset poses a new challenge: actions available through the user interface must be inferred from their visual appearance. And, instead of simple UI element-based actions, the action space consists of precise gestures (e.g., horizontal scrolls to operate carousel widgets). We organize our dataset to encourage robustness analysis of device-control systems, i.e., how well a system performs in the presence of new task descriptions, new applications, or new platform versions. We develop two agents and report performance across the dataset. The dataset is available at https://github.com/google-research/google-research/tree/master/android_in_the_wild.
翻訳日:2023-10-30 17:16:03 公開日:2023-10-27
# HYTREL:ハイパーグラフ強化タブラルデータ表現学習

HYTREL: Hypergraph-enhanced Tabular Data Representation Learning ( http://arxiv.org/abs/2307.08623v2 )

ライセンス: Link先を確認
Pei Chen, Soumajyoti Sarkar, Leonard Lausen, Balasubramaniam Srinivasan, Sheng Zha, Ruihong Huang and George Karypis(参考訳) 大量の表データの収集に事前訓練された言語モデルは、いくつかの下流タスクでその効果を実証している。 しかし、これらのモデルの多くは、表データに存在する行/列の置換不変性、階層構造などを考慮していない。 これらの制限を緩和するために,表型言語モデルであるhytrelを提案する。このモデルでは,表型データの置換不変性と3つの構造的特性をハイパーグラフを用いてキャプチャする。 表型データに対して, HYTREL が最大不変であること,すなわち 2 つのテーブルが HYTREL によって同じ表現を得ることを示す。 実験の結果, HYTRELは, 4つの下流タスクにおいて, 最小限の事前学習で競争ベースラインを一貫して上回り, 表象データに関連する帰納バイアスを表現に組み込むことの利点が示された。 最後に、我々は、HYTRELがテーブル構造を同化して、セル、行、列、テーブル全体の堅牢な表現を生成することを示した。

Language models pretrained on large collections of tabular data have demonstrated their effectiveness in several downstream tasks. However, many of these models do not take into account the row/column permutation invariances, hierarchical structure, etc. that exist in tabular data. To alleviate these limitations, we propose HYTREL, a tabular language model, that captures the permutation invariances and three more structural properties of tabular data by using hypergraphs - where the table cells make up the nodes and the cells occurring jointly together in each row, column, and the entire table are used to form three different types of hyperedges. We show that HYTREL is maximally invariant under certain conditions for tabular data, i.e., two tables obtain the same representations via HYTREL iff the two tables are identical up to permutations. Our empirical results demonstrate that HYTREL consistently outperforms other competitive baselines on four downstream tasks with minimal pretraining, illustrating the advantages of incorporating the inductive biases associated with tabular data into the representations. Finally, our qualitative analyses showcase that HYTREL can assimilate the table structures to generate robust representations for the cells, rows, columns, and the entire table.
翻訳日:2023-10-30 17:15:42 公開日:2023-10-27
# Video-FocalNets:ビデオ行動認識のための時空間修正

Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition ( http://arxiv.org/abs/2307.06947v4 )

ライセンス: Link先を確認
Syed Talal Wasim, Muhammad Uzair Khattak, Muzammal Naseer, Salman Khan, Mubarak Shah, Fahad Shahbaz Khan(参考訳) 最近のビデオ認識モデルは、長距離時空間モデリングにTransformerモデルを使用している。 ビデオトランスフォーマーの設計は、高い計算コストでグローバルコンテキストをモデル化できるセルフアテンションに基づいている。 比較として、ビデオの畳み込み設計は効率的な代替手段を提供するが、長距離依存モデリングは欠如している。 この研究は、両方の設計のベストを達成するために、ローカルコンテキストとグローバルコンテキストの両方をモデル化した、ビデオ認識のための効率的かつ効率的なアーキテクチャであるVideo-FocalNetを提案する。 Video-FocalNetは、より効率的な自己注意の相互作用と集約ステップを反転させる、時空間焦点変調アーキテクチャに基づいている。 さらに、アグリゲーションステップとインタラクションステップは、効率的な畳み込みと、ビデオ表現上の自己注意処理よりも計算コストの低い要素乗算演算を用いて実装される。 焦点変調に基づく時空間空間モデルの設計空間を広範に検討し、並列空間および時空間符号化設計が最適選択であることを示す。 video-focalnetsは、5つの大規模データセット(kinetics-400, kinetics-600, ss-v2, dive-48, activitynet-1.3)でビデオ認識のための最先端のトランスフォーマモデルに対して、低い計算コストで優れた性能を発揮する。 私たちのコード/モデルはhttps://github.com/talalwasim/video-focalnetsでリリースしています。

Recent video recognition models utilize Transformer models for long-range spatio-temporal context modeling. Video transformer designs are based on self-attention that can model global context at a high computational cost. In comparison, convolutional designs for videos offer an efficient alternative but lack long-range dependency modeling. Towards achieving the best of both designs, this work proposes Video-FocalNet, an effective and efficient architecture for video recognition that models both local and global contexts. Video-FocalNet is based on a spatio-temporal focal modulation architecture that reverses the interaction and aggregation steps of self-attention for better efficiency. Further, the aggregation step and the interaction step are both implemented using efficient convolution and element-wise multiplication operations that are computationally less expensive than their self-attention counterparts on video representations. We extensively explore the design space of focal modulation-based spatio-temporal context modeling and demonstrate our parallel spatial and temporal encoding design to be the optimal choice. Video-FocalNets perform favorably well against the state-of-the-art transformer-based models for video recognition on five large-scale datasets (Kinetics-400, Kinetics-600, SS-v2, Diving-48, and ActivityNet-1.3) at a lower computational cost. Our code/models are released at https://github.com/TalalWasim/Video-FocalNets.
翻訳日:2023-10-30 17:15:21 公開日:2023-10-27
# DebateKG: セマンティック知識グラフを用いた事例作成のための自動政策議論

DebateKG: Automatic Policy Debate Case Creation with Semantic Knowledge Graphs ( http://arxiv.org/abs/2307.04090v2 )

ライセンス: Link先を確認
Allen Roush, David Mezzetti(参考訳) 近年のArgument Miningコミュニティにおける研究は、競争の激しい議論の中で見つかった問題の解決に自然言語処理システムの適用性を示している。 競争討論における最も重要な課題の1つは、議論者が高品質の討論ケースを作成することである。 議論的意味論的知識グラフ上の制約付き最短経路トラバーサルを用いて,効果的な議論事例を構築できることを示す。 我々は、この可能性について、DebateSumと呼ばれる大規模データセットをすでに備えている、Policy Debateと呼ばれる米国競争的議論の文脈で研究する。 我々は,データセットに53180個の新しい例と,さらに有用なメタデータを導入することで,ディベートサムを大幅に改善した。 我々はtxtaiセマンティックサーチとナレッジグラフツールチェーンを利用して,このデータセット上に構築した9つのセマンティックナレッジグラフを作成し,コントリビュートする。 政策論争事例作成の文脈において,どの知識グラフが優れているかを評価するユニークな手法を提案する。 他のすべてのコードや知識グラフとともに、議論のケースを自動的に生成するデモがオープンソースとして公開され、ここで公開されている。

Recent work within the Argument Mining community has shown the applicability of Natural Language Processing systems for solving problems found within competitive debate. One of the most important tasks within competitive debate is for debaters to create high quality debate cases. We show that effective debate cases can be constructed using constrained shortest path traversals on Argumentative Semantic Knowledge Graphs. We study this potential in the context of a type of American Competitive Debate, called Policy Debate, which already has a large scale dataset targeting it called DebateSum. We significantly improve upon DebateSum by introducing 53180 new examples, as well as further useful metadata for every example, to the dataset. We leverage the txtai semantic search and knowledge graph toolchain to produce and contribute 9 semantic knowledge graphs built on this dataset. We create a unique method for evaluating which knowledge graphs are better in the context of producing policy debate cases. A demo which automatically generates debate cases, along with all other code and the Knowledge Graphs, are open-sourced and made available to the public here: https://huggingface.co/spaces/Hellisotherpeople/DebateKG
翻訳日:2023-10-30 17:14:41 公開日:2023-10-27
# スコアとフローマッチングによるシュリンガーブリッジのシミュレーションフリー化

Simulation-free Schr\"odinger bridges via score and flow matching ( http://arxiv.org/abs/2307.03672v2 )

ライセンス: Link先を確認
Alexander Tong, Nikolay Malkin, Kilian Fatras, Lazar Atanackovic, Yanlei Zhang, Guillaume Huguet, Guy Wolf, Yoshua Bengio(参考訳) 任意の音源および対象分布から抽出された未ペア標本から確率力学を推定するシミュレーションフリーな目的であるシミュレーションフリースコアとフローマッチング([SF]$^2$M)を提案する。 本手法は,拡散モデルのトレーニングに使用するスコアマッチング損失と,連続正規化フローのトレーニングに使用されるフローマッチング損失の両方を一般化する。 [SF]$^2$Mは、連続時間確率的生成モデリングをシュリンガーブリッジ問題として解釈する。 学習確率過程をシミュレートすることなくSBを効率的に学習するために、静的エントロピー規則化された最適輸送(ミニバッチ近似)に依存する。 我々は, [SF]$^2$Mの方が効率が高く, 従来のシミュレーション手法よりもSB問題に対するより正確な解が得られることを示した。 最後に,スナップショットデータからセルダイナミクスを学習する問題に対して [SF]$^2$M を適用する。 特に、[SF]$^2$Mは、高次元の細胞動態を正確にモデル化し、シミュレーションデータから既知の遺伝子制御ネットワークを復元する最初の方法である。

We present simulation-free score and flow matching ([SF]$^2$M), a simulation-free objective for inferring stochastic dynamics given unpaired samples drawn from arbitrary source and target distributions. Our method generalizes both the score-matching loss used in the training of diffusion models and the recently proposed flow matching loss used in the training of continuous normalizing flows. [SF]$^2$M interprets continuous-time stochastic generative modeling as a Schr\"odinger bridge problem. It relies on static entropy-regularized optimal transport, or a minibatch approximation, to efficiently learn the SB without simulating the learned stochastic process. We find that [SF]$^2$M is more efficient and gives more accurate solutions to the SB problem than simulation-based methods from prior work. Finally, we apply [SF]$^2$M to the problem of learning cell dynamics from snapshot data. Notably, [SF]$^2$M is the first method to accurately model cell dynamics in high dimensions and can recover known gene regulatory networks from simulated data.
翻訳日:2023-10-30 17:14:14 公開日:2023-10-27
# 不連続ネットワークによる深部契約設計

Deep Contract Design via Discontinuous Networks ( http://arxiv.org/abs/2307.02318v2 )

ライセンス: Link先を確認
Tonghan Wang, Paul D\"utting, Dmitry Ivanov, Inbal Talgam-Cohen, David C. Parkes(参考訳) 契約設計は、代理人の行動から生じる成果に対する支払いに関する契約上の合意を確立するプリンシパルを含む。 本稿では,最適契約の自動設計のための深層学習の研究を開始する。 本稿では,不連続ReLU (Discontinuous ReLU) ネットワークについて紹介する。このネットワークは,各部品が特定の動作を行うエージェントに対応する契約の設計における不連続な部分的アフィン関数として,プリンシパルの効用をモデル化する。 DeLUネットワークは、エージェントのインセンティブ互換性制約とプリンシパルのユーティリティ最大化目的に対するクローズドフォーム表現を暗黙的に学習し、最適契約を解く線形プログラミングやインテリアポイントメソッドを通じて各ピースの並列推論をサポートする。 我々は,少数のトレーニングサンプルを用いてプリンシパルの効用関数を近似し,多数の動作と結果を持つ問題に対して,ほぼ最適なコントラクトを見つけるためのスケーリングを行うことで,その成功を実証する実験結果を提供する。

Contract design involves a principal who establishes contractual agreements about payments for outcomes that arise from the actions of an agent. In this paper, we initiate the study of deep learning for the automated design of optimal contracts. We introduce a novel representation: the Discontinuous ReLU (DeLU) network, which models the principal's utility as a discontinuous piecewise affine function of the design of a contract where each piece corresponds to the agent taking a particular action. DeLU networks implicitly learn closed-form expressions for the incentive compatibility constraints of the agent and the utility maximization objective of the principal, and support parallel inference on each piece through linear programming or interior-point methods that solve for optimal contracts. We provide empirical results that demonstrate success in approximating the principal's utility function with a small number of training samples and scaling to find approximately optimal contracts on problems with a large number of actions and outcomes.
翻訳日:2023-10-30 17:13:40 公開日:2023-10-27
# 離散対称性発見のための統一フレームワーク

A Unified Framework for Discovering Discrete Symmetries ( http://arxiv.org/abs/2309.02898v2 )

ライセンス: Link先を確認
Pavan Karjol, Rohan Kashyap, Aditya Gopalan, Prathosh A.P(参考訳) 対称性を尊重する関数を対称性のクラスから学習する問題を考察する。 我々は,局所対称群,双面体群,環状部分群を含む幅広い部分群にまたがって対称性の発見を可能にする統一フレームワークを開発した。 フレームワークの中核は、これらの部分群に不変な関数を原則的に表現する線形、行列値、非線形関数からなる新しいアーキテクチャである。 アーキテクチャの構造により,マルチアームバンディットアルゴリズムと勾配降下を利用して,線形関数と非線形関数をそれぞれ効率的に最適化し,最終的に学習される対称性を推定することができる。 また,アーキテクチャにおける行列値関数の必要性についても論じる。 画像桁和および多項式回帰タスクの実験は、我々のアプローチの有効性を実証する。

We consider the problem of learning a function respecting a symmetry from among a class of symmetries. We develop a unified framework that enables symmetry discovery across a broad range of subgroups including locally symmetric, dihedral and cyclic subgroups. At the core of the framework is a novel architecture composed of linear, matrix-valued and non-linear functions that expresses functions invariant to these subgroups in a principled manner. The structure of the architecture enables us to leverage multi-armed bandit algorithms and gradient descent to efficiently optimize over the linear and the non-linear functions, respectively, and to infer the symmetry that is ultimately learnt. We also discuss the necessity of the matrix-valued functions in the architecture. Experiments on image-digit sum and polynomial regression tasks demonstrate the effectiveness of our approach.
翻訳日:2023-10-30 17:06:21 公開日:2023-10-27
# 4ビット状態のメモリ効率最適化

Memory Efficient Optimizers with 4-bit States ( http://arxiv.org/abs/2309.01507v3 )

ライセンス: Link先を確認
Bingrui Li, Jianfei Chen, Jun Zhu(参考訳) 最適化状態は、ニューラルネットワークをトレーニングするための主要なメモリ消費源であり、与えられたメモリ予算内で最大のトレーニング可能なモデルを制限する。 32ビット浮動小数点から低ビット幅へのオプティマイザ状態の圧縮は、トレーニングメモリフットプリントの削減を約束している。 本研究では,第1モーメントと第2モーメントの詳細な実験解析を通じて,オプティマイザ状態のビット幅を4ビットまで押し下げる。 特に、モーメントには複雑な外れ値パターンがあり、現在のブロックワイズ量子化は正確に近似できない。 ブロックサイズを小さくし,列情報と列情報の両方を用いて量子化を改善することを提案する。 さらに、第2モーメントを量子化するゼロ点問題を特定し、零点を除外する線形量子化器を用いてこの問題を解決する。 4ビットオプティマイザは、自然言語理解、機械翻訳、画像分類、命令チューニングなど、さまざまなベンチマークで評価しています。 すべてのタスクにおいて、最適化者は、より優れたメモリ効率を享受しながら、完全な精度で同等の精度を達成できます。

Optimizer states are a major source of memory consumption for training neural networks, limiting the maximum trainable model within given memory budget. Compressing the optimizer states from 32-bit floating points to lower bitwidth is promising to reduce the training memory footprint, while the current lowest achievable bitwidth is 8-bit. In this work, we push optimizer states bitwidth down to 4-bit through a detailed empirical analysis of first and second moments. Specifically, we find that moments have complicated outlier patterns, that current block-wise quantization cannot accurately approximate. We use a smaller block size and propose to utilize both row-wise and column-wise information for better quantization. We further identify a zero point problem of quantizing the second moment, and solve this problem with a linear quantizer that excludes the zero point. Our 4-bit optimizers are evaluated on a wide variety of benchmarks including natural language understanding, machine translation, image classification, and instruction tuning. On all the tasks our optimizers can achieve comparable accuracy with their full-precision counterparts, while enjoying better memory efficiency.
翻訳日:2023-10-30 17:06:09 公開日:2023-10-27
# 高速かつレグレトな最適アーム同定法:基本極限と低複雑さアルゴリズム

Fast and Regret Optimal Best Arm Identification: Fundamental Limits and Low-Complexity Algorithms ( http://arxiv.org/abs/2309.00591v2 )

ライセンス: Link先を確認
Qining Zhang, Lei Ying(参考訳) 本稿では,2つの目的を持つ確率的マルチアーマッド帯域(MAB)問題について考察する。 (i)最適腕に対する迅速な識別及びコミットメント、及び (ii)連続ラウンドの連続で最大報酬を最大化すること。 それぞれの目的が個別によく研究されている、すなわち、最良の腕の識別である。 (i)及び後悔の最小化 (ii) 実用的重要性にもかかわらず, 両目的の同時実現は未解決の問題である。 本稿では,これら2つの目的を達成することを目的とした,emph{Regret Optimal Best Arm Identification} (ROBAI)を紹介する。 既定停止時間と適応停止時間の両方の条件でroboiを解くために, eocpとその変種をそれぞれ提案する。これはガウス群と一般群において漸近的最適後悔を実現するだけでなく, 既定停止時間を持つ$\mathcal{o}(\log t)$ rounds と適応停止時間$\mathcal{o}(\log^2 t)$ rounds の最適アームにコミットする。 さらに,roboiのコミットメント時間(サンプル複雑性に相当)における下限を特徴付け,eocpとその変種が予め決定された停止時間に最適なサンプルであり,適応停止時間にほぼ最適であることを示す。 数値的な結果は、我々の理論解析を裏付け、古典的 UCB アルゴリズムによってもたらされる興味深い「過剰探索」現象を明らかにし、EOCP は UCB よりもはるかに早く探索を中止しているにもかかわらず、より少ない後悔、すなわち $\mathcal{O}(\log T)$ 対 $\mathcal{O}(T)$ である。

This paper considers a stochastic Multi-Armed Bandit (MAB) problem with dual objectives: (i) quick identification and commitment to the optimal arm, and (ii) reward maximization throughout a sequence of $T$ consecutive rounds. Though each objective has been individually well-studied, i.e., best arm identification for (i) and regret minimization for (ii), the simultaneous realization of both objectives remains an open problem, despite its practical importance. This paper introduces \emph{Regret Optimal Best Arm Identification} (ROBAI) which aims to achieve these dual objectives. To solve ROBAI with both pre-determined stopping time and adaptive stopping time requirements, we present an algorithm called EOCP and its variants respectively, which not only achieve asymptotic optimal regret in both Gaussian and general bandits, but also commit to the optimal arm in $\mathcal{O}(\log T)$ rounds with pre-determined stopping time and $\mathcal{O}(\log^2 T)$ rounds with adaptive stopping time. We further characterize lower bounds on the commitment time (equivalent to the sample complexity) of ROBAI, showing that EOCP and its variants are sample optimal with pre-determined stopping time, and almost sample optimal with adaptive stopping time. Numerical results confirm our theoretical analysis and reveal an interesting "over-exploration" phenomenon carried by classic UCB algorithms, such that EOCP has smaller regret even though it stops exploration much earlier than UCB, i.e., $\mathcal{O}(\log T)$ versus $\mathcal{O}(T)$, which suggests over-exploration is unnecessary and potentially harmful to system performance.
翻訳日:2023-10-30 17:05:48 公開日:2023-10-27
# FairMonitor: 大規模言語モデルにおけるステレオタイプとバイアスを検出する4段階の自動フレームワーク

FairMonitor: A Four-Stage Automatic Framework for Detecting Stereotypes and Biases in Large Language Models ( http://arxiv.org/abs/2308.10397v2 )

ライセンス: Link先を確認
Yanhong Bai and Jiabao Zhao and Jinxin Shi and Tingjiang Wei and Xingjiao Wu and Liang He(参考訳) 大規模言語モデル(llm)におけるステレオタイプやバイアスの検出は、公平性を高め、これらのllmを適用する際に個人やグループへの悪影響を減らすことができる。 しかし、既存の手法の大半は、データセット内のバイアスやステレオタイプを含む文に対するモデルの好みを測定することに集中しており、解釈可能性に欠け、現実世界では暗黙のバイアスやステレオタイプを検出できない。 このギャップに対処するために,本論文では,直接照会テスト,連続的あるいは適応的ストーリーテスト,暗黙的関連テスト,未知の状況テストなど,llm の生成するコンテンツのステレオタイプやバイアスを直接評価する 4段階フレームワークを提案する。 さらに,自動評価のための多次元評価指標と説明可能なゼロショットプロンプトを提案する。 教育部門をケーススタディとして,9因子と26の教育シナリオを含む12,632のオープンエンド質問を含む4段階の枠組みに基づくEdu-FairMonitorを構築した。 実験結果から,Edu-FairMonitorで評価された5つのLDMのステレオタイプとバイアスの程度が異なっていた。 さらに,提案手法による自動評価の結果は,人間のアノテーションと高い相関関係を示した。

Detecting stereotypes and biases in Large Language Models (LLMs) can enhance fairness and reduce adverse impacts on individuals or groups when these LLMs are applied. However, the majority of existing methods focus on measuring the model's preference towards sentences containing biases and stereotypes within datasets, which lacks interpretability and cannot detect implicit biases and stereotypes in the real world. To address this gap, this paper introduces a four-stage framework to directly evaluate stereotypes and biases in the generated content of LLMs, including direct inquiry testing, serial or adapted story testing, implicit association testing, and unknown situation testing. Additionally, the paper proposes multi-dimensional evaluation metrics and explainable zero-shot prompts for automated evaluation. Using the education sector as a case study, we constructed the Edu-FairMonitor based on the four-stage framework, which encompasses 12,632 open-ended questions covering nine sensitive factors and 26 educational scenarios. Experimental results reveal varying degrees of stereotypes and biases in five LLMs evaluated on Edu-FairMonitor. Moreover, the results of our proposed automated evaluation method have shown a high correlation with human annotations.
翻訳日:2023-10-30 17:05:14 公開日:2023-10-27
# 深層学習のための2重gauss-newton方向

Dual Gauss-Newton Directions for Deep Learning ( http://arxiv.org/abs/2308.08886v2 )

ライセンス: Link先を確認
Vincent Roulet, Mathieu Blondel(参考訳) そこで,gauss-newton様の手法に触発されて,部分線形化の考え方に基づく確率的勾配よりもより良い方向神託を導出するために,凸損失関数と非線形ネットワークの構成という,深層学習対象の構造を活用する利点について検討した。 本研究は,従来の研究から離れて,その2つの定式化による方向オラクルの計算を提案し,計算上の利点と新たな洞察をもたらす。 我々は,既存の最適化アルゴリズムにおいて,確率勾配のドロップイン代替として使用できる降下方向を定義することを実証した。 本稿では, 二重定式化の利点と, このようなオラクルの計算にかかわる計算トレードオフを実証的に検討する。

Inspired by Gauss-Newton-like methods, we study the benefit of leveraging the structure of deep learning objectives, namely, the composition of a convex loss function and of a nonlinear network, in order to derive better direction oracles than stochastic gradients, based on the idea of partial linearization. In a departure from previous works, we propose to compute such direction oracles via their dual formulation, leading to both computational benefits and new insights. We demonstrate that the resulting oracles define descent directions that can be used as a drop-in replacement for stochastic gradients, in existing optimization algorithms. We empirically study the advantage of using the dual formulation as well as the computational trade-offs involved in the computation of such oracles.
翻訳日:2023-10-30 17:04:53 公開日:2023-10-27
# 不均一モデルによる個人化フェデレーション学習に向けて

Towards Personalized Federated Learning via Heterogeneous Model Reassembly ( http://arxiv.org/abs/2308.08643v3 )

ライセンス: Link先を確認
Jiaqi Wang, Xingyi Yang, Suhan Cui, Liwei Che, Lingjuan Lyu, Dongkuan Xu, Fenglong Ma(参考訳) 本稿では,クライアントが異なるネットワーク構造を持つモデルを持つフェデレート学習におけるモデル不均一性の問題に対処することに焦点を当てる。 この問題を追跡するために,ヘテロジニアスモデルの再組み立てを利用して個別の連合学習を実現するpfedhrという新しいフレームワークを提案する。 特に,サーバ側でのモデルマッチング最適化タスクとして,ヘテロジニアスモデルパーソナライズの問題にアプローチする。 さらに、pFedHRは人間の介入を最小限に抑えた情報的かつ多様な個人化候補を自動かつ動的に生成する。 さらに,提案手法は,クライアントデータと異なる分布を持つ公開データを用いることで生じる悪影響をある程度緩和するものである。 実験の結果、pFedHRはIIDと非IIDの両方の設定下で3つのデータセットのベースラインよりも優れていた。 さらに、pFedHRは、異なる公開データを使用することによる悪影響を効果的に低減し、多様なパーソナライズされたモデルを自動で動的に生成する。

This paper focuses on addressing the practical yet challenging problem of model heterogeneity in federated learning, where clients possess models with different network structures. To track this problem, we propose a novel framework called pFedHR, which leverages heterogeneous model reassembly to achieve personalized federated learning. In particular, we approach the problem of heterogeneous model personalization as a model-matching optimization task on the server side. Moreover, pFedHR automatically and dynamically generates informative and diverse personalized candidates with minimal human intervention. Furthermore, our proposed heterogeneous model reassembly technique mitigates the adverse impact introduced by using public data with different distributions from the client data to a certain extent. Experimental results demonstrate that pFedHR outperforms baselines on three datasets under both IID and Non-IID settings. Additionally, pFedHR effectively reduces the adverse impact of using different public data and dynamically generates diverse personalized models in an automated manner.
翻訳日:2023-10-30 17:04:38 公開日:2023-10-27
# 待ち行列システムにおける学習コストの定量化

Quantifying the Cost of Learning in Queueing Systems ( http://arxiv.org/abs/2308.07817v2 )

ライセンス: Link先を確認
Daniel Freund, Thodoris Lykouris, Wentao Weng(参考訳) キューシステムは、通信ネットワーク、医療、サービスシステムなどにおけるユースケースを備えた、広く適用可能な確率モデルである。 最適制御は広く研究されているが、既存のほとんどの手法はシステムパラメータの完全な知識を前提としている。 もちろん、パラメータの不確実性がある場合、この仮定はめったに成立しないため、待ち行列システムのバンディット学習に関する最近の作業が動機となっている。 この初期の研究の流れは、提案アルゴリズムの漸近的性能に焦点を当てている。 本稿では,後期の演奏に焦点を当てた漸近的メトリクスは,典型的には早期に発生する待ち行列システムにおける学習の内在的な統計的複雑さを捉えるには不十分である,と論じる。 代わりに、パラメータの不確実性に起因する平均待ち時間長の最大増加を定量化する新しい指標である、待ち時間学習コスト(CLQ)を提案する。 我々は、単一キューのマルチサーバシステムのclqを特徴付け、その結果をマルチキューのマルチサーバシステムとキューのネットワークに拡張する。 結果の確立にあたり,リアプノフとバンディット解析を橋渡しし,幅広いアルゴリズムの保証を提供するclqの統一分析フレームワークを提案する。

Queueing systems are widely applicable stochastic models with use cases in communication networks, healthcare, service systems, etc. Although their optimal control has been extensively studied, most existing approaches assume perfect knowledge of the system parameters. Of course, this assumption rarely holds in practice where there is parameter uncertainty, thus motivating a recent line of work on bandit learning for queueing systems. This nascent stream of research focuses on the asymptotic performance of the proposed algorithms. In this paper, we argue that an asymptotic metric, which focuses on late-stage performance, is insufficient to capture the intrinsic statistical complexity of learning in queueing systems which typically occurs in the early stage. Instead, we propose the Cost of Learning in Queueing (CLQ), a new metric that quantifies the maximum increase in time-averaged queue length caused by parameter uncertainty. We characterize the CLQ of a single queue multi-server system, and then extend these results to multi-queue multi-server systems and networks of queues. In establishing our results, we propose a unified analysis framework for CLQ that bridges Lyapunov and bandit analysis, provides guarantees for a wide range of algorithms, and could be of independent interest.
翻訳日:2023-10-30 17:04:21 公開日:2023-10-27
# 好きなものを分離する

Separate Anything You Describe ( http://arxiv.org/abs/2308.05037v2 )

ライセンス: Link先を確認
Xubo Liu, Qiuqiang Kong, Yan Zhao, Haohe Liu, Yi Yuan, Yuzhuo Liu, Rui Xia, Yuxuan Wang, Mark D. Plumbley, Wenwu Wang(参考訳) 言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである。 LASSは、自然言語クエリが与えられたオーディオからターゲットの音を分離することを目的としており、デジタルオーディオアプリケーションに自然でスケーラブルなインターフェースを提供する。 LASSに関する最近の研究は、特定のソース(例えば、楽器、限られた種類のオーディオイベント)で有望な分離性能を達成したにもかかわらず、オープンドメインでのオーディオ概念の分離は不可能である。 本稿では,自然言語クエリを用いたオープンドメインオーディオソース分離の基礎モデルであるAudioSepを紹介する。 我々は,大規模マルチモーダルデータセット上でオーディオsepをトレーニングし,音声イベント分離,楽器分離,音声強調など,多数のタスクでその能力を広範囲に評価した。 AudioSepは、音声キャプションやテキストラベルをクエリとして使用することで、強い分離性能と印象的なゼロショット一般化能力を示し、従来の音声クエリーおよび言語クエリー音声分離モデルを大幅に上回る。 この作業の再現性のために、ソースコード、評価ベンチマーク、事前学習されたモデルをhttps://github.com/audio-agi/audiosep.orgでリリースします。

Language-queried audio source separation (LASS) is a new paradigm for computational auditory scene analysis (CASA). LASS aims to separate a target sound from an audio mixture given a natural language query, which provides a natural and scalable interface for digital audio applications. Recent works on LASS, despite attaining promising separation performance on specific sources (e.g., musical instruments, limited classes of audio events), are unable to separate audio concepts in the open domain. In this work, we introduce AudioSep, a foundation model for open-domain audio source separation with natural language queries. We train AudioSep on large-scale multimodal datasets and extensively evaluate its capabilities on numerous tasks including audio event separation, musical instrument separation, and speech enhancement. AudioSep demonstrates strong separation performance and impressive zero-shot generalization ability using audio captions or text labels as queries, substantially outperforming previous audio-queried and language-queried sound separation models. For reproducibility of this work, we will release the source code, evaluation benchmark and pre-trained model at: https://github.com/Audio-AGI/AudioSep.
翻訳日:2023-10-30 17:04:03 公開日:2023-10-27
# StableVQA:ビデオの安定性のための深いノン参照品質評価モデル

StableVQA: A Deep No-Reference Quality Assessment Model for Video Stability ( http://arxiv.org/abs/2308.04904v3 )

ライセンス: Link先を確認
Tengchuan Kou, Xiaohong Liu, Wei Sun, Jun Jia, Xiongkuo Min, Guangtao Zhai, Ning Liu(参考訳) ビデオシャキネス(video shakiness)は、通常、不安定なカメラのホールドによって引き起こされる、ユーザー生成コンテンツ(ugc)ビデオの不快な歪みである。 近年,多くのビデオ安定化アルゴリズムが提案されているが,ビデオの安定性を総合的に評価できる具体的な精度の指標は存在しない。 実際、既存の品質評価モデルのほとんどは、ビデオ安定性の主観的な経験を考慮せずに、全体的な品質を評価する。 したがって、これらのモデルでは映像の安定性を明示的かつ正確に測定することはできない。 また,ビデオ品質評価(VQA-S)の開発を阻害する主観的スコアが利用可能な,様々な程度にぼやけたビデオを含む大規模ビデオデータベースは公開されていない。 そこで我々は,stabledbという新たなデータベースを構築した。このデータベースには1,952種類のシェークなugcビデオが含まれており,各ビデオは平均評価スコア(mos)を34名の被験者で評価する。 さらに,光学的フロー,セマンティック,ブラー特徴をそれぞれ取得する3つの特徴抽出器と,最終的な安定性を予測するための回帰層からなる新しいVQA-SモデルであるStableVQAを精巧に設計する。 広範囲な実験により、StableVQAは既存のVQA-Sモデルや一般的なVQAモデルよりも主観的意見との相関が高いことが示されている。 データベースとコードはhttps://github.com/qmme/stablevqaで入手できる。

Video shakiness is an unpleasant distortion of User Generated Content (UGC) videos, which is usually caused by the unstable hold of cameras. In recent years, many video stabilization algorithms have been proposed, yet no specific and accurate metric enables comprehensively evaluating the stability of videos. Indeed, most existing quality assessment models evaluate video quality as a whole without specifically taking the subjective experience of video stability into consideration. Therefore, these models cannot measure the video stability explicitly and precisely when severe shakes are present. In addition, there is no large-scale video database in public that includes various degrees of shaky videos with the corresponding subjective scores available, which hinders the development of Video Quality Assessment for Stability (VQA-S). To this end, we build a new database named StableDB that contains 1,952 diversely-shaky UGC videos, where each video has a Mean Opinion Score (MOS) on the degree of video stability rated by 34 subjects. Moreover, we elaborately design a novel VQA-S model named StableVQA, which consists of three feature extractors to acquire the optical flow, semantic, and blur features respectively, and a regression layer to predict the final stability score. Extensive experiments demonstrate that the StableVQA achieves a higher correlation with subjective opinions than the existing VQA-S models and generic VQA models. The database and codes are available at https://github.com/QMME/StableVQA.
翻訳日:2023-10-30 17:03:42 公開日:2023-10-27
# 多人数動作予測のための連系変圧器

Joint-Relation Transformer for Multi-Person Motion Prediction ( http://arxiv.org/abs/2308.04808v2 )

ライセンス: Link先を確認
Qingyao Xu, Weibo Mao, Jingze Gong, Chenxin Xu, Siheng Chen, Weidi Xie, Ya Zhang, Yanfeng Wang(参考訳) 複数の人物の動き予測は、個々の過去の動きと他の人との相互作用の両方に動きが依存するため、難しい問題である。 トランスベースの手法はこの課題に有望な結果を示しているが、正確な相互作用モデリングに不可欠な骨格構造や対距離といった関節間の明示的な関係表現を欠いている。 本稿では、関係情報を利用して相互作用モデリングを強化し、将来の動き予測を改善する共同関係変換器を提案する。 関係情報は、相対距離と人内・人間の物理的制約を含む。 連接情報と連接情報とを融合させるため,両特徴の更新に注目する新しい連接融合層を設計する。 さらに,今後の距離を予測して関係情報を監督する。 実験の結果,3DPW-SoMoF/RCでは900ms VIMが13.4%向上し,CMU-Mpcap/MuPoTS-3Dデータセットでは17.8%/12.0%改善した。

Multi-person motion prediction is a challenging problem due to the dependency of motion on both individual past movements and interactions with other people. Transformer-based methods have shown promising results on this task, but they miss the explicit relation representation between joints, such as skeleton structure and pairwise distance, which is crucial for accurate interaction modeling. In this paper, we propose the Joint-Relation Transformer, which utilizes relation information to enhance interaction modeling and improve future motion prediction. Our relation information contains the relative distance and the intra-/inter-person physical constraints. To fuse relation and joint information, we design a novel joint-relation fusion layer with relation-aware attention to update both features. Additionally, we supervise the relation information by forecasting future distance. Experiments show that our method achieves a 13.4% improvement of 900ms VIM on 3DPW-SoMoF/RC and 17.8%/12.0% improvement of 3s MPJPE on CMU-Mpcap/MuPoTS-3D dataset.
翻訳日:2023-10-30 17:03:12 公開日:2023-10-27
# 量子計測理論における正準占有状態(マクロ)のエントロピー

Entropy of the Canonical Occupancy (Macro) State in the Quantum Measurement Theory ( http://arxiv.org/abs/2308.04472v3 )

ライセンス: Link先を確認
Arnaldo Spalvieri(参考訳) 本稿では,任意の数の非相互作用ボソンからなる平衡状態における占有数とエントロピーの確率分布を解析した。 確率分布は、環境統合と利害関係の純粋な状態(経験的アプローチ)から環境をトレースすることと、環境統合と利害関係の混合状態(ベイズ的アプローチ)から環境を追跡することの両方から導かれる。 熱力学的極限では、この2つは一致し、多項分布に等しい。 系の物理的エントロピーは、多項分布のシャノンエントロピーと同一視される。 これにより、熱力学的エントロピーの古典的解析で生じる矛盾が解消される。

The paper analyzes the probability distribution of the occupancy numbers and the entropy of a system at the equilibrium composed by an arbitrary number of non-interacting bosons. The probability distribution is derived both by tracing out the environment from the pure state of the union of environment and system of interest (the empirical approach) and by tracing out the environment from the mixed state of the union of environment and system of interest (the Bayesian approach). In the thermodynamic limit, the two coincide and are equal to the multinomial distribution. The physical entropy of the system is then identified with the Shannon entropy of the multinomial distribution. This fixes certain contradictions arising in the classical analysis of thermodynamic entropy.
翻訳日:2023-10-30 17:02:38 公開日:2023-10-27
# ParaFuzz: NLPのポゾンサンプル検出のための解釈可能性駆動技術

ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned Samples in NLP ( http://arxiv.org/abs/2308.02122v2 )

ライセンス: Link先を確認
Lu Yan, Zhuo Zhang, Guanhong Tao, Kaiyuan Zhang, Xuan Chen, Guangyu Shen, Xiangyu Zhang(参考訳) バックドア攻撃は自然言語処理(NLP)モデルに対する顕著な脅威として現れており、入力に特定のトリガーが存在することは、これらの入力を所定のターゲットクラスに誤分類するために有毒なモデルを引き起こす可能性がある。 現在の検出メカニズムは、スタイルベースの攻撃のような隠れたバックドア戦略に対処できないため、制限されている。 本研究では,入力の意味的意味を基盤としたモデル予測の解釈可能性に基づく,革新的な試験時間有毒サンプル検出フレームワークを提案する。 我々は、トリガー(例:頻度の低い単語)は、ステルス性を保つために、毒性のあるサンプルの基本的な意味を根本的に変えるものではないと主張する。 この観察に基づき、パラフラージングされたクリーンサンプルに対するモデルの予測は安定していなければならないが、汚染されたサンプルの予測は、パラフラージングプロセス中にトリガーに適用される突然変異によって真のラベルに戻るべきであると仮定した。 我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして採用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。 我々は、ソフトウェア脆弱性の発見によく使われるファジィングを用いて、入力セマンティクスを同時に維持しながらトリガーを効果的に除去できる最適なパラフレーズプロンプトを発見する。 微妙なスタイルのバックドアを含む4種類のバックドア攻撃の実験と、4つの異なるデータセットにより、我々のアプローチがSTRIP、RAP、ONIONなどのベースラインメソッドを精度とリコールで超越していることが示されている。

Backdoor attacks have emerged as a prominent threat to natural language processing (NLP) models, where the presence of specific triggers in the input can lead poisoned models to misclassify these inputs to predetermined target classes. Current detection mechanisms are limited by their inability to address more covert backdoor strategies, such as style-based attacks. In this work, we propose an innovative test-time poisoned sample detection framework that hinges on the interpretability of model predictions, grounded in the semantic meaning of inputs. We contend that triggers (e.g., infrequent words) are not supposed to fundamentally alter the underlying semantic meanings of poisoned samples as they want to stay stealthy. Based on this observation, we hypothesize that while the model's predictions for paraphrased clean samples should remain stable, predictions for poisoned samples should revert to their true labels upon the mutations applied to triggers during the paraphrasing process. We employ ChatGPT, a state-of-the-art large language model, as our paraphraser and formulate the trigger-removal task as a prompt engineering problem. We adopt fuzzing, a technique commonly used for unearthing software vulnerabilities, to discover optimal paraphrase prompts that can effectively eliminate triggers while concurrently maintaining input semantics. Experiments on 4 types of backdoor attacks, including the subtle style backdoors, and 4 distinct datasets demonstrate that our approach surpasses baseline methods, including STRIP, RAP, and ONION, in precision and recall.
翻訳日:2023-10-30 17:02:27 公開日:2023-10-27
# her2乳癌の非平衡組織病理像分類における不確かさの解消--single instance evaluation(sie)を用いた解釈可能なアンサンブルアプローチ

Addressing Uncertainty in Imbalanced Histopathology Image Classification of HER2 Breast Cancer: An interpretable Ensemble Approach with Threshold Filtered Single Instance Evaluation (SIE) ( http://arxiv.org/abs/2308.00806v2 )

ライセンス: Link先を確認
Md Sakib Hossain Shovon, M. F. Mridha, Khan Md Hasib, Sultan Alfarhood, Mejdl Safran, and Dunren Che(参考訳) 乳癌は女性にとって最も致命的な健康問題の一つである。 早期診断は、患者の効率的な治療決定を助けることによって死亡率を軽減できる。 ヒト上皮成長因子受容体(her2)はbcで最も致死的なサブタイプである。 The College of American Pathologists American Society of Clinical Oncology (CAP/ASCO)によると、HER2の発現の重症度は0から3+の範囲に分類できる。 her2は免疫組織化学(ihc)およびヘマトキシリンおよびエオシン(he)の0,1+,2+,3+などの異なるクラスの画像から効果的に検出できる。 本研究では,HER2サブタイプの多分類式からBCの診断を行うために,しきい値フィルタによる単一インスタンス評価(SIE)手法を統合したアンサンブル手法を提案する。 当初、angrynet201とxceptionは、グローバル平均プーリング、ドロップアウト層、スウィッシュアクティベーション関数付き密層、l2正規化、バッチ正規化などの効果的な組み合わせにより、特徴抽出器として単一の分類器にまとめられていた。 その後、抽出された特徴を単一インスタンス評価(SIE)によって処理し、信頼度を判定し、不均衡なクラス間の決定境界を調整する。 この研究は、病理学者によってHER2 BCの4段階に分類されるBC免疫組織化学(BCI)データセットに基づいて行われた。 しきい値 0.7 の densenet201-xception-sie と呼ばれるこのアプローチは、97.12% の精度、97.15% の精度、97.68% のh&eデータ、97.68% のリコール、97.56% の精度、97.57% の精度、98.00% の ihc データのリコールといった既存の全ての最先端モデルを上回る。 最後に, grad-camとガイド型grad-camを用いて, tlモデルが病理組織学的データセットにどのように作用するかを解釈し, データから判断する。

Breast Cancer (BC) is among women's most lethal health concerns. Early diagnosis can alleviate the mortality rate by helping patients make efficient treatment decisions. Human Epidermal Growth Factor Receptor (HER2) has become one the most lethal subtype of BC. According to the College of American Pathologists American Society of Clinical Oncology (CAP/ASCO), the severity level of HER2 expression can be classified between 0 and 3+ range. HER2 can be detected effectively from immunohistochemical (IHC) and, hematoxylin & eosin (HE) images of different classes such as 0, 1+, 2+, and 3+. An ensemble approach integrated with threshold filtered single instance evaluation (SIE) technique has been proposed in this study to diagnose BC from the multi-categorical expression of HER2 subtypes. Initially, DenseNet201 and Xception have been ensembled into a single classifier as feature extractors with an effective combination of global average pooling, dropout layer, dense layer with a swish activation function, and l2 regularizer, batch normalization, etc. After that, extracted features has been processed through single instance evaluation (SIE) to determine different confidence levels and adjust decision boundary among the imbalanced classes. This study has been conducted on the BC immunohistochemical (BCI) dataset, which is classified by pathologists into four stages of HER2 BC. This proposed approach known as DenseNet201-Xception-SIE with a threshold value of 0.7 surpassed all other existing state-of-art models with an accuracy of 97.12%, precision of 97.15%, and recall of 97.68% on H&E data and, accuracy of 97.56%, precision of 97.57%, and recall of 98.00% on IHC data respectively, maintaining momentous improvement. Finally, Grad-CAM and Guided Grad-CAM have been employed in this study to interpret, how TL-based model works on the histopathology dataset and make decisions from the data.
翻訳日:2023-10-30 17:01:22 公開日:2023-10-27
# DeepPCR:ニューラルネットワークにおけるシーケンス操作の並列化

DeepPCR: Parallelizing Sequential Operations in Neural Networks ( http://arxiv.org/abs/2309.16318v2 )

ライセンス: Link先を確認
Federico Danieli, Miguel Sarabia, Xavier Suau, Pau Rodr\'iguez, Luca Zappella(参考訳) 深層ニューラルネットワークの推論とトレーニングを加速するために、並列化技術はユビキタスになった。 それにもかかわらず、いくつかの操作は連続的に実行される。 例えば、前方及び後方のパスは層々ごとに実行され、拡散モデルの出力は一連の分別ステップを適用することで生成される。 このシーケンシャルなアプローチは、ステップの数に比例する計算コストをもたらし、ステップの数が増えるにつれて潜在的なボトルネックを示す。 本研究では,ニューラルネットワークの推論とトレーニングを高速化するために,逐次処理を並列化する新しいアルゴリズムであるdeeppcrを提案する。 DeepPCRは、特定の方程式系の解法として$L$のステップ列を解釈し、並列サイクル還元アルゴリズムを用いて回復する。 これによりシーケンシャル演算の計算の複雑さが$\mathcal{o}(l)$から$\mathcal{o}(\log_2l)$に低減され、大きな$l$の高速化が得られる。 アルゴリズムの理論的に低い複雑性を検証し、速度アップのためのレジームを同定するために、多層パーセプトロンにおける前方および後方パスの並列化におけるdeeppcrの有効性をテストし、後方パスに対して最大30\times$と200\times$のスピードアップに達する。 さらに,最大1024層までのresnetのトレーニングと拡散モデルの生成を並列化することで,deeppcrの柔軟性を示す。

Parallelization techniques have become ubiquitous for accelerating inference and training of deep neural networks. Despite this, several operations are still performed in a sequential manner. For instance, the forward and backward passes are executed layer-by-layer, and the output of diffusion models is produced by applying a sequence of denoising steps. This sequential approach results in a computational cost proportional to the number of steps involved, presenting a potential bottleneck as the number of steps increases. In this work, we introduce DeepPCR, a novel algorithm which parallelizes typically sequential operations in order to speed up inference and training of neural networks. DeepPCR is based on interpreting a sequence of $L$ steps as the solution of a specific system of equations, which we recover using the Parallel Cyclic Reduction algorithm. This reduces the complexity of computing the sequential operations from $\mathcal{O}(L)$ to $\mathcal{O}(\log_2L)$, thus yielding a speedup for large $L$. To verify the theoretical lower complexity of the algorithm, and to identify regimes for speedup, we test the effectiveness of DeepPCR in parallelizing the forward and backward pass in multi-layer perceptrons, and reach speedups of up to $30\times$ for the forward and $200\times$ for the backward pass. We additionally showcase the flexibility of DeepPCR by parallelizing training of ResNets with as many as 1024 layers, and generation in diffusion models, enabling up to $7\times$ faster training and $11\times$ faster generation, respectively, when compared to the sequential approach.
翻訳日:2023-10-30 16:54:01 公開日:2023-10-27
# 4つのミンコフスキー真空状態からのAdS$_3$真空状態

AdS$_3$ Vacuum State from Four Minkowski Vacuum States ( http://arxiv.org/abs/2309.15107v5 )

ライセンス: Link先を確認
Lucas Kocia Kovalsky(参考訳) 4つの特定の 1{+}2$ minkowski の真空状態のテンソル積は、そのパリティと時間反転対称性が特定の方法で破られたとき、無限次元の反ド・ジッター(ads$_3$)時空の集合に対する自己整合真空状態である。 無限集合は、非零一意なスカラー曲率を持つすべてのads$_3$の対からなる。

We show that a tensor product of four specific $1{+}2$ Minkowski vacuum states is a self-consistent vacuum state for an infinite set of three-dimensional anti-de Sitter (AdS$_3$) spacetimes if their parity and time-reversal symmetry are broken in a particular way. The infinite set consists of pairs of all AdS$_3$ with non-zero unique scalar curvatures.
翻訳日:2023-10-30 16:53:32 公開日:2023-10-27
# 複雑なネットワークに基づく患者経路のモデル化とマイニング

Framework based on complex networks to model and mine patient pathways ( http://arxiv.org/abs/2309.14208v2 )

ライセンス: Link先を確認
Caroline de Oliveira Costa Souza Rosa, M\'arcia Ito, Alex Borges Vieira, Klaus Wehmuth, Ant\^onio Tadeu Azevedo Gomes(参考訳) 医療システム(いわゆる「患者のパスウェイ」)を持つ患者の集団の遭遇履歴を表すモデルの自動発見は、提供された治療の質と効率を改善するために、臨床および組織的な決定を支援する新しい研究分野である。 慢性疾患患者の経路は、ある人から別の人へ大きく変化し、反復作業を行い、その結果に影響を及ぼす複数の視点(介入、診断、医学的専門性など)の分析を要求する傾向がある。 したがって、これらの経路のモデリングとマイニングは依然として難しい課題である。 本稿では,以下のフレームワークを提案する。 (i)マルチアスペクトグラフに基づく経路モデル (ii)経過時間をとる経路を比較するための新しい相似性測定、及び (iii)経路の最も適切な段階を発見するために、伝統的な中央集権的措置に基づく採鉱方法。 本研究は, 妊娠と糖尿病の研究事例を用いて, 類似経路のクラスターの発見に有用であること, 容易に解釈できる方法で表現できること, および複数の視点で最も顕著なパターンを強調した。

The automatic discovery of a model to represent the history of encounters of a group of patients with the healthcare system -- the so-called "pathway of patients" -- is a new field of research that supports clinical and organisational decisions to improve the quality and efficiency of the treatment provided. The pathways of patients with chronic conditions tend to vary significantly from one person to another, have repetitive tasks, and demand the analysis of multiple perspectives (interventions, diagnoses, medical specialities, among others) influencing the results. Therefore, modelling and mining those pathways is still a challenging task. In this work, we propose a framework comprising: (i) a pathway model based on a multi-aspect graph, (ii) a novel dissimilarity measurement to compare pathways taking the elapsed time into account, and (iii) a mining method based on traditional centrality measures to discover the most relevant steps of the pathways. We evaluated the framework using the study cases of pregnancy and diabetes, which revealed its usefulness in finding clusters of similar pathways, representing them in an easy-to-interpret way, and highlighting the most significant patterns according to multiple perspectives.
翻訳日:2023-10-30 16:53:06 公開日:2023-10-27
# ベイズモデル還元による深層ニューラルネットワークのベイズスパルシフィケーション

Bayesian sparsification for deep neural networks with Bayesian model reduction ( http://arxiv.org/abs/2309.12095v2 )

ライセンス: Link先を確認
Dimitrije Markovi\'c, Karl J. Friston, and Stefan J. Kiebel(参考訳) ディープラーニングの膨大な能力は、しばしばモデルの複雑さによって制約され、効果的なスパーシフィケーション技術に対する需要が増大する。 深層学習のためのベイズスペーシフィケーションは重要なアプローチとして現れ、様々な深層学習アプリケーションのパフォーマンスの観点から計算的に効率的かつ競合的なモデルの設計を容易にする。 ディープニューラルネットワークのベイジアンスパーシフィケーションにおける最先端の手法は、モデル重みに対する構造的縮小事前と、確率的変分推論に基づく近似推論スキームを組み合わせる。 しかしながら、完全生成モデルのモデル反転は、特に点推定の標準的な深層学習と比較して、非常に計算的に要求される。 この文脈では、モデルウェイトを刈り取るためのより効率的な代替手段としてベイズモデル還元(BMR)を用いることを提唱する。 サベージ・ディッキー比の一般化として、bmrは単純(非階層的)生成モデルの下で後推算に基づく冗長モデル重みのポストホック除去を可能にする。 本研究は,モデル重みに対する階層的ホースシュー優先法に基づく確立したアプローチに対するbmr法の利点を強調する。 我々は、LeNetのような古典的なネットワークから、Vision TransformersやMLP-Mixersのようなモダンなフレームワークまで、さまざまなディープラーニングアーキテクチャにおけるBMRの可能性を説明する。

Deep learning's immense capabilities are often constrained by the complexity of its models, leading to an increasing demand for effective sparsification techniques. Bayesian sparsification for deep learning emerges as a crucial approach, facilitating the design of models that are both computationally efficient and competitive in terms of performance across various deep learning applications. The state-of-the-art -- in Bayesian sparsification of deep neural networks -- combines structural shrinkage priors on model weights with an approximate inference scheme based on stochastic variational inference. However, model inversion of the full generative model is exceptionally computationally demanding, especially when compared to standard deep learning of point estimates. In this context, we advocate for the use of Bayesian model reduction (BMR) as a more efficient alternative for pruning of model weights. As a generalization of the Savage-Dickey ratio, BMR allows a post-hoc elimination of redundant model weights based on the posterior estimates under a straightforward (non-hierarchical) generative model. Our comparative study highlights the advantages of the BMR method relative to established approaches based on hierarchical horseshoe priors over model weights. We illustrate the potential of BMR across various deep learning architectures, from classical networks like LeNet to modern frameworks such as Vision Transformers and MLP-Mixers.
翻訳日:2023-10-30 16:52:29 公開日:2023-10-27
# 複雑なエンコーダは必要なだけではありません

More complex encoder is not all you need ( http://arxiv.org/abs/2309.11139v3 )

ライセンス: Link先を確認
Weibin Yang, Longwei Xu, Pengwei Wang, Dehua Geng, Yusong Li, Mingyuan Xu, Zhiqi Dong(参考訳) U-Netとその変種は医療画像のセグメンテーションで広く使われている。 しかし、現在のほとんどのU-Net変種は、より複雑なエンコーダを構築するための改善戦略を制限しているが、デコーダは変わらないか単純な対称構造を採用する。 これらのアプローチはデコーダの真の機能を見落としている: エンコーダから低解像度のフィーチャーマップを受け取り、機能マップの解像度を回復し、アップサンプリングによって情報を失う。 結果として、デコーダ、特にアップサンプリングコンポーネントは、セグメンテーションの結果を高める上で重要な役割を果たす。 しかし、3次元の医用画像分割では、一般的に使われる畳み込みは視覚的なアーティファクトをもたらす可能性がある。 この問題は、出力特徴写像に隣接するピクセル間の直接関係がないことに起因する。 さらに, 平板エンコーダは, ダウンサンプリング操作によって受信フィールドが徐々に拡大するので, 十分な特徴抽出能力を有しているが, ダウンサンプリング処理時の情報損失は無視できない。 関連する研究のギャップに対処するため、我々はエンコーダを超えて焦点を広げ、強力なデコーダを構築するために新しいサブピクセル畳み込みを組み込んだneu-net(複雑エンコーダu-netではない)を導入する。 さらに,エンコーダ側では,複数スケールのウェーブレット入力モジュールを導入し,追加情報を提供する。 我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。

U-Net and its variants have been widely used in medical image segmentation. However, most current U-Net variants confine their improvement strategies to building more complex encoder, while leaving the decoder unchanged or adopting a simple symmetric structure. These approaches overlook the true functionality of the decoder: receiving low-resolution feature maps from the encoder and restoring feature map resolution and lost information through upsampling. As a result, the decoder, especially its upsampling component, plays a crucial role in enhancing segmentation outcomes. However, in 3D medical image segmentation, the commonly used transposed convolution can result in visual artifacts. This issue stems from the absence of direct relationship between adjacent pixels in the output feature map. Furthermore, plain encoder has already possessed sufficient feature extraction capability because downsampling operation leads to the gradual expansion of the receptive field, but the loss of information during downsampling process is unignorable. To address the gap in relevant research, we extend our focus beyond the encoder and introduce neU-Net (i.e., not complex encoder U-Net), which incorporates a novel Sub-pixel Convolution for upsampling to construct a powerful decoder. Additionally, we introduce multi-scale wavelet inputs module on the encoder side to provide additional information. Our model design achieves excellent results, surpassing other state-of-the-art methods on both the Synapse and ACDC datasets.
翻訳日:2023-10-30 16:52:08 公開日:2023-10-27
# ベータ拡散

Beta Diffusion ( http://arxiv.org/abs/2309.07867v2 )

ライセンス: Link先を確認
Mingyuan Zhou and Tianqi Chen and Zhendong Wang and Huangjie Zheng(参考訳) 境界範囲内でデータを生成するためにデマスキングとデノージングを統合する,新しい生成モデリング手法であるbeta diffusionを導入する。 スケールされたベータ分布とシフトしたベータ分布を使用することで、ベータ拡散は時間とともに乗法的遷移を利用して前方および逆拡散プロセスの両方を作成し、任意の時点のデータから、前縁と逆条件の両方でベータ分布を維持する。 加法的ガウスノイズと再重み付き証拠下界(ELBO)に依存する従来の拡散ベース生成モデルとは異なり、ベータ拡散はKL分散の凸性に由来するKL分割上界(KLUB)と乗法的に最適化される。 提案するklubは負のelboよりもベータ拡散の最適化に有効であることを実証し,2つの引数を交換したkl分岐のklubとして導出できることを示した。 bregman divergenceで表されるβ拡散の損失関数は、最適化のためのklubsの有効性をさらに支持する。 合成データと自然画像の双方における実験結果は,レンジ境界データの生成モデルにおけるベータ拡散の特異性を示し,拡散モデルの最適化におけるklubsの有効性を検証する。

We introduce beta diffusion, a novel generative modeling method that integrates demasking and denoising to generate data within bounded ranges. Using scaled and shifted beta distributions, beta diffusion utilizes multiplicative transitions over time to create both forward and reverse diffusion processes, maintaining beta distributions in both the forward marginals and the reverse conditionals, given the data at any point in time. Unlike traditional diffusion-based generative models relying on additive Gaussian noise and reweighted evidence lower bounds (ELBOs), beta diffusion is multiplicative and optimized with KL-divergence upper bounds (KLUBs) derived from the convexity of the KL divergence. We demonstrate that the proposed KLUBs are more effective for optimizing beta diffusion compared to negative ELBOs, which can also be derived as the KLUBs of the same KL divergence with its two arguments swapped. The loss function of beta diffusion, expressed in terms of Bregman divergence, further supports the efficacy of KLUBs for optimization. Experimental results on both synthetic data and natural images demonstrate the unique capabilities of beta diffusion in generative modeling of range-bounded data and validate the effectiveness of KLUBs in optimizing diffusion models, thereby making them valuable additions to the family of diffusion-based generative models and the optimization techniques used to train them.
翻訳日:2023-10-30 16:51:26 公開日:2023-10-27
# 文法誤り訂正システムのシステム結合における最小ベイズのリスクデコード

Minimum Bayes' Risk Decoding for System Combination of Grammatical Error Correction Systems ( http://arxiv.org/abs/2309.06520v2 )

ライセンス: Link先を確認
Vyas Raina and Mark Gales(参考訳) シーケンスからシーケンスまでのタスクでは、個々のシステム出力を組み合わせることが難しい。 さらに、デコード基準と評価に用いる基準との間には、しばしばミスマッチがある。 最小ベイズリスク(mbr)デコーディングは、最終評価基準とより良い一致を促す方法でシステム出力を組み合わせるために使用できる。 本稿では,文法的誤り訂正システム(GEC)のMBRデコーディングについて検討する。 そこで本研究では,この形式に直結した新しいMBR損失関数を提案する。 さらに、候補文の集合を拡張するためのアプローチについても述べる。 これは、現在の最大投票の組み合わせスキームと、個々の編集レベルの選択に基づいて構築される。 3つの一般的なECCデータセットと最先端のECCシステムを用いた実験は、提案したMBRアプローチの有効性を示す。 さらに、MBRデコーディングフレームワーク内の様々な報酬指標が、複合GECシステムにおける精度、リコール、Fスコアの制御にどのように役立つかを強調した。

For sequence-to-sequence tasks it is challenging to combine individual system outputs. Further, there is also often a mismatch between the decoding criterion and the one used for assessment. Minimum Bayes' Risk (MBR) decoding can be used to combine system outputs in a manner that encourages better alignment with the final assessment criterion. This paper examines MBR decoding for Grammatical Error Correction (GEC) systems, where performance is usually evaluated in terms of edits and an associated F-score. Hence, we propose a novel MBR loss function directly linked to this form of criterion. Furthermore, an approach to expand the possible set of candidate sentences is described. This builds on a current max-voting combination scheme, as well as individual edit-level selection. Experiments on three popular GEC datasets and with state-of-the-art GEC systems demonstrate the efficacy of the proposed MBR approach. Additionally, the paper highlights how varying reward metrics within the MBR decoding framework can provide control over precision, recall, and the F-score in combined GEC systems.
翻訳日:2023-10-30 16:51:00 公開日:2023-10-27
# フレームワークに基づく大規模言語モデルの自由応答の質的分析:アルゴリズム的忠実性

Framework-Based Qualitative Analysis of Free Responses of Large Language Models: Algorithmic Fidelity ( http://arxiv.org/abs/2309.06364v2 )

ライセンス: Link先を確認
Aliya Amirova, Theodora Fteropoulli, Nafiso Ahmed, Martin R. Cowie, Joel Z. Leibo(参考訳) 現在、大規模生成言語モデル(LLM)を用いて、質的研究手法を用いて伝統的に分析されたようなインタビュー質問に対する無料応答をシミュレートすることが可能である。 質的方法論は、自然言語で自由に行われるオープンなインタビューや会話の手動分析を含む幅広い技術群を含んでいる。 ここでは, LLMが生成する人工シリコン参加者を, 実人口に一般化可能な洞察を生み出すための質的手法を用いて, 生産的に研究できるかどうかを考察する。 我々の分析における重要な概念はアルゴリズムの忠実さである。Argyle et al. (2023) によって導入された用語で、LLMが生成する人間のサブ集団の信念と態度を反映する程度を捉えている。 定義上、アルゴリズムの忠実度が高いことは、LSMから派生した潜在信念が現実の人間に一般化する可能性があることを示唆している。 そこで我々はLLMを用いて、特定の人口統計学的特徴に適合するシリコン参加者へのインタビューを生成した。 フレームワークに基づく定性分析を用いて,人間とシリコンの双方から得られた重要なテーマが極めて類似していることを示した。 しかし、インタビューの構造とトーンを分析すると、さらに顕著な違いが見つかりました。 また, aher et al. (2023) が記述した過正確な歪みの証拠も見いだした。 結論として,gpt-3.5は,ヒトに一般化する研究を期待するほどアルゴリズム的忠実性が不十分であることがわかった。 しかし、llm研究の急速なペースによって、将来これが変わる可能性がある。 そこで我々は,LLMに基づく質的研究の妥当性を評価するために,現在,先天的な規範を確立する必要性を強調している。

Today, using Large-scale generative Language Models (LLMs) it is possible to simulate free responses to interview questions like those traditionally analyzed using qualitative research methods. Qualitative methodology encompasses a broad family of techniques involving manual analysis of open-ended interviews or conversations conducted freely in natural language. Here we consider whether artificial "silicon participants" generated by LLMs may be productively studied using qualitative methods aiming to produce insights that could generalize to real human populations. The key concept in our analysis is algorithmic fidelity, a term introduced by Argyle et al. (2023) capturing the degree to which LLM-generated outputs mirror human sub-populations' beliefs and attitudes. By definition, high algorithmic fidelity suggests latent beliefs elicited from LLMs may generalize to real humans, whereas low algorithmic fidelity renders such research invalid. Here we used an LLM to generate interviews with silicon participants matching specific demographic characteristics one-for-one with a set of human participants. Using framework-based qualitative analysis, we showed the key themes obtained from both human and silicon participants were strikingly similar. However, when we analyzed the structure and tone of the interviews we found even more striking differences. We also found evidence of the hyper-accuracy distortion described by Aher et al. (2023). We conclude that the LLM we tested (GPT-3.5) does not have sufficient algorithmic fidelity to expect research on it to generalize to human populations. However, the rapid pace of LLM research makes it plausible this could change in the future. Thus we stress the need to establish epistemic norms now around how to assess validity of LLM-based qualitative research, especially concerning the need to ensure representation of heterogeneous lived experiences.
翻訳日:2023-10-30 16:50:46 公開日:2023-10-27
# 再現性のない3次元シーンのテキスト駆動編集

Text-driven Editing of 3D Scenes without Retraining ( http://arxiv.org/abs/2309.04917v2 )

ライセンス: Link先を確認
Shuangkang Fang, Yufeng Wang, Yi Yang, Yi-Hsuan Tsai, Wenrui Ding, Shuchang Zhou, Ming-Hsuan Yang(参考訳) 近年,画像合成と編集に多くの拡散モデルが適用されている。 しかし、3Dシーンの編集はまだ初期段階にある。 例えば、異なる編集タイプの特定のメソッドを設計すること、様々な3Dシーンのための新しいモデルをトレーニングすること、編集時に便利なヒューマンインタラクションがないことなどである。 そこで本研究では,汎用編集機能を備えたnrfモデルを直接取得し,リトレーニングの必要をなくし,テキスト駆動型編集手法であるdn2nを導入する。 本手法では,2次元画像の既製テキストベースの編集モデルを用いて3次元シーン画像の編集を行い,さらに3次元画像の一貫性を損なう未編集画像をフィルタリング処理する。 次に,残余の不整合を,同様の摂動特性を持つトレーニングデータを生成して学習を行うことにより解決できる雑音摂動除去問題として考察する。 さらに、これらの摂動を緩和する一般化されたNeRFモデルを支援するために、クロスビュー正規化項を提案する。 テキスト駆動方式では,従来よりも親しみやすく,直感的で,実用的な3dシーンを編集することができる。 実験結果から, 外観編集, 天気変化, 材質変化, スタイル伝達など, 複数種類の編集が可能であることが示唆された。 本手法は,特定のシーンにカスタマイズされた編集モデルを必要とせず,複数のモデルパラメータ間で共有される編集能力をうまく一般化し,ユーザ入力から直接編集効果を持つ新規なビューを推定する。 プロジェクトのwebサイトはhttps://sk-fun.fun/dn2nで入手できる。

Numerous diffusion models have recently been applied to image synthesis and editing. However, editing 3D scenes is still in its early stages. It poses various challenges, such as the requirement to design specific methods for different editing types, retraining new models for various 3D scenes, and the absence of convenient human interaction during editing. To tackle these issues, we introduce a text-driven editing method, termed DN2N, which allows for the direct acquisition of a NeRF model with universal editing capabilities, eliminating the requirement for retraining. Our method employs off-the-shelf text-based editing models of 2D images to modify the 3D scene images, followed by a filtering process to discard poorly edited images that disrupt 3D consistency. We then consider the remaining inconsistency as a problem of removing noise perturbation, which can be solved by generating training data with similar perturbation characteristics for training. We further propose cross-view regularization terms to help the generalized NeRF model mitigate these perturbations. Our text-driven method allows users to edit a 3D scene with their desired description, which is more friendly, intuitive, and practical than prior works. Empirical results show that our method achieves multiple editing types, including but not limited to appearance editing, weather transition, material changing, and style transfer. Most importantly, our method generalizes well with editing abilities shared among a set of model parameters without requiring a customized editing model for some specific scenes, thus inferring novel views with editing effects directly from user input. The project website is available at https://sk-fun.fun/DN2N
翻訳日:2023-10-30 16:49:36 公開日:2023-10-27
# ニューラル潜時幾何探索:Gromov-Hausdorff-informed Bayesian Optimization による積多様体推論

Neural Latent Geometry Search: Product Manifold Inference via Gromov-Hausdorff-Informed Bayesian Optimization ( http://arxiv.org/abs/2309.04810v3 )

ライセンス: Link先を確認
Haitz Saez de Ocariz Borde, Alvaro Arroyo, Ismael Morales, Ingmar Posner, Xiaowen Dong(参考訳) 近年の研究では、潜在空間の形状と基礎となるデータ構造を整合させることで、機械学習モデルの性能を向上させることが示されている。 研究者はユークリッド空間のみに頼るのではなく、一定の曲率を持つ双曲空間と球面空間、あるいはそれらの組合せを用いることによって、潜在空間のモデル化とモデル性能の向上を提唱している。 しかし,下流タスクの最適潜在幾何を自動的に同定する問題にはほとんど注意が払われていない。 我々は、この新しい定式化を数学的に定義し、それをneural latent geometry search (nlgs) と呼ぶ。 具体的には,一定曲率モデル空間の積と少数のクエリ評価からなる潜時幾何学を,いくつかの簡易な仮定の下で探索する試みを紹介する。 そこで本研究では,距離幾何学からグロモフ・ハウスドルフ距離を基準として,潜在測地線候補間距離の新たな概念を提案する。 グロモフ・ハウスドルフ距離を計算するために、共通高次元の周囲空間にそれらを埋め込むことで異なる多様体の比較を可能にする写像関数を導入する。 次に、潜在測地線間の滑らかさの概念に基づいてグラフ探索空間を設計し、計算された距離を追加帰納バイアスとして用いる。 最後に,ベイズ最適化を用いてクエリー効率の良い方法で最適な潜在幾何を探索する。 これは、様々なモデルや下流タスクの最適な潜在幾何を探索するために適用できる一般的な方法である。 複数の機械学習問題に対する最適潜伏幾何を特定するために,合成および実世界のデータセットの実験を行った。

Recent research indicates that the performance of machine learning models can be improved by aligning the geometry of the latent space with the underlying data structure. Rather than relying solely on Euclidean space, researchers have proposed using hyperbolic and spherical spaces with constant curvature, or combinations thereof, to better model the latent space and enhance model performance. However, little attention has been given to the problem of automatically identifying the optimal latent geometry for the downstream task. We mathematically define this novel formulation and coin it as neural latent geometry search (NLGS). More specifically, we introduce an initial attempt to search for a latent geometry composed of a product of constant curvature model spaces with a small number of query evaluations, under some simplifying assumptions. To accomplish this, we propose a novel notion of distance between candidate latent geometries based on the Gromov-Hausdorff distance from metric geometry. In order to compute the Gromov-Hausdorff distance, we introduce a mapping function that enables the comparison of different manifolds by embedding them in a common high-dimensional ambient space. We then design a graph search space based on the notion of smoothness between latent geometries and employ the calculated distances as an additional inductive bias. Finally, we use Bayesian optimization to search for the optimal latent geometry in a query-efficient manner. This is a general method which can be applied to search for the optimal latent geometry for a variety of models and downstream tasks. We perform experiments on synthetic and real-world datasets to identify the optimal latent geometry for multiple machine learning problems.
翻訳日:2023-10-30 16:49:09 公開日:2023-10-27
# 非制限回答スコープによるオープンエンドコモンセンス推論

Open-ended Commonsense Reasoning with Unrestricted Answer Scope ( http://arxiv.org/abs/2310.11672v2 )

ライセンス: Link先を確認
Chen Ling, Xuchao Zhang, Xujiang Zhao, Yanchi Liu, Wei Cheng, Mika Oishi, Takao Osaki, Katsushi Matsuda, Haifeng Chen, Liang Zhao(参考訳) Open-ended Commonsense Reasoningは、提供せずにCommonsenseの問題を解決するものとして定義される 1) 回答候補の短いリスト及び 2) 予め定義された回答範囲。 従来の質問文を質問文形式に定式化したり、外部知識を利用して検索手法を学習する方法は、固有の課題のため、オープンエンド環境では適用できない。 答えの範囲やいくつかの候補を事前に定義せずに、オープンエンドのコモンセンス推論は、非常に大きな検索空間を探索することによって回答を予測する。 さらに、ほとんどの質問は暗黙のマルチホップ推論を必要とし、これは我々の問題にさらに多くの課題をもたらす。 本研究では、事前学習した言語モデルを用いて、タスク固有の監督を必要としない外部知識ベース上の推論経路を反復的に取得する。 推論パスは、常識的な質問に対する最も正確な答えを特定するのに役立つ。 2つのCommonsenseベンチマークデータセットで実験を行う。 他の手法と比較して,提案手法は量的,質的にも良好な性能を実現する。

Open-ended Commonsense Reasoning is defined as solving a commonsense question without providing 1) a short list of answer candidates and 2) a pre-defined answer scope. Conventional ways of formulating the commonsense question into a question-answering form or utilizing external knowledge to learn retrieval-based methods are less applicable in the open-ended setting due to an inherent challenge. Without pre-defining an answer scope or a few candidates, open-ended commonsense reasoning entails predicting answers by searching over an extremely large searching space. Moreover, most questions require implicit multi-hop reasoning, which presents even more challenges to our problem. In this work, we leverage pre-trained language models to iteratively retrieve reasoning paths on the external knowledge base, which does not require task-specific supervision. The reasoning paths can help to identify the most precise answer to the commonsense question. We conduct experiments on two commonsense benchmark datasets. Compared to other approaches, our proposed method achieves better performance both quantitatively and qualitatively.
翻訳日:2023-10-30 16:41:13 公開日:2023-10-27
# 凸最適化のための線探索のない単純一様最適化法

A simple uniformly optimal method without line search for convex optimization ( http://arxiv.org/abs/2310.10082v2 )

ライセンス: Link先を確認
Tianjiao Li and Guanghui Lan(参考訳) 直線探索(またはバックトラック)手順は、凸最適化問題を解決する一階法、特に未知の問題パラメータ(例えばリプシッツ定数)に広く採用されている。 本稿では,事前パラメータが与えられていない凸最適化問題の解法において,線形探索が最適収束率の達成に過剰であることを示す。 特に,大域リプシッツ定数の見積や線探索手順を使わずに,滑らかな凸最適化に最適な$\mathcal{O}(1/k^2)$収束率を達成できる,自動条件付高速勾配法 (AC-FGM) と呼ばれる新しい加速勾配勾配型アルゴリズムを提案する。 次に、H\"{o}lder の連続勾配で凸最適化問題を解くために AC-FGM を拡張し、解の所望の精度を唯一の入力として全ての問題クラスに対して一様収束率を自動で達成することを示す。 最後に,従来開発された凸最適化のためのパラメータフリー法よりもac-fgmの利点を示す数値計算結果について報告する。

Line search (or backtracking) procedures have been widely employed into first-order methods for solving convex optimization problems, especially those with unknown problem parameters (e.g., Lipschitz constant). In this paper, we show that line search is superfluous in attaining the optimal rate of convergence for solving a convex optimization problem whose parameters are not given a priori. In particular, we present a novel accelerated gradient descent type algorithm called auto-conditioned fast gradient method (AC-FGM) that can achieve an optimal $\mathcal{O}(1/k^2)$ rate of convergence for smooth convex optimization without requiring the estimate of a global Lipschitz constant or the employment of line search procedures. We then extend AC-FGM to solve convex optimization problems with H\"{o}lder continuous gradients and show that it automatically achieves the optimal rates of convergence uniformly for all problem classes with the desired accuracy of the solution as the only input. Finally, we report some encouraging numerical results that demonstrate the advantages of AC-FGM over the previously developed parameter-free methods for convex optimization.
翻訳日:2023-10-30 16:40:58 公開日:2023-10-27
# マルコフポテンシャルゲームにおける独立自然政策勾配の高速収束

Provably Fast Convergence of Independent Natural Policy Gradient for Markov Potential Games ( http://arxiv.org/abs/2310.09727v2 )

ライセンス: Link先を確認
Youbang Sun, Tao Liu, Ruida Zhou, P. R. Kumar, Shahin Shahrampour(参考訳) 本研究はマルコフポテンシャルゲームにおけるマルチエージェント強化学習問題に対する独立自然ポリシー勾配(NPG)アルゴリズムの研究である。 微妙な技術的仮定と『textit{suboptimality gap} 』の導入により、厳密な政策評価を提供するオラクルを持つ独立NPG法は、$\mathcal{O}(1/\epsilon)$反復において$\epsilon$-Nash Equilibrium (NE) に達することが示されている。 これは$\mathcal{O}(1/\epsilon^2)$イテレーションの前の最良の結果を改善し、同じ順序である$\mathcal{O}(1/\epsilon)$で、これは単項の場合で達成可能である。 合成ポテンシャルゲームと渋滞ゲームに対する実験結果を示し、理論的境界を検証した。

This work studies an independent natural policy gradient (NPG) algorithm for the multi-agent reinforcement learning problem in Markov potential games. It is shown that, under mild technical assumptions and the introduction of the \textit{suboptimality gap}, the independent NPG method with an oracle providing exact policy evaluation asymptotically reaches an $\epsilon$-Nash Equilibrium (NE) within $\mathcal{O}(1/\epsilon)$ iterations. This improves upon the previous best result of $\mathcal{O}(1/\epsilon^2)$ iterations and is of the same order, $\mathcal{O}(1/\epsilon)$, that is achievable for the single-agent case. Empirical results for a synthetic potential game and a congestion game are presented to verify the theoretical bounds.
翻訳日:2023-10-30 16:40:34 公開日:2023-10-27
# 自己相似ダイナミクスのデータ駆動モデリング

Data driven modeling of self-similar dynamics ( http://arxiv.org/abs/2310.08282v2 )

ライセンス: Link先を確認
Ru-yi Tao, Ning-ning Tao, Yi-zhuang You, Jiang Zhang(参考訳) 複雑なシステムのマルチスケールモデリングは、その複雑さを理解する上で重要である。 データ駆動型マルチスケールモデリングは、複雑なシステムに関わる課題に取り組むための有望なアプローチとして登場した。 一方、自己相似性は複雑なシステムで一般的であり、大規模な複雑なシステムを低コストでモデル化できることを示唆している。 本稿では,自己相似性を事前知識として組み込んだマルチスケールニューラルネットワークフレームワークを導入し,自己相似力学系のモデリングを容易にする。 決定論的ダイナミクスの場合、我々のフレームワークは力学が自己相似かどうかを識別できる。 不確定な力学では、どのパラメータ集合が自己相似に近いかを比較して決定することができる。 このフレームワークにより、任意のスケールでモデリングするためのダイナミクスからスケール不変なカーネルを抽出することができます。 さらに,本手法は自己相似システムにおける電力法指数を同定することができる。 イジング模型の予備実験では、理論的な期待と一致した臨界指数が得られ、非平衡系の臨界相転移に対処するための貴重な洞察を与えた。

Multiscale modeling of complex systems is crucial for understanding their intricacies. Data-driven multiscale modeling has emerged as a promising approach to tackle challenges associated with complex systems. On the other hand, self-similarity is prevalent in complex systems, hinting that large-scale complex systems can be modeled at a reduced cost. In this paper, we introduce a multiscale neural network framework that incorporates self-similarity as prior knowledge, facilitating the modeling of self-similar dynamical systems. For deterministic dynamics, our framework can discern whether the dynamics are self-similar. For uncertain dynamics, it can compare and determine which parameter set is closer to self-similarity. The framework allows us to extract scale-invariant kernels from the dynamics for modeling at any scale. Moreover, our method can identify the power law exponents in self-similar systems. Preliminary tests on the Ising model yielded critical exponents consistent with theoretical expectations, providing valuable insights for addressing critical phase transitions in non-equilibrium systems.
翻訳日:2023-10-30 16:39:40 公開日:2023-10-27
# MetaBox: 強化学習によるメタブラックボックス最適化のためのベンチマークプラットフォーム

MetaBox: A Benchmark Platform for Meta-Black-Box Optimization with Reinforcement Learning ( http://arxiv.org/abs/2310.08252v2 )

ライセンス: Link先を確認
Zeyuan Ma, Hongshu Guo, Jiacheng Chen, Zhenrui Li, Guojun Peng, Yue-Jiao Gong, Yining Ma, Zhiguang Cao(参考訳) 近年,メタブラックボックス最適化と強化学習(MetaBBO-RL)は,低レベルのブラックボックス最適化のマニュアル微調整を緩和するために,メタレベルでRLを活用する能力を示した。 しかし、このフィールドは統一ベンチマークの欠如によって妨げられている。 このギャップを埋めるために,MetaBBO-RL法の開発と評価に適した最初のベンチマークプラットフォームであるMetaBoxを紹介する。 metaboxは柔軟なアルゴリズムテンプレートを提供しており、ユーザーはプラットフォーム内で独自のデザインを自由に実装できる。 さらに、合成から現実的なシナリオから収集された300を超える問題インスタンスと、従来のブラックボックスオプティマイザと最近のMetaBBO-RLメソッドを含む19のベースラインメソッドの広範なライブラリを提供する。 さらに、metaboxは3つの標準化されたパフォーマンスメトリクスを導入し、より詳細な評価を可能にした。 厳密な評価と詳細な分析を容易にするMetaBoxの有用性を説明するため,既存のMetaBBO-RL法について広範囲にわたるベンチマーク研究を行った。 MetaBoxはオープンソースで、https://github.com/GMC-DRL/MetaBox.comでアクセスできます。

Recently, Meta-Black-Box Optimization with Reinforcement Learning (MetaBBO-RL) has showcased the power of leveraging RL at the meta-level to mitigate manual fine-tuning of low-level black-box optimizers. However, this field is hindered by the lack of a unified benchmark. To fill this gap, we introduce MetaBox, the first benchmark platform expressly tailored for developing and evaluating MetaBBO-RL methods. MetaBox offers a flexible algorithmic template that allows users to effortlessly implement their unique designs within the platform. Moreover, it provides a broad spectrum of over 300 problem instances, collected from synthetic to realistic scenarios, and an extensive library of 19 baseline methods, including both traditional black-box optimizers and recent MetaBBO-RL methods. Besides, MetaBox introduces three standardized performance metrics, enabling a more thorough assessment of the methods. In a bid to illustrate the utility of MetaBox for facilitating rigorous evaluation and in-depth analysis, we carry out a wide-ranging benchmarking study on existing MetaBBO-RL methods. Our MetaBox is open-source and accessible at: https://github.com/GMC-DRL/MetaBox.
翻訳日:2023-10-30 16:39:28 公開日:2023-10-27
# オフライン強化学習における説明責任--コーパスによる決定の説明

Accountability in Offline Reinforcement Learning: Explaining Decisions with a Corpus of Examples ( http://arxiv.org/abs/2310.07747v2 )

ライセンス: Link先を確認
Hao Sun, Alihan H\"uy\"uk, Daniel Jarrett, Mihaela van der Schaar(参考訳) 意思決定システムにおけるオフラインデータを用いた学習コントローラは、実世界のシステムにおけるアプリケーションのリスクを低減できる可能性から、重要な研究分野である。 しかし、医療などの責任に敏感な環境では、決定責任は最重要視されているが、文献では適切に扱われていない。 本稿では、オフラインデータセットを決定コーパスとして利用し、コーパスサブセットと呼ばれるサンプルの調整された選択に基づいて説明責任制御を行うAOC(Accountable Offline Controller)を提案する。 AOCはローデータシナリオで効果的に動作し、厳密なオフラインの模倣設定まで拡張でき、保存性と適応性の両方の品質を示す。 シミュレーションと実世界の医療シナリオの両方におけるaocのパフォーマンスを評価し、アカウンタビリティを維持しつつ、高いレベルのパフォーマンスでオフライン制御タスクを管理する能力を強調した。

Learning controllers with offline data in decision-making systems is an essential area of research due to its potential to reduce the risk of applications in real-world systems. However, in responsibility-sensitive settings such as healthcare, decision accountability is of paramount importance, yet has not been adequately addressed by the literature. This paper introduces the Accountable Offline Controller (AOC) that employs the offline dataset as the Decision Corpus and performs accountable control based on a tailored selection of examples, referred to as the Corpus Subset. AOC operates effectively in low-data scenarios, can be extended to the strictly offline imitation setting, and displays qualities of both conservation and adaptability. We assess AOC's performance in both simulated and real-world healthcare scenarios, emphasizing its capability to manage offline control tasks with high levels of performance while maintaining accountability.
翻訳日:2023-10-30 16:39:07 公開日:2023-10-27
# 解離アルゴリズムを用いた量子状態トモグラフィ

Quantum state tomography with disentanglement algorithm ( http://arxiv.org/abs/2310.06273v3 )

ライセンス: Link先を確認
Juan Yao(参考訳) 本研究では, 量子状態再構成プロセスについて, ディコンタングルメントアルゴリズムに基づく検討を行った。 変動量子回路を用いて、量子状態を計算ゼロ状態の積に分解する。 ゼロ状態の逆の進化は、全体的な位相まで量子状態を再構成する。 キュービットを1つずつ順次切り離すことで、必要な測定量を1つのキュービット測定で削減する。 乱数状態の再構成に関する提案とともに, 量子回路の異種化を最適化する実験を行った。 実験的な実装を容易にするために,離散量子ゲートを限定した量子回路設計のための強化学習も行う。 我々の方法は普遍的であり、量子状態に特定のアンサッツや制約を課さない。

In this work, we report on a novel quantum state reconstruction process based on the disentanglement algorithm. Using variational quantum circuits, we disentangle the quantum state to a product of computational zero states. Inverse evolution of the zero states reconstructs the quantum state up to an overall phase. By sequentially disentangling the qubit one by one, we reduce the required measurements with only single qubit measurement. Demonstrations with our proposal for the reconstruction of the random states are presented where variational quantum circuit is optimized by disentangling process. To facilitate experimental implementation, we also employ reinforcement learning for quantum circuit design with limited discrete quantum gates. Our method is universal and imposes no specific ansatz or constrain on the quantum state.
翻訳日:2023-10-30 16:38:31 公開日:2023-10-27
# 多数のクラスに対する一般化された神経崩壊

Generalized Neural Collapse for a Large Number of Classes ( http://arxiv.org/abs/2310.05351v3 )

ライセンス: Link先を確認
Jiachen Jiang, Jinxin Zhou, Peng Wang, Qing Qu, Dustin Mixon, Chong You and Zhihui Zhu(参考訳) 神経崩壊は、深層分類モデルにおける学習された最終層表現(つまり特徴)と分類器重みのエレガントな数学的特徴を与える。 このような結果は洞察を与えるだけでなく、実用的な深層モデルを改善するための新しいテクニックを動機付ける。 しかしながら、ニューラル崩壊における既存の経験的および理論的研究のほとんどは、クラス数が特徴空間の次元に対して小さい場合に焦点を当てている。 本稿では, 言語モデル, 検索システム, 顔認識アプリケーションにおいて広く発生する特徴空間の次元よりも, クラス数がはるかに大きい場合まで, 神経崩壊を拡大する。 この特徴と分類器は, 1-vs-restマージンの最小値が最大となる一般化神経崩壊現象を示し, 実用深層ニューラルネットワークにおける一般化神経崩壊の発生を実証するための実証的研究を行った。 さらに, 一般化された神経崩壊は, 球面制約のある非拘束特徴モデルの下で, 特徴量やクラス数に関する特定の技術的条件下で, 確実に発生することを示す理論的研究を行った。

Neural collapse provides an elegant mathematical characterization of learned last layer representations (a.k.a. features) and classifier weights in deep classification models. Such results not only provide insights but also motivate new techniques for improving practical deep models. However, most of the existing empirical and theoretical studies in neural collapse focus on the case that the number of classes is small relative to the dimension of the feature space. This paper extends neural collapse to cases where the number of classes are much larger than the dimension of feature space, which broadly occur for language models, retrieval systems, and face recognition applications. We show that the features and classifier exhibit a generalized neural collapse phenomenon, where the minimum one-vs-rest margins is maximized.We provide empirical study to verify the occurrence of generalized neural collapse in practical deep neural networks. Moreover, we provide theoretical study to show that the generalized neural collapse provably occurs under unconstrained feature model with spherical constraint, under certain technical conditions on feature dimension and number of classes.
翻訳日:2023-10-30 16:38:22 公開日:2023-10-27
# EMO: 自動回帰言語モデリングのためのアースモーバー距離最適化

EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling ( http://arxiv.org/abs/2310.04691v2 )

ライセンス: Link先を確認
Siyu Ren, Zhiyong Wu, Kenny Q. Zhu(参考訳) ニューラル言語モデルは人間のテキストの確率モデルである。 それらは主に、経験的データ分布とモデル分布の間の前方のクロスエントロピーを最小化するmle(maximum likelihood estimation)を使用して訓練される。 しかし、これらのモデルで学習した分布から復号する際には、様々な退化現象が広く見られる。 その結果,(1)リコール優先性(2)負の多様性無知,(3)列車試験ミスマッチによる人間とモデル分布の整合のための距離指標として,前方方向のクロスエントロピーが準最適であることが判明した。 本稿では,自動回帰言語モデリングのための地球間距離最適化(EMO)を提案する。 EMOは、前述の課題に対処するために、地球移動器距離の本質的な性質を生かしている。 直接計算の複雑さが高いため、emoのエンドツーエンドトレーニングを容易にするために、さらに実現可能な上限を導入する。 EMOとMLEを用いて訓練した言語モデルの広範囲な評価を行う。 EMOはドメイン間のMLEよりも一貫して優れた言語モデリング性能を示す。 さらに、EMOは、わずか25,000の文で最小限の微調整を施して、下流のパフォーマンスを向上する。 これは、大規模な事前学習された言語モデルを強化するための軽量キャリブレーション方法としてのemoの膨大な可能性を強調している。

Neural language models are probabilistic models of human text. They are predominantly trained using maximum likelihood estimation (MLE), which is equivalent to minimizing the forward cross-entropy between the empirical data distribution and the model distribution. However, various degeneration phenomena are still widely observed when decoding from the distributions learned by such models. We establish that the forward cross-entropy is suboptimal as a distance metric for aligning human and model distribution due to its (1) recall-prioritization (2) negative diversity ignorance and (3) train-test mismatch. In this paper, we propose Earth Mover Distance Optimization (EMO) for auto-regressive language modeling. EMO capitalizes on the inherent properties of earth mover distance to address the aforementioned challenges. Due to the high complexity of direct computation, we further introduce a feasible upper bound for EMO to ease end-to-end training. Upon extensive evaluation of language models trained using EMO and MLE. We find that EMO demonstrates a consistently better language modeling performance than MLE across domains. Moreover, EMO demonstrates noteworthy enhancements in downstream performance with minimal fine-tuning on merely 25,000 sentences. This highlights the tremendous potential of EMO as a lightweight calibration method for enhancing large-scale pre-trained language models.
翻訳日:2023-10-30 16:38:05 公開日:2023-10-27
# 生まれながらの規則は重ね合わせの特徴である

The Born Rule is a Feature of Superposition ( http://arxiv.org/abs/2310.04188v2 )

ライセンス: Link先を確認
David Ellerman(参考訳) 有限確率論は、通常の離散事象である$S$(結果空間のサブセット$U=\left( u_{1}, ...,u_{n}\right)$)に加えて、重ね合わせ事象の数学的概念(物理学を含まない)を$\Sigma S$-導入することによって強化される。 数学的には、2種類の事象はn$密度行列を用いて区別される。 離散事象に対する密度行列 $\rho\left(S\right) $ は対角行列であり、密度行列 $\rho\left( \Sigma S\right) $ は外積 $\left\vert s\right\rangle \left\langle s\right\vert $ の正規化ベクトル $\left\vert s\right\rangle \in \mathbb{R}^{n}$ として得られる。 確率は密度行列で定義される: $\pr\left(t|\rho\right) =\operatorname*{tr}\left[ p_{t}\rho\right] $ where $t\subseteq u$ と $p_{t}$ は対角成分 $\chi_{t}\left(u_{i}\right) $ を持つ対角射影行列である。 このとき、シングルトン $\left\{ u_{i}\right\} \subseteq U$ に対して、結果の確率 $u_{i}$ は \textit{superposition} イベントによって条件付けられ、$\Sigma S$ は $\Pr\left( \left\{ u_{i}\right\} |\Sigma S\right) =\left\langle u_{i}|s\right\rangle ^{2}$ である。 したがって、ボルン則は通常の有限確率論に重ね合わせの事象が加えられたときの重ね合わせの数学から自然に生じる。 数学が$\mathbb{c}^{n}$の代わりに$\mathbb{r}^{n}$を使用するとき、次の説明は必要ないが、正方形の$\left\langle u_{i}|s\right\rangle ^{2}$は絶対平方の$\left\vert \left\langle u_{i}|s\right\rangle \right\vert ^{2}$である。

Finite probability theory is enriched by introducing the mathematical notion (no physics involved) of a superposition event $\Sigma S$--in addition to the usual discrete event $S$ (subset of the outcome space $U=\left( u_{1},...,u_{n}\right) $). Mathematically, the two types of events are distinguished using $n\times n$ density matrices. The density matrix $\rho\left( S\right) $ for a discrete event is diagonal and the density matrix $\rho\left( \Sigma S\right) $ is obtained as an outer product $\left\vert s\right\rangle \left\langle s\right\vert $ of a normalized vector $\left\vert s\right\rangle \in \mathbb{R}^{n}$. Probabilities are defined using density matrices as $\Pr\left( T|\rho\right) =\operatorname*{tr}\left[ P_{T}\rho\right] $ where $T\subseteq U$ and $P_{T}$ is the diagonal projection matrix with diagonal entries $\chi_{T}\left( u_{i}\right) $. Then for the singleton $\left\{ u_{i}\right\} \subseteq U$, the probability of the outcome $u_{i}$ conditioned by the \textit{superposition} event $\Sigma S$ is $\Pr\left( \left\{ u_{i}\right\} |\Sigma S\right) =\left\langle u_{i}|s\right\rangle ^{2}$, the Born Rule. Thus the Born Rule arises naturally from the mathematics of superposition when superposition events are added to ordinary finite probability theory. No further explanation is required when the mathematics uses $ \mathbb{C}^{n}$ instead of $\mathbb{R}^{n}$ except that the square $\left\langle u_{i}|s\right\rangle ^{2}$ is the absolute square $\left\vert \left\langle u_{i}|s\right\rangle \right\vert ^{2}$.
翻訳日:2023-10-30 16:37:44 公開日:2023-10-27
# 流行学習:ランダムなコミュニケーションによる分散学習の促進

Epidemic Learning: Boosting Decentralized Learning with Randomized Communication ( http://arxiv.org/abs/2310.01972v2 )

ライセンス: Link先を確認
Martijn de Vos, Sadegh Farhadkhani, Rachid Guerraoui, Anne-Marie Kermarrec, Rafael Pires, Rishi Sharma(参考訳) 本稿では,従来のDL手法に比べて高速なモデル収束を実現するために,通信トポロジの変化を利用した簡易かつ強力な分散学習(DL)アルゴリズムであるエピデミックラーニング(EL)を提案する。 ELの各ラウンドで、各ノードはモデル更新を$s$他のノード($n$ノードのシステム)のランダムなサンプルに送信する。 el の広範な理論解析を行い,その変化トポロジーが最先端(静的および動的)トポロジーよりも優れた収束特性をもたらすことを示した。 滑らかな非凸損失関数を考えると、漸近的線形スピードアップを達成するのに必要なラウンド数であるELの過渡反復数は$O(n^3/s^2)$で、最もよく知られた有界な$O(n^3)$を$s^2$で上回る。 96ノードネットワークにおけるELを実証的に評価し,その性能を最先端のDL手法と比較した。 その結果、el はベースライン dl アルゴリズムよりも最大 1.7\times$ 高速に収束し、同じ通信量に対して 2.2 $\% の精度が得られることが分かった。

We present Epidemic Learning (EL), a simple yet powerful decentralized learning (DL) algorithm that leverages changing communication topologies to achieve faster model convergence compared to conventional DL approaches. At each round of EL, each node sends its model updates to a random sample of $s$ other nodes (in a system of $n$ nodes). We provide an extensive theoretical analysis of EL, demonstrating that its changing topology culminates in superior convergence properties compared to the state-of-the-art (static and dynamic) topologies. Considering smooth non-convex loss functions, the number of transient iterations for EL, i.e., the rounds required to achieve asymptotic linear speedup, is in $O(n^3/s^2)$ which outperforms the best-known bound $O(n^3)$ by a factor of $s^2$, indicating the benefit of randomized communication for DL. We empirically evaluate EL in a 96-node network and compare its performance with state-of-the-art DL approaches. Our results illustrate that EL converges up to $ 1.7\times$ quicker than baseline DL algorithms and attains $2.2 $\% higher accuracy for the same communication volume.
翻訳日:2023-10-30 16:36:51 公開日:2023-10-27
# LEGO-Prover: ライブラリを成長させるニューラルネットワーク理論

LEGO-Prover: Neural Theorem Proving with Growing Libraries ( http://arxiv.org/abs/2310.00656v3 )

ライセンス: Link先を確認
Haiming Wang, Huajian Xin, Chuanyang Zheng, Lin Li, Zhengying Liu, Qingxing Cao, Yinya Huang, Jing Xiong, Han Shi, Enze Xie, Jian Yin, Zhenguo Li, Heng Liao, Xiaodan Liang(参考訳) 大規模言語モデル(llm)の成功にもかかわらず、定理証明のタスクは、まだ完全には解決されていない最も難しい推論タスクの1つである。 言語モデルを用いた以前の手法は有望な結果を示しているが、中学レベルの定理を証明するのに苦労している。 これらの方法の一般的な制限の1つは、定理証明過程全体において固定定理ライブラリを仮定することである。 しかし、誰もが知っているように、新しい有用な定理や新しい理論を作ることは、数学を進歩させ、より強くより深い結果を証明するのに有用であるだけでなく、必要不可欠である。 本稿では,証明された補題を含むスキルライブラリを,定理証明に使用されるLLMの能力を高めるためのスキルとして活用するLEGO-Proverを提案する。 LEGO-Proverは、証明をモジュール的に構築することにより、ライブラリから取得した既存のスキルを活用し、証明プロセス中に新しいスキルを作成することができる。 これらのスキルはさらに進化し(llmを促すことによって)、別のスケールでライブラリを豊かにします。 モジュール性と再利用可能なスキルがライブラリに絶えず追加され、複雑な数学的問題に取り組むことができる。 さらに、学習ライブラリは、人間の証明と形式的証明のギャップをさらに橋渡しし、欠落したステップを挿入しやすくする。 LEGO-Proverは、MiniF2F-valid(48.0%から57.0%)とMiniF2F-test(45.5%から47.1%)の最先端パスレートを推し進めている。 証明プロセスの間、lego-proverは20,000以上のスキル(理論/補題)を生成し、成長中のライブラリに追加する。 我々のアブレーション研究は、これらの新たなスキルが定理の証明に役立つことを示唆し、47.1%から50.4%に改善した。 コードと生成されたすべてのスキルもリリースします。

Despite the success of large language models (LLMs), the task of theorem proving still remains one of the hardest reasoning tasks that is far from being fully solved. Prior methods using language models have demonstrated promising results, but they still struggle to prove even middle school level theorems. One common limitation of these methods is that they assume a fixed theorem library during the whole theorem proving process. However, as we all know, creating new useful theorems or even new theories is not only helpful but crucial and necessary for advancing mathematics and proving harder and deeper results. In this work, we present LEGO-Prover, which employs a growing skill library containing verified lemmas as skills to augment the capability of LLMs used in theorem proving. By constructing the proof modularly, LEGO-Prover enables LLMs to utilize existing skills retrieved from the library and to create new skills during the proving process. These skills are further evolved (by prompting an LLM) to enrich the library on another scale. Modular and reusable skills are constantly added to the library to enable tackling increasingly intricate mathematical problems. Moreover, the learned library further bridges the gap between human proofs and formal proofs by making it easier to impute missing steps. LEGO-Prover advances the state-of-the-art pass rate on miniF2F-valid (48.0% to 57.0%) and miniF2F-test (45.5% to 47.1%). During the proving process, LEGO-Prover also manages to generate over 20,000 skills (theorems/lemmas) and adds them to the growing library. Our ablation study indicates that these newly added skills are indeed helpful for proving theorems, resulting in an improvement from a success rate of 47.1% to 50.4%. We also release our code and all the generated skills.
翻訳日:2023-10-30 16:36:28 公開日:2023-10-27
# 効果的なアルツハイマー病薬物再資源化のための経路のモデリング

Modeling Path Importance for Effective Alzheimer's Disease Drug Repurposing ( http://arxiv.org/abs/2310.15211v2 )

ライセンス: Link先を確認
Shunian Xiang, Patrick J. Lawrence, Bo Peng, ChienWei Chiang, Dokyoon Kim, Li Shen, and Xia Ning(参考訳) 近年,AD薬物発見のための有効かつ資源効率の高いパラダイムとして,薬物再資源化が出現している。 薬物再生産の様々な方法のうち、ネットワークベースの手法は、タンパク質とタンパク質の相互作用のような複数の相互作用型を統合する複雑なネットワークを利用して、候補薬をより効果的に識別できるという有望な結果を示している。 しかし、既存のアプローチでは、ネットワーク内の同じ長さの経路が薬物の治療効果を特定するのに等しく重要であると仮定している。 他の領域では、同じ長さの経路が必ずしも同じ重要性を持つとは限らない。 したがって、この仮定に依存することは、薬物再購入の試みに有害である可能性がある。 そこで本研究では,新しいネットワークベースの広告薬剤再提案手法であるmpi(modeling path importance)を提案する。 MPIは学習ノードの埋め込みによって重要なパスを優先順位付けし、ネットワークの豊富な構造情報を効果的にキャプチャする。 したがって、学習した埋め込みを活用することで、MPIはパス間の重要性を効果的に区別することができる。 抗AD薬候補を同定するベースライン法として, ネットワーク内の薬剤とADの最も短い経路に基づいて, MPIを評価した。 上位50の薬物のうち、MPIは、基準値よりも20.0%の薬物を抗AD抗体で優先している。 最後に、保険請求データから生成されたコックス比例ハザードモデルは、エコドラ、ニコチン、およびBBB交差ACE-INHの使用をADのリスクが低いものとして識別するのに役立つ。

Recently, drug repurposing has emerged as an effective and resource-efficient paradigm for AD drug discovery. Among various methods for drug repurposing, network-based methods have shown promising results as they are capable of leveraging complex networks that integrate multiple interaction types, such as protein-protein interactions, to more effectively identify candidate drugs. However, existing approaches typically assume paths of the same length in the network have equal importance in identifying the therapeutic effect of drugs. Other domains have found that same length paths do not necessarily have the same importance. Thus, relying on this assumption may be deleterious to drug repurposing attempts. In this work, we propose MPI (Modeling Path Importance), a novel network-based method for AD drug repurposing. MPI is unique in that it prioritizes important paths via learned node embeddings, which can effectively capture a network's rich structural information. Thus, leveraging learned embeddings allows MPI to effectively differentiate the importance among paths. We evaluate MPI against a commonly used baseline method that identifies anti-AD drug candidates primarily based on the shortest paths between drugs and AD in the network. We observe that among the top-50 ranked drugs, MPI prioritizes 20.0% more drugs with anti-AD evidence compared to the baseline. Finally, Cox proportional-hazard models produced from insurance claims data aid us in identifying the use of etodolac, nicotine, and BBB-crossing ACE-INHs as having a reduced risk of AD, suggesting such drugs may be viable candidates for repurposing and should be explored further in future studies.
翻訳日:2023-10-30 16:26:57 公開日:2023-10-27
# freenoise: ノイズ再スケジュールによるより長いビデオ拡散のチューニング

FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling ( http://arxiv.org/abs/2310.15169v2 )

ライセンス: Link先を確認
Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, Ziwei Liu(参考訳) 大規模ビデオデータセットの可用性と拡散モデルの進歩により、テキスト駆動ビデオ生成は大きな進歩を遂げた。 しかし、既存のビデオ生成モデルは通常、限られた数のフレームで訓練されるため、推論中に高精細なロングビデオを生成することができない。 さらに、これらのモデルはシングルテキストの条件のみをサポートするが、実際のシナリオではビデオコンテンツが時間とともに変化するため、マルチテキストの条件を必要とすることが多い。 これらの課題に対処するため、本研究では、複数のテキストに条件付けされた長いビデオを生成するためのテキスト駆動能力の拡張の可能性を探る。 1) 映像拡散モデルにおける初期雑音の影響を最初に解析する。 次に,ノイズの観測に基づいて,事前学習されたビデオ拡散モデルの生成能力を高めながらコンテンツの一貫性を保ちながら,チューニングフリーで時間効率のよいパラダイムであるfreenoiseを提案する。 具体的には、全フレームのノイズを初期化する代わりに、長距離相関のために一連のノイズをスケジュールし、ウィンドウベースの関数によって時間的注意を行う。 2)複数のテキストプロンプトを条件とした動画生成を支援する新しいモーションインジェクション法を考案した。 広範にわたる実験は,映像拡散モデルの生成能力拡張における我々のパラダイムの優位性を検証する。 従来の最高性能法と比較して255%の時間コストがかかるのに対し,本手法は無視可能な時間コストを約17%に抑えている。 生成されたビデオサンプルは、当社のwebサイトから入手できます。

With the availability of large-scale video datasets and the advances of diffusion models, text-driven video generation has achieved substantial progress. However, existing video generation models are typically trained on a limited number of frames, resulting in the inability to generate high-fidelity long videos during inference. Furthermore, these models only support single-text conditions, whereas real-life scenarios often require multi-text conditions as the video content changes over time. To tackle these challenges, this study explores the potential of extending the text-driven capability to generate longer videos conditioned on multiple texts. 1) We first analyze the impact of initial noise in video diffusion models. Then building upon the observation of noise, we propose FreeNoise, a tuning-free and time-efficient paradigm to enhance the generative capabilities of pretrained video diffusion models while preserving content consistency. Specifically, instead of initializing noises for all frames, we reschedule a sequence of noises for long-range correlation and perform temporal attention over them by window-based function. 2) Additionally, we design a novel motion injection method to support the generation of videos conditioned on multiple text prompts. Extensive experiments validate the superiority of our paradigm in extending the generative capabilities of video diffusion models. It is noteworthy that compared with the previous best-performing method which brought about 255% extra time cost, our method incurs only negligible time cost of approximately 17%. Generated video samples are available at our website: http://haonanqiu.com/projects/FreeNoise.html.
翻訳日:2023-10-30 16:26:29 公開日:2023-10-27
# 大規模言語モデルにおけるプロンプトエンジニアリングの可能性:包括的レビュー

Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review ( http://arxiv.org/abs/2310.14735v2 )

ライセンス: Link先を確認
Banghao Chen, Zhaofeng Zhang, Nicolas Langren\'e, Shengxin Zhu(参考訳) 本稿では,Large Language Models (LLMs) の能力を解き放つ上で,プロンプトエンジニアリングが果たす重要な役割について述べる。 Prompt Engineering は LLM の入力テキストを構造化するプロセスであり、LLM の有効性を最適化するための技術である。 この調査は、ロールプロンプトやワンショット、少数ショットプロンプトといったプロンプトエンジニアリングの基本原則と、チェーン・オブ・ソートやツリー・オブ・ソート・プロンプトのようなより高度な方法論を解明する。 本論文は, プラグイン形式の外部支援が, この課題にどのように役立つか, 外部知識の獲得による機械幻覚の低減を図っている。 続いて,aigc(artificial intelligence-create content)ツールにおける構造とエージェントの役割についてより深く理解することの必要性を強調する。 本稿では,異なる視点からプロンプト手法の有効性を評価し,異なる手法を用いて評価する方法について議論する。 最後に,教育やプログラミングといった分野におけるプロンプトエンジニアリングの適用に関する情報を集め,その転換可能性を示す。 この包括的な調査は、llmとプロンプトエンジニアリングの巨大な世界を経験する誰にとっても、フレンドリーなガイドになることを目的としている。

This paper delves into the pivotal role of prompt engineering in unleashing the capabilities of Large Language Models (LLMs). Prompt engineering is the process of structuring input text for LLMs and is a technique integral to optimizing the efficacy of LLMs. This survey elucidates foundational principles of prompt engineering, such as role-prompting, one-shot, and few-shot prompting, as well as more advanced methodologies such as the chain-of-thought and tree-of-thoughts prompting. The paper sheds light on how external assistance in the form of plugins can assist in this task, and reduce machine hallucination by retrieving external knowledge. We subsequently delineate prospective directions in prompt engineering research, emphasizing the need for a deeper understanding of structures and the role of agents in Artificial Intelligence-Generated Content (AIGC) tools. We discuss how to assess the efficacy of prompt methods from different perspectives and using different methods. Finally, we gather information about the application of prompt engineering in such fields as education and programming, showing its transformative potential. This comprehensive survey aims to serve as a friendly guide for anyone venturing through the big world of LLMs and prompt engineering.
翻訳日:2023-10-30 16:26:05 公開日:2023-10-27
# MedEval: 言語モデル評価のためのマルチレベル、マルチタスク、マルチドメイン医療ベンチマーク

MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark for Language Model Evaluation ( http://arxiv.org/abs/2310.14088v2 )

ライセンス: Link先を確認
Zexue He, Yu Wang, An Yan, Yao Liu, Eric Y. Chang, Amilcare Gentili, Julian McAuley, Chun-Nan Hsu(参考訳) 医療のためのデータセットのキュレーションは、専門家による人間のアノテーションを必要とするため、しばしば制限される。 本稿では,医療用言語モデルの開発を容易にするために,マルチレベル,マルチタスク,マルチドメイン医療ベンチマークであるMedEvalを提案する。 MedEvalは包括的で、いくつかの医療システムからのデータからなり、8つの検査モダリティから35の人体領域にまたがる。 22,779の文と21,228のレポートを収集し、複数のレベルで専門家のアノテーションを提供し、データの詳細な使用可能性を提供し、幅広いタスクをサポートする。 さらに,医療におけるドメイン適応ベースラインから,汎用的な最先端言語モデル(ChatGPTなど)まで,ゼロショットおよび微調整設定下で10の汎用言語モデルとドメイン固有言語モデルを体系的に評価した。 評価の結果,異なるタスクにまたがる2つのカテゴリーの言語モデルの有効性が明らかとなった。 本研究は,医療分野における大規模言語モデル導入の強みと限界に関する貴重な知見を提供し,その実践的応用と今後の進歩を示すものである。

Curated datasets for healthcare are often limited due to the need of human annotations from experts. In this paper, we present MedEval, a multi-level, multi-task, and multi-domain medical benchmark to facilitate the development of language models for healthcare. MedEval is comprehensive and consists of data from several healthcare systems and spans 35 human body regions from 8 examination modalities. With 22,779 collected sentences and 21,228 reports, we provide expert annotations at multiple levels, offering a granular potential usage of the data and supporting a wide range of tasks. Moreover, we systematically evaluated 10 generic and domain-specific language models under zero-shot and finetuning settings, from domain-adapted baselines in healthcare to general-purposed state-of-the-art large language models (e.g., ChatGPT). Our evaluations reveal varying effectiveness of the two categories of language models across different tasks, from which we notice the importance of instruction tuning for few-shot usage of large language models. Our investigation paves the way toward benchmarking language models for healthcare and provides valuable insights into the strengths and limitations of adopting large language models in medical domains, informing their practical applications and future advancements.
翻訳日:2023-10-30 16:25:15 公開日:2023-10-27
# 機械学習モデルにおけるメンバーシップ推論攻撃の基本限界

Fundamental Limits of Membership Inference Attacks on Machine Learning Models ( http://arxiv.org/abs/2310.13786v2 )

ライセンス: Link先を確認
Eric Aubinais, Elisabeth Gassiat, Pablo Piantanida(参考訳) メンバーシップ推論攻撃(MIA)は、特定のデータポイントがトレーニングデータセットの一部であったかどうかを明らかにすることができる。 本稿では、機械学習モデルにおけるMIAに関連する基本的な統計的制限について考察する。 より正確には、このような攻撃の有効性と成功を左右する統計量を導出する。 そこで,本研究では,この関心の量に限界を与えるいくつかの状況について検討する。 これにより、サンプル数と学習モデルの他の構造パラメータの関数として潜在的攻撃の精度を推測することが可能となり、場合によってはデータセットから直接推定することができる。

Membership inference attacks (MIA) can reveal whether a particular data point was part of the training dataset, potentially exposing sensitive information about individuals. This article explores the fundamental statistical limitations associated with MIAs on machine learning models. More precisely, we first derive the statistical quantity that governs the effectiveness and success of such attacks. Then, we investigate several situations for which we provide bounds on this quantity of interest. This allows us to infer the accuracy of potential attacks as a function of the number of samples and other structural parameters of learning models, which in some cases can be directly estimated from the dataset.
翻訳日:2023-10-30 16:24:52 公開日:2023-10-27
# 抗がん剤の優先順位改善のための造影学習による薬物および細胞株の発現増強

Enhancing drug and cell line representations via contrastive learning for improved anti-cancer drug prioritization ( http://arxiv.org/abs/2310.13725v2 )

ライセンス: Link先を確認
Patrick J. Lawrence and Xia Ning(参考訳) がんの複雑な性質と治療に対する多様な反応により、オミクスシークエンス解析によって得られた精度オンコロジーがケアの現在の標準となっている。 しかし、各患者が生成するデータ量によって、最適な治療体制を素早く特定することは困難である。 さらに、データ可用性の制限は、有効なドラッグセルラインペアに関連するパターンを学習する計算方法の能力を妨げている。 本稿では,薬物の作用機構と細胞系がんに関連する関係構造を保存し,学習した薬物および細胞株の表現を改善するためのコントラスト学習の利用を提案する。 最先端の手法による性能向上に加えて,学習した表現を用いた分類器では,予測を行う際に薬物や細胞由来の特徴に依存する傾向がみられた。 これによりよりパーソナライズされた薬物の優先順位付けが促進され、薬物耐性に関連するシグナルによって通知される。

Due to cancer's complex nature and variable response to therapy, precision oncology informed by omics sequence analysis has become the current standard of care. However, the amount of data produced for each patients makes it difficult to quickly identify the best treatment regimen. Moreover, limited data availability has hindered computational methods' abilities to learn patterns associated with effective drug-cell line pairs. In this work, we propose the use of contrastive learning to improve learned drug and cell line representations by preserving relationship structures associated with drug mechanism of action and cell line cancer types. In addition to achieving enhanced performance relative to a state-of-the-art method, we find that classifiers using our learned representations exhibit a more balances reliance on drug- and cell line-derived features when making predictions. This facilitates more personalized drug prioritizations that are informed by signals related to drug resistance.
翻訳日:2023-10-30 16:24:21 公開日:2023-10-27
# 言語モデルにおける語彙理解に向けて

Towards Understanding Sycophancy in Language Models ( http://arxiv.org/abs/2310.13548v3 )

ライセンス: Link先を確認
Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R. Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R. Johnston, Shauna Kravec, Timothy Maxwell, Sam McCandlish, Kamal Ndousse, Oliver Rausch, Nicholas Schiefer, Da Yan, Miranda Zhang, Ethan Perez(参考訳) 人間のフィードバックはAIアシスタントの微調整に一般的に利用される。 しかし、人間のフィードバックは、真実に満ちたものに対するユーザーの信念と一致するモデル反応を奨励するかもしれない。 微調整手順が人間のフィードバックを生かしたモデルにおける統合失調の頻度と,その行動における人間の選好判断の潜在的役割について検討した。 まず、最先端の5つのAIアシスタントが、4つの異なる自由形式のテキスト生成タスクに一貫してサイコファシーを示すことを実証した。 人間の嗜好が広範に観察された行動を引き起こすかどうかを理解するために,既存の嗜好データを解析する。 レスポンスがユーザのビューにマッチする場合、より好まれる可能性が高いことが分かりました。 さらに、人間と選好モデル(pms)は、正しいものよりも説得力に書かれたシコファンティックな反応を好む。 pmsに対するモデル出力の最適化は、時としてシンコファンシーに有利な真理を犠牲にする。 総じて、統合失調症は最先端のaiアシスタントの一般的な行動であり、その原因の一部は、統合失調症反応を好む人間の嗜好判断によるものであることが示唆された。

Human feedback is commonly utilized to finetune AI assistants. But human feedback may also encourage model responses that match user beliefs over truthful ones, a behaviour known as sycophancy. We investigate the prevalence of sycophancy in models whose finetuning procedure made use of human feedback, and the potential role of human preference judgments in such behavior. We first demonstrate that five state-of-the-art AI assistants consistently exhibit sycophancy across four varied free-form text-generation tasks. To understand if human preferences drive this broadly observed behavior, we analyze existing human preference data. We find that when a response matches a user's views, it is more likely to be preferred. Moreover, both humans and preference models (PMs) prefer convincingly-written sycophantic responses over correct ones a non-negligible fraction of the time. Optimizing model outputs against PMs also sometimes sacrifices truthfulness in favor of sycophancy. Overall, our results indicate that sycophancy is a general behavior of state-of-the-art AI assistants, likely driven in part by human preference judgments favoring sycophantic responses.
翻訳日:2023-10-30 16:24:05 公開日:2023-10-27
# ランダム分割に対する一貫した視点割り当てによる表現学習

Representation Learning via Consistent Assignment of Views over Random Partitions ( http://arxiv.org/abs/2310.12692v2 )

ライセンス: Link先を確認
Thalles Silva and Ad\'in Ram\'irez Rivera(参考訳) 本稿では、視覚特徴の表現学習のための自己教師付きクラスタリング手法であるCARP(Consistent Assignment of Views over Random Partitions)を提案する。 CARPは、クラスタ割り当て問題を解決するために、追加の非微分可能モジュールなしで勾配降下を用いて、エンドツーエンドのオンライン方式でプロトタイプを学習する。 CARPは、モデルを正規化し、ビューの割り当て間の一貫性を強制するプロトタイプのランダムパーティションに基づいて、新しいプリテキストタスクを最適化する。 さらに,本手法はトレーニングの安定性を向上し,共同埋め込みトレーニングにおける解の崩壊を防止する。 広範な評価を通じて,carpの表現が下流タスクの学習に適していることを実証する。 線形評価,少数ショット分類,k-NN,k-means,画像検索,コピー検出など,多くの標準プロトコルにわたる17のデータセットでCARPの表現能力を評価する。 我々はCARPの性能を既存の11の自己管理手法と比較する。 提案するランダム分割プレテキストタスクは,複数のランダム分類タスクを考案することにより,学習した表現の質を向上させることを示す。 転送学習タスクでは、CARPは長い時間トレーニングされた多くのSSLメソッドに対して平均して最高のパフォーマンスを達成する。

We present Consistent Assignment of Views over Random Partitions (CARP), a self-supervised clustering method for representation learning of visual features. CARP learns prototypes in an end-to-end online fashion using gradient descent without additional non-differentiable modules to solve the cluster assignment problem. CARP optimizes a new pretext task based on random partitions of prototypes that regularizes the model and enforces consistency between views' assignments. Additionally, our method improves training stability and prevents collapsed solutions in joint-embedding training. Through an extensive evaluation, we demonstrate that CARP's representations are suitable for learning downstream tasks. We evaluate CARP's representations capabilities in 17 datasets across many standard protocols, including linear evaluation, few-shot classification, k-NN, k-means, image retrieval, and copy detection. We compare CARP performance to 11 existing self-supervised methods. We extensively ablate our method and demonstrate that our proposed random partition pretext task improves the quality of the learned representations by devising multiple random classification tasks. In transfer learning tasks, CARP achieves the best performance on average against many SSL methods trained for a longer time.
翻訳日:2023-10-30 16:23:48 公開日:2023-10-27
# Jorge: GPU効率の2階最適化のための近似プレコンディショニング

Jorge: Approximate Preconditioning for GPU-efficient Second-order Optimization ( http://arxiv.org/abs/2310.12298v2 )

ライセンス: Link先を確認
Siddharth Singh, Zachary Sating, Abhinav Bhatele(参考訳) 1次オプティマイザに比べて収束性は優れているが、深層学習のための2次オプティマイザは計算コストが大きいためあまり人気がない。 このようなオプティマイザの主な効率ボトルネックは、プリコンディショニングステップにおける行列逆計算である。 本稿では、二階法の急速な収束効果と一階法の典型的な計算効率の両立を約束する二階最適化器である jorge を紹介する。 我々は,プリコンディショナ計算の近似を用いて,計算行列の逆計算の主計算ボトルネックに対処する。 これによりJorgeは、ウォールタイムの点でGPU上で極めて効率が良い。 さらに,よく調整されたsgdベースラインから直接jorgeのハイパーパラメータを決定する手法について述べる。 実験による評価では,サンプル効率と壁面時間の両方で,SGD,AdamW,Shmpooといった最先端の最適化モデルよりも優れたJorgeを用いることのメリットが示された。

Despite their better convergence properties compared to first-order optimizers, second-order optimizers for deep learning have been less popular due to their significant computational costs. The primary efficiency bottleneck in such optimizers is matrix inverse calculations in the preconditioning step, which are expensive to compute on GPUs. In this paper, we introduce Jorge, a second-order optimizer that promises the best of both worlds -- rapid convergence benefits of second-order methods, and high computational efficiency typical of first-order methods. We address the primary computational bottleneck of computing matrix inverses by completely eliminating them using an approximation of the preconditioner computation. This makes Jorge extremely efficient on GPUs in terms of wall-clock time. Further, we describe an approach to determine Jorge's hyperparameters directly from a well-tuned SGD baseline, thereby significantly minimizing tuning efforts. Our empirical evaluations demonstrate the distinct advantages of using Jorge, outperforming state-of-the-art optimizers such as SGD, AdamW, and Shampoo across multiple deep learning models, both in terms of sample efficiency and wall-clock time.
翻訳日:2023-10-30 16:23:02 公開日:2023-10-27
# 汎用多対象追跡のためのシームズDETR

Siamese-DETR for Generic Multi-Object Tracking ( http://arxiv.org/abs/2310.17875v1 )

ライセンス: Link先を確認
Qiankun Liu, Yichen Li, Yuqi Jiang, Ying Fu(参考訳) 異なるシーンで動的オブジェクトを検出して追跡する能力は、例えば自動運転やロボットナビゲーションなど、現実世界のアプリケーションにとって基本的な機能である。 しかしながら、従来のマルチオブジェクトトラッキング(mot)は、事前に定義されたクローズドセットカテゴリに属するオブジェクトの追跡に限定されている。 近年,Open-Vocabulary MOT (OVMOT) とGeneric MOT (GMOT) が提案されている。 しかしながら、ovmotモデルのトレーニングには、高価で事前学習された(ビジョン)言語モデルと細かなカテゴリアノテーションが必要である。 本稿では,GMOTに焦点をあて,シンプルな手法であるSiamese-DETRを提案する。 一般的に使用される検出データセット(COCOなど)のみがトレーニングに必要である。 既存のGMOT法とは違って、Single Object Tracking(SOT)ベースの検出器を訓練し、興味のあるオブジェクトを検出し、データアソシエーションベースのMOTトラッカーを適用してトラジェクトリを得る。 具体的には 1)マルチスケールオブジェクトクエリは、テンプレート画像と同じカテゴリのオブジェクトの異なるスケールを検出するのに有効な、所定のテンプレート画像に基づいて設計される。 2) 提供するアノテーションをフル活用した,一般的な検出データセット上でのSiamese-DETR訓練のための動的マッチングトレーニング戦略を導入する。 3)オンライントラッキングパイプラインは,前フレームの追跡ボックスを追加クエリボックスとして組み込むことにより,クエリ毎のトラッキングにより簡素化される。 複雑なデータアソシエーションは、より単純な非最大抑制(nms)に置き換えられる。 大規模な実験結果から,Siamese-DETRはGMOT-40データセット上の既存のMOT手法をはるかに上回ることがわかった。

The ability to detect and track the dynamic objects in different scenes is fundamental to real-world applications, e.g., autonomous driving and robot navigation. However, traditional Multi-Object Tracking (MOT) is limited to tracking objects belonging to the pre-defined closed-set categories. Recently, Open-Vocabulary MOT (OVMOT) and Generic MOT (GMOT) are proposed to track interested objects beyond pre-defined categories with the given text prompt and template image. However, the expensive well pre-trained (vision-)language model and fine-grained category annotations are required to train OVMOT models. In this paper, we focus on GMOT and propose a simple but effective method, Siamese-DETR, for GMOT. Only the commonly used detection datasets (e.g., COCO) are required for training. Different from existing GMOT methods, which train a Single Object Tracking (SOT) based detector to detect interested objects and then apply a data association based MOT tracker to get the trajectories, we leverage the inherent object queries in DETR variants. Specifically: 1) The multi-scale object queries are designed based on the given template image, which are effective for detecting different scales of objects with the same category as the template image; 2) A dynamic matching training strategy is introduced to train Siamese-DETR on commonly used detection datasets, which takes full advantage of provided annotations; 3) The online tracking pipeline is simplified through a tracking-by-query manner by incorporating the tracked boxes in previous frame as additional query boxes. The complex data association is replaced with the much simpler Non-Maximum Suppression (NMS). Extensive experimental results show that Siamese-DETR surpasses existing MOT methods on GMOT-40 dataset by a large margin.
翻訳日:2023-10-30 15:13:53 公開日:2023-10-27
# 価値から意見へ:価値注入大言語モデルを用いた人間の行動とスタンスを予測する

From Values to Opinions: Predicting Human Behaviors and Stances Using Value-Injected Large Language Models ( http://arxiv.org/abs/2310.17857v1 )

ライセンス: Link先を確認
Dongjun Kang, Joonsuk Park, Yohan Jo, JinYeong Bak(参考訳) 現実的なシナリオにおける問題や行動に関する人々の意見を予測できることは、政治やマーケティングなど、さまざまな領域で有効である。 しかし、個人の問題に対する人々の意見を募るための欧州社会調査のような大規模な調査を行うことは、禁止的なコストを負う可能性がある。 個人の意思決定や行動に中核的人的価値が与える影響を先行研究に応用し、価値注入型大言語モデル(LLM)を用いて意見や行動を予測することを提案する。 この目的のために、我々は2つのメソッド(引数生成と質問応答)の集合である値注入法(VIM)を提案し、微調整により目標値分布をLSMに注入する。 次に,4つの課題について実験を行い,VIMの有効性と,価値注入型LCMを用いて人の意見や行動を予測する可能性を検証した。 その結果, VIM の変動による LLM の値注入は, ベースラインを著しく上回ることがわかった。 また,本研究の結果から,基本的アプローチよりも価値注入LDMを用いて,意見や行動をよりよく予測できることが示唆された。

Being able to predict people's opinions on issues and behaviors in realistic scenarios can be helpful in various domains, such as politics and marketing. However, conducting large-scale surveys like the European Social Survey to solicit people's opinions on individual issues can incur prohibitive costs. Leveraging prior research showing influence of core human values on individual decisions and actions, we propose to use value-injected large language models (LLM) to predict opinions and behaviors. To this end, we present Value Injection Method (VIM), a collection of two methods -- argument generation and question answering -- designed to inject targeted value distributions into LLMs via fine-tuning. We then conduct a series of experiments on four tasks to test the effectiveness of VIM and the possibility of using value-injected LLMs to predict opinions and behaviors of people. We find that LLMs value-injected with variations of VIM substantially outperform the baselines. Also, the results suggest that opinions and behaviors can be better predicted using value-injected LLMs than the baseline approaches.
翻訳日:2023-10-30 15:12:58 公開日:2023-10-27
# ベイズニューラルネットワークのための関数空間ベイズ擬似コアセット

Function Space Bayesian Pseudocoreset for Bayesian Neural Networks ( http://arxiv.org/abs/2310.17852v1 )

ライセンス: Link先を確認
Balhae Kim, Hyungi Lee, Juho Lee(参考訳) bayesian pseudocoresetは、大規模データセットの必須情報を要約したコンパクトな合成データセットであり、スケーラブルなベイズ推論のためのプロキシデータセットとして使用できる。 通常、ベイズ的擬似コアセットは、擬似コアセットの後方条件と全データセットの後方条件とのばらつきを最小化することによって構成される。 しかし、特に高次元パラメータを持つディープニューラルネットワークのようなモデルでは、発散の評価は困難である。 本稿では,関数空間上で動作する新しいベイズ擬似コアセット構築法を提案する。 モデルパラメータ(重み値)の空間におけるコアセットと全データ後部を構成する従来の方法とは異なり、本手法は関数空間の後方にあるコアセットに対する変分近似を構築し、関数空間の後方にある全データとマッチングする。 関数空間を直接扱うことで,拡張性やマルチモダリティの問題など,重み空間で作業する際に生じるいくつかの課題を回避できる。 種々の実験を通して,本手法を用いて構築したベイズ擬似コアセットは,様々なモデルアーキテクチャにおける不確かさの定量化とロバスト性の向上を享受することを示した。

A Bayesian pseudocoreset is a compact synthetic dataset summarizing essential information of a large-scale dataset and thus can be used as a proxy dataset for scalable Bayesian inference. Typically, a Bayesian pseudocoreset is constructed by minimizing a divergence measure between the posterior conditioning on the pseudocoreset and the posterior conditioning on the full dataset. However, evaluating the divergence can be challenging, particularly for the models like deep neural networks having high-dimensional parameters. In this paper, we propose a novel Bayesian pseudocoreset construction method that operates on a function space. Unlike previous methods, which construct and match the coreset and full data posteriors in the space of model parameters (weights), our method constructs variational approximations to the coreset posterior on a function space and matches it to the full data posterior in the function space. By working directly on the function space, our method could bypass several challenges that may arise when working on a weight space, including limited scalability and multi-modality issue. Through various experiments, we demonstrate that the Bayesian pseudocoresets constructed from our method enjoys enhanced uncertainty quantification and better robustness across various model architectures.
翻訳日:2023-10-30 15:12:22 公開日:2023-10-27
# 合成ボリューム拡張によるデータ分析の促進

Boosting Data Analytics With Synthetic Volume Expansion ( http://arxiv.org/abs/2310.17848v1 )

ライセンス: Link先を確認
Xiaotong Shen, Yifei Liu, Rex Shen(参考訳) 生成人工知能の基盤である合成データ生成は、データ不足とプライバシに対処し、前例のないパフォーマンスを実現することによって、データサイエンスのパラダイムシフトを示す。 合成データが卓越するにつれて、生データと比較して合成データに適用した場合の統計手法の精度に関する疑問が生じる。 本稿では,Synthetic Data Generation for Analyticsフレームワークについて紹介する。 このフレームワークは、表層拡散や生成事前学習トランスフォーマーモデルといった高度なモデルによって生成される高忠実な合成データに統計的手法を用いる。 これらのモデルは生のデータに基づいて訓練され、関連する研究からの洞察によってさらに強化される。 合成データに対する統計的手法の誤差は、最初は合成データを追加することで減少するが、最終的には増加するか高くなる可能性がある。 この現象は、生データ分布を複製する複雑さに根ざし、特定のエラーメトリクスによって決定される合成データのサイズにおける最適なしきい値である「反射点」を強調している。 テキストの感性分析,構造化データの予測モデリング,表形式データの推論という3つの図解的ケーススタディを通じて,このフレームワークが従来のものよりも有効であることを示す。 我々は,データサイエンスにおける合成データ生成の変換可能性について,予測と仮説テストの勾配向上など,様々な統計的手法を増幅する可能性を強調した。

Synthetic data generation, a cornerstone of Generative Artificial Intelligence, signifies a paradigm shift in data science by addressing data scarcity and privacy while enabling unprecedented performance. As synthetic data gains prominence, questions arise concerning the accuracy of statistical methods when applied to synthetic data compared to raw data. In this article, we introduce the Synthetic Data Generation for Analytics framework. This framework employs statistical methods on high-fidelity synthetic data generated by advanced models such as tabular diffusion and Generative Pre-trained Transformer models. These models, trained on raw data, are further enhanced with insights from pertinent studies. A significant discovery within this framework is the generational effect: the error of a statistical method on synthetic data initially diminishes with added synthetic data but may eventually increase or plateau. This phenomenon, rooted in the complexities of replicating raw data distributions, highlights a "reflection point"--an optimal threshold in the size of synthetic data determined by specific error metrics. Through three illustrative case studies-sentiment analysis of texts, predictive modeling of structured data, and inference in tabular data--we demonstrate the effectiveness of this framework over traditional ones. We underline its potential to amplify various statistical methods, including gradient boosting for prediction and hypothesis testing, thereby underscoring the transformative potential of synthetic data generation in data science.
翻訳日:2023-10-30 15:11:54 公開日:2023-10-27
# 無限次元ベイズ逆問題に対する適応作用素学習

Adaptive operator learning for infinite-dimensional Bayesian inverse problems ( http://arxiv.org/abs/2310.17844v1 )

ライセンス: Link先を確認
Zhiwei Gao, Liang Yan, Tao Zhou(参考訳) 偏微分方程式(PDE)によって支配されるベイズ逆問題(BIP)の基本的な計算問題は、連続した前方モデル評価の要求に由来する。 このようなコスト削減のための一般的な戦略は、ディープラーニングの最近の進歩に動機づけられたオペレーター学習を用いた計算効率のよい近似によって、高価なモデルシミュレーションを置き換えることである。 しかし、近似モデルを直接使用するとモデリングエラーが発生し、逆問題の不適切さが悪化する可能性がある。 このような手法を効果的に実施するには,精度と効率のバランスが不可欠である。 そこで本研究では,サロゲートを局所領域で精度の高いものにすることで,モデリング誤差を徐々に低減できる適応型演算子学習フレームワークを開発した。 これは、事前訓練された近似モデルを、グレディアルゴリズムによって選択された適応点を持つ反転過程中に微調整することで実現される。 提案手法を検証するために,我々はDeepOnetを用いてサロゲートを構築し,無意味カルマン反転(UKI)を用いてBIPの解を近似する。 さらに、UKIの枠組みを用いて線形の場合において厳密な収束を保証する。 本稿では, ダーシー流, 熱源逆転問題, 反応拡散問題など, いくつかのベンチマークでアプローチを検証した。 数値計算により,逆精度を維持しながら計算コストを大幅に削減できることを示した。

The fundamental computational issues in Bayesian inverse problems (BIPs) governed by partial differential equations (PDEs) stem from the requirement of repeated forward model evaluations. A popular strategy to reduce such cost is to replace expensive model simulations by computationally efficient approximations using operator learning, motivated by recent progresses in deep learning. However, using the approximated model directly may introduce a modeling error, exacerbating the already ill-posedness of inverse problems. Thus, balancing between accuracy and efficiency is essential for the effective implementation of such approaches. To this end, we develop an adaptive operator learning framework that can reduce modeling error gradually by forcing the surrogate to be accurate in local areas. This is accomplished by fine-tuning the pre-trained approximate model during the inversion process with adaptive points selected by a greedy algorithm, which requires only a few forward model evaluations. To validate our approach, we adopt DeepOnet to construct the surrogate and use unscented Kalman inversion (UKI) to approximate the solution of BIPs, respectively. Furthermore, we present rigorous convergence guarantee in the linear case using the framework of UKI. We test the approach on several benchmarks, including the Darcy flow, the heat source inversion problem, and the reaction diffusion problems. Numerical results demonstrate that our method can significantly reduce computational costs while maintaining inversion accuracy.
翻訳日:2023-10-30 15:11:26 公開日:2023-10-27
# 機械学習のためのデータ中心オンライン市場:発見から価格まで

A Data-Centric Online Market for Machine Learning: From Discovery to Pricing ( http://arxiv.org/abs/2310.17843v1 )

ライセンス: Link先を確認
Minbiao Han, Jonathan Light, Steven Xia, Sainyam Galhotra, Raul Castro Fernandez, Haifeng Xu(参考訳) data fuels machine learning (ml) - mlの成功には、リッチで高品質なトレーニングデータが不可欠である。 しかし、MLを少数の大企業間の競争から、多くの一般ユーザーのデータ分析要求に役立てるアクセス可能な技術に転換するには、依然として重要な課題がある。 私たちが観察した1つのギャップは、多くのmlユーザが、他のデータ所有者が持っている新しいデータから恩恵を受けることができるということです。 このギャップは、需要と供給を自動的に結びつけるオンライン市場を構築する機会を生み出します。 オンラインマッチング市場は一般的であるが(例えば、配車システム)、データ中心のML市場を設計することは、多くの前例のない課題を示している。 本稿では、そのような市場を設計する上での2つの課題に取り組むための新しい手法を開発する。 (a)需要と供給を効率的に一致させるため、数千のデータセットから機械学習タスクの有用なデータを自動的に検出し、MLモデルとデータ間の高品質なマッチングを実現するアルゴリズムを設計する。 b) MLの専門知識をあまり持たずにMLユーザの市場参加を促進するため,データ拡張MLモデルを販売するための新たな価格設定機構を設計する。 さらに、当社の市場は、Vertex AIやSagemakerといった既存のオンラインML市場とAPI互換に設計されています。 データとモデル発見アルゴリズムと価格設定メカニズムの相乗効果は、MLユーザが効果的に利用できる新しいデータ中心のオンライン市場を構築するための重要なステップになると考えています。

Data fuels machine learning (ML) - rich and high-quality training data is essential to the success of ML. However, to transform ML from the race among a few large corporations to an accessible technology that serves numerous normal users' data analysis requests, there still exist important challenges. One gap we observed is that many ML users can benefit from new data that other data owners possess, whereas these data owners sit on piles of data without knowing who can benefit from it. This gap creates the opportunity for building an online market that can automatically connect supply with demand. While online matching markets are prevalent (e.g., ride-hailing systems), designing a data-centric market for ML exhibits many unprecedented challenges. This paper develops new techniques to tackle two core challenges in designing such a market: (a) to efficiently match demand with supply, we design an algorithm to automatically discover useful data for any ML task from a pool of thousands of datasets, achieving high-quality matching between ML models and data; (b) to encourage market participation of ML users without much ML expertise, we design a new pricing mechanism for selling data-augmented ML models. Furthermore, our market is designed to be API-compatible with existing online ML markets like Vertex AI and Sagemaker, making it easy to use while providing better results due to joint data and model search. We envision that the synergy of our data and model discovery algorithm and pricing mechanism will be an important step towards building a new data-centric online market that serves ML users effectively.
翻訳日:2023-10-30 15:11:02 公開日:2023-10-27
# 物体の密度を3Dで検出する技術(動画あり)

What You See Is What You Detect: Towards better Object Densification in 3D detection ( http://arxiv.org/abs/2310.17842v1 )

ライセンス: Link先を確認
Tianran Liu, Zeping Zhang Morteza Mousa Pasandi, Robert Laganiere(参考訳) 近年,lidar信号からの3次元知覚における物体完成の重要性が実証されている。 レーザースキャナーによって生成された点雲を密度化するためにモジュールを用いたいくつかの手法が提案されている。 広く使われているフル形状の完成アプローチは、特に遠くの物体や歩行者のような小さな物体に対して、より高いエラーアップバウンドをもたらします。 この観察に基づいて,従来の手法が生成する予測点の11.3\%しか必要としない可視部分補完法を提案する。 高密度表現を復元するために,目に見えるフォアグラウンドオブジェクトに関連する点集合を補強するメッシュデフォーメーションに基づく手法を提案する。 提案手法は, 正確な3次元検出を実現するために, 前景オブジェクトの可視部分のみに焦点をあてることから, 提案手法をWhat You See Is What You Detect (WYSIWYD) と名付けた。 提案手法は,前景深度をメッシュ変形から予測するifst(intra-frustum segmentation transformer)とmdcnet(mesh depth completion network)の2部分からなる検出器非依存モデルである。 このように、このモデルは、ほとんどの擬似ライダーベースのメソッドで使用される、時間を要する完全な補完タスクを必要としない。 実験により,KITTIデータセットとNuScenesデータセットの公開ベースラインモデルの大部分に対して,我々のアプローチが最大12.2\%のパフォーマンス向上を達成できることが確認された。 コードは \textcolor[RGB]{0,0,255}{\url{{https://github.com/Orbis36/WYSIWYD}} で入手できる。

Recent works have demonstrated the importance of object completion in 3D Perception from Lidar signal. Several methods have been proposed in which modules were used to densify the point clouds produced by laser scanners, leading to better recall and more accurate results. Pursuing in that direction, we present, in this work, a counter-intuitive perspective: the widely-used full-shape completion approach actually leads to a higher error-upper bound especially for far away objects and small objects like pedestrians. Based on this observation, we introduce a visible part completion method that requires only 11.3\% of the prediction points that previous methods generate. To recover the dense representation, we propose a mesh-deformation-based method to augment the point set associated with visible foreground objects. Considering that our approach focuses only on the visible part of the foreground objects to achieve accurate 3D detection, we named our method What You See Is What You Detect (WYSIWYD). Our proposed method is thus a detector-independent model that consists of 2 parts: an Intra-Frustum Segmentation Transformer (IFST) and a Mesh Depth Completion Network(MDCNet) that predicts the foreground depth from mesh deformation. This way, our model does not require the time-consuming full-depth completion task used by most pseudo-lidar-based methods. Our experimental evaluation shows that our approach can provide up to 12.2\% performance improvements over most of the public baseline models on the KITTI and NuScenes dataset bringing the state-of-the-art to a new level. The codes will be available at \textcolor[RGB]{0,0,255}{\url{{https://github.com/Orbis36/WYSIWYD}}
翻訳日:2023-10-30 15:10:31 公開日:2023-10-27
# 大規模言語モデルによるリグジットモデルの実時間アニメーション生成と制御

Real-time Animation Generation and Control on Rigged Models via Large Language Models ( http://arxiv.org/abs/2310.17838v1 )

ライセンス: Link先を確認
Han Huang, Fernanda De La Torre, Cathy Mengying Fang, Andrzej Banburski-Fahey, Judith Amores, Jaron Lanier(参考訳) 本稿では,自然言語入力を用いたリップモデルを用いたリアルタイムアニメーション制御と生成手法を提案する。 まず,大規模言語モデル(LLM)をUnityに組み込んで,多種多様なリアルなアニメーションに解析可能な構造化テキストを出力する。 次に,既存のアニメーション間の柔軟な状態遷移を可能にするllmの可能性について述べる。 各種剛体モデルと運動の定性的な結果を通じて,我々のアプローチの堅牢性を示す。

We introduce a novel method for real-time animation control and generation on rigged models using natural language input. First, we embed a large language model (LLM) in Unity to output structured texts that can be parsed into diverse and realistic animations. Second, we illustrate LLM's potential to enable flexible state transition between existing animations. We showcase the robustness of our approach through qualitative results on various rigged models and motions.
翻訳日:2023-10-30 15:10:02 公開日:2023-10-27
# マルチレジデントスマートホームにおける位置符号化に基づくレジデント識別

Positional Encoding-based Resident Identification in Multi-resident Smart Homes ( http://arxiv.org/abs/2310.17836v1 )

ライセンス: Link先を確認
Zhiyi Song, Dipankar Chaki, Abdallah Lakhdari, Athman Bouguettaya(参考訳) 多人数のスマート環境における住民識別のための新しい住民識別フレームワークを提案する。 提案フレームワークは位置符号化の概念に基づく特徴抽出モデルを用いている。 特徴抽出モデルは、住宅の位置をグラフとして考える。 スマート環境のレイアウトマップからこのようなグラフを構築する新しいアルゴリズムを設計する。 Node2Vecアルゴリズムはグラフを高次元ノード埋め込みに変換するために使用される。 長短期記憶(LSTM)モデルを導入し,ノード埋め込みによるセンサイベントの時間的シーケンスを用いて住民の身元を推定する。 広範囲にわたる実験により,提案手法が居住環境の住民を効果的に識別できることが確認された。 実世界の2つのデータセットの評価結果は,提案手法がそれぞれ94.5%,87.9%の精度を達成したことを示している。

We propose a novel resident identification framework to identify residents in a multi-occupant smart environment. The proposed framework employs a feature extraction model based on the concepts of positional encoding. The feature extraction model considers the locations of homes as a graph. We design a novel algorithm to build such graphs from layout maps of smart environments. The Node2Vec algorithm is used to transform the graph into high-dimensional node embeddings. A Long Short-Term Memory (LSTM) model is introduced to predict the identities of residents using temporal sequences of sensor events with the node embeddings. Extensive experiments show that our proposed scheme effectively identifies residents in a multi-occupant environment. Evaluation results on two real-world datasets demonstrate that our proposed approach achieves 94.5% and 87.9% accuracy, respectively.
翻訳日:2023-10-30 15:09:54 公開日:2023-10-27
# 動画生成に必要なのは1つのスタイル

One Style is All you Need to Generate a Video ( http://arxiv.org/abs/2310.17835v1 )

ライセンス: Link先を確認
Sandeep Manandhar and Auguste Genovesio(参考訳) 本稿では,スタイルに基づく条件付きビデオ生成モデルを提案する。 学習された正弦波基底の集合に基づく新しい時間発生器を提案する。 本手法は,画像内容に依存しない様々な動作の動的表現を学習し,異なるアクター間で伝達する。 ビデオ品質の顕著な向上に加えて,アンタングル化された動的・コンテンツの独立な操作が可能であること,また,時間的GAN変換により,ランドマークポイントなどの事前処理を行なわずに,あるコンテンツやアイデンティティからビデオモーションを検索・転送できることを示す。

In this paper, we propose a style-based conditional video generative model. We introduce a novel temporal generator based on a set of learned sinusoidal bases. Our method learns dynamic representations of various actions that are independent of image content and can be transferred between different actors. Beyond the significant enhancement of video quality compared to prevalent methods, we demonstrate that the disentangled dynamic and content permit their independent manipulation, as well as temporal GAN-inversion to retrieve and transfer a video motion from one content or identity to another without further preprocessing such as landmark points.
翻訳日:2023-10-30 15:09:42 公開日:2023-10-27
# 機械学習と局所測定を用いたハイブリッド光乱流モデル

Hybrid Optical Turbulence Models Using Machine Learning and Local Measurements ( http://arxiv.org/abs/2310.17829v1 )

ライセンス: Link先を確認
Christopher Jellen and Charles Nelson and John Burkhardt and Cody Brownell(参考訳) 自由空間光学系の性能推定には,局所環境における大気光乱流の正確な予測が不可欠である。 ある環境における乱流効果を予測するために開発されたマクロ気象モデルは、新しい環境に適用した場合に失敗する可能性がある。 しかし、既存のマクロ気象モデルには予測能力が期待できる。 局所測定されたマクロ気象学とシンチロメーターによる新しいモデルの構築には、かなりの時間とリソースと多くの観測が必要である。 これらの課題は、機械学習によるインフォームドハイブリッドモデルフレームワークの開発を動機付ける。 ベースラインのマクロ気象モデルと局所観測を組み合わせることで,各ベースラインモデルの予測能力を改善するためにハイブリッドモデルを訓練した。 ハイブリッドモデルの性能,選択されたマクロ気象モデル,および局所観測でのみトレーニングされた機械学習モデルの比較は,局所データが収集に費用がかかる場合のハイブリッドモデルフレームワークの潜在的なユースケースを浮き彫りにする。 ハイブリッドモデルとデータオンリーモデルの両方を,その場で観測される様々な気象観測量を持つGBDT(Gradient Boosted Decision Tree)アーキテクチャを用いて訓練した。 ハイブリッドモデルとデータのみのモデルでは, 観測回数が少ない場合でも, 1日で3つのベースラインマクロ気象モデルを上回る結果が得られた。 調査した最初のベースライン・マクロ気象モデルでは、平均絶対誤差(mae)が1日分の観測で29%減少し、わずか2日で41%、180日分の訓練データで68%と推定された。 必要な日あたりのトレーニングデータ数は,局所微気候とその伝播環境の季節変動を示す可能性がある。

Accurate prediction of atmospheric optical turbulence in localized environments is essential for estimating the performance of free-space optical systems. Macro-meteorological models developed to predict turbulent effects in one environment may fail when applied in new environments. However, existing macro-meteorological models are expected to offer some predictive power. Building a new model from locally-measured macro-meteorology and scintillometer readings can require significant time and resources, as well as a large number of observations. These challenges motivate the development of a machine-learning informed hybrid model framework. By combining some baseline macro-meteorological model with local observations, hybrid models were trained to improve upon the predictive power of each baseline model. Comparisons between the performance of the hybrid models, the selected baseline macro-meteorological models, and machine-learning models trained only on local observations highlight potential use cases for the hybrid model framework when local data is expensive to collect. Both the hybrid and data-only models were trained using the Gradient Boosted Decision Tree (GBDT) architecture with a variable number of in-situ meteorological observations. The hybrid and data-only models were found to outperform three baseline macro-meteorological models, even for low numbers of observations, in some cases as little as one day. For the first baseline macro-meteorological model investigated, the hybrid model achieves an estimated 29% reduction in mean absolute error (MAE) using only one days-equivalent of observation, growing to 41% after only two days, and 68% after 180 days-equivalent training data. The number of days-equivalent training data required is potentially indicative of the seasonal variation in the local microclimate and its propagation environment.
翻訳日:2023-10-30 15:09:29 公開日:2023-10-27
# 球面上の多項式最適化のための固有計算の階層

A hierarchy of eigencomputations for polynomial optimization on the sphere ( http://arxiv.org/abs/2310.17827v1 )

ライセンス: Link先を確認
Nathaniel Johnston, Benjamin Lovitz, Aravindan Vijayaraghavan(参考訳) 球面上の実同次多項式の最小値上の下界の収束階層を導入する。 SOS(sum-of-squares)階層に対する階層構造の主な実用的利点は、SOSの各レベルに必要な完全半定値プログラム(SDP)とは対照的に、最小の固有値計算によって階層構造の各レベルにおける下位境界が得られることである。 実際には、SOS階層で計算可能なものよりもはるかに高いレベルに進むことができます。 どちらの階層に対しても、$k$-階の基底空間は次数2k$の斉次多項式の集合である。 我々の階層はレベル$k$で$O(1/k)$として収束し、変数数$n$が半次$d$より小さいときのSOS階層の最もよく知られた収束と一致する($n \geq d$が$O(1/k^2)$であるときのSOSの最もよく知られた収束)。 より一般に、実テンソルと球面セグレ・ヴェロネーゼ多様体の要素との間の内積を最小化する最小固有値計算の収束階層を導入する。 例えば、(実)テンソルスペクトルノルムを計算し、球面上の二乗形式を最小化するための階層を得る。 より一般的な制約付き多項式最適化問題に対する固有計算の階層について論じる。

We introduce a convergent hierarchy of lower bounds on the minimum value of a real homogeneous polynomial over the sphere. The main practical advantage of our hierarchy over the sum-of-squares (SOS) hierarchy is that the lower bound at each level of our hierarchy is obtained by a minimum eigenvalue computation, as opposed to the full semidefinite program (SDP) required at each level of SOS. In practice, this allows us to go to much higher levels than are computationally feasible for the SOS hierarchy. For both hierarchies, the underlying space at the $k$-th level is the set of homogeneous polynomials of degree $2k$. We prove that our hierarchy converges as $O(1/k)$ in the level $k$, matching the best-known convergence of the SOS hierarchy when the number of variables $n$ is less than the half-degree $d$ (the best-known convergence of SOS when $n \geq d$ is $O(1/k^2)$). More generally, we introduce a convergent hierarchy of minimum eigenvalue computations for minimizing the inner product between a real tensor and an element of the spherical Segre-Veronese variety, with similar convergence guarantees. As examples, we obtain hierarchies for computing the (real) tensor spectral norm, and for minimizing biquadratic forms over the sphere. Hierarchies of eigencomputations for more general constrained polynomial optimization problems are discussed.
翻訳日:2023-10-30 15:09:04 公開日:2023-10-27
# サブ人口代表モデルとしての大規模言語モデル

Large Language Models as Subpopulation Representative Models: A Review ( http://arxiv.org/abs/2310.17888v1 )

ライセンス: Link先を確認
Gabriel Simmons and Christopher Hare(参考訳) 大規模言語モデル(LLM、Open AIのChatGPT、MetaのLLaMA、AnthropicのClaudeなど)によって提供される多くの商業的および科学的機会のうち、より興味深い応用の1つは人間の行動と意見のシミュレーションである。 llmは実験参加者、調査回答者、その他の独立したエージェントとして働くために人間のシマルクラを生成するのに使われており、結果はしばしば観察された人間の行動と密接に平行している。 本稿では,LLMを用いてサブポピュレーション代表モデル(SRM)を推定する可能性について検討する。 SRMは、人口統計、地理的、政治的セグメント間の世論を測る代替的あるいは補完的な手段を提供することができる。 しかし、社会技術基盤への新しい技術の導入は、リスクを伴わないものではない。 本稿では,LLMの動作誘発技術の概要と既存のSRM実装に関する調査について述べる。 我々は,LSMの分析,開発,実装のためのフレームワークをSRMとして提供し,潜在的なリスクを考慮し,今後の作業の方向性を提案する。

Of the many commercial and scientific opportunities provided by large language models (LLMs; including Open AI's ChatGPT, Meta's LLaMA, and Anthropic's Claude), one of the more intriguing applications has been the simulation of human behavior and opinion. LLMs have been used to generate human simulcra to serve as experimental participants, survey respondents, or other independent agents, with outcomes that often closely parallel the observed behavior of their genuine human counterparts. Here, we specifically consider the feasibility of using LLMs to estimate subpopulation representative models (SRMs). SRMs could provide an alternate or complementary way to measure public opinion among demographic, geographic, or political segments of the population. However, the introduction of new technology to the socio-technical infrastructure does not come without risk. We provide an overview of behavior elicitation techniques for LLMs, and a survey of existing SRM implementations. We offer frameworks for the analysis, development, and practical implementation of LLMs as SRMs, consider potential risks, and suggest directions for future work.
翻訳日:2023-10-30 15:01:03 公開日:2023-10-27
# 印象:視覚セミオティックスと美的影響を理解する

Impressions: Understanding Visual Semiotics and Aesthetic Impact ( http://arxiv.org/abs/2310.17887v1 )

ライセンス: Link先を確認
Julia Kruk, Caleb Ziems, Diyi Yang(参考訳) 美的影響は美と異なるか? 視覚的サリエンスはその効果的なコミュニケーション能力の反映か? イメージのセロティクスや、視覚的特徴やデザインの選択が特定の感情や思考、信念をいかに引き起こすかを調べるための、新しいデータセットであるインプレッションを提示した。 我々は、イメージのインパクトフルネスが、美学の形式的定義を超えて、その成功がコミュニケーション行為として成功し、そのスタイルは主題と同様に形成を意味するものであると仮定する。 しかし、以前の画像キャプションデータセットは、人間の印象や画像の解釈をモデル化する最先端のアーキテクチャーを強化するために設計されていない。 このギャップを埋めるために,視覚芸術における画像解析技術に着想を得たアノテーションタスクをデザインし,1,440のイメージキャプチャペアと4,320のユニークなアノテーションを収集し,影響,実用的イメージ記述,印象,美的デザインの選択を探索する。 既存のマルチモーダル画像キャプションと条件生成モデルでは,画像に対する人間の反応をシミュレートするのに苦労している。 しかし、このデータセットは、微調整と少数ショット適応によって画像の印象や美的評価をモデル化する能力を大幅に改善する。

Is aesthetic impact different from beauty? Is visual salience a reflection of its capacity for effective communication? We present Impressions, a novel dataset through which to investigate the semiotics of images, and how specific visual features and design choices can elicit specific emotions, thoughts and beliefs. We posit that the impactfulness of an image extends beyond formal definitions of aesthetics, to its success as a communicative act, where style contributes as much to meaning formation as the subject matter. However, prior image captioning datasets are not designed to empower state-of-the-art architectures to model potential human impressions or interpretations of images. To fill this gap, we design an annotation task heavily inspired by image analysis techniques in the Visual Arts to collect 1,440 image-caption pairs and 4,320 unique annotations exploring impact, pragmatic image description, impressions, and aesthetic design choices. We show that existing multimodal image captioning and conditional generation models struggle to simulate plausible human responses to images. However, this dataset significantly improves their ability to model impressions and aesthetic evaluations of images through fine-tuning and few-shot adaptation.
翻訳日:2023-10-30 15:00:44 公開日:2023-10-27
# llmsは秘密を守れるか? 文脈積分理論による言語モデルのプライバシー影響の検証

Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory ( http://arxiv.org/abs/2310.17884v1 )

ライセンス: Link先を確認
Niloofar Mireshghallah, Hyunwoo Kim, Xuhui Zhou, Yulia Tsvetkov, Maarten Sap, Reza Shokri, Yejin Choi(参考訳) AIアシスタント(職場、自宅など)における大規模言語モデル(LLM)のインタラクティブな使用は、新しい一連の推論時プライバシーリスクを導入している。 本研究は,LLMのプライバシ推論能力の重大な弱点を特定するためのベンチマークであるConfAIdeを提案することによって,極めて批判的で見過ごされたコンテキストプライバシの概念に注目する。 実験の結果,GPT-4 や ChatGPT のような最も有能なモデルでさえ,それぞれ39% と 57% の確率で個人情報が得られた。 このリークは、プライバシを誘導するプロンプトや、思考の連鎖的推論を採用しても継続する。 私たちの研究は、推論と心の理論に基づいて、新しい推論時間プライバシー保存アプローチを直ちに探究する必要性を強調しています。

The interactive use of large language models (LLMs) in AI assistants (at work, home, etc.) introduces a new set of inference-time privacy risks: LLMs are fed different types of information from multiple sources in their inputs and are expected to reason about what to share in their outputs, for what purpose and with whom, within a given context. In this work, we draw attention to the highly critical yet overlooked notion of contextual privacy by proposing ConfAIde, a benchmark designed to identify critical weaknesses in the privacy reasoning capabilities of instruction-tuned LLMs. Our experiments show that even the most capable models such as GPT-4 and ChatGPT reveal private information in contexts that humans would not, 39% and 57% of the time, respectively. This leakage persists even when we employ privacy-inducing prompts or chain-of-thought reasoning. Our work underscores the immediate need to explore novel inference-time privacy-preserving approaches, based on reasoning and theory of mind.
翻訳日:2023-10-30 15:00:21 公開日:2023-10-27
# 仮想プラント資産コーディネートのための機械学習融合分散最適化

Machine Learning Infused Distributed Optimization for Coordinating Virtual Power Plant Assets ( http://arxiv.org/abs/2310.17882v1 )

ライセンス: Link先を確認
Meiyi Li, Javad Mohammadi(参考訳) 分散エネルギー資源(DER)の展開への関心が高まっている中、仮想電力プラント(VPP)は多様なDERを集約し、エネルギー市場への参加を促進する重要なツールとして現れてきた。 これらのVPPの配備は連邦エネルギー規制委員会(Federal Energy Regulatory Commission)の2222条によって推進され、DERとVPPは市場セグメント間で競争力がある。 しかし、DERの多様性と分散性は、VPP資産のスケーラブルな調整に重大な課題をもたらす。 本稿では,VPPアセットをコーディネートするための,機械学習による分散最適化を提案する。 提案手法であるloop-mac(learning to optimize the optimization process for multi-agent coordination)では,各vppエージェントが複数のderを管理するマルチエージェントコーディネーションパースペクティブを採用し,ニューラルネットワーク近似を用いて解探索を高速化する。 LOOP-MAC法は、局所的な制約に対する厳密なコンプライアンスを保証するためにゲージマップを使用し、追加の処理後ステップの必要性を効果的に低減する。 その結果, LOOP-MACの利点, 反復時間当たりの解の高速化, 収束時間を大幅に短縮した。 LOOP-MAC法は、繰り返しおよび逐次実行を必要とする最適化タスクにおいて、従来の集中的および分散的な最適化手法よりも優れている。

Amid the increasing interest in the deployment of Distributed Energy Resources (DERs), the Virtual Power Plant (VPP) has emerged as a pivotal tool for aggregating diverse DERs and facilitating their participation in wholesale energy markets. These VPP deployments have been fueled by the Federal Energy Regulatory Commission's Order 2222, which makes DERs and VPPs competitive across market segments. However, the diversity and decentralized nature of DERs present significant challenges to the scalable coordination of VPP assets. To address efficiency and speed bottlenecks, this paper presents a novel machine learning-assisted distributed optimization to coordinate VPP assets. Our method, named LOOP-MAC(Learning to Optimize the Optimization Process for Multi-agent Coordination), adopts a multi-agent coordination perspective where each VPP agent manages multiple DERs and utilizes neural network approximators to expedite the solution search. The LOOP-MAC method employs a gauge map to guarantee strict compliance with local constraints, effectively reducing the need for additional post-processing steps. Our results highlight the advantages of LOOP-MAC, showcasing accelerated solution times per iteration and significantly reduced convergence times. The LOOP-MAC method outperforms conventional centralized and distributed optimization methods in optimization tasks that require repetitive and sequential execution.
翻訳日:2023-10-30 15:00:01 公開日:2023-10-27
# リンドブラッドマスター方程式におけるレートの符号は常に任意に決定できる

Signs of the rates in the Lindblad master equations can always be arbitrarily determined ( http://arxiv.org/abs/2310.17881v1 )

ライセンス: Link先を確認
Le Hu and Andrew N. Jordan(参考訳) 量子過程のマルコフ性と非マルコフ性を決定することは、その挙動が複雑性の観点から大きく異なるため、開量子系の理論において重要な問題である。 量子過程がマルコフ的であることは、量子マスター方程式が標準リンドブラッド形式で書くことができ、すべてのレートが非負であるときに限る。 しかし、ここでは、有限次元開量子系力学がリンドブラッド形式における量子マスター方程式によって記述され、全ての速度が常に負でないという顕著な結果を示す。 実際、任意の時間間隔で任意の場合の利率の符号を任意に決定できることを示すことができる。 ここでは、構成する量子マスター方程式が一般に状態依存であるような非伝統的なアプローチをとることに注意し、つまり、ハミルトン、ジャンプ作用素およびレートはすべて密度行列 $\rho(t)$ の現在の状態に依存する。 本研究は,開量子系力学におけるマルコフ性および非マルコフ性の決定における現在の基準に関する深刻な疑問を提起する。

Determining the Markovianity and non-Markovianity of a quantum process is a critical problem in the theory of open quantum systems, as their behaviors differ significantly in terms of complexity. It is well recognized that a quantum process is Markovian if and only if the quantum master equation can be written in the standard Lindblad form with all rates nonnegative for all time. However, here we present a striking result that \textit{any} finite-dimensional open quantum system dynamics can be described by a quantum master equation in the Lindblad form with all rates nonnegative for all time. In fact, it can be shown that one can arbitrarily decide the sign of the rates in any case at any time interval. Note that here we take an unconventional approach where the quantum master equation we construct will in general be state-dependent, which means that the Hamiltonian, jump operators and rates will all depend on the current state of the density matrix $\rho(t)$. Our findings raise serious questions on the current criterion in determining Markovianity and non-Markovianity in open quantum system dynamics.
翻訳日:2023-10-30 14:59:37 公開日:2023-10-27
# 効率的な3次元シーン表現のための再構成潜在空間ニューラルラミアンスフィールド

Reconstructive Latent-Space Neural Radiance Fields for Efficient 3D Scene Representations ( http://arxiv.org/abs/2310.17880v1 )

ライセンス: Link先を確認
Tristan Aumentado-Armstrong, Ashkan Mirzaei, Marcus A. Brubaker, Jonathan Kelly, Alex Levinshtein, Konstantinos G. Derpanis, Igor Gilitschenski(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、複雑なシーンの高品質な新規ビュー合成が可能な強力な3次元表現であることが証明されている。 nerfはグラフィックス、視覚、ロボティクスに応用されているが、レンダリング速度の遅い問題や特徴的なビジュアルアーティファクトは、多くのユースケースで採用を妨げている。 本研究では,自動エンコーダ(AE)とNeRF(NeRF)を組み合わせることで,潜在特徴(色の代わりに)を描画し,畳み込み復号する。 結果として生じる潜在空間nerfは、aeが特定の視覚アーチファクトを3倍高速にレンダリングしながら修正できるため、標準的な色空間nerfよりも高品質な新しいビューを生成することができる。 我々の仕事は、nrf効率を改善する他の技術と直交している。 さらに、AEアーキテクチャを小さくすることで効率と画質のトレードオフを制御でき、少ない性能で13倍以上高速なレンダリングを実現することができる。 特に連続的な学習を必要とする多くのロボティクスシナリオにおいて、これらのアプローチは、下流タスクの効率的かつ高忠実な3次元シーン表現の基礎となることを期待する。

Neural Radiance Fields (NeRFs) have proven to be powerful 3D representations, capable of high quality novel view synthesis of complex scenes. While NeRFs have been applied to graphics, vision, and robotics, problems with slow rendering speed and characteristic visual artifacts prevent adoption in many use cases. In this work, we investigate combining an autoencoder (AE) with a NeRF, in which latent features (instead of colours) are rendered and then convolutionally decoded. The resulting latent-space NeRF can produce novel views with higher quality than standard colour-space NeRFs, as the AE can correct certain visual artifacts, while rendering over three times faster. Our work is orthogonal to other techniques for improving NeRF efficiency. Further, we can control the tradeoff between efficiency and image quality by shrinking the AE architecture, achieving over 13 times faster rendering with only a small drop in performance. We hope that our approach can form the basis of an efficient, yet high-fidelity, 3D scene representation for downstream tasks, especially when retaining differentiability is useful, as in many robotics scenarios requiring continual learning.
翻訳日:2023-10-30 14:59:19 公開日:2023-10-27
# プリプロセッシング時間を改善するサブリニア時間スペクトルクラスタリングオラクル

A Sublinear-Time Spectral Clustering Oracle with Improved Preprocessing Time ( http://arxiv.org/abs/2310.17878v1 )

ライセンス: Link先を確認
Ranran Shen, Pan Peng(参考訳) 本稿では,クラスタ性が強いグラフに対して,サブ線形時間スペクトルクラスタリングオラクルを設計する問題に対処する。 これらのグラフは、それぞれ大きな内部伝導(少なくとも$\varphi$)と小さな外部伝導(ほとんどの$\varepsilon$)によって特徴づけられる、潜伏クラスター$k$を含む。 我々の目的は、グラフを前処理してクラスタリングメンバシップクエリを有効にすることであり、前処理とクエリ応答の両方をサブライン時間で実行し、その結果のパーティションは、地上のクラスタリングに近い$k$-partitionと整合性を持つべきである。 以前のオラクルは、内部コンダクタンスと外部コンダクタンスの間の$\textrm{poly}(k)\log n$ギャップか($k/\varepsilon$)前処理時間に依存していた。 我々のアルゴリズムは、少し高い分類率のコストで、これらの仮定を緩和する。 また、クラスタリングオラクルはいくつかのランダムなエッジ削除に対して堅牢であることを示す。 理論境界を検証するために,合成ネットワーク実験を行った。

We address the problem of designing a sublinear-time spectral clustering oracle for graphs that exhibit strong clusterability. Such graphs contain $k$ latent clusters, each characterized by a large inner conductance (at least $\varphi$) and a small outer conductance (at most $\varepsilon$). Our aim is to preprocess the graph to enable clustering membership queries, with the key requirement that both preprocessing and query answering should be performed in sublinear time, and the resulting partition should be consistent with a $k$-partition that is close to the ground-truth clustering. Previous oracles have relied on either a $\textrm{poly}(k)\log n$ gap between inner and outer conductances or exponential (in $k/\varepsilon$) preprocessing time. Our algorithm relaxes these assumptions, albeit at the cost of a slightly higher misclassification ratio. We also show that our clustering oracle is robust against a few random edge deletions. To validate our theoretical bounds, we conducted experiments on synthetic networks.
翻訳日:2023-10-30 14:58:58 公開日:2023-10-27
# ASPIRO: 一貫性のあるデータ-テキスト生成のための任意のパーシングエラーによるリプリンプ

ASPIRO: Any-shot Structured Parsing-error-Induced ReprOmpting for Consistent Data-to-Text Generation ( http://arxiv.org/abs/2310.17877v1 )

ライセンス: Link先を確認
Martin Vejvar and Yasutaka Fujimoto(参考訳) AsPIROは、ゼロから数ショット設定で短いテンプレート文に構造化されたデータ言語化のアプローチである。 従来の手法と異なり,我々のアプローチでは,LLMを忠実にコピーしたり,テンプレートを手動で検証・作成する代わりに,エンティティに依存しないテンプレートを直接生成する大規模言語モデル(LLM)が提案されている。 我々は,アルゴリズム解析チェックによって引き起こされるLLM再プロンプティングとPARENTメトリック誘導整合性検証を取り入れ,テンプレート生成問題をリアルタイムに特定・修正する。 ASPIRO は直接 LLM 出力と比較して DART データセット上で生成されたRDF トリプルの発音における 66 % のパーシング誤差率の減少を平均とした。 ベスト5ショットのテキスト-davinci-003セットアップでは、50.62のBLEU、45.16のMETEOR、0.82のBLEURT、0.87のNUBIA、Rel2TextデータセットのPARENTが、最近の微調整済み言語モデルと効果的に競合する。

We present ASPIRO, an approach for structured data verbalisation into short template sentences in zero to few-shot settings. Unlike previous methods, our approach prompts large language models (LLMs) to directly produce entity-agnostic templates, rather than relying on LLMs to faithfully copy the given example entities, or validating/crafting the templates manually. We incorporate LLM re-prompting, triggered by algorithmic parsing checks, as well as the PARENT metric induced consistency validation to identify and rectify template generation problems in real-time. ASPIRO, compared to direct LLM output, averages 66\% parsing error rate reduction in generated verbalisations of RDF triples on the DART dataset. Our best 5-shot text-davinci-003 setup, scoring BLEU of 50.62, METEOR of 45.16, BLEURT of 0.82, NUBIA of 0.87, and PARENT of 0.8962 on the Rel2Text dataset, competes effectively with recent fine-tuned pre-trained language models.
翻訳日:2023-10-30 14:58:35 公開日:2023-10-27
# TarGEN: 大規模言語モデルによるターゲットデータ生成

TarGEN: Targeted Data Generation with Large Language Models ( http://arxiv.org/abs/2310.17876v1 )

ライセンス: Link先を確認
Himanshu Gupta and Kevin Scaria and Ujjwala Anantheswaran and Shreyas Verma and Mihir Parmar and Saurabh Arjun Sawant and Swaroop Mishra and Chitta Baral(参考訳) 大規模言語モデル(llm)の急速な進歩は、多様で高品質な合成データセットを生成することを目的として、データ合成技術への関心を高めた。 しかし、これらの合成データセットは、しばしば多様性の欠如とノイズの増加に苦しむ。 本稿では,llmを用いた高品質合成データセット生成のための多段階プロンプト戦略であるtargenを提案する。 TarGENの利点は、その種なしの性質であり、特定のタスクインスタンスを必要としない。 我々は、データセット作成中に不正確なラベル付きインスタンスを修正し、信頼性のあるラベルを確実にする自己補正と呼ばれる手法でTarGENを拡張した。 提案手法の有効性を評価するため,SuperGLUEベンチマークから8つのタスクをエミュレートし,エンコーダのみ,エンコーダのみ,エンコーダのみ,デコーダのみのモデルを含む各種言語モデルを合成およびオリジナルトレーニングセットで微調整する。 オリジナルのテストセットの評価によると、TarGENが生成したデータセットでトレーニングしたモデルは、オリジナルのデータセットでトレーニングしたモデルよりも約1-2%パフォーマンスが良い(Syn.による82.84%、Flan-T5を使用したog.では81.12%)。 命令チューニングを導入すると、Flan-T5による合成データでは84.54%、元のデータでは81.49%のパフォーマンスが向上する。 合成データセットを元のデータセットと比較した包括的な分析により、合成データセットはデータセットの複雑さと多様性の類似または高いレベルを示すことが明らかになった。 さらに、合成データセットは、元のデータセットと密接に一致するバイアスレベルを表示する。 最後に、私たちの合成スーパーグルーデータセットで事前調整すると、t5-3bはopenllmのリーダーボード上で印象的な結果をもたらし、セルフインストラクションデータセットでトレーニングされたモデルを4.14%上回ります。 TarGENが品質データ生成に役立ち、複雑なベンチマークを作成するための人間の努力を減らすことができることを願っています。

The rapid advancement of large language models (LLMs) has sparked interest in data synthesis techniques, aiming to generate diverse and high-quality synthetic datasets. However, these synthetic datasets often suffer from a lack of diversity and added noise. In this paper, we present TarGEN, a multi-step prompting strategy for generating high-quality synthetic datasets utilizing a LLM. An advantage of TarGEN is its seedless nature; it does not require specific task instances, broadening its applicability beyond task replication. We augment TarGEN with a method known as self-correction empowering LLMs to rectify inaccurately labeled instances during dataset creation, ensuring reliable labels. To assess our technique's effectiveness, we emulate 8 tasks from the SuperGLUE benchmark and finetune various language models, including encoder-only, encoder-decoder, and decoder-only models on both synthetic and original training sets. Evaluation on the original test set reveals that models trained on datasets generated by TarGEN perform approximately 1-2% points better than those trained on original datasets (82.84% via syn. vs. 81.12% on og. using Flan-T5). When incorporating instruction tuning, the performance increases to 84.54% on synthetic data vs. 81.49% on original data by Flan-T5. A comprehensive analysis of the synthetic dataset compared to the original dataset reveals that the synthetic dataset demonstrates similar or higher levels of dataset complexity and diversity. Furthermore, the synthetic dataset displays a bias level that aligns closely with the original dataset. Finally, when pre-finetuned on our synthetic SuperGLUE dataset, T5-3B yields impressive results on the OpenLLM leaderboard, surpassing the model trained on the Self-Instruct dataset by 4.14% points. We hope that TarGEN can be helpful for quality data generation and reducing the human efforts to create complex benchmarks.
翻訳日:2023-10-30 14:58:14 公開日:2023-10-27
# SmooSeg: 教師なしセマンティックセグメンテーションに先立つ滑らかさ

SmooSeg: Smoothness Prior for Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2310.17874v1 )

ライセンス: Link先を確認
Mengcheng Lan, Xinjiang Wang, Yiping Ke, Jiaxing Xu, Litong Feng, Wayne Zhang(参考訳) 教師なしセマンティクスセグメンテーションは、手動のアノテーションなしでイメージをセマンティクスグループに分割する難しいタスクである。 先行研究は主に、イメージセグメントのコヒーレンス性を見落としている自己教師付き学習手法から、セマンティック一貫性や事前概念の事前知識を活用することに焦点を当ててきた。 本稿では,距離空間の閉特徴が同じ意味論を共有することによるスムーズさが,教師なしセマンティックセグメンテーションをエネルギー最小化問題としてキャストすることにより,セグメンテーションを著しく単純化できることを実証する。 本パラダイムでは,SmooSegと呼ばれる,観察間の近接性関係を滑らか性信号としてモデル化する自己教師付き学習手法を提案する。 そこで本研究では,セグメント間の不連続性を維持しつつ,セグメント内のセグメント間平滑性を促進する新しい平滑性損失を提案する。 さらに,セグメンテーション品質をさらに高めるため,不対称な教師・学生スタイル予測器の設計を行い,スムースに更新された擬似ラベルを生成し,観察とラベリングアウトプットの最適適合を容易にする。 SmooSegはスムーズさの豊富な監視方法のおかげで、COCOStuff(+14.9%)、Cityscapes(+13.0%)、Potsdam-3(+5.7%)の3つのデータセットの画素精度において、STEGOを著しく上回っている。

Unsupervised semantic segmentation is a challenging task that segments images into semantic groups without manual annotation. Prior works have primarily focused on leveraging prior knowledge of semantic consistency or priori concepts from self-supervised learning methods, which often overlook the coherence property of image segments. In this paper, we demonstrate that the smoothness prior, asserting that close features in a metric space share the same semantics, can significantly simplify segmentation by casting unsupervised semantic segmentation as an energy minimization problem. Under this paradigm, we propose a novel approach called SmooSeg that harnesses self-supervised learning methods to model the closeness relationships among observations as smoothness signals. To effectively discover coherent semantic segments, we introduce a novel smoothness loss that promotes piecewise smoothness within segments while preserving discontinuities across different segments. Additionally, to further enhance segmentation quality, we design an asymmetric teacher-student style predictor that generates smoothly updated pseudo labels, facilitating an optimal fit between observations and labeling outputs. Thanks to the rich supervision cues of the smoothness prior, our SmooSeg significantly outperforms STEGO in terms of pixel accuracy on three datasets: COCOStuff (+14.9%), Cityscapes (+13.0%), and Potsdam-3 (+5.7%).
翻訳日:2023-10-30 14:57:38 公開日:2023-10-27
# 静的力を持つ二元格子における周期ジャンプ

Periodic jumps in binary lattices with a static force ( http://arxiv.org/abs/2310.17873v1 )

ライセンス: Link先を確認
Liwei Duan(参考訳) スタガー付きオンサイトエネルギーを有する2成分格子内の粒子のダイナミクスについて検討する。 オンサイトエネルギーをさらに調整する追加の静的力が導入される。 二項格子は、周期的に駆動される二レベル系を記述する半古典的ラビモデルとは無関係である。 しかしながら、あるパリティ部分空間において、半古典的ラビモデルのフロケットハミルトニアンは、二項格子のそれと正確にマッピングすることができる。 これらの接続は格子系を解析するための新しい視点を提供する。 共鳴、すなわち隣接する場所間のオンサイトエネルギーのミスマッチが静的力の強さのほぼ倍である場合、レベル反交差が起こる。 この現象は半古典的ラビモデルにおけるブロッホ・ジーガートシフトと密接に関連している。 n$ 次共鳴では、最初の局所化された粒子は、隣接するサイト間の連続ホップではなく、サイト $0$ とサイト $(2n+1)$ の間の周期的なジャンプを示す。 静的力を持つ二元格子は、半古典的ラビモデルとの接続のため、凝縮物質物理学と量子光学をつなぐ新しい橋として機能する。

We investigate the dynamics of a particle in a binary lattice with staggered on-site energies. An additional static force is introduced which further adjusts the on-site energies. The binary lattice appears to be unrelated to the semiclassical Rabi model, which describes a periodically driven two-level system. However, in a certain parity subspace, the Floquet Hamiltonian of the semiclassical Rabi model can be exactly mapped to that of the binary lattice. These connections provide a new perspective for analyzing lattice systems. At resonance, namely that the mismatch of on-site energies between adjacent sites is nearly multiple of the strength of the static force, the level anticrossing occurs. This phenomenon is closely related to the Bloch-Siegert shift in the semiclassical Rabi model. At the $n$th order resonance, an initially localized particle exhibits periodic jumps between site $0$ and site $(2n+1)$, rather than continuous hopping between adjacent sites. The binary lattice with a static force serves as a new bridge linking condensed matter physics and quantum optics, due to its connection with the semiclassical Rabi model.
翻訳日:2023-10-30 14:57:09 公開日:2023-10-27
# スロット制約によるランク付け

Ranking with Slot Constraints ( http://arxiv.org/abs/2310.17870v1 )

ライセンス: Link先を確認
Wentao Guo, Andrew Wang, Bradon Thymes, Thorsten Joachims(参考訳) 大学進学期間が限られている場合から、医療裁判の対象となる参加者の階層化されたコホートを構成する場合まで、幅広いアプリケーション問題をモデル化するために使用できるスロット制限付きランキングの問題を紹介する。 従来の確率ランク付け原理(PRP)はスロット制約付きランキング問題に対して非常に最適であり,MatchRankと呼ばれる新しいランキングアルゴリズムを考案する。 matchrankの目標は、人間の意思決定者によってランキングの順番で評価された場合、満員のスロット数を最大化するランキングを作ることである。 このように、MatchRank は PRP を一般化し、スロット制約がない場合に PRP を特別なケースとして仮定する。 我々の理論的分析では、MatchRankはスロットや候補間の独立性の仮定なしに、強い近似を保証する。 さらに,MatchRankを効率的に実装する方法を示す。 理論的保証の他に、MatchRankは様々な合成および実世界のタスクに対して大幅な改善を提供できることを示す経験的評価がある。

We introduce the problem of ranking with slot constraints, which can be used to model a wide range of application problems -- from college admission with limited slots for different majors, to composing a stratified cohort of eligible participants in a medical trial. We show that the conventional Probability Ranking Principle (PRP) can be highly sub-optimal for slot-constrained ranking problems, and we devise a new ranking algorithm, called MatchRank. The goal of MatchRank is to produce rankings that maximize the number of filled slots if candidates are evaluated by a human decision maker in the order of the ranking. In this way, MatchRank generalizes the PRP, and it subsumes the PRP as a special case when there are no slot constraints. Our theoretical analysis shows that MatchRank has a strong approximation guarantee without any independence assumptions between slots or candidates. Furthermore, we show how MatchRank can be implemented efficiently. Beyond the theoretical guarantees, empirical evaluations show that MatchRank can provide substantial improvements over a range of synthetic and real-world tasks.
翻訳日:2023-10-30 14:56:50 公開日:2023-10-27
# CLIPによるGrid Jigsaw表現 - イメージクラスタリングの新しい視点

Grid Jigsaw Representation with CLIP: A New Perspective on Image Clustering ( http://arxiv.org/abs/2310.17869v1 )

ライセンス: Link先を確認
Zijie Song, Zhenzhen Hu and Richang Hong(参考訳) 画像クラスタリングのための教師なし表現学習はコンピュータビジョンにおいて不可欠である。 視覚モデルの進歩により、効率的な視覚表現による画像クラスタリングが改善されたが、依然として課題が残っている。 第一に、これらの特徴はしばしば画像の内部構造を表現する能力がなく、視覚的に類似した画像の正確なクラスタリングを妨げる。 第二に、既存の機能はよりきめ細かいセマンティックラベルを欠く傾向にあり、ニュアンスドの違いと画像間の類似性をキャプチャする能力を制限する。 本稿ではまず,gjr(grid jigsaw representation)と呼ばれる画像クラスタリングのためのjigsawベースの戦略手法について紹介する。 人間のジグソーパズルを模倣するこのアルゴリズムは、異なるサンプル間の空間的特徴を識別し、クラスタリング能力を高めるために、効果的にモデルを改善することができる。 GJRモジュールは様々な深層畳み込みネットワークに付加され、CIFAR-10、CIFAR-100/20、STL-10、ImageNet-10、ImageNetDog-15など幅広いベンチマークデータセットで大幅に改善された。 一方,教師なし画像クラスタリングでは,収束効率が常に重要な課題である。 近年,事前訓練された表現学習が大きな進歩を遂げ,成熟した視覚表現を抽出できるモデルがリリースされた。 事前学習したモデルを特徴抽出器として使用することで、画像クラスタリングにおける合理的なリソースアプリケーションによる新たな視点を提供し、新たなベースラインを提供するクラスタリングの収束を早めることは明らかです。 さらに,GJRの改良により,プレトレインベースグリッドJigsaw表現(pGJR)を革新する。 実験結果は,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性を示した。

Unsupervised representation learning for image clustering is essential in computer vision. Although the advancement of visual models has improved image clustering with efficient visual representations, challenges still remain. Firstly, these features often lack the ability to represent the internal structure of images, hindering the accurate clustering of visually similar images. Secondly, the existing features tend to lack finer-grained semantic labels, limiting the ability to capture nuanced differences and similarities between images. In this paper, we first introduce Jigsaw based strategy method for image clustering called Grid Jigsaw Representation (GJR) with systematic exposition from pixel to feature in discrepancy against human and computer. We emphasize that this algorithm, which mimics human jigsaw puzzle, can effectively improve the model to distinguish the spatial feature between different samples and enhance the clustering ability. GJR modules are appended to a variety of deep convolutional networks and tested with significant improvements on a wide range of benchmark datasets including CIFAR-10, CIFAR-100/20, STL-10, ImageNet-10 and ImageNetDog-15. On the other hand, convergence efficiency is always an important challenge for unsupervised image clustering. Recently, pretrained representation learning has made great progress and released models can extract mature visual representations. It is obvious that use the pretrained model as feature extractor can speed up the convergence of clustering where our aim is to provide new perspective in image clustering with reasonable resource application and provide new baseline. Further, we innovate pretrain-based Grid Jigsaw Representation (pGJR) with improvement by GJR. The experiment results show the effectiveness on the clustering task with respect to the ACC, NMI and ARI three metrics and super fast convergence speed.
翻訳日:2023-10-30 14:56:32 公開日:2023-10-27
# 複数インスタンス学習における再現性:アルゴリズムユニットテストの場合

Reproducibility in Multiple Instance Learning: A Case For Algorithmic Unit Tests ( http://arxiv.org/abs/2310.17867v1 )

ライセンス: Link先を確認
Edward Raff, James Holt(参考訳) MIL(Multiple Instance Learning)は、正のラベルと負のラベルを持つ分類問題のサブドメインであり、そのラベルが正であることと、正の要素がバッグ内に含まれており、そうでなければ負の値である場合に限る。 この文脈でのトレーニングでは、バッグワイドなラベルをインスタンスレベルの情報に関連付け、暗黙的にタスクに因果的な仮定と非対称性を含む必要があります。 MILの問題は、医療(悪性細胞はがんを示す)、サイバーセキュリティ(悪意のある実行可能ファイルが感染するコンピュータを作る)、その他多くのタスクで発生する。 本研究では,最も顕著な深層MILモデルの5つについて検討し,いずれも標準MILの仮定を尊重していないことを明らかにする。 彼らは、正のMILモデルでは不可能な負の反例を見るまで「正」ラベルをデフォルトとする反相関のインスタンスを学習することができる。 これらのモデルから派生した拡張やその他の作業が、同じ問題を共有するのではないかと考えています。 これらのモデルが使用されている状況において、これは誤ったモデルを学ぶ可能性を生み出し、運用上の失敗のリスクを生じさせる。 提案した「アルゴリズム単体テスト」によってこの問題を特定し実証し、MILを尊重するモデルで解決可能な合成データセットを作成し、MILの仮定に反する学習を明らかにする。 評価された5つのメソッドはそれぞれ1つ以上のテストに失敗します。 これは、モデリング前提の違反を特定するためのモデルに依存しない方法であり、将来のMILモデルの開発と評価に役立ちたいと考えています。

Multiple Instance Learning (MIL) is a sub-domain of classification problems with positive and negative labels and a "bag" of inputs, where the label is positive if and only if a positive element is contained within the bag, and otherwise is negative. Training in this context requires associating the bag-wide label to instance-level information, and implicitly contains a causal assumption and asymmetry to the task (i.e., you can't swap the labels without changing the semantics). MIL problems occur in healthcare (one malignant cell indicates cancer), cyber security (one malicious executable makes an infected computer), and many other tasks. In this work, we examine five of the most prominent deep-MIL models and find that none of them respects the standard MIL assumption. They are able to learn anti-correlated instances, i.e., defaulting to "positive" labels until seeing a negative counter-example, which should not be possible for a correct MIL model. We suspect that enhancements and other works derived from these models will share the same issue. In any context in which these models are being used, this creates the potential for learning incorrect models, which creates risk of operational failure. We identify and demonstrate this problem via a proposed "algorithmic unit test", where we create synthetic datasets that can be solved by a MIL respecting model, and which clearly reveal learning that violates MIL assumptions. The five evaluated methods each fail one or more of these tests. This provides a model-agnostic way to identify violations of modeling assumptions, which we hope will be useful for future development and evaluation of MIL models.
翻訳日:2023-10-30 14:56:01 公開日:2023-10-27
# 乱れたディラック物質のスピンダイナミクスにおける弾力性粒子内絡み合いとその発現

Resilient Intraparticle Entanglement and its Manifestation in Spin Dynamics of Disordered Dirac Matter ( http://arxiv.org/abs/2310.17950v1 )

ライセンス: Link先を確認
Jorge Martinez Romeral, Aron W. Cummings and Stephan Roche(参考訳) 位相的量子物質は、例えばスピン軌道結合効果によって生じるような内部自由度間の絡み合いによって引き起こされる新しい輸送現象を示す。 ここでは、スピン緩和を駆動するメカニズムと、不規則なグラフェンにおけるスピンと亜格子自由度の間の相互作用の直接的な関係について報告する。 このような粒子内絡み合いは、直接観測可能な結果を持つだけでなく、無秩序に弾力性があることが示され、量子情報処理の新しいリソースを指す。

Topological quantum matter exhibits novel transport phenomena driven by entanglement between internal degrees of freedom, as for instance generated by spin-orbit coupling effects. Here we report on a direct connection between the mechanism driving spin relaxation and the intertwined dynamics between spin and sublattice degrees of freedom in disordered graphene. Beyond having a direct observable consequence, such intraparticle entanglement is shown to be resilient to disorder, pointing towards a novel resource for quantum information processing.
翻訳日:2023-10-30 14:49:17 公開日:2023-10-27
# 1次元擬スピン1ハミルトニアンの束縛状態と点相互作用

Bound states and point interactions of the one-dimensional pseudospin-one Hamiltonian ( http://arxiv.org/abs/2310.17934v1 )

ライセンス: Link先を確認
A. V. Zolotaryuk, Y. Zolotaryuk and V. P. Gusynin(参考訳) 3成分ポテンシャルを持つ1次元擬スピン1ハミルトニアンのスペクトルは、2つの構成について研究される。 (i)すべてのポテンシャル成分は座標空間全体の定数であり、 (ii)いくつかの成分のプロファイルは長方形である。 場合 (i) 3つのバンド(下,中,上)の構造が,これらの強度の特殊値におけるフラットバンドの出現を含む潜在的強度の構成にどのように依存するかを示す。 場合 (ii)境界状態を見つけるための2つの方程式の集合が導出される。 境界状態エネルギーのスペクトルは、ポテンシャル強度の配置に決定的に依存することが示されている。 これらの構成はそれぞれ、単一の強度パラメータ$V$で指定される。 境界状態エネルギーは強度$V$の関数として計算され、対応する点相互作用を実現する一点アプローチが展開される。 異なるポテンシャル構成について、強度 $v$ に対するエネルギー依存は、その一点近似を含む詳細に記述される。 有界スペクトルの多様性から、4つの特徴型が抽出される。

The spectrum of a one-dimensional pseudospin-one Hamiltonian with a three-component potential is studied for two configurations: (i) all the potential components are constants over the whole coordinate space and (ii) the profile of some components is of a rectangular form. In case (i), it is illustrated how the structure of three (lower, middle and upper) bands depends on the configuration of potential strengths including the appearance of flat bands at some special values of these strengths. In case (ii), the set of two equations for finding bound states is derived. The spectrum of bound-state energies is shown to depend crucially on the configuration of potential strengths. Each of these configurations is specified by a single strength parameter $V$. The bound-state energies are calculated as functions of the strength $V$ and a one-point approach is developed realizing correspondent point interactions. For different potential configurations, the energy dependence on the strength $V$ is described in detail, including its one-point approximation. From a whole variety of bound-state spectra, four characteristic types are singled out.
翻訳日:2023-10-30 14:49:06 公開日:2023-10-27
# nonadiabatic landau-zener-st\"{u}ckelberg-majorana遷移を用いた代替高速量子論理ゲート

Alternative fast quantum logic gates using nonadiabatic Landau-Zener-St\"{u}ckelberg-Majorana transitions ( http://arxiv.org/abs/2310.17932v1 )

ライセンス: Link先を確認
A. I. Ryzhov, O. V. Ivakhnenko, S. N. Shevchenko, M. F. Gonzalez-Zalba, Franco Nori(参考訳) 従来の量子論理ゲートと制御の実現は、システムの占有確率の共鳴ラビ振動に基づいている。 このアプローチには、反回転項のような特定の制限と複雑さがある。 本研究では,Landau-Zener-St\"{u}ckelberg-Majorana (LZSM) インターフェロメトリと非共振駆動と断熱進化と非断熱遷移の交互化に基づく量子論理ゲートの代替パラダイムについて検討する。 Rabiの発振と比較すると、主な違いは非共鳴駆動周波数と外部駆動における少数の周期である。 lzsmドライブ下でのマルチレベル量子システムのダイナミクスを探索し、単一および2量子ビットゲート速度向上のためのパラメータを最適化する。 adiabatic-impulseモデルを用いて、特定のゲートを実装するのに必要な外部駆動のパラメータを定義する。 LZSMアプローチは、様々なマルチレベル量子システムや外部駆動に適用することができ、それらに量子論理ゲートを実装する方法を提供する。

A conventional realization of quantum logic gates and control is based on resonant Rabi oscillations of the occupation probability of the system. This approach has certain limitations and complications, like counter-rotating terms. We study an alternative paradigm for implementing quantum logic gates based on Landau-Zener-St\"{u}ckelberg-Majorana (LZSM) interferometry with non-resonant driving and the alternation of adiabatic evolution and non-adiabatic transitions. Compared to Rabi oscillations, the main differences are a non-resonant driving frequency and a small number of periods in the external driving. We explore the dynamics of a multilevel quantum system under LZSM drives and optimize the parameters for increasing single- and two-qubit gates speed. We define the parameters of the external driving required for implementing some specific gates using the adiabatic-impulse model. The LZSM approach can be applied to a large variety of multi-level quantum systems and external driving, providing a method for implementing quantum logic gates on them.
翻訳日:2023-10-30 14:48:52 公開日:2023-10-27
# CNR演算に基づく量子近似最適化アルゴリズム

A Quantum Approximate Optimization Algorithm Based On CNR Operation ( http://arxiv.org/abs/2310.17927v1 )

ライセンス: Link先を確認
Da You Lv and An Min Wang(参考訳) 本稿では, "comparison and replacement" (cnr) 演算を導入し, 正の整数 $p$ と $t$ に依存する組合せ最適化問題に対する純粋量子近似アルゴリズムを構成する。 CNRは、アルゴリズムの過程で高いオブジェクト関数レベルを持つ文字列の確率をレベル別に引き上げ、オブジェクト関数が確率を支配するのをほぼ最大化する。 ランダムインスタンスの平均パフォーマンスの分析をサポートするために、機能変数 $x_r$ を作成します。 ビット数n$が変更されていない場合、アルゴリズムの性能は、直接$p$の増加によって向上する。 そして$t$は、CNRの正確性と信頼性を決定する。 アルゴリズムの実用性能は、$t$が増加するにつれて理論的な結果をもたらす傾向がある。 固定された$p$と$t$の場合、このアルゴリズムは測定の確率分布が同じである状態と、非退化あるいは退化のインスタンスに対して対応する適合曲線をそれぞれ出力する。

This paper introduces the "comparison and replacement" (CNR) operation and constructs a pure quantum approximate algorithm for combinatorial optimization problems which depends on positive integers $p$ and $t$. CNR lifts the probability of strings with high object function level by level in the process of algorithm, which ensures the strings approximately maximizing the object function dominate the probability. We produce a feature variable $X_r$ to support the analysis about average performance on random instances. When the number of bits $n$ remains unchanged, the performance of the algorithm improves with the increase of $p$ directly. And $t$ determines the accuracy and reliability of CNR. The practical performance of algorithm tends to theoretical results as $t$ increases. For fixed $p$ and $t$, the algorithm outputs a state with identical probability distribution of measurement or the corresponding fit curve for nondegenerate or degenerate instance respectively, which means that, for universal combinatorial optimization problems, the algorithm always works.
翻訳日:2023-10-30 14:48:31 公開日:2023-10-27
# SOUL: 言語に対する感性と意見の理解に向けて

SOUL: Towards Sentiment and Opinion Understanding of Language ( http://arxiv.org/abs/2310.17924v1 )

ライセンス: Link先を確認
Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing(参考訳) 感情分析は確立された自然言語処理タスクであり、感情極性分類は最も一般的かつ代表的なタスクの1つである。 しかしながら、この分野で事前学習された言語モデルの成功にもかかわらず、感情分析のより広い複雑さを捉えられないことが多い。 この問題に対処するため,我々はSOUL(Sentiment and Opinion Understanding of Language)と呼ばれる新しいタスクを提案する。 SOULは2つのサブタスク、Review Comprehension (RC) と Justification Generation (JG) を通じて感情理解を評価することを目的としている。 RCは、レビューテキストに基づく主観的な情報に焦点を当てたステートメントの検証を試みる一方、JGは感情予測に説明を与えるモデルを必要とする。 包括的評価を可能にするために,3,638レビューから15,028文からなる新しいデータセットをアノテートする。 実験結果から,SOULは中小言語モデルと大規模言語モデルの両方にとって難しい課題であり,人的性能と比較して最大27%の性能差があることがわかった。 さらに、人間の専門家とGPT-4による評価は、推論に基づく正当化を生成する際の小言語モデルの限界を強調している。 これらの結果は、既存のモデルにおけるSOULタスクの難易度を強調し、その複雑さに対応するための感情分析のさらなる進歩の必要性を強調している。 新しいデータセットとコードはhttps://github.com/DAMO-NLP-SG/SOULで公開されている。

Sentiment analysis is a well-established natural language processing task, with sentiment polarity classification being one of its most popular and representative tasks. However, despite the success of pre-trained language models in this area, they often fall short of capturing the broader complexities of sentiment analysis. To address this issue, we propose a new task called Sentiment and Opinion Understanding of Language (SOUL). SOUL aims to evaluate sentiment understanding through two subtasks: Review Comprehension (RC) and Justification Generation (JG). RC seeks to validate statements that focus on subjective information based on a review text, while JG requires models to provide explanations for their sentiment predictions. To enable comprehensive evaluation, we annotate a new dataset comprising 15,028 statements from 3,638 reviews. Experimental results indicate that SOUL is a challenging task for both small and large language models, with a performance gap of up to 27% when compared to human performance. Furthermore, evaluations conducted with both human experts and GPT-4 highlight the limitations of the small language model in generating reasoning-based justifications. These findings underscore the challenging nature of the SOUL task for existing models, emphasizing the need for further advancements in sentiment analysis to address its complexities. The new dataset and code are available at https://github.com/DAMO-NLP-SG/SOUL.
翻訳日:2023-10-30 14:48:14 公開日:2023-10-27
# LLMが知らないことを知る: シンプルで効果的な自己検出法

Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method ( http://arxiv.org/abs/2310.17918v1 )

ライセンス: Link先を確認
Yukun Zhao, Lingyong Yan, Weiwei Sun, Guoliang Xing, Chong Meng, Shuaiqiang Wang, Zhicong Cheng, Zhaochun Ren, Dawei Yin(参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。 しかし、近年の文献では、LCMは断続的に非実効応答を発生し、LCMのさらなる利用に対する信頼性を損なうことが示されている。 本稿では,LLMが非現実的な結果を生成する傾向にある質問を検知する,新たな自己検出手法を提案する。 具体的には、まず、ある質問に対するテキスト表現を多様化し、対応する回答を収集する。 次に、生成した回答間のばらつきを調べ、モデルが虚偽を生成する可能性のある疑問を特定する。 上記のステップはすべて、他の外部リソースを参照せずにllm自体を起動することで実現できます。 我々は,最近リリースされた llm,例えば vicuna, chatgpt, gpt-4 において,包括的実験を行い,本手法の有効性を実証する。

Large Language Models (LLMs) have shown great potential in Natural Language Processing (NLP) tasks. However, recent literature reveals that LLMs generate nonfactual responses intermittently, which impedes the LLMs' reliability for further utilization. In this paper, we propose a novel self-detection method to detect which questions that a LLM does not know that are prone to generate nonfactual results. Specifically, we first diversify the textual expressions for a given question and collect the corresponding answers. Then we examine the divergencies between the generated answers to identify the questions that the model may generate falsehoods. All of the above steps can be accomplished by prompting the LLMs themselves without referring to any other external resources. We conduct comprehensive experiments and demonstrate the effectiveness of our method on recently released LLMs, e.g., Vicuna, ChatGPT, and GPT-4.
翻訳日:2023-10-30 14:47:36 公開日:2023-10-27
# ベールを持ち上げる:q-learningにおける奥行きのパワーを解き放つ

Lifting the Veil: Unlocking the Power of Depth in Q-learning ( http://arxiv.org/abs/2310.17915v1 )

ライセンス: Link先を確認
Shao-Bo Lin, Tao Li, Shaojie Tang, Yao Wang, Ding-Xuan Zhou(参考訳) 膨大なデータと豊富な計算資源の助けを借りて、深層q-learningは運用研究や管理科学で広く使われており、レコメンデーションシステム、サプライチェーン、ゲーム、ロボット操作など、多くのアプリケーションで大きな成功を収めている。 しかし、深層q学習の成功は、確かな理論的検証と解釈性に欠ける。 本研究の目的は,深層q学習における奥行きのパワーを理論的に検証することである。 統計的学習理論の枠組みの中で、深いQ-ラーニングが、その優れた一般化誤差境界を示すことによって、その従来のバージョンより優れていることを厳密に証明する。 以上の結果から,深部Q-ラーニングの成功の主な理由は,深部ニューラルネットワーク(深部ネット)による報酬の特殊特性,空間スパース性,断片的一貫性の獲得が,その大きな能力よりも優れていたことが判明した。 本稿では,強化学習の分野において,次の3つの疑問に答えることで,基礎的な貢献を行う。 ディープQラーニングは従来のQラーニングよりも優れているのか? ディープq-learningの特定の予測精度を達成するために、何つのサンプルが必要か? 本理論は,サプライチェーン管理とシミュレートレコメンダシステムにおいて,よく知られたビールゲームに深いq学習を適用して検証する。

With the help of massive data and rich computational resources, deep Q-learning has been widely used in operations research and management science and has contributed to great success in numerous applications, including recommender systems, supply chains, games, and robotic manipulation. However, the success of deep Q-learning lacks solid theoretical verification and interpretability. The aim of this paper is to theoretically verify the power of depth in deep Q-learning. Within the framework of statistical learning theory, we rigorously prove that deep Q-learning outperforms its traditional version by demonstrating its good generalization error bound. Our results reveal that the main reason for the success of deep Q-learning is the excellent performance of deep neural networks (deep nets) in capturing the special properties of rewards namely, spatial sparseness and piecewise constancy, rather than their large capacities. In this paper, we make fundamental contributions to the field of reinforcement learning by answering to the following three questions: Why does deep Q-learning perform so well? When does deep Q-learning perform better than traditional Q-learning? How many samples are required to achieve a specific prediction accuracy for deep Q-learning? Our theoretical assertions are verified by applying deep Q-learning in the well-known beer game in supply chain management and a simulated recommender system.
翻訳日:2023-10-30 14:47:10 公開日:2023-10-27
# 部分・ポーズ・咬合に関する3次元視覚質問応答

3D-Aware Visual Question Answering about Parts, Poses and Occlusions ( http://arxiv.org/abs/2310.17914v1 )

ライセンス: Link先を確認
Xingrui Wang, Wufei Ma, Zhuowan Li, Adam Kortylewski, Alan Yuille(参考訳) ビジュアル質問応答(VQA)の急速な進歩にもかかわらず、既存のデータセットとモデルは主に2Dにおけるテスト推論に焦点を当てている。 しかしながら、VQAモデルは、例えばナビゲーションや操作といったタスクをサポートするために、視覚シーンの3D構造を理解することも重要である。 これには、3dオブジェクトのポーズ、その部分、およびオクルージョンの理解が含まれる。 本稿では,視覚シーンの3d構造に対する構成的推論を必要とする課題に焦点を当てた3d対応vqaの課題を紹介する。 データセットとモデルの観点から3D対応VQAに対処する。 まず、オブジェクト部品、それらの3Dポーズ、オクルージョンに関する質問を含む合成推論データセットであるSuper-CLEVR-3Dを紹介する。 第2に,推論のための確率的ニューラルシンボリックプログラム実行と,ロバストな視覚認識のためのオブジェクトの3次元生成表現を備えたディープニューラルネットワークという,2つの強力なアイデアを融合した3次元認識vqaモデルを提案する。 実験の結果,PO3D-VQAは既存の手法よりも優れていたが,2次元VQAベンチマークと比較すると大きな性能差がみられ,VQAは依然として重要な研究領域であることが示された。

Despite rapid progress in Visual question answering (VQA), existing datasets and models mainly focus on testing reasoning in 2D. However, it is important that VQA models also understand the 3D structure of visual scenes, for example to support tasks like navigation or manipulation. This includes an understanding of the 3D object pose, their parts and occlusions. In this work, we introduce the task of 3D-aware VQA, which focuses on challenging questions that require a compositional reasoning over the 3D structure of visual scenes. We address 3D-aware VQA from both the dataset and the model perspective. First, we introduce Super-CLEVR-3D, a compositional reasoning dataset that contains questions about object parts, their 3D poses, and occlusions. Second, we propose PO3D-VQA, a 3D-aware VQA model that marries two powerful ideas: probabilistic neural symbolic program execution for reasoning and deep neural networks with 3D generative representations of objects for robust visual recognition. Our experimental results show our model PO3D-VQA outperforms existing methods significantly, but we still observe a significant performance gap compared to 2D VQA benchmarks, indicating that 3D-aware VQA remains an important open research area.
翻訳日:2023-10-30 14:46:34 公開日:2023-10-27
# DocStormer: マルチグレードのカラードキュメンテーションイメージをPrismine PDFにリバイバル

DocStormer: Revitalizing Multi-Degraded Colored Document Images to Pristine PDF ( http://arxiv.org/abs/2310.17910v1 )

ライセンス: Link先を確認
Chaowei Liu, Jichun Li, Yihua Teng, Chaoqun Wang, Nuo Xu, Jihao Wu, Dandan Tu(参考訳) ポスターや雑誌などの有色文書画像の撮影には、外部要因による影やしわなどの複数の劣化が同時に導入されることが一般的である。 既存のほとんどのアルゴリズムでは、バイナライゼーションによるカラー無視された文書イメージの強化に重点を置いているため、色分けされた文書イメージの復元は大きな課題である。 そこで本研究では,多変色文書を潜在的に原始的なpdfに復元する新しいアルゴリズムであるdocstormerを提案する。 まず, 劣化の分布をより効果的にエンコードし活用する, 強化トランスブロックを用いた「知覚的再ストア」パラダイムを提案する。 第2に,gan と pristine のpdfマガジン画像を用いて,改良結果とpdf画像との分布ギャップを狭め,劣化の軽減と視覚品質の向上を追求した。 第3に,メモリと推論時間を節約しつつ,より小さなトレーニングスケールとより詳細なトレードオフによるテスト解決を可能にする非パラメトリック戦略pfiliを提案する。 第4に、トレーニングと評価の両方のために、md-cdeと呼ばれる、新しいマルチグレードカラー文書画像強化データセットを提案する。 実験の結果,DocStormerは,多彩色文書を潜在的に原始的なデジタルバージョンに再活性化できる優れた性能を示し,手法,データ,タスクの観点から,現在の学術的ギャップを埋めていることがわかった。

For capturing colored document images, e.g. posters and magazines, it is common that multiple degradations such as shadows, wrinkles, etc., are simultaneously introduced due to external factors. Restoring multi-degraded colored document images is a great challenge, yet overlooked, as most existing algorithms focus on enhancing color-ignored document images via binarization. Thus, we propose DocStormer, a novel algorithm designed to restore multi-degraded colored documents to their potential pristine PDF. The contributions are: firstly, we propose a "Perceive-then-Restore" paradigm with a reinforced transformer block, which more effectively encodes and utilizes the distribution of degradations. Secondly, we are the first to utilize GAN and pristine PDF magazine images to narrow the distribution gap between the enhanced results and PDF images, in pursuit of less degradation and better visual quality. Thirdly, we propose a non-parametric strategy, PFILI, which enables a smaller training scale and larger testing resolutions with acceptable detail trade-off, while saving memory and inference time. Fourthly, we are the first to propose a novel Multi-Degraded Colored Document image Enhancing dataset, named MD-CDE, for both training and evaluation. Experimental results show that the DocStormer exhibits superior performance, capable of revitalizing multi-degraded colored documents into their potential pristine digital versions, which fills the current academic gap from the perspective of method, data, and task.
翻訳日:2023-10-30 14:45:59 公開日:2023-10-27
# イノベーションから職業へのオントロジー: ビジネス変革イニシアティブと職業と技能のリンク

The Innovation-to-Occupations Ontology: Linking Business Transformation Initiatives to Occupations and Skills ( http://arxiv.org/abs/2310.17909v1 )

ライセンス: Link先を確認
Daniela Elia, Fang Chen, Didar Zowghi and Marian-Andrei Rizoiu(参考訳) 新たなテクノロジの急速な採用により、企業は継続的に運用を適応させ、労働要件の予測を難しくする。 近年,オンライン求人広告から労働市場における新たな役割やスキルの出現を予測する試みがいくつかある。 本稿では,ビジネストランスフォーメーションイニシアチブを職業にリンクする新たなオントロジーと,求人広告やウィキペディアページから抽出したビジネストランスフォーメーションや新興技術トピックスへの埋め込みを活用して,それを自動生成するアプローチを提案する。 私たちの知る限り、新しい技術の採用や新しい市場への参入など、ビジネス変革のイニシアチブと必要な役割を明示的に結びつける以前の研究は、ありません。 当社のアプローチは,技術導入に関連する5つのシナリオとビジネスに関連する5つのシナリオにおいて,変革イニシアティブへの職業の対応に成功しています。 この枠組みは、企業や教育機関に特定のビジネス変革イニシアチブの労働力要件を導く革新的なアプローチを提供する。

The fast adoption of new technologies forces companies to continuously adapt their operations making it harder to predict workforce requirements. Several recent studies have attempted to predict the emergence of new roles and skills in the labour market from online job ads. This paper aims to present a novel ontology linking business transformation initiatives to occupations and an approach to automatically populating it by leveraging embeddings extracted from job ads and Wikipedia pages on business transformation and emerging technologies topics. To our knowledge, no previous research explicitly links business transformation initiatives, like the adoption of new technologies or the entry into new markets, to the roles needed. Our approach successfully matches occupations to transformation initiatives under ten different scenarios, five linked to technology adoption and five related to business. This framework presents an innovative approach to guide enterprises and educational institutions on the workforce requirements for specific business transformation initiatives.
翻訳日:2023-10-30 14:45:23 公開日:2023-10-27
# コードインテリジェンスのための言語モデルの落とし穴:分類と調査

Pitfalls in Language Models for Code Intelligence: A Taxonomy and Survey ( http://arxiv.org/abs/2310.17903v1 )

ライセンス: Link先を確認
Xinyu She, Yue Liu, Yanjie Zhao, Yiling He, Li Li, Chakkrit Tantithamthavorn, Zhan Qin, Haoyu Wang(参考訳) 現代の言語モデル(LM)はソースコード生成と理解に成功しており、自動バグ修正やテストケース生成といった学習ベースのコードインテリジェンスに焦点を当てた研究が大幅に増加した。 その大きな可能性にもかかわらず、コードインテリジェンスのための言語モデル(LM4Code)は潜在的な落とし穴の影響を受け、現実的なパフォーマンスを妨げ、実際のデプロイメントにおける信頼性と適用性にさらに影響を及ぼす。 このような課題は、これらの問題を識別するだけでなく、コードインテリジェンスに合わせたより信頼性の高い言語モデルを構築するための、その可能性と既存のソリューションを掘り下げる、包括的な理解の必要性を喚起します。 十分に定義された体系的な研究アプローチに基づいて,lm4codeに固有の落とし穴を明らかにするために,広範な文献レビューを行った。 最後に、トップレベルの会場から67の初等的な研究が特定されている。 これらの研究を精査し、LM4Code研究における落とし穴の分類を設計し、問題、含意、現在の解決策、LM4Codeシステムの異なる落とし穴の課題を要約する体系的研究を行った。 データ収集とラベル付け,システム設計と学習,パフォーマンス評価,デプロイメントとメンテナンスという4つの重要な側面にまたがる落とし穴を分類する包括的分類手法を開発した。 本研究は,LM4Codeの信頼性と信頼性の両面での理解と活用を促進することを目的としている。

Modern language models (LMs) have been successfully employed in source code generation and understanding, leading to a significant increase in research focused on learning-based code intelligence, such as automated bug repair, and test case generation. Despite their great potential, language models for code intelligence (LM4Code) are susceptible to potential pitfalls, which hinder realistic performance and further impact their reliability and applicability in real-world deployment. Such challenges drive the need for a comprehensive understanding - not just identifying these issues but delving into their possible implications and existing solutions to build more reliable language models tailored to code intelligence. Based on a well-defined systematic research approach, we conducted an extensive literature review to uncover the pitfalls inherent in LM4Code. Finally, 67 primary studies from top-tier venues have been identified. After carefully examining these studies, we designed a taxonomy of pitfalls in LM4Code research and conducted a systematic study to summarize the issues, implications, current solutions, and challenges of different pitfalls for LM4Code systems. We developed a comprehensive classification scheme that dissects pitfalls across four crucial aspects: data collection and labeling, system design and learning, performance evaluation, and deployment and maintenance. Through this study, we aim to provide a roadmap for researchers and practitioners, facilitating their understanding and utilization of LM4Code in reliable and trustworthy ways.
翻訳日:2023-10-30 14:44:50 公開日:2023-10-27
# 知識勾配アルゴリズムの改良

Improving the Knowledge Gradient Algorithm ( http://arxiv.org/abs/2310.17901v1 )

ライセンス: Link先を確認
Yang Le and Gao Siyang and Ho Chin Pang(参考訳) 知識勾配(KG)アルゴリズムは、ベストアーム識別(BAI)問題に対する一般的なポリシーである。 腕の最も良い平均の見積もりにおいて最も期待される1段階の改善をもたらす測定を常に選択するという単純なアイデアに基づいて構築されている。 本研究では,このポリシーには限界があり,アルゴリズムが漸近的に最適ではないことを示す。 次に、KGの1ステップ先見のやり方に従うことで、それに対する対策を提供し、代わりに、最高の腕を選択する確率において最大の1ステップ改善をもたらす測定方法を選択する。 新しい方針は、知識勾配改善(ikg)と呼ばれる。 iKGは漸近的に最適であることを示すことができる。 さらに, kgと比較して, bai の変種問題への ikg 拡張が容易であり,$\epsilon$-good のアーム識別と実現可能なアーム識別の2つの例がある。 これらの問題に対する ikg の優れた性能は数値的な例を用いてさらに示される。

The knowledge gradient (KG) algorithm is a popular policy for the best arm identification (BAI) problem. It is built on the simple idea of always choosing the measurement that yields the greatest expected one-step improvement in the estimate of the best mean of the arms. In this research, we show that this policy has limitations, causing the algorithm not asymptotically optimal. We next provide a remedy for it, by following the manner of one-step look ahead of KG, but instead choosing the measurement that yields the greatest one-step improvement in the probability of selecting the best arm. The new policy is called improved knowledge gradient (iKG). iKG can be shown to be asymptotically optimal. In addition, we show that compared to KG, it is easier to extend iKG to variant problems of BAI, with the $\epsilon$-good arm identification and feasible arm identification as two examples. The superior performances of iKG on these problems are further demonstrated using numerical examples.
翻訳日:2023-10-30 14:44:24 公開日:2023-10-27
# 自由空間量子通信のための高エンハンスアクティブビームワンダー補正

Highly-enhanced active beam-wander-correction for free-space quantum communications ( http://arxiv.org/abs/2310.17900v1 )

ライセンス: Link先を確認
Dohoon Lim, Dongkyu Kim, Kyungdeuk Park, Dong-Gil Im, and Yong Sup Ihn(参考訳) 自由空間量子通信への実用化において、アクティブビームカップリングと安定化技術の利用は、特にバックグラウンドノイズを軽減するために、限られた検出領域や単一モードファイバ(SMF)へのカップリングを扱う際に、顕著な利点をもたらす。 本研究では,特に初期光学的アライメントがミスアライメントされた場合において,ビームをsmfに効率的に結合・安定化するように調整した,高度に強化されたアクティブビーム・ワンダー補正技術を導入する。 この目的を達成するために,smf自動結合アルゴリズムと分離安定化手法を実装し,大気乱流効果によるビームの移動を効果的かつ確実に補正する。 レーザ光(絡み合った光子)の結合効率(衝突数)の時間的変動を定量的に測定することにより,提案手法の性能を徹底的に検証した。 その結果, 2.6kmの大気乱流効果が存在する場合でも, 平均値とカップリング効率の標準偏差ともに有意な改善が認められた。 レーザー源を利用する場合、結合効率は50%以上の顕著な平均値増加を示し、標準偏差は4.4倍に向上する。 絡み合った光子源については、14%の微細平均値増加と標準偏差の近似2倍の改善が観察された。 さらに,提案手法は,自由空間チャネルの大気効果によって損なわれた偏光エンタングル状態の忠実度を,音源から直接測定した忠実度に近いレベルに復元することに成功した。 自由空間の量子通信だけでなく,高速レーザー通信においても,空間光ファイバーカップリングシステムの設計に役立ちます。

In practical applications to free-space quantum communications, the utilization of active beam coupling and stabilization techniques offers notable advantages, particularly when dealing with limited detecting areas or coupling into single-mode fibers(SMFs) to mitigate background noise. In this work, we introduce highly-enhanced active beam-wander-correction technique, specifically tailored to efficiently couple and stabilize beams into SMFs, particularly in scenarios where initial optical alignment with the SMF is misaligned. To achieve this objective, we implement a SMF auto-coupling algorithm and a decoupled stabilization method, effectively and reliably correcting beam wander caused by atmospheric turbulence effects. The performance of the proposed technique is thoroughly validated through quantitative measurements of the temporal variation in coupling efficiency(coincidence counts) of a laser beam(entangled photons). The results show significant improvements in both mean values and standard deviations of the coupling efficiency, even in the presence of 2.6 km atmospheric turbulence effects. When utilizing a laser source, the coupling efficiency demonstrates a remarkable mean value increase of over 50 %, accompanied by a substantial 4.4-fold improvement in the standard deviation. For the entangled photon source, a fine mean value increase of 14 % and an approximate 2-fold improvement in the standard deviation are observed. Furthermore,the proposed technique successfully restores the fidelity of the polarization-entangled state, which has been compromised by atmospheric effects in the free-space channel, to a level close to the fidelity measured directly from the source. Our work will be helpful in designing spatial light-fiber coupling system not only for free-space quantum communications but also for high-speed laser communications.
翻訳日:2023-10-30 14:44:08 公開日:2023-10-27
# 表型データクエリと可視化のための自然言語インタフェース:調査

Natural Language Interfaces for Tabular Data Querying and Visualization: A Survey ( http://arxiv.org/abs/2310.17894v1 )

ライセンス: Link先を確認
Weixu Zhang, Yifei Wang, Yuanfeng Song, Victor Junqiu Wei, Yuxing Tian, Yiyan Qi, Jonathan H. Chan, Raymond Chi-Wing Wong, Haiqin Yang(参考訳) 自然言語処理の出現は,従来のクエリ言語や手作業によるプロットから,より直感的な言語ベースのインターフェースへの移行を可能にした。 ChatGPTなどの大規模言語モデル(LLM)の台頭は、この分野をさらに進歩させ、自然言語処理技術のための新たな道を開いた。 本調査は,自然言語クエリを用いたデータ操作を可能にする表型データクエリと可視化のための自然言語インターフェースの包括的概要を示す。 自然言語からSQLクエリやデータ視覚化コマンドへの変換を容易にする重要な技術であるセマンティック解析に特に重点を置いて、これらのインターフェースの基礎となる概念とテクニックを紹介します。 次に、データセット、方法論、メトリクス、システム設計の観点から、Text-to-SQLおよびText-to-Vis問題の最近の進歩を掘り下げます。 この中には、LSMの影響を深く掘り下げ、その強み、制限、将来の改善の可能性を強調している。 本調査は,大規模言語モデルの時代におけるデータインタラクションのための自然言語インタフェースの開発と適用に関心のある研究者や実践者を対象としたロードマップの提供を目的とする。

The emergence of natural language processing has revolutionized the way users interact with tabular data, enabling a shift from traditional query languages and manual plotting to more intuitive, language-based interfaces. The rise of large language models (LLMs) such as ChatGPT and its successors has further advanced this field, opening new avenues for natural language processing techniques. This survey presents a comprehensive overview of natural language interfaces for tabular data querying and visualization, which allow users to interact with data using natural language queries. We introduce the fundamental concepts and techniques underlying these interfaces with a particular emphasis on semantic parsing, the key technology facilitating the translation from natural language to SQL queries or data visualization commands. We then delve into the recent advancements in Text-to-SQL and Text-to-Vis problems from the perspectives of datasets, methodologies, metrics, and system designs. This includes a deep dive into the influence of LLMs, highlighting their strengths, limitations, and potential for future improvements. Through this survey, we aim to provide a roadmap for researchers and practitioners interested in developing and applying natural language interfaces for data interaction in the era of large language models.
翻訳日:2023-10-30 14:43:41 公開日:2023-10-27
# 階層型連合学習におけるサブモデル分割:アルゴリズム設計と収束解析

Submodel Partitioning in Hierarchical Federated Learning: Algorithm Design and Convergence Analysis ( http://arxiv.org/abs/2310.17890v1 )

ライセンス: Link先を確認
Wenzhi Fang, Dong-Jun Han, and Christopher G. Brinton(参考訳) 階層型フェデレーションラーニング(HFL)は、従来の"スタートポロジ"アーキテクチャに基づくフェデレーションラーニング(FL)よりも有望なスケーラビリティを実証している。 しかしながら、HFLは、特にリソース制約のあるIoT(Internet of Things)デバイス上で大規模なモデルをトレーニングする場合、エッジに重大な計算、通信、ストレージの負担を課している。 本稿では,階層型独立サブモデルトレーニング(HIST)を提案する。 HISTの背景にある重要な考え方はモデル分割の階層的なバージョンであり、グローバルモデルを各ラウンドの非結合サブモデルに分割し、異なるセルに分散することで、各セルがフルモデルの1つのパーティションのみをトレーニングする責任を負う。 これにより、各クライアントは階層全体の通信負荷を軽減しながら、計算/ストレージコストを削減できる。 本研究では,非凸損失関数に対するHISTの収束挙動を軽微な仮定で表現し,いくつかの特性(セル数,局所およびグローバル集約周波数)が性能・効率トレードオフに与える影響を示す。 最後に, 数値実験により, HISTは同じ目標検定精度を達成しつつ, 通信コストを広いマージンで削減できることを確認した。

Hierarchical federated learning (HFL) has demonstrated promising scalability advantages over the traditional "star-topology" architecture-based federated learning (FL). However, HFL still imposes significant computation, communication, and storage burdens on the edge, especially when training a large-scale model over resource-constrained Internet of Things (IoT) devices. In this paper, we propose hierarchical independent submodel training (HIST), a new FL methodology that aims to address these issues in hierarchical settings. The key idea behind HIST is a hierarchical version of model partitioning, where we partition the global model into disjoint submodels in each round, and distribute them across different cells, so that each cell is responsible for training only one partition of the full model. This enables each client to save computation/storage costs while alleviating the communication loads throughout the hierarchy. We characterize the convergence behavior of HIST for non-convex loss functions under mild assumptions, showing the impact of several attributes (e.g., number of cells, local and global aggregation frequency) on the performance-efficiency tradeoff. Finally, through numerical experiments, we verify that HIST is able to save communication costs by a wide margin while achieving the same target testing accuracy.
翻訳日:2023-10-30 14:43:23 公開日:2023-10-27
# リング状ネットワークによるコヒーレント励起輸送

Coherent excitation transport through ring-shaped networks ( http://arxiv.org/abs/2310.17967v1 )

ライセンス: Link先を確認
Francesco Perciavalle, Oliver Morsch, Davide Rossini, Luigi Amico(参考訳) 導体に結合されたリング状の回路を通る物質波のコヒーレントな量子輸送は、メソスコピック物理学における象徴的なシステムを定義し、量子科学の基本的な問題を探究し、実用的な装置を考案するための重要な道筋を導いた。 ここでは,物質波の伝搬を伴わずに,リングネットワークを通過する励起の源対ドレイン輸送について検討する。 我々は、光ツイーザーやイオントラップに閉じ込められたライドバーグ原子のような量子技術に関連する特定の長距離相互作用を持つスピン系をモデル化する。 rf- と dc-SQUID の論理に着想を得て、1 と 2 の局所エネルギーオフセットを持つ環を考える。 局所的なデチューニングとコヒーレントトンネルの結果として生じる特定の位相シフトの組み合わせとして、励起の輸送がどのように制御され、相互作用の範囲に依存するかを実証する。

The coherent quantum transport of matter wave through a ring-shaped circuit attached to leads defines an iconic system in mesoscopic physics that has allowed both to explore fundamental questions in quantum science and to draw important avenues for conceiving devices of practical use. Here we study the source-to-drain transport of excitations going through a ring-network, without propagation of matter waves. We model the circuit in terms of a spin system with specific long-range interactions that are relevant for quantum technology, such as Rydberg atoms trapped in optical tweezers or ion traps. Inspired by the logic of rf- and dc-SQUIDs, we consider rings with one and two local energy offsets, or detunings. As a combination of specific phase shifts in going though the localized detunings and as a result of coherent tunneling, we demonstrate how the transport of excitations can be controlled, with a distinctive dependence on the range of interactions.
翻訳日:2023-10-30 14:36:03 公開日:2023-10-27
# 一度列車で家族を得る:オフラインからオンラインへの強化学習のための状態適応バランス

Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2310.17966v1 )

ライセンス: Link先を確認
Shenzhi Wang, Qisen Yang, Jiawei Gao, Matthieu Gaetan Lin, Hao Chen, Liwei Wu, Ning Jia, Shiji Song, Gao Huang(参考訳) オフライン-オンライン強化学習(rl)は、事前収集されたデータセットの事前トレーニングと、オンライン環境での微調整を組み合わせたトレーニングパラダイムである。 しかし、オンラインファインチューニングの導入は、よく知られた分散シフト問題を強化することができる。 既存のソリューションは、オフラインとオンライン両方の学習において、政策改善目標にポリシー制約を課すことで、この問題に対処する。 彼らは通常、ポリシーの改善とさまざまなデータコレクション間の制約の間の単一のバランスを提唱する。 この1サイズフィットの方法は、異なる状態におけるデータ品質の著しい変動のため、各サンプルを最適に活用できない。 この目的のために、既存のアルゴリズムが状態適応型改善-制約バランスを決定することを可能にする、シンプルで効果的なフレームワークであるfamo2o(family offline-to-online rl)を紹介します。 FamO2Oは、異なる改善/制約強度のポリシー群を訓練するための普遍モデルと、各州に適したポリシーを選択するためのバランスモデルを利用する。 理論的には、より高いポリシーパフォーマンスを達成するためには、状態適応バランスが必要であることを証明します。 実証的な実験により、FamO2Oは様々な既存手法に対して統計的に有意な改善をもたらし、D4RLベンチマークで最先端の性能を達成した。 コードはhttps://github.com/LeapLabTHU/FamO2Oで入手できる。

Offline-to-online reinforcement learning (RL) is a training paradigm that combines pre-training on a pre-collected dataset with fine-tuning in an online environment. However, the incorporation of online fine-tuning can intensify the well-known distributional shift problem. Existing solutions tackle this problem by imposing a policy constraint on the policy improvement objective in both offline and online learning. They typically advocate a single balance between policy improvement and constraints across diverse data collections. This one-size-fits-all manner may not optimally leverage each collected sample due to the significant variation in data quality across different states. To this end, we introduce Family Offline-to-Online RL (FamO2O), a simple yet effective framework that empowers existing algorithms to determine state-adaptive improvement-constraint balances. FamO2O utilizes a universal model to train a family of policies with different improvement/constraint intensities, and a balance model to select a suitable policy for each state. Theoretically, we prove that state-adaptive balances are necessary for achieving a higher policy performance upper bound. Empirically, extensive experiments show that FamO2O offers a statistically significant improvement over various existing methods, achieving state-of-the-art performance on the D4RL benchmark. Codes are available at https://github.com/LeapLabTHU/FamO2O.
翻訳日:2023-10-30 14:35:43 公開日:2023-10-27
# qilin-med-vl:中国の一般医療のためのビジョン言語モデルに向けて

Qilin-Med-VL: Towards Chinese Large Vision-Language Model for General Healthcare ( http://arxiv.org/abs/2310.17956v1 )

ライセンス: Link先を確認
Junling Liu, Ziming Wang, Qichen Ye, Dading Chong, Peilin Zhou, Yining Hua(参考訳) 大規模言語モデル(LLM)は、複雑な医療とバイオメディカルなトピックを解釈する能力の新たな時代をもたらした。 しかし、英語以外の言語では、マルチモーダル入力を解釈できるモデルが明らかに欠如している。 そこで本研究では,テキストデータと視覚データの分析を統合した中国初の大規模視覚言語モデルqilin-med-vlについて紹介する。 Qilin-Med-VLは、事前訓練されたビジョントランスフォーマー(ViT)と基礎的なLSMを組み合わせたものである。 機能アライメントと命令チューニングを含む、徹底した2段階のカリキュラムトレーニングプロセスを実施している。 この方法は、医療キャプションを生成し、複雑な医療クエリに応答するモデルの能力を高める。 また,100万以上の画像テキストペアからなるデータセットであるChiMed-VLもリリースしました。 このデータセットは、様々な種類の画像を使用して、詳細かつ包括的な医療データの解釈を可能にするために、慎重にキュレートされている。

Large Language Models (LLMs) have introduced a new era of proficiency in comprehending complex healthcare and biomedical topics. However, there is a noticeable lack of models in languages other than English and models that can interpret multi-modal input, which is crucial for global healthcare accessibility. In response, this study introduces Qilin-Med-VL, the first Chinese large vision-language model designed to integrate the analysis of textual and visual data. Qilin-Med-VL combines a pre-trained Vision Transformer (ViT) with a foundational LLM. It undergoes a thorough two-stage curriculum training process that includes feature alignment and instruction tuning. This method enhances the model's ability to generate medical captions and answer complex medical queries. We also release ChiMed-VL, a dataset consisting of more than 1M image-text pairs. This dataset has been carefully curated to enable detailed and comprehensive interpretation of medical data using various types of images.
翻訳日:2023-10-30 14:35:18 公開日:2023-10-27
# アンサンブル・ラーニングによる冠状動脈分画と狭窄局所化

Multivessel Coronary Artery Segmentation and Stenosis Localisation using Ensemble Learning ( http://arxiv.org/abs/2310.17954v1 )

ライセンス: Link先を確認
Muhammad Bilal, Dinis Martinho, Reiner Sim, Adnan Qayyum, Hunaid Vohra, Massimo Caputo, Taofeek Akinosho, Sofiat Abioye, Zaheer Khan, Waleed Niaz, Junaid Qadir(参考訳) 冠動脈造影検査は,動脈プラークの蓄積を鑑別し,冠動脈疾患(CAD)を診断するために心臓科医が行う一般的な臨床課題である。 本研究は, ミカシ2023自動冠動脈疾患診断法の一環として, x線血管造影画像(arcade)チャレンジを用いて開発したエンド・ツー・エンドの機械学習ソリューションを提案する。 そこで本研究では,2進級前訓練,マルチベッセルセグメンテーション,クラス周波数重み付きデータローダを用いた微調整,f1-clsを用いた微調整,マルチターゲットアンギオグラムビュー分類器に基づく集団適応の5段階からなる,ロバストなベースラインモデルトレーニング戦略を採用した。 他の多くの医用画像診断法とは異なり、この作業は有意なオブザーバー間変動を示す。 %であり,特に自動分析に適していた。 我々のアンサンブルモデルでは,重み付きアンサンブル手法を用いて,6つのベースラインモデルからの出力を組み合わせ,提案手法の予測精度を2倍にすることを示した。 最終予測はさらに洗練され、分類ミスのブロブの修正を狙った。 平均f1スコアは37.69\%$で冠動脈分画は39.41\%$,狭窄局所化は39.41\%であった。 本研究は,cad診断支援,介入指導,臨床現場におけるステント注入の精度向上のための自動化ツールの可能性を示す。

Coronary angiography analysis is a common clinical task performed by cardiologists to diagnose coronary artery disease (CAD) through an assessment of atherosclerotic plaque's accumulation. This study introduces an end-to-end machine learning solution developed as part of our solution for the MICCAI 2023 Automatic Region-based Coronary Artery Disease diagnostics using x-ray angiography imagEs (ARCADE) challenge, which aims to benchmark solutions for multivessel coronary artery segmentation and potential stenotic lesion localisation from X-ray coronary angiograms. We adopted a robust baseline model training strategy to progressively improve performance, comprising five successive stages of binary class pretraining, multivessel segmentation, fine-tuning using class frequency weighted dataloaders, fine-tuning using F1-based curriculum learning strategy (F1-CLS), and finally multi-target angiogram view classifier-based collective adaptation. Unlike many other medical imaging procedures, this task exhibits a notable degree of interobserver variability. %, making it particularly amenable to automated analysis. Our ensemble model combines the outputs from six baseline models using the weighted ensembling approach, which our analysis shows is found to double the predictive accuracy of the proposed solution. The final prediction was further refined, targeting the correction of misclassified blobs. Our solution achieved a mean F1 score of $37.69\%$ for coronary artery segmentation, and $39.41\%$ for stenosis localisation, positioning our team in the 5th position on both leaderboards. This work demonstrates the potential of automated tools to aid CAD diagnosis, guide interventions, and improve the accuracy of stent injections in clinical settings.
翻訳日:2023-10-30 14:35:04 公開日:2023-10-27
# Whisper-MCE:混合言語の性能向上を目的としたWhisperモデル

Whisper-MCE: Whisper Model Finetuned for Better Performance with Mixed Languages ( http://arxiv.org/abs/2310.17953v1 )

ライセンス: Link先を確認
Peng Xie, XingYuan Liu, ZiWei Chen, Kani Chen, Yang Wang(参考訳) 近年、whisperは英語自動音声認識(asr)において、人間レベルの堅牢性と正確性にアプローチしているが、マイナー言語と混合言語音声認識では、さらなる改善が必要である。 本研究は,我々の自作データセットであるMixed Cantonese and English audio dataset (MCE)を用いて学習したWhisper-MCEの印象的な結果を示す。 一方、単語誤り率(WER)は、マイナー言語と混合言語での有効性を評価する上で、新たな評価メカニズムを示す。 本モデルとベースラインのwhisper-large-v2モデルを比較することで,オリジナル音声の内容を正確にキャプチャし,高い認識精度を達成し,より高速に認識できることを示す。 特に、混合言語を認識する特定のタスクにおいて、我々のモデルは既存のモデルよりも優れています。

Recently Whisper has approached human-level robustness and accuracy in English automatic speech recognition (ASR), while in minor language and mixed language speech recognition, there remains a compelling need for further improvement. In this work, we present the impressive results of Whisper-MCE, our finetuned Whisper model, which was trained using our self-collected dataset, Mixed Cantonese and English audio dataset (MCE). Meanwhile, considering word error rate (WER) poses challenges when it comes to evaluating its effectiveness in minor language and mixed-language contexts, we present a novel rating mechanism. By comparing our model to the baseline whisper-large-v2 model, we demonstrate its superior ability to accurately capture the content of the original audio, achieve higher recognition accuracy, and exhibit faster recognition speed. Notably, our model outperforms other existing models in the specific task of recognizing mixed language.
翻訳日:2023-10-30 14:34:31 公開日:2023-10-27
# 可視赤外人物再識別のための形状中心表現学習

Shape-centered Representation Learning for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2310.17952v1 )

ライセンス: Link先を確認
Shuang Li, Jiaxu Leng, Ji Gan, Mengjingcheng Mo, Xinbo Gao(参考訳) 現在の可視赤外人物再同定 (VI-ReID) 法は, 形態変化に対する身体形状の自然抵抗を無視し, 外観特徴の識別を優先する手法である。 当初,形状と外観の特徴の直接結合により,形状の識別電位を測定した。 しかし、2つの未解決問題が形状特徴の利用に続いている。 推論フェーズにおける形状特徴抽出の補助モデルへの依存と、本質的なモジュラリティの相違による生成した赤外線形状の誤差に関係している。 もう1つの問題は、形状と外観の特徴の間の不適切な相関である。 上記の課題に対処するため,形状に関連した形状特徴と外観特徴の学習に焦点を当てた形状中心表現学習フレームワーク(ScRL)を提案する。 具体的には,図形特徴伝達(Shape Feature Propagation, SFP)を考案し, 推論時に最小の複雑さのコストで原画像から形状特徴を直接抽出する。 赤外線物体形状の非精度を特徴レベルで再現するために,赤外線形状復元(isr)を提案する。 さらに,形状に関連する外観特徴を取得するために,形状特徴によって誘導される識別非関連特徴を抑えつつ,識別関連特徴をアクセントする外観特徴強調(AFE)を設計する。 提案したSCRLの有効性を検証するため, 広範囲な実験を行った。 顕著な結果を得るために、SYSU-MM01、HITSZ-VCM、RegDBデータセットにおけるRanc-1(mAP)の精度は76.1%、71.2%、92.4%(72.6%、52.9%、86.7%)に達し、既存の最先端の手法よりも優れていた。

Current Visible-Infrared Person Re-Identification (VI-ReID) methods prioritize extracting distinguishing appearance features, ignoring the natural resistance of body shape against modality changes. Initially, we gauged the discriminative potential of shapes by a straightforward concatenation of shape and appearance features. However, two unresolved issues persist in the utilization of shape features. One pertains to the dependence on auxiliary models for shape feature extraction in the inference phase, along with the errors in generated infrared shapes due to the intrinsic modality disparity. The other issue involves the inadequately explored correlation between shape and appearance features. To tackle the aforementioned challenges, we propose the Shape-centered Representation Learning framework (ScRL), which focuses on learning shape features and appearance features associated with shapes. Specifically, we devise the Shape Feature Propagation (SFP), facilitating direct extraction of shape features from original images with minimal complexity costs during inference. To restitute inaccuracies in infrared body shapes at the feature level, we present the Infrared Shape Restitution (ISR). Furthermore, to acquire appearance features related to shape, we design the Appearance Feature Enhancement (AFE), which accentuates identity-related features while suppressing identity-unrelated features guided by shape features. Extensive experiments are conducted to validate the effectiveness of the proposed ScRL. Achieving remarkable results, the Rank-1 (mAP) accuracy attains 76.1%, 71.2%, 92.4% (72.6%, 52.9%, 86.7%) on the SYSU-MM01, HITSZ-VCM, RegDB datasets respectively, outperforming existing state-of-the-art methods.
翻訳日:2023-10-30 14:34:14 公開日:2023-10-27
# 極限値理論によるパラメータサルマンシーの理解

Understanding Parameter Saliency via Extreme Value Theory ( http://arxiv.org/abs/2310.17951v1 )

ライセンス: Link先を確認
Shuo Wang and Issei Sato(参考訳) 近年,深層ニューラルネットワークが社会全体に普及している。 望ましくないモデル行動の診断において、どのパラメータが誤分類を引き起こすかを特定するのに有用である。 パラメータサリエンシの概念が提案され、パラメータサリエンシに基づいて誤分類を引き起こしたかもしれない畳み込みフィルタのランク付けによって畳み込みニューラルネットワーク(cnns)を診断するために使用される。 また,最上位のsalientフィルタの微調整により,imagenet上での誤認を効率的に修正できた。 しかし、なぜパラメータ塩分ランキングが誤認を誘発するフィルタを見つけられるのかを理解する上では、まだ知識のギャップがある。 本研究では,パラメータの正当性ランキングを統計的視点,すなわち極値理論から分析することにより,このギャップを埋める試みを行う。 まず,各フィルタに対して計算された勾配ノルムが正規分布に従うことを暗黙的に仮定する。 次に,極端値のモデル化によく用いられるピークオーバースレッショルド法(pot法)に基づいて,パラメータ塩分とスコアの関係を明らかにする。 最後に,POT法を用いてパラメータ・サリエンシを再構成し,この改定を統計的異常検出とみなし,既存のパラメータ・サリエンシ定式化の暗黙的な仮定を必要としない。 実験の結果,悪質なフィルタも検出できることが判明した。 さらに,既存のパラメータ塩分法では,ディープニューラルネットワークの層深さに対するバイアスがみられた。 特に、このバイアスは、ドメインシフトが発生した場合に誤同定を引き起こすフィルターの発見を抑制する可能性がある。 対照的に、ポットに基づくパラメータの塩分は、このバイアスをあまり示さない。

Deep neural networks are being increasingly implemented throughout society in recent years. It is useful to identify which parameters trigger misclassification in diagnosing undesirable model behaviors. The concept of parameter saliency is proposed and used to diagnose convolutional neural networks (CNNs) by ranking convolution filters that may have caused misclassification on the basis of parameter saliency. It is also shown that fine-tuning the top ranking salient filters has efficiently corrected misidentification on ImageNet. However, there is still a knowledge gap in terms of understanding why parameter saliency ranking can find the filters inducing misidentification. In this work, we attempt to bridge the gap by analyzing parameter saliency ranking from a statistical viewpoint, namely, extreme value theory. We first show that the existing work implicitly assumes that the gradient norm computed for each filter follows a normal distribution. Then, we clarify the relationship between parameter saliency and the score based on the peaks-over-threshold (POT) method, which is often used to model extreme values. Finally, we reformulate parameter saliency in terms of the POT method, where this reformulation is regarded as statistical anomaly detection and does not require the implicit assumptions of the existing parameter-saliency formulation. Our experimental results demonstrate that our reformulation can detect malicious filters as well. Furthermore, we show that the existing parameter saliency method exhibits a bias against the depth of layers in deep neural networks. In particular, this bias has the potential to inhibit the discovery of filters that cause misidentification in situations where domain shift occurs. In contrast, parameter saliency based on POT shows less of this bias.
翻訳日:2023-10-30 14:33:42 公開日:2023-10-27
# 位置対応コピー・ペーストデータ拡張による咬合下インスタンス分割

Instance Segmentation under Occlusions via Location-aware Copy-Paste Data Augmentation ( http://arxiv.org/abs/2310.17949v1 )

ライセンス: Link先を確認
Son Nguyen, Mikel Lainsa, Hung Dao, Daeyoung Kim, Giang Nguyen(参考訳) オクルージョン(Occlusion)は、コンピュータビジョン、特にインスタンスセグメンテーションにおける長年の問題である。 ACM MMSports 2023 DeepSportRadarは、バスケットボールのコンテキスト内での人間の対象のセグメンテーションに焦点を当てたデータセットと、閉塞シナリオの特別な評価基準を導入した。 データセットのささやかなサイズと、セグメンテーション対象の高度に変形可能な性質を考えると、この課題は堅牢なデータ拡張技術と賢く簡潔なディープラーニングアーキテクチャの応用を必要とする。 我々の研究(コンペで1位)は、まず、より広い分布でより多くのトレーニングサンプルを生成することができる新しいデータ拡張技術を提案する。 次に,CBNetV2をバックボーンとしたHybrid Task Cascade(HTC)フレームワークとMaskIoUヘッドを採用し,セグメンテーション性能を向上させる。 さらに,SWA(Stochastic Weight Averaging)トレーニング戦略を用いて,モデルの一般化を改善する。 その結果、課題データセットにおいて0.533の顕著なオクルージョンスコア(OM)を達成し、リーダーボード上のトップ1位を確保した。 ソースコードは、https://github.com/nguyendinhson-kaist/MMSports23-Seg-AutoIDで入手できる。

Occlusion is a long-standing problem in computer vision, particularly in instance segmentation. ACM MMSports 2023 DeepSportRadar has introduced a dataset that focuses on segmenting human subjects within a basketball context and a specialized evaluation metric for occlusion scenarios. Given the modest size of the dataset and the highly deformable nature of the objects to be segmented, this challenge demands the application of robust data augmentation techniques and wisely-chosen deep learning architectures. Our work (ranked 1st in the competition) first proposes a novel data augmentation technique, capable of generating more training samples with wider distribution. Then, we adopt a new architecture - Hybrid Task Cascade (HTC) framework with CBNetV2 as backbone and MaskIoU head to improve segmentation performance. Furthermore, we employ a Stochastic Weight Averaging (SWA) training strategy to improve the model's generalization. As a result, we achieve a remarkable occlusion score (OM) of 0.533 on the challenge dataset, securing the top-1 position on the leaderboard. Source code is available at this https://github.com/nguyendinhson-kaist/MMSports23-Seg-AutoID.
翻訳日:2023-10-30 14:33:13 公開日:2023-10-27
# 包括的で信頼性の高い特徴属性法:二重側除去・再構成(DoRaR)

A Comprehensive and Reliable Feature Attribution Method: Double-sided Remove and Reconstruct (DoRaR) ( http://arxiv.org/abs/2310.17945v1 )

ライセンス: Link先を確認
Dong Qin, George Amariucai, Daji Qiao, Yong Guan, Shen Fu(参考訳) ディープニューラルネットワーク(DNN)や他の機械学習(ML)モデルにおける内部決定機構の限定的な透明性は、いくつかのドメインでの応用を妨げる。 この問題に対処するため、ブラックボックスモデルによる決定に大きく影響を及ぼす重要な特徴を特定するために、特徴属性法が開発されている。 しかし、多くの特徴帰属法には固有の欠点がある。 例えば、特徴帰属手法の1つのカテゴリは、もともと自然のデータポイントに基づいて訓練された分類器を通して、分配外入力を直接供給するアーティファクトの問題に悩まされている。 別の特徴帰属法は、訓練された特徴セレクタと予測器を用いて説明を見つける。 アーティファクトの問題を回避する一方で、この新しいカテゴリは、予測者の決定が特徴ではなく、それらの特徴を選択するマスクに依存するEPITE(Encoding Prediction in the Explanation)問題に悩まされる。 その結果、帰属結果の信頼性はこれらの欠点によって損なわれる。 本研究では,これらの問題に対処するいくつかの改善手法に基づくDoRaR(Double-sided Remove and Reconstruct)特徴属性法を提案する。 MNIST, CIFAR10, および我々の合成データセットの徹底的なテストを行うことで, DoRaR特徴属性法が上記の問題を効果的に回避し, その他の最先端特徴属性法より優れた特徴セレクタの訓練を支援することができることを示した。 私たちのコードはhttps://github.com/dxq21/dorarで利用可能です。

The limited transparency of the inner decision-making mechanism in deep neural networks (DNN) and other machine learning (ML) models has hindered their application in several domains. In order to tackle this issue, feature attribution methods have been developed to identify the crucial features that heavily influence decisions made by these black box models. However, many feature attribution methods have inherent downsides. For example, one category of feature attribution methods suffers from the artifacts problem, which feeds out-of-distribution masked inputs directly through the classifier that was originally trained on natural data points. Another category of feature attribution method finds explanations by using jointly trained feature selectors and predictors. While avoiding the artifacts problem, this new category suffers from the Encoding Prediction in the Explanation (EPITE) problem, in which the predictor's decisions rely not on the features, but on the masks that selects those features. As a result, the credibility of attribution results is undermined by these downsides. In this research, we introduce the Double-sided Remove and Reconstruct (DoRaR) feature attribution method based on several improvement methods that addresses these issues. By conducting thorough testing on MNIST, CIFAR10 and our own synthetic dataset, we demonstrate that the DoRaR feature attribution method can effectively bypass the above issues and can aid in training a feature selector that outperforms other state-of-the-art feature attribution methods. Our code is available at https://github.com/dxq21/DoRaR.
翻訳日:2023-10-30 14:32:51 公開日:2023-10-27
# 信頼に値するエッジ機械学習:調査

Trustworthy Edge Machine Learning: A Survey ( http://arxiv.org/abs/2310.17944v1 )

ライセンス: Link先を確認
Xiaojie Wang, Beibei Wang, Yu Wu, Zhaolong Ning, Song Guo, and Fei Richard Yu(参考訳) エッジ機械学習(eml)として知られるエッジコンピューティング(ec)と機械学習(ml)の収束は、分散ネットワークリソースを活用して共同トレーニングと推論を協調的に行うことで、非常に注目される研究領域となっている。 しかしながら、emlはリソースの制約、異質なネットワーク環境、さまざまなアプリケーションの多様なサービス要件など、さまざまな課題に直面しており、同時にステークホルダーの視点におけるemlの信頼性にも影響を与えている。 この調査は、信頼できるEMLのための定義、属性、フレームワーク、テクニック、ソリューションの包括的な概要を提供する。 具体的には,第6世代(6G)ネットワークのコンテキストにおける信頼性の高いEMLの重要性を強調した。 次に,運用中や実世界のアプリケーションシナリオで遭遇する課題の観点から,信頼性の必要性について考察する。 その後、信頼に値するEMLの予備的な定義を提供し、その重要な属性を探求する。 次に、信頼性の高いEMLシステムのための基本的なフレームワークと技術を導入し、EMLの信頼性を高めるための最新のソリューションの詳細な文献レビューを行う。 最後に、対応する研究課題とオープン課題について論じる。

The convergence of Edge Computing (EC) and Machine Learning (ML), known as Edge Machine Learning (EML), has become a highly regarded research area by utilizing distributed network resources to perform joint training and inference in a cooperative manner. However, EML faces various challenges due to resource constraints, heterogeneous network environments, and diverse service requirements of different applications, which together affect the trustworthiness of EML in the eyes of its stakeholders. This survey provides a comprehensive summary of definitions, attributes, frameworks, techniques, and solutions for trustworthy EML. Specifically, we first emphasize the importance of trustworthy EML within the context of Sixth-Generation (6G) networks. We then discuss the necessity of trustworthiness from the perspective of challenges encountered during deployment and real-world application scenarios. Subsequently, we provide a preliminary definition of trustworthy EML and explore its key attributes. Following this, we introduce fundamental frameworks and enabling technologies for trustworthy EML systems, and provide an in-depth literature review of the latest solutions to enhance trustworthiness of EML. Finally, we discuss corresponding research challenges and open issues.
翻訳日:2023-10-30 14:32:23 公開日:2023-10-27
# ビデオ領域一般化のための空間時間知覚の多様化

Diversifying Spatial-Temporal Perception for Video Domain Generalization ( http://arxiv.org/abs/2310.17942v1 )

ライセンス: Link先を確認
Kun-Yu Lin, Jia-Run Du, Yipeng Gao, Jiaming Zhou, Wei-Shi Zheng(参考訳) ビデオドメインの一般化は、ソースドメインでトレーニングすることで、見えないターゲットドメインに対する一般化可能なビデオ分類モデルを学ぶことを目的としている。 ビデオドメインの一般化における重要な課題は、ターゲットビデオを認識する際にソースドメインから抽出されたドメイン固有のヒントに強く依存することを防ぐことである。 そこで本研究では,ドメイン固有の手がかりに加えて,潜在的なドメイン不変の手がかりを発見することを目的として,ビデオにおける多様な時空間的手がかりを知覚することを提案する。 我々は,空間時間分割ネットワーク(STDN)と呼ばれる新しいモデルを提案し,ビデオデータの空間次元と時間次元の多様性を向上させる。 まず,stdnは,空間的グループ化により,個々のフレーム内の様々な種類の空間的手がかりを探索する。 そこで,STDNは空間時間関係モデルを用いて,複数の時空間スケールで映像コンテンツ間の空間時間依存性を明示的にモデル化することを提案する。 3つの異なるタイプのベンチマークに関する広範囲な実験は、我々のアプローチの有効性と汎用性を示している。

Video domain generalization aims to learn generalizable video classification models for unseen target domains by training in a source domain. A critical challenge of video domain generalization is to defend against the heavy reliance on domain-specific cues extracted from the source domain when recognizing target videos. To this end, we propose to perceive diverse spatial-temporal cues in videos, aiming to discover potential domain-invariant cues in addition to domain-specific cues. We contribute a novel model named Spatial-Temporal Diversification Network (STDN), which improves the diversity from both space and time dimensions of video data. First, our STDN proposes to discover various types of spatial cues within individual frames by spatial grouping. Then, our STDN proposes to explicitly model spatial-temporal dependencies between video contents at multiple space-time scales by spatial-temporal relation modeling. Extensive experiments on three benchmarks of different types demonstrate the effectiveness and versatility of our approach.
翻訳日:2023-10-30 14:32:06 公開日:2023-10-27
# 同時シーケンス生成のための統一セグメント・ツー・セグメンテーションフレームワーク

Unified Segment-to-Segment Framework for Simultaneous Sequence Generation ( http://arxiv.org/abs/2310.17940v1 )

ライセンス: Link先を確認
Shaolei Zhang, Yang Feng(参考訳) 同時シーケンス生成は、ストリーミング音声認識、同時機械翻訳、同時音声翻訳などのリアルタイムシナリオにおいて重要なタスクであり、ソースシーケンスを受信しながらターゲットシーケンスを生成する。 低レイテンシで高品質な生成を実現するのは、ソースとターゲットシーケンスのマッピングを学習して、生成する最適なモーメントを特定することにある。 しかし、既存の手法は、しばしば異なるシーケンスタイプに対するタスク固有のヒューリスティックに依存し、ソースターゲットマッピングを適応的に学習する能力を制限するとともに、様々な同時タスクに対するマルチタスク学習の探索を妨げる。 本稿では,同時シーケンス生成のための統合セグメント・ツー・セグメンテーション・フレームワーク(Seg2Seg)を提案する。 同時生成の過程では、モデルがソースセグメントの待機とターゲットセグメントの生成とを交互に行い、セグメンテーションをソースとターゲットの間の自然なブリッジとして機能させる。 これを達成するため、seg2segは目標とするソース間のピボットとして潜在セグメントを導入し、提案する期待トレーニングを通じてすべてのソース・ターゲットマッピングを探索し、生成の最適なモーメントを学習する。 複数の同時生成タスクの実験は、Seg2Segが最先端のパフォーマンスを達成し、様々なタスクにわたってより良い汎用性を示すことを示した。

Simultaneous sequence generation is a pivotal task for real-time scenarios, such as streaming speech recognition, simultaneous machine translation and simultaneous speech translation, where the target sequence is generated while receiving the source sequence. The crux of achieving high-quality generation with low latency lies in identifying the optimal moments for generating, accomplished by learning a mapping between the source and target sequences. However, existing methods often rely on task-specific heuristics for different sequence types, limiting the model's capacity to adaptively learn the source-target mapping and hindering the exploration of multi-task learning for various simultaneous tasks. In this paper, we propose a unified segment-to-segment framework (Seg2Seg) for simultaneous sequence generation, which learns the mapping in an adaptive and unified manner. During the process of simultaneous generation, the model alternates between waiting for a source segment and generating a target segment, making the segment serve as the natural bridge between the source and target. To accomplish this, Seg2Seg introduces a latent segment as the pivot between source to target and explores all potential source-target mappings via the proposed expectation training, thereby learning the optimal moments for generating. Experiments on multiple simultaneous generation tasks demonstrate that Seg2Seg achieves state-of-the-art performance and exhibits better generality across various tasks.
翻訳日:2023-10-30 14:31:52 公開日:2023-10-27
# グラフ・グラフモデルとしてのトランスフォーマー

Transformers as Graph-to-Graph Models ( http://arxiv.org/abs/2310.17936v1 )

ライセンス: Link先を確認
James Henderson, Alireza Mohammadshahi, Andrei C. Coman, Lesly Miculicich(参考訳) トランスフォーマーは本質的にグラフからグラフへのモデルであり、シーケンスは特別なケースである。 注意重みはグラフエッジと機能的に等価である。 我々のGraph-to-Graph Transformerアーキテクチャは、グラフエッジを注目重み計算に入力し、注意のような関数でグラフエッジを予測することにより、事前訓練されたトランスフォーマーが学習した潜時グラフに明示的なグラフを統合することで、これを明確化する。 反復グラフリファインメントを追加することで、入力、出力、潜伏グラフを共同で埋め込み、非自己回帰グラフ予測によって、パイプラインやデコード戦略を使わずに完全なグラフを最適化することができる。 経験的な結果から、このアーキテクチャは様々な言語構造をモデル化するための最先端の精度を実現し、事前学習によって学習された潜在言語表現と非常に効果的に統合できることが示されている。

We argue that Transformers are essentially graph-to-graph models, with sequences just being a special case. Attention weights are functionally equivalent to graph edges. Our Graph-to-Graph Transformer architecture makes this ability explicit, by inputting graph edges into the attention weight computations and predicting graph edges with attention-like functions, thereby integrating explicit graphs into the latent graphs learned by pretrained Transformers. Adding iterative graph refinement provides a joint embedding of input, output, and latent graphs, allowing non-autoregressive graph prediction to optimise the complete graph without any bespoke pipeline or decoding strategy. Empirical results show that this architecture achieves state-of-the-art accuracies for modelling a variety of linguistic structures, integrating very effectively with the latent linguistic representations learned by pretraining.
翻訳日:2023-10-30 14:31:28 公開日:2023-10-27
# 量子ニューラルネットワークの材料情報学への応用--金属酸化物の融点予測-

Practical application of quantum neural network to materials informatics: prediction of the melting points of metal oxides ( http://arxiv.org/abs/2310.17935v1 )

ライセンス: Link先を確認
Hirotoshi Hirai(参考訳) 量子ニューラルネットワーク(QNN)モデルは、その強い表現性と過剰適合に対する抵抗により、注目を集めている。 これは、トレーニングデータのサイズが小さい場合に特に有用であり、材料情報学 ( materials informatics, mi) の問題に適している。 しかし、多変量回帰モデルへのQNNの適用例はごくわずかであり、これらのモデルがどのように構築されているかはほとんど分かっていない。 本研究の目的は、MI問題に対する多変量回帰タスクの例として、金属酸化物の融点を予測するためのQNNモデルを構築することである。 異なるアーキテクチャ(エンコード手法とエンタングル配置)を探索し、効果的なQNNモデルを作成する。 浅い深さのアンサッツは十分に絡み合った回路で十分な表現性を達成できた。 線形エンタングルは必要なエンタングルメントを提供するのに十分であった。 回路幅を拡大することでQNNモデルの表現性をさらに向上することができる。 一般化性能も改善でき、従来のnnモデルよりも優れていた。 QNNモデルでは、よく設計されたエンコーダによるオーバーフィッティングは見られなかった。 これらのことから,QNNはMIに有用なツールであることが示唆された。

Quantum neural network (QNN) models have received increasing attention owing to their strong expressibility and resistance to overfitting. It is particularly useful when the size of the training data is small, making it a good fit for materials informatics (MI) problems. However, there are only a few examples of the application of QNN to multivariate regression models, and little is known about how these models are constructed. This study aims to construct a QNN model to predict the melting points of metal oxides as an example of a multivariate regression task for the MI problem. Different architectures (encoding methods and entangler arrangements) are explored to create an effective QNN model. Shallow-depth ansatzs could achieve sufficient expressibility using sufficiently entangled circuits. The "linear" entangler was adequate for providing the necessary entanglement. The expressibility of the QNN model could be further improved by increasing the circuit width. The generalization performance could also be improved, outperforming the classical NN model. No overfitting was observed in the QNN models with a well-designed encoder. These findings suggest that QNN can be a useful tool for MI.
翻訳日:2023-10-30 14:31:11 公開日:2023-10-27
# トラブル時のNLP評価:ベンチマーク毎のLPMデータ汚染の測定の必要性について

NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination for each Benchmark ( http://arxiv.org/abs/2310.18018v1 )

ライセンス: Link先を確認
Oscar Sainz, Jon Ander Campos, Iker Garc\'ia-Ferrero, Julen Etxaniz, Oier Lopez de Lacalle, Eneko Agirre(参考訳) 本稿では,注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていることを論じる。 最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。 問題の範囲は、測定が容易ではないため、不明である。 汚染は、ターゲットベンチマークにおける汚染モデルの性能の過大評価と、汚染されていないモデルに対する関連するタスクを引き起こす。 結果は非常に有害であり、間違った科学的結論が公表され、他の正しい結論が破棄される。 本論文は,データ汚染のレベルを規定し,ベンチマークのデータがモデルに暴露されたときの自動的および半自動的な計測方法の開発や,データ汚染によって汚染された結論を文書にフラグする提案など,コミュニティの取り組みについて論じる。

In this position paper, we argue that the classical evaluation on Natural Language Processing (NLP) tasks using annotated benchmarks is in trouble. The worst kind of data contamination happens when a Large Language Model (LLM) is trained on the test split of a benchmark, and then evaluated in the same benchmark. The extent of the problem is unknown, as it is not straightforward to measure. Contamination causes an overestimation of the performance of a contaminated model in a target benchmark and associated task with respect to their non-contaminated counterparts. The consequences can be very harmful, with wrong scientific conclusions being published while other correct ones are discarded. This position paper defines different levels of data contamination and argues for a community effort, including the development of automatic and semi-automatic measures to detect when data from a benchmark was exposed to a model, and suggestions for flagging papers with conclusions that are compromised by data contamination.
翻訳日:2023-10-30 14:23:47 公開日:2023-10-27
# 量子npの7つの面

The 7 faces of quantum NP ( http://arxiv.org/abs/2310.18010v1 )

ライセンス: Link先を確認
Sevag Gharibian(参考訳) NP、その自然の定義、科学の分野にまたがる幅広い適用性、そしてその時間的な関連性については、その書物が壁に貼られている。 一方、量子NPは明らかにNPの木から遠く離れたリンゴである。 qma、qcma、qma1、qma(2)、stoqma、nqpなどです。 本稿では,量子NPの様々な定義,その強みと弱み,そしてそれらの多くが,より良くも悪くも,実際に複雑性動物園に自然に適合しているように見える理由について調査する。

When it comes to NP, its natural definition, its wide applicability across scientific disciplines, and its timeless relevance, the writing is on the wall: There can be only one. Quantum NP, on the other hand, is clearly the apple that fell far from the tree of NP. Two decades since the first definitions of quantum NP started rolling in, quantum complexity theorists face a stark reality: There's QMA, QCMA, QMA1, QMA(2), StoqMA, and NQP. In this article aimed at a general theoretical computer science audience, I survey these various definitions of quantum NP, their strengths and weaknesses, and why most of them, for better or worse, actually appear to fit naturally into the complexity zoo.
翻訳日:2023-10-30 14:23:30 公開日:2023-10-27
# 関係性量子力学はいまだに量子力学と相容れない

Relational Quantum Mechanics is Still Incompatible with Quantum Mechanics ( http://arxiv.org/abs/2310.18008v1 )

ライセンス: Link先を確認
Jay Lawrence and Marcin Markiewicz and Marek \.Zukowski(参考訳) 我々は最近の論文[arXiv:2208.11793]で、関係量子力学の中心概念である相対事実(成果)が量子力学と矛盾していることを示した。 我々は、3つの量子ビットのグリーンベルガー・ホルン・ザイリンガー状態(GHZ)上にウィグナー・フレンド型シーケンシャルな測定シナリオを構築し、以下の仮定を導いた。 量子論の解釈が測定結果のいくつかの概念化を導入するならば、これらの結果の確率はボルン則によって与えられる量子予測に従う必要がある。 私たちの作品は、cavalcanti、di biagio、rovelli [arxiv:2305.07343]によって批判されています。 本報告では,これらの批判が無効であり,その論証が原理的疑問を提起することを示す。

We showed in a recent article [arXiv:2208.11793], that relative facts (outcomes), a central concept in Relational Quantum Mechanics, are inconsistent with Quantum Mechanics. We proved this by constructing a Wigner-Friend type sequential measurement scenario on a Greenberger-Horne-Zeilinger (GHZ) state of three qubits, and making the following assumption: ``if an interpretation of quantum theory introduces some conceptualization of outcomes of a measurement, then probabilities of these outcomes must follow the quantum predictions as given by the Born rule.'' Our work has been criticized by Cavalcanti, Di Biagio, and Rovelli [arXiv:2305.07343]. In this note we show that their critique is invalid, and that their specific arguments raise questions of principle.
翻訳日:2023-10-30 14:23:16 公開日:2023-10-27
# 重み切りによるDP-SGD

DP-SGD with weight clipping ( http://arxiv.org/abs/2310.18001v1 )

ライセンス: Link先を確認
Antoine Barczewski and Jan Ramon(参考訳) 近年、深層ニューラルネットワークやトレーニングが目的関数の最適化に依存している他の手法が普及し、データプライバシに関する懸念から、微分プライベート勾配降下法に多くの関心が寄せられている。 最小ノイズ量で差分プライバシー保証を実現するためには,参加者が観察する情報の感度を正確に限定することが重要である。 本研究では,従来の勾配クリッピングから生じるバイアスを緩和する新しい手法を提案する。 現在のグローバルモデルとその探索領域内の位置に関する公開情報を活用することで、改良された勾配境界を達成でき、感度決定とノイズレベル調整が向上する。 我々は,最先端のアルゴリズムを拡張し,ノイズ低減のための差分プライバシー保証を改善し,経験的評価を行う。

Recently, due to the popularity of deep neural networks and other methods whose training typically relies on the optimization of an objective function, and due to concerns for data privacy, there is a lot of interest in differentially private gradient descent methods. To achieve differential privacy guarantees with a minimum amount of noise, it is important to be able to bound precisely the sensitivity of the information which the participants will observe. In this study, we present a novel approach that mitigates the bias arising from traditional gradient clipping. By leveraging public information concerning the current global model and its location within the search domain, we can achieve improved gradient bounds, leading to enhanced sensitivity determinations and refined noise level adjustments. We extend the state of the art algorithms, present improved differential privacy guarantees requiring less noise and present an empirical evaluation.
翻訳日:2023-10-30 14:23:01 公開日:2023-10-27
# アダムの反復複雑度の上界と下界の間のギャップを閉鎖する

Closing the Gap Between the Upper Bound and the Lower Bound of Adam's Iteration Complexity ( http://arxiv.org/abs/2310.17998v1 )

ライセンス: Link先を確認
Bohan Wang, Jingwen Fu, Huishuai Zhang, Nanning Zheng, Wei Chen(参考訳) 最近、Arjevaniら。 [1] は 1次最適化において、$L$-smooth条件と有界雑音分散仮定の下で、より低い繰り返しの複雑性を確立した。 しかし、Adamの収束に関する既存の文献の徹底的なレビューでは、顕著なギャップが明らかになっている。 本稿では,adam の新たな収束保証を導出し,l$-smooth 条件と有界雑音分散条件のみを導出することでギャップを解消する。 我々の結果は幅広いハイパーパラメータで有効である。 特に適切に選択されたハイパーパラメータでは、Adamの反復複雑性の上限を導き、一階最適化器の下位境界を満たすことを示す。 我々の知る限りでは、アダムの収束に対するそのような厳密な上限を確立するのはこれが初めてである。 我々の証明は、運動量と適応学習率の絡み合いを扱う新しい手法を利用し、Descent Lemmaの1次項を独立性のある勾配ノルムに変換する。

Recently, Arjevani et al. [1] established a lower bound of iteration complexity for the first-order optimization under an $L$-smooth condition and a bounded noise variance assumption. However, a thorough review of existing literature on Adam's convergence reveals a noticeable gap: none of them meet the above lower bound. In this paper, we close the gap by deriving a new convergence guarantee of Adam, with only an $L$-smooth condition and a bounded noise variance assumption. Our results remain valid across a broad spectrum of hyperparameters. Especially with properly chosen hyperparameters, we derive an upper bound of the iteration complexity of Adam and show that it meets the lower bound for first-order optimizers. To the best of our knowledge, this is the first to establish such a tight upper bound for Adam's convergence. Our proof utilizes novel techniques to handle the entanglement between momentum and adaptive learning rate and to convert the first-order term in the Descent Lemma to the gradient norm, which may be of independent interest.
翻訳日:2023-10-30 14:22:49 公開日:2023-10-27
# サブディフラクション・リミット・スキャン・スーパーレンズ顕微鏡のための深層学習

Deep Learning Enables Large Depth-of-Field Images for Sub-Diffraction-Limit Scanning Superlens Microscopy ( http://arxiv.org/abs/2310.17997v1 )

ライセンス: Link先を確認
Hui Sun, Hao Luo, Feifei Wang, Qingjiu Chen, Meng Chen, Xiaoduo Wang, Haibo Yu, Guanglie Zhang, Lianqing Liu, Jianping Wang, Dapeng Wu, Wen Jung Li(参考訳) 走査型電子顕微鏡(SEM)は、光学回折限界を超える解像度のフィールド深度画像を提供するため、マイクロエレクトロニクスから食品加工まで様々な用途に欠かせない。 しかし、この技術は絶縁体試料と真空環境にコーティング伝導膜を必要とする。 深層学習を用いて,光学超解像(osr)画像とsemドメイン画像のマッピング関係を求め,osr画像のsemライクな大視野画像への変換を可能にした。 導電膜によるコーティング試料も真空環境も必要としない独自の走査型スーパーレンズ顕微鏡(SSUM)システムを用いて,80nm以下の特性を有するOSR画像を取得する。 ピーク信号対雑音比(PSNR)と構造類似度指数測定値は、この深層学習法が画像対画像変換において優れた性能を示し、PSNRは光学超解像画像に対して約0.74dB向上したことを示している。 提案手法は, チップレベルの欠陥検出, 生物学的試料分析, 法医学, その他の様々な分野に適用可能であることを示す。

Scanning electron microscopy (SEM) is indispensable in diverse applications ranging from microelectronics to food processing because it provides large depth-of-field images with a resolution beyond the optical diffraction limit. However, the technology requires coating conductive films on insulator samples and a vacuum environment. We use deep learning to obtain the mapping relationship between optical super-resolution (OSR) images and SEM domain images, which enables the transformation of OSR images into SEM-like large depth-of-field images. Our custom-built scanning superlens microscopy (SSUM) system, which requires neither coating samples by conductive films nor a vacuum environment, is used to acquire the OSR images with features down to ~80 nm. The peak signal-to-noise ratio (PSNR) and structural similarity index measure values indicate that the deep learning method performs excellently in image-to-image translation, with a PSNR improvement of about 0.74 dB over the optical super-resolution images. The proposed method provides a high level of detail in the reconstructed results, indicating that it has broad applicability to chip-level defect detection, biological sample analysis, forensics, and various other fields.
翻訳日:2023-10-30 14:22:30 公開日:2023-10-27
# 量子コンピュータ上の多体問題に対する対称性の破れと修復

Symmetry breaking and restoration for many-body problems treated on quantum computers ( http://arxiv.org/abs/2310.17996v1 )

ライセンス: Link先を確認
Andres Ruiz(参考訳) この論文は、量子コンピュータにおけるシンメトリー・ブレーキング・サイメトリー・リスタレーションの手法を適用し、多体物理学における変分フレームワークにおけるハミルトンの基底状態エネルギーをよりよく近似するものである。 これには、基底状態の変分探索の異なる段階で、波関数 ansatz の対称性を意図的に壊し、復元することが含まれる。 変分量子固有ソルバ(vqe)は、bardeen-cooper-schrieffer(bcs)理論に触発されたアンサッツとともに変分成分として用いられる。 これらの応用はペアリングとハバード・ハミルトン群を用いて実証された。 対称性回復前後の対称性破壊アンサッツパラメータの変化, 変化後の量子投影, 投影後の量子変動の2つの方法がvqe法で同定された。 この論文の主な貢献は、量子位相推定アルゴリズムの原理、量子「オラクル」の概念、古典的な影形式に基づく様々な対称性の復元技術の開発であった。 最終部では、ハミルトニアンの低層スペクトルの近似を抽出するためにハイブリッド量子古典法が導入された。 量子コンピュータを用いて生成関数から正確なハミルトニアンモーメントを抽出することを仮定し、スペクトル解析のための2つの方法、特に生存確率の進化に関する情報を提供するt-expansion法とkrylov法を提案した。 さらに量子クリロフ法(quantum krylov method)が導入され、ハミルトニアンモーメントを見積もる必要なしに同様の洞察を提供した。

This thesis explores the application of the Symmetry-Breaking/Symmetry-Restoration methodology on quantum computers to better approximate a Hamiltonian's ground state energy within a variational framework in many-body physics. This involves intentionally breaking and restoring the symmetries of the wave function ansatz at different stages of the variational search for the ground state. The Variational Quantum Eigensolver (VQE) is utilized for the variational component together with an ansatz inspired by the Bardeen-Cooper-Schrieffer (BCS) theory. The applications were demonstrated using the pairing and Hubbard Hamiltonians. Two approaches were identified with the VQE method: varying the symmetry-breaking ansatz parameters before or after symmetry restoration, termed Quantum Projection After Variation and Quantum Variation After Projection, respectively. The main contribution of this thesis was the development of a variety of symmetry restoration techniques based on the principles of the Quantum Phase Estimation algorithm, the notion of a Quantum "Oracle," and the Classical Shadow formalism. In the final part, hybrid quantum-classical techniques were introduced to extract an approximation of the low-lying spectrum of a Hamiltonian. Assuming accurate Hamiltonian moment extraction from their generating function with a quantum computer, two methods were presented for spectral analysis: the t-expansion method and the Krylov method, which provides, in particular, information about the evolution of the survival probability. Furthermore, the Quantum Krylov method was introduced, offering similar insights without the need to estimate Hamiltonian moments, a task that can be difficult on near-term quantum computers.
翻訳日:2023-10-30 14:22:10 公開日:2023-10-27
# 一次元閉じ込めフェルミオンにおける合成次元誘起擬ヤーン・テラー効果

Synthetic dimension-induced pseudo Jahn-Teller effect in one-dimensional confined fermions ( http://arxiv.org/abs/2310.17995v1 )

ライセンス: Link先を確認
Andr\'e Becker, Georgios M. Koutentakis, Peter Schmelcher(参考訳) 超低温フェルミガス中における量子不純物の基底状態を記述するために, 浴場と不純物種の間にかなりの質量差があるにもかかわらず, 断熱的ボルン・オッペンハイマー近似の失敗を実証した。 反発の増大は、速い浴槽と遅い不純物自由度との間の非断熱カップリングの出現を招き、擬ヤーン・テラー効果に従って後者のパリティ対称性を減少させる。 このメカニズムの存在は、不純物の位置と合成次元として作用する相互作用強度の逆を含む円錐交差と関連している。 ab initio完全相関シミュレーションと実効モデルとの比較を含む詳細な基底状態解析により,これらの効果の存在を解明する。 本研究は複雑な分子現象の強力なエミュレータとして超低温原子アンサンブルを提案する。

We demonstrate the failure of the adiabatic Born-Oppenheimer approximation to describe the ground state of a quantum impurity within an ultracold Fermi gas despite substantial mass differences between the bath and impurity species. Increasing repulsion leads to the appearance of non-adiabatic couplings between the fast bath and slow impurity degrees of freedom which reduce the parity symmetry of the latter according to the pseudo Jahn-Teller effect. The presence of this mechanism is associated to a conical intersection involving the impurity position and the inverse of the interaction strength which acts as a synthetic dimension. We elucidate the presence of these effects via a detailed ground state analysis involving the comparison of ab initio fully-correlated simulations with effective models. Our study suggests ultracold atomic ensembles as potent emulators of complex molecular phenomena.
翻訳日:2023-10-30 14:21:46 公開日:2023-10-27
# ZeroNVS: 1枚の実画像からのゼロショット360度ビュー合成

ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image ( http://arxiv.org/abs/2310.17994v1 )

ライセンス: Link先を確認
Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu(参考訳) そこで,本研究では3次元拡散モデルであるZeroNVSを導入し,ワンイメージの新たなビュー合成手法を提案する。 既存の手法は暗黙の背景を持つ単一オブジェクトに対して設計されているが,複雑な背景を持つマルチオブジェクトシーンがもたらす課題に対処する新しい手法を提案する。 具体的には、オブジェクト中心、屋内、屋外のシーンをキャプチャするデータソースの混合に基づいて、生成をトレーニングする。 深度スケールのあいまいさなどのデータ混合問題に対処するため,新しいカメラ条件付パラメータ化と正規化方式を提案する。 さらに,SDS (Score Distillation Sampling) は,360度シーンの蒸留時に複雑な背景の分布を小さくする傾向にあり,合成された新規なビューの多様性を向上させるために「SDSアンカー」を提案する。 我々のモデルは、DTUデータセット上のLPIPSをゼロショット設定で設定し、DTUで特別に訓練された方法よりも優れた結果を得る。 我々はさらに,挑戦的なmip-nerf 360データセットを,単一画像の新規画像合成のための新しいベンチマークとして適応させ,この設定において強力な性能を示す。 私たちのコードとデータはhttp://kylesargent.github.io/zeronvs/です。

We introduce a 3D-aware diffusion model, ZeroNVS, for single-image novel view synthesis for in-the-wild scenes. While existing methods are designed for single objects with masked backgrounds, we propose new techniques to address challenges introduced by in-the-wild multi-object scenes with complex backgrounds. Specifically, we train a generative prior on a mixture of data sources that capture object-centric, indoor, and outdoor scenes. To address issues from data mixture such as depth-scale ambiguity, we propose a novel camera conditioning parameterization and normalization scheme. Further, we observe that Score Distillation Sampling (SDS) tends to truncate the distribution of complex backgrounds during distillation of 360-degree scenes, and propose "SDS anchoring" to improve the diversity of synthesized novel views. Our model sets a new state-of-the-art result in LPIPS on the DTU dataset in the zero-shot setting, even outperforming methods specifically trained on DTU. We further adapt the challenging Mip-NeRF 360 dataset as a new benchmark for single-image novel view synthesis, and demonstrate strong performance in this setting. Our code and data are at http://kylesargent.github.io/zeronvs/
翻訳日:2023-10-30 14:21:34 公開日:2023-10-27
# $d + id$ 2次トポロジカル超伝導体の理論

Theory of $d + id$ Second-Order Topological Superconductors ( http://arxiv.org/abs/2310.17992v1 )

ライセンス: Link先を確認
Zi-Ming Wang, Meng Zeng, Chen Lu, Da-Shuai Ma, Rui-Xing Zhang, Lun-Hui Hu, Dong-Hui Xu(参考訳) トポロジカル超伝導体(トポロジカル超伝導体)は、トポロジカル量子コンピューティングのビルディングブロックとして約束を守るサブギャップゼロエネルギーマヨラナバウンドモードを備えた非伝統的な超伝導材料である。 本研究では,スピン軌道結合を有する2軌道超伝導体における異常なギャップのない境界モードを定義する2階トポロジーの実現について検討する。 我々は、外部磁場を必要とせずに、$d+id$-waveの軌道依存パーリングによる時間反転対称性を破る2次超伝導相を明らかにする。 驚くべきことに、この軌道アクティブな$d$-waveパリングは異常なゼロエネルギーマヨラナコーナーモードを引き起こし、これは従来のキラルな$d$-waveペアリングとは対照的に、1次元マヨラナエッジモードに適応する。 我々の研究は、2次トポロジカル超伝導体を破る時間反転対称性のユニークなメカニズムを明らかにするだけでなく、2次トポロジと軌道依存ペアリングのギャップを埋める。

Topological superconductors are a class of unconventional superconducting materials featuring sub-gap zero-energy Majorana bound modes that hold promise as a building block for topological quantum computing. In this work, we study the realization of second-order topology that defines anomalous gapless boundary modes in a two-orbital superconductor with spin-orbital couplings. We reveal a time-reversal symmetry-breaking second-order topological superconducting phase with $d+id$-wave orbital-dependent paring without the need for the external magnetic field. Remarkably, this orbital-active $d$-wave paring gives rise to anomalous zero-energy Majorana corner modes, which is in contrast to conventional chiral $d$-wave pairing, accommodating one-dimensional Majorana edge modes. Our work not only reveals a unique mechanism of time-reversal symmetry breaking second-order topological superconductors but also bridges the gap between second-order topology and orbital-dependent pairings.
翻訳日:2023-10-30 14:20:57 公開日:2023-10-27
# 動的障害物を有する大規模環境における自律3次元探査

Autonomous 3D Exploration in Large-Scale Environments with Dynamic Obstacles ( http://arxiv.org/abs/2310.17977v1 )

ライセンス: Link先を確認
Emil Wiman, Ludvig Wid\'en, Mattias Tiger, Fredrik Heintz(参考訳) 動的で不確実な現実世界環境における探索は、ロボット工学におけるオープンな問題であり、ほとんどの現実世界で自律システムの基盤となる能力を構成する。 3次元探査計画が広範に研究されている間、環境は静的もしくは反応性衝突回避のみを前提としている。 本稿では, 動的障害を回避するだけでなく, エージェントの好む動的環境を活用するために, 計画自体にそれを含める新たなアプローチを提案する。 提案されたプランナーであるDynamic Autonomous Exploration Planner (DAEP)は、AEPを拡張して、動的障害に関して明示的に計画する。 このような環境で探索プランナを徹底的に評価するために,大規模屋外環境を含む動的環境の強化されたベンチマークスイートを提案する。 DAEPは動的および大規模環境で最先端のプランナーより優れている。 DAEPは、探査と衝突回避の両方に有効であることが示されている。

Exploration in dynamic and uncertain real-world environments is an open problem in robotics and constitutes a foundational capability of autonomous systems operating in most of the real world. While 3D exploration planning has been extensively studied, the environments are assumed static or only reactive collision avoidance is carried out. We propose a novel approach to not only avoid dynamic obstacles but also include them in the plan itself, to exploit the dynamic environment in the agent's favor. The proposed planner, Dynamic Autonomous Exploration Planner (DAEP), extends AEP to explicitly plan with respect to dynamic obstacles. To thoroughly evaluate exploration planners in such settings we propose a new enhanced benchmark suite with several dynamic environments, including large-scale outdoor environments. DAEP outperform state-of-the-art planners in dynamic and large-scale environments. DAEP is shown to be more effective at both exploration and collision avoidance.
翻訳日:2023-10-30 14:20:26 公開日:2023-10-27
# ロールプレイング・チャットボットはキャラクターの性格を捉えるか? ロールプレイングチャットボットのパーソナリティ特性評価

Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots ( http://arxiv.org/abs/2310.17976v1 )

ライセンス: Link先を確認
Xintao Wang, Xintao Wang, Yaying Fei, Ziang Leng, Cheng Li(参考訳) 大規模な事前訓練された言語モデルの出現は、新しいAIアプリケーション、特に異なるペルソナを持つチャットボットの領域における能力に革命をもたらした。 本論文は,チャットボットの「刺激応答性」の性質を考慮し,ロールプレイング・チャットボットにおける個性評価のための革新的なオープンエンドインタビュースタイルのアプローチを提示する。 チャットハルヒライブラリーが作成した32種類のロールプレイングチャットボットについて,5次元とmbti次元の両方においてパーソナリティ評価を行い,その人間知覚との整合を計測した。 評価結果は,LLMに基づく現代のロールプレイングチャットボットは,人間よりも82.8%のアライメント率で,対応するキャラクターの性格特性を効果的に表現できることを示した。 また、チャットボットの個性を形作るための潜在的戦略も提案する。 そこで本稿は,計算言語学と心理学を交差するロールプレイングチャットボットの基礎研究である。 リソースはhttps://github.com/LC1332/Chat-Haruhi-Suzumiyaで利用可能です。

The emergence of large-scale pretrained language models has revolutionized the capabilities of new AI application, especially in the realm of crafting chatbots with distinct personas. Given the "stimulus-response" nature of chatbots, this paper unveils an innovative open-ended interview-style approach for personality assessment on role-playing chatbots, which offers a richer comprehension of their intrinsic personalities. We conduct personality assessments on 32 role-playing chatbots created by the ChatHaruhi library, across both the Big Five and MBTI dimensions, and measure their alignment with human perception. Evaluation results underscore that modern role-playing chatbots based on LLMs can effectively portray personality traits of corresponding characters, with an alignment rate of 82.8% compared with human-perceived personalities. Besides, we also suggest potential strategies for shaping chatbots' personalities. Hence, this paper serves as a cornerstone study for role-playing chatbots that intersects computational linguistics and psychology. Our resources are available at https://github.com/LC1332/Chat-Haruhi-Suzumiya
翻訳日:2023-10-30 14:20:03 公開日:2023-10-27
# FaultSeg Swin-UNETR: 変圧器を用いた自己教師付き事前学習モデル

FaultSeg Swin-UNETR: Transformer-Based Self-Supervised Pretraining Model for Fault Recognition ( http://arxiv.org/abs/2310.17974v1 )

ライセンス: Link先を確認
Zeren Zhang, Ran Chen, Jinwen Ma(参考訳) 本稿では,自己教師付き事前学習による地震断層認識の強化手法を提案する。 地震断層の解釈は、地球物理学と地質学の分野で非常に重要である。 しかし,従来の地震断層認識手法では,データ品質や量への依存,インタプリタの主観性への感受性など,様々な問題に直面している。 現在, 小型合成データセットに基づく自動故障認識手法は, 実地震データに適用した場合の性能劣化を経験する。 これらの課題に対処するために,我々は比較的容易に入手可能な未ラベル地震データを事前学習に利用して,自己教師型学習の概念を導入した。 具体的には,Swin Transformerモデルをコアネットワークとして使用し,SimMIMプレトレーニングタスクを用いて地震データの不連続性に関連する特徴を抽出した。 エッジ検出技術に触発された微調整フェーズでは,swin-unetrモデルの構造も洗練され,マルチスケールデコードと融合により,より効果的な故障検出が可能となった。 実験の結果,提案手法は,OISおよびODS測定値から,Thebeデータセット上での最先端性能を実現することができた。

This paper introduces an approach to enhance seismic fault recognition through self-supervised pretraining. Seismic fault interpretation holds great significance in the fields of geophysics and geology. However, conventional methods for seismic fault recognition encounter various issues, including dependence on data quality and quantity, as well as susceptibility to interpreter subjectivity. Currently, automated fault recognition methods proposed based on small synthetic datasets experience performance degradation when applied to actual seismic data. To address these challenges, we have introduced the concept of self-supervised learning, utilizing a substantial amount of relatively easily obtainable unlabeled seismic data for pretraining. Specifically, we have employed the Swin Transformer model as the core network and employed the SimMIM pretraining task to capture unique features related to discontinuities in seismic data. During the fine-tuning phase, inspired by edge detection techniques, we have also refined the structure of the Swin-UNETR model, enabling multiscale decoding and fusion for more effective fault detection. Experimental results demonstrate that our proposed method attains state-of-the-art performance on the Thebe dataset, as measured by the OIS and ODS metrics.
翻訳日:2023-10-30 14:19:20 公開日:2023-10-27
# 量子格子ボルツマン・カールマンアルゴリズム

Quantum Lattice Boltzmann-Carleman algorithm ( http://arxiv.org/abs/2310.17973v1 )

ライセンス: Link先を確認
Claudio Sanavio and Sauro Succi(参考訳) 本稿では,Lattice Boltzmann (LB) 法のカールマン線形化に基づく量子計算アルゴリズムを提案する。 まず, 古典的カールマン手続きを適度なレイノルズ数, すなわちコルモゴロフのような流れで収束することを示す。 次に、量子回路レイアウトを含む対応する量子アルゴリズムを定式化し、その計算可能性を分析する。 主な結論は、少なくとも穏やかなレイノルズ数が10ドルから100ドルの間である場合、カールマン-LB手順は2階目でうまく切り替わることができ、これは奨励的な結果である。 一方、関連する量子回路は、実際の形では、予測可能なあらゆる量子ハードウェア上で計算可能であるには、あまりにも深い。 改善の可能性と潜在的な方法は、簡単に議論され、コメントされる。

We present a quantum computing algorithm based on Carleman-linearization of the Lattice Boltzmann (LB) method. First, we demonstrate the convergence of the classical Carleman procedure at moderate Reynolds numbers, namely for Kolmogorov-like flows. Then, we proceed to formulate the corresponding quantum algorithm, including the quantum circuit layout, and analyse its computational viability. The main conclusion is twofold, on the one side, at least for mild Reynolds numbers between $10$ and $100$, the Carleman-LB procedure can be successfully truncated at second order, which is an encouraging result. On the other hand, the associated quantum circuit, in its actual form, is far too deep to be computationally viable on any foreseeable quantum hardware. Possible improvements and potential ways out are briefly discussed and commented on.
翻訳日:2023-10-30 14:18:55 公開日:2023-10-27
# cefl: 炭素効率のよい連合学習

CEFL: Carbon-Efficient Federated Learning ( http://arxiv.org/abs/2310.17972v1 )

ライセンス: Link先を確認
Talha Mehboob, Noman Bashir, Jesus Omana Iglesias, Michael Zink, David Irwin(参考訳) Federated Learning (FL)は、データ転送オーバーヘッドを低減し、データのプライバシを保護するために、多くのエッジデバイスに機械学習(ML)トレーニングを分散する。 FLモデルトレーニングは数百万のデバイスにまたがる可能性があるため、リソース集約型であるため、これまでの作業では、時間と精度を最適化するリソース効率の改善に重点を置いてきた。 しかし、以前の作業は、一般的にすべてのリソースを同じ扱いをするが、実際には、それらは広く異なるコストを負う可能性がある。 この問題を解決するため,適応的なコスト対応クライアント選択ポリシーを用いたCEFLを設計し,FLモデルをトレーニングする際の任意のコストメトリックを最適化する。 当社のポリシーは,クライアント選択とクリティカルラーニング期間の事前業務を,コストを意識して拡張し,結合するものです。 エネルギーの炭素強度がコストである炭素効率FLを設計してCEFLを実証し、それを示す。 i)炭素排出量を93\%削減し、ランダムなクライアント選択やトレーニング時間を50%削減すること。 二 トレーニング時間を最適化する最先端のアプローチと比較して、トレーニング時間を三8%だけ増加させながら、二酸化炭素排出量を80%削減する。

Federated Learning (FL) distributes machine learning (ML) training across many edge devices to reduce data transfer overhead and protect data privacy. Since FL model training may span millions of devices and is thus resource-intensive, prior work has focused on improving its resource efficiency to optimize time-to-accuracy. However, prior work generally treats all resources the same, while, in practice, they may incur widely different costs, which instead motivates optimizing cost-to-accuracy. To address the problem, we design CEFL, which uses adaptive cost-aware client selection policies to optimize an arbitrary cost metric when training FL models. Our policies extend and combine prior work on utility-based client selection and critical learning periods by making them cost-aware. We demonstrate CEFL by designing carbon-efficient FL, where energy's carbon-intensity is the cost, and show that it i) reduces carbon emissions by 93\% and reduces training time by 50% compared to random client selection and ii) reduces carbon emissions by 80%, while only increasing training time by 38%, compared to a state-of-the-art approach that optimizes training time.
翻訳日:2023-10-30 14:18:37 公開日:2023-10-27
# 複雑ESG年報からのコンテンツテーブル抽出のためのスケーラブルなフレームワーク

A Scalable Framework for Table of Contents Extraction from Complex ESG Annual Reports ( http://arxiv.org/abs/2310.18073v1 )

ライセンス: Link先を確認
Xinyu Wang, Lin Gui, Yulan He(参考訳) 内容表(ToC)抽出は、文書を階層的に構造化する中心となる。 本稿では,2001年から2022年までの563社のESG年次報告を1,093件からなるESGDocという新しいデータセットを提案する。 これらの報告は、その多様な構造と幅広い長さのために重大な課題を提起している。 これらの課題に対処するために,(1)読み順とフォントサイズに基づいてテキストブロックの初期ツリーを構築すること,(2)各ツリーノード(またはテキストブロック)をノード中心のサブツリーでキャプチャしたコンテキスト情報を考慮して独立にモデル化すること,(3)各ツリーノード(keep、delete、move)に適切なアクションを施して元のツリーを変更すること,の3つのステップからなるtoc抽出フレームワークを提案する。 この構成モデル修正(CMM)プロセスにはいくつかの利点がある。 文書セグメント化を現実的に実現可能にするため、従来のアプローチのようにセクションヘッダをペアでモデル化する必要がなくなる。 構造化された情報を導入することで、各セクションの見出しは、自分自身に関連するローカルと長距離の両方のコンテキストを活用することができる。 実験の結果,本手法は従来のベースラインよりも少ない実行時間で性能が向上することがわかった。 当社のフレームワークは、あらゆる長さのドキュメントを効果的に処理することで、そのスケーラビリティを証明します。

Table of contents (ToC) extraction centres on structuring documents in a hierarchical manner. In this paper, we propose a new dataset, ESGDoc, comprising 1,093 ESG annual reports from 563 companies spanning from 2001 to 2022. These reports pose significant challenges due to their diverse structures and extensive length. To address these challenges, we propose a new framework for Toc extraction, consisting of three steps: (1) Constructing an initial tree of text blocks based on reading order and font sizes; (2) Modelling each tree node (or text block) independently by considering its contextual information captured in node-centric subtree; (3) Modifying the original tree by taking appropriate action on each tree node (Keep, Delete, or Move). This construction-modelling-modification (CMM) process offers several benefits. It eliminates the need for pairwise modelling of section headings as in previous approaches, making document segmentation practically feasible. By incorporating structured information, each section heading can leverage both local and long-distance context relevant to itself. Experimental results show that our approach outperforms the previous state-of-the-art baseline with a fraction of running time. Our framework proves its scalability by effectively handling documents of any length.
翻訳日:2023-10-30 14:11:26 公開日:2023-10-27
# Stern-Gerlach干渉計における重力自己デコヒーレンスの提案

Probing gravitational self-decoherence in a Stern-Gerlach interferometer ( http://arxiv.org/abs/2310.18072v1 )

ライセンス: Link先を確認
Gabriel H. S. Aguiar and George E. A. Matsas(参考訳) 古典性の出現の理解は、量子力学の始まりから科学界に挑戦してきた。 この問題を解決するための提案には重力自己相関機構がある。 あらゆる努力にもかかわらず、このメカニズムは調査が極めて困難であることが証明されている。 そこで本研究では,簡単なスターンゲラッハ型実験を提案する。

The understanding of the emergence of classicality has challenged the scientific community since the beginning of quantum mechanics. Among the proposals to resolve this issue is the gravitational self-decoherence mechanism. Despite all efforts, this mechanism has been proven extremely difficult to probe. Here, we propose a simple Stern-Gerlach-like experiment to try it out.
翻訳日:2023-10-30 14:11:02 公開日:2023-10-27
# マルチチョイス読み理解のための多粒度証拠推論

Multi-grained Evidence Inference for Multi-choice Reading Comprehension ( http://arxiv.org/abs/2310.18070v1 )

ライセンス: Link先を確認
Yilin Zhao, Hai Zhao and Sufeng Duan(参考訳) MRC(Multi-choice Machine Reading Comprehension)は、機械が与えられた選択肢に応じて質問に答える上で、主要な課題である。 マルチチョイスMRCの回答は、与えられた通路で直接抽出することはできず、本質的には正確な抽出された証拠から推論できる機械を必要とする。 しかし、批判的な証拠は1つの単語や句と同じくらい単純であり、与えられた冗長でノイズの多い節の中に隠され、句、断片、文から全節まで、複数の言語的階層がある。 そこで本研究では,多粒度証拠を包括的に統合した汎用モデル拡張法である多粒度証拠推論器 (mugen) を提案する。 Mugen は、粗大、中小、微粒の3つの証拠を抽出し、エビデンスを元のパスと統合し、4つのマルチチョイス MRC ベンチマークで有意かつ一貫した性能改善を達成する。

Multi-choice Machine Reading Comprehension (MRC) is a major and challenging task for machines to answer questions according to provided options. Answers in multi-choice MRC cannot be directly extracted in the given passages, and essentially require machines capable of reasoning from accurate extracted evidence. However, the critical evidence may be as simple as just one word or phrase, while it is hidden in the given redundant, noisy passage with multiple linguistic hierarchies from phrase, fragment, sentence until the entire passage. We thus propose a novel general-purpose model enhancement which integrates multi-grained evidence comprehensively, named Multi-grained evidence inferencer (Mugen), to make up for the inability. Mugen extracts three different granularities of evidence: coarse-, middle- and fine-grained evidence, and integrates evidence with the original passages, achieving significant and consistent performance improvement on four multi-choice MRC benchmarks.
翻訳日:2023-10-30 14:10:58 公開日:2023-10-27
# qraに基づく2プレイヤー・3プレイヤー協調ゲームの量子化

Quantization of Two- and Three-player Cooperative Games Based on QRA ( http://arxiv.org/abs/2310.18067v1 )

ライセンス: Link先を確認
Ivan Eryganov, Jaroslav Hrdina, Ale\v{s} N\'avrat(参考訳) 本稿では,協調ゲームのための新しい量子化手法を提案する。 考慮された回路は、プレイヤー間の協力を表すために修正されたeisert-wilkens-lewensteinプロトコルにインスパイアされ、3ドルの量子ビット状態まで拡張された。 クリフォード代数の枠組みは必要な計算を行うために用いられる。 特に、回路を表現するために、Dirac形式とQuantum Register Algebraの直接的な類似を用いる。 この類似により、簡単な方法で回路等価性の自動証明を行うことができる。 測定後のプレーヤのペイオフを分配するために、量子確率に対するShapley値の期待値を用いる。 本研究では,プレイヤー間の事前認識レベルを表す絡み合いが,実用性の最終分布に与える影響について検討する。 また,量子レジスタアルゲブラとGAALOPソフトウェアを用いて,必要な計算をすべて自動化できることを示す。

In this paper, a novel quantization scheme for cooperative games is proposed. The considered circuit is inspired by the Eisert-Wilkens-Lewenstein protocol modified to represent cooperation between players and extended to $3$-qubit states. The framework of Clifford algebra is used to perform necessary computations. In particular, we use a direct analogy between Dirac formalism and Quantum Register Algebra to represent circuits. This analogy enables us to perform automated proofs of the circuit equivalence in a simple fashion. To distribute players' payoffs after the measurement, the expected value of the Shapley value with respect to quantum probabilities is employed. We study how entanglement, representing the level of pre-agreement between players, affects the final distribution of utility. The paper also demonstrates how all necessary calculations can be automatized using the Quantum Register Algebra and GAALOP software.
翻訳日:2023-10-30 14:10:40 公開日:2023-10-27
# 協調生成によるテキスト識別モデルのグローバル説明「honey, tell me what's wrong」

"Honey, Tell Me What's Wrong", Global Explanation of Textual Discriminative Models through Cooperative Generation ( http://arxiv.org/abs/2310.18063v1 )

ライセンス: Link先を確認
Antoine Chaffin and Julien Delaunay(参考訳) 複雑な機械学習の普遍性は、モデルに依存しない説明アルゴリズムの重要性を高めた。 これらのメソッドは、実際のインスタンスをわずかに摂動させ、モデル決定のシフトをキャプチャすることで、人工インスタンスを生成する。 しかし、そのような方法は初期データに依存しており、決定の説明のみを提供する。 そこで本研究では,入力データセットを必要とせず,テキストに適応した最初のグローバルかつモデルに依存しない説明手法であるセラピーを提案する。 セラピーはコラボレーティブ・ジェネレーションを通じて分類器が学習した分布に従ってテキストを生成する。 初期サンプルに依存しないため、データの欠如(機密性上の理由など)に対しても説明を生成することができる。 さらに、複数の局所的な説明をグローバルに結合する既存の方法に対して、セラピーは入力空間におけるモデルの振る舞いの全体的概要を提供する。 本実験は, サンプル生成に入力データを使用しないが, 入力サンプルに依存した手法と競合する分類器が使用する特徴についての洞察に富んだ情報を提供し, 入力サンプルが研究対象モデルに特有でない場合に, それらより優れていることを示す。

The ubiquity of complex machine learning has raised the importance of model-agnostic explanation algorithms. These methods create artificial instances by slightly perturbing real instances, capturing shifts in model decisions. However, such methods rely on initial data and only provide explanations of the decision for these. To tackle these problems, we propose Therapy, the first global and model-agnostic explanation method adapted to text which requires no input dataset. Therapy generates texts following the distribution learned by a classifier through cooperative generation. Because it does not rely on initial samples, it allows to generate explanations even when data is absent (e.g., for confidentiality reasons). Moreover, conversely to existing methods that combine multiple local explanations into a global one, Therapy offers a global overview of the model behavior on the input space. Our experiments show that although using no input data to generate samples, Therapy provides insightful information about features used by the classifier that is competitive with the ones from methods relying on input samples and outperforms them when input samples are not specific to the studied model.
翻訳日:2023-10-30 14:10:25 公開日:2023-10-27
# テキスト強調空間認識ゼロショット参照画像分割

Text Augmented Spatial-aware Zero-shot Referring Image Segmentation ( http://arxiv.org/abs/2310.18049v1 )

ライセンス: Link先を確認
Yucheng Suo, Linchao Zhu, Yi Yang(参考訳) 本稿では,ゼロショット参照画像セグメンテーションの課題について検討する。 このタスクは、ピクセルレベルのアノテーションをトレーニングせずに参照式に最も関連するインスタンスマスクを特定することを目的としている。 従来の研究は、CLIPのような事前訓練されたクロスモーダルモデルを利用して、インスタンスレベルのマスクを参照式と整合させる。 %Yet,CLIPでは,微細な画像領域や複雑な文マッチングを無視するイメージテキストペアレベルのアライメントのみを考慮する。 しかし、クリップは画像テキストペアのグローバルレベルアライメントのみを考慮し、参照文と局所画像領域の微粒度マッチングを無視する。 この課題に対処するために、様々なビジュアルエンコーダに対して、トレーニング不要で堅牢な画像セグメント化フレームワークであるText Augmented Space-Aware (TAS) Zero-shotを導入する。 TASは、例レベルのマスク抽出のためのマスク提案ネットワークと、画像テキスト相関をマイニングするテキスト拡張ビジュアルテキストマッチングスコアと、マスク後処理のための空間補正器とを備えている。 特に、テキストによるビジュアルテキストマッチングスコアは、典型的なビジュアルテキストマッチングスコアに加えて、$p$スコアと$n$-scoreを利用する。 p$-scoreは、サロゲートモデルで生成されたテキストと参照式の間でスコアを計算するサロゲートキャプションモデルを通じて、ビジュアルテキスト領域のギャップを閉じるために使用される。 この$N$-scoreは、負のフレーズマイニングを通じて、地域のテキストペアのきめ細かいアライメントを考慮し、マスクされたイメージをマイニングされた散らばったフレーズから取り除くことを奨励している。 大規模な実験はRefCOCO、RefCOCO+、RefCOCOgなど様々なデータセットで行われている。 提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。

In this paper, we study a challenging task of zero-shot referring image segmentation. This task aims to identify the instance mask that is most related to a referring expression without training on pixel-level annotations. Previous research takes advantage of pre-trained cross-modal models, e.g., CLIP, to align instance-level masks with referring expressions. %Yet, CLIP only considers image-text pair level alignment, which neglects fine-grained image region and complex sentence matching. Yet, CLIP only considers the global-level alignment of image-text pairs, neglecting fine-grained matching between the referring sentence and local image regions. To address this challenge, we introduce a Text Augmented Spatial-aware (TAS) zero-shot referring image segmentation framework that is training-free and robust to various visual encoders. TAS incorporates a mask proposal network for instance-level mask extraction, a text-augmented visual-text matching score for mining the image-text correlation, and a spatial rectifier for mask post-processing. Notably, the text-augmented visual-text matching score leverages a $P$ score and an $N$-score in addition to the typical visual-text matching score. The $P$-score is utilized to close the visual-text domain gap through a surrogate captioning model, where the score is computed between the surrogate model-generated texts and the referring expression. The $N$-score considers the fine-grained alignment of region-text pairs via negative phrase mining, encouraging the masked image to be repelled from the mined distracting phrases. Extensive experiments are conducted on various datasets, including RefCOCO, RefCOCO+, and RefCOCOg. The proposed method clearly outperforms state-of-the-art zero-shot referring image segmentation methods.
翻訳日:2023-10-30 14:10:04 公開日:2023-10-27
# ViCLEVR:ベトナムにおける視覚質問応答のためのビジュアル推論データセットとハイブリッドマルチモーダル融合モデル

ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese ( http://arxiv.org/abs/2310.18046v1 )

ライセンス: Link先を確認
Khiem Vinh Tran, Hao Phu Phan, Kiet Van Nguyen, Ngan Luu Thuy Nguyen(参考訳) 近年、視覚障害者支援、自然言語クエリを用いた画像情報検索、視覚障害者支援、画像情報検索など多彩な応用において、視覚質問応答(vqa)が注目されている。 VQAは質問や画像からの効果的な情報の統合を必要とし、正確な回答を生成する。 vqaのニューラルモデルは、英語のようなリソース豊富な言語を中心に、大規模なデータセットで著しく進歩している。 この問題を解決するために,ベトナムの様々な視覚的推論能力を評価し,バイアスを軽減したViCLEVRデータセットを紹介した。 データセットは26,000以上の画像と30,000の質問回答ペア(QA)で構成され、それぞれが関連する推論のタイプを指定するように注釈付けされている。 このデータセットを活用することで、現代の視覚的推論システムの包括的な分析を行い、その強みと限界に関する貴重な洞察を提供する。 さらに,質問に基づいて画像中の物体を識別する包括的マルチモーダル融合であるphovitを提案する。 このアーキテクチャは変換器を効果的に利用し、テキストデータと視覚データの同時推論を可能にし、初期のモデル段階で両方のモダリティをマージする。 実験の結果,提案モデルが4つの評価指標において最先端の性能を実現することが示された。 付随するコードとデータセットは \url{https://github.com/kvt0012/ViCLEVR} で公開されている。 この条項は研究コミュニティの進歩を刺激し、ベトナムで実証された低リソース言語のニュアンスに対処するために、よりマルチモーダルな融合アルゴリズムの開発を促進することを目的としている。

In recent years, Visual Question Answering (VQA) has gained significant attention for its diverse applications, including intelligent car assistance, aiding visually impaired individuals, and document image information retrieval using natural language queries. VQA requires effective integration of information from questions and images to generate accurate answers. Neural models for VQA have made remarkable progress on large-scale datasets, with a primary focus on resource-rich languages like English. To address this, we introduce the ViCLEVR dataset, a pioneering collection for evaluating various visual reasoning capabilities in Vietnamese while mitigating biases. The dataset comprises over 26,000 images and 30,000 question-answer pairs (QAs), each question annotated to specify the type of reasoning involved. Leveraging this dataset, we conduct a comprehensive analysis of contemporary visual reasoning systems, offering valuable insights into their strengths and limitations. Furthermore, we present PhoVIT, a comprehensive multimodal fusion that identifies objects in images based on questions. The architecture effectively employs transformers to enable simultaneous reasoning over textual and visual data, merging both modalities at an early model stage. The experimental findings demonstrate that our proposed model achieves state-of-the-art performance across four evaluation metrics. The accompanying code and dataset have been made publicly accessible at \url{https://github.com/kvt0012/ViCLEVR}. This provision seeks to stimulate advancements within the research community, fostering the development of more multimodal fusion algorithms, specifically tailored to address the nuances of low-resource languages, exemplified by Vietnamese.
翻訳日:2023-10-30 14:09:32 公開日:2023-10-27
# AIシステムに対する道徳的責任

Moral Responsibility for AI Systems ( http://arxiv.org/abs/2310.18040v1 )

ライセンス: Link先を確認
Sander Beckers(参考訳) 重要な倫理的次元を持つ意思決定がAIシステムにアウトソースされているため、AIシステムに適用可能な道徳的責任の定義を持つことが重要である。 ある行動を行うエージェントの結果に対する道徳的責任は、一般的に因果状態と認識状態の両方を含むように取られる。 本稿では,因果モデルの枠組みにおける両条件の形式的定義について述べる。 私は、Brahamとvan Hees(BvH)の既存のアプローチとHalpernとKleiman-Weiner(HK)のアプローチを比較します。 そして、私の定義を責任の程度に一般化します。

As more and more decisions that have a significant ethical dimension are being outsourced to AI systems, it is important to have a definition of moral responsibility that can be applied to AI systems. Moral responsibility for an outcome of an agent who performs some action is commonly taken to involve both a causal condition and an epistemic condition: the action should cause the outcome, and the agent should have been aware -- in some form or other -- of the possible moral consequences of their action. This paper presents a formal definition of both conditions within the framework of causal models. I compare my approach to the existing approaches of Braham and van Hees (BvH) and of Halpern and Kleiman-Weiner (HK). I then generalize my definition into a degree of responsibility.
翻訳日:2023-10-30 14:09:06 公開日:2023-10-27
# 一般言語理解について

On General Language Understanding ( http://arxiv.org/abs/2310.18038v1 )

ライセンス: Link先を確認
David Schlangen(参考訳) 自然言語処理は、経験主義的な分野ではなく、経験主義的な分野であることを誇りに思っており、近年では意味と測定の問題に関して本質的な議論を巻き起こしているようである("Do Large Language Models Understand Language, And If So, How Much? これは偶然ではない: ここでは、至るところで、証拠は理解を過小評価している。 本稿では,現在のモデル品質測定方法の妥当性に関する疑問を提起する理解モデルの概要を概説する。 A) 異なる言語使用状況タイプが異なる特徴を持っている,B) 言語理解は多面的現象であり、個人主義的・社会的プロセスが混在している,C) 理解指標の選択は、ベンチマークの限界であり、NLP使用の倫理的考察の始まりである,という3つの主張を行う。

Natural Language Processing prides itself to be an empirically-minded, if not outright empiricist field, and yet lately it seems to get itself into essentialist debates on issues of meaning and measurement ("Do Large Language Models Understand Language, And If So, How Much?"). This is not by accident: Here, as everywhere, the evidence underspecifies the understanding. As a remedy, this paper sketches the outlines of a model of understanding, which can ground questions of the adequacy of current methods of measurement of model quality. The paper makes three claims: A) That different language use situation types have different characteristics, B) That language understanding is a multifaceted phenomenon, bringing together individualistic and social processes, and C) That the choice of Understanding Indicator marks the limits of benchmarking, and the beginnings of considerations of the ethics of NLP use.
翻訳日:2023-10-30 14:08:51 公開日:2023-10-27
# 混合前駆体を用いたベイズ予測型共変量調整

Bayesian Prognostic Covariate Adjustment With Additive Mixture Priors ( http://arxiv.org/abs/2310.18027v1 )

ライセンス: Link先を確認
Alyssa M. Vanderbeek and Arman Sabbaghi and Jon R. Walsh and Charles K. Fisher(参考訳) ランダム化対照試験(rcts)による効果的かつ迅速な意思決定には、偏りなく正確な治療効果推論が必要である。 この要求に対処する2つの戦略は、結果と高い相関関係を持つ共変分を調整し、ベイズの定理を通じて歴史的制御情報を活用することである。 我々は,これら2つの戦略を組み合わせた新たなベイズ予測型共変量調整手法であるベイズプロコバを提案する。 共変量調整は、CT参加者のためのデジタルツインジェネレータ(DTG)を構成する生成人工知能(AI)アルゴリズムに基づいている。 DTGは、履歴制御データに基づいてトレーニングされ、各参加者の制御結果に対してデジタルツイン(DT)確率分布を生成する。 DT分布の期待値は調整のための単一の共変量を定義する。 履歴制御情報は、履歴制御データに基づいて特定された情報的事前確率分布と、非インフォーマティブ事前分布の2つの成分に先行する添加混合物を介して活用される。 混合液中の重みパラメータも事前分布を有するので、添加剤混合液全体の事前分布は完全に予め特定され、rctからの情報を含まない。 本研究では, 後方分布から抽出する効率的なギブスアルゴリズムを構築し, ベイジアン ProCOVA の重みパラメータに条件付き処理効果のばらつきと後部平均のクローズドフォーム式を導出する。 本研究では, 履歴制御とRTTデータの相違を考慮したシミュレーションにより, ベイズ確率的共変量調整(PROCOVA)と比較して, バイアス制御と分散低減について検討した。 最終的に、ベイジアン ProCOVA は、コントロール参加者の少ない情報的治療効果の推測を導き、効果的な意思決定を促進する。

Effective and rapid decision-making from randomized controlled trials (RCTs) requires unbiased and precise treatment effect inferences. Two strategies to address this requirement are to adjust for covariates that are highly correlated with the outcome, and to leverage historical control information via Bayes' theorem. We propose a new Bayesian prognostic covariate adjustment methodology, referred to as Bayesian PROCOVA, that combines these two strategies. Covariate adjustment is based on generative artificial intelligence (AI) algorithms that construct a digital twin generator (DTG) for RCT participants. The DTG is trained on historical control data and yields a digital twin (DT) probability distribution for each participant's control outcome. The expectation of the DT distribution defines the single covariate for adjustment. Historical control information are leveraged via an additive mixture prior with two components: an informative prior probability distribution specified based on historical control data, and a non-informative prior distribution. The weight parameter in the mixture has a prior distribution as well, so that the entire additive mixture prior distribution is completely pre-specifiable and does not involve any information from the RCT. We establish an efficient Gibbs algorithm for sampling from the posterior distribution, and derive closed-form expressions for the posterior mean and variance of the treatment effect conditional on the weight parameter, of Bayesian PROCOVA. We evaluate the bias control and variance reduction of Bayesian PROCOVA compared to frequentist prognostic covariate adjustment (PROCOVA) via simulation studies that encompass different types of discrepancies between the historical control and RCT data. Ultimately, Bayesian PROCOVA can yield informative treatment effect inferences with fewer control participants, accelerating effective decision-making.
翻訳日:2023-10-30 14:08:34 公開日:2023-10-27
# 対称性に基づく量子回路マッピング

Symmetry-Based Quantum Circuit Mapping ( http://arxiv.org/abs/2310.18026v1 )

ライセンス: Link先を確認
Di Yu and Kun Fang(参考訳) 量子回路マッピングは、量子回路コンパイルパイプラインにおいて重要なプロセスであり、論理量子回路を対象量子システム上で直接実行可能な命令のリストに変換するのを容易にする。 近年の研究では、リマッピングと呼ばれるポストコンパイルステップを導入し、初期回路マッピングを再構成して、システムの可変性に起因する量子回路エラーを軽減することを目指している。 量子プロセッサのサイズが拡大するにつれて、量子回路マッピングの効率と全体的なコンパイルプロセスが最重要になっている。 本研究では,量子プロセッサの内在対称性を活用する量子回路再マッピングアルゴリズムを導入し,大規模量子システムに適していることを示す。 このアルゴリズムは、探索空間を対称性で制約することにより、すべての位相同値回路マッピングを識別し、ベクトル計算を用いて各マッピングのスコアリングを高速化する。 特に、この対称性に基づく回路再マッピングアルゴリズムは、ターゲット量子ハードウェアの量子ビット数による線形スケーリングを示し、その時間複雑性の観点から最適であることが証明されている。 さらに,本論文の既存手法との比較分析を行い,最先端量子ハードウェアアーキテクチャにおける対称性に基づく手法の優れた性能を実証し,特に数百万量子ビットの量子プロセッサにおいて,アルゴリズムの実用性を強調した。

Quantum circuit mapping is a crucial process in the quantum circuit compilation pipeline, facilitating the transformation of a logical quantum circuit into a list of instructions directly executable on a target quantum system. Recent research has introduced a post-compilation step known as remapping, which seeks to reconfigure the initial circuit mapping to mitigate quantum circuit errors arising from system variability. As quantum processors continue to scale in size, the efficiency of quantum circuit mapping and the overall compilation process has become of paramount importance. In this work, we introduce a quantum circuit remapping algorithm that leverages the intrinsic symmetries in quantum processors, making it well-suited for large-scale quantum systems. This algorithm identifies all topologically equivalent circuit mappings by constraining the search space using symmetries and accelerates the scoring of each mapping using vector computation. Notably, this symmetry-based circuit remapping algorithm exhibits linear scaling with the number of qubits in the target quantum hardware and is proven to be optimal in terms of its time complexity. Moreover, we conduct a comparative analysis against existing methods in the literature, demonstrating the superior performance of our symmetry-based method on state-of-the-art quantum hardware architectures and highlighting the practical utility of our algorithm, particularly for quantum processors with millions of qubits.
翻訳日:2023-10-30 14:08:05 公開日:2023-10-27
# アスペクトベース感情分析のための大規模言語モデル

Large language models for aspect-based sentiment analysis ( http://arxiv.org/abs/2310.18025v1 )

ライセンス: Link先を確認
Paul F. Simmering, Paavo Huoviala(参考訳) 大型言語モデル(LLM)は前例のないテキスト補完機能を提供する。 一般的なモデルとして、より専門的なモデルを含む幅広い役割を果たすことができる。 アスペクトベース感情分析(ABSA)タスクにおいて、ゼロショットでのGPT-4とGPT-3.5の性能を評価する。 InstructABSA[@scaria_instructabsa_2023]を5.7%改善した精細調整GPT-3.5は、SemEval-2014 Task 4のジョイントアスペクト項抽出および極性分類タスクにおいて、最先端のF1スコア83.8を達成する。 しかし、これはモデルパラメータの1000倍のコストがかかるため、推論コストが増加する。 異なるモデルのコストパフォーマンストレードオフについて議論し、それらが犯す典型的なエラーを分析します。 また,ゼロショットおよび少数ショット設定では詳細なプロンプトが向上するが,微調整モデルでは不要であることを示す。 この証拠は、absaにllmsを使用する場合、プロンプトエンジニアリングと微調整の選択に直面する実践者にとって重要である。

Large language models (LLMs) offer unprecedented text completion capabilities. As general models, they can fulfill a wide range of roles, including those of more specialized models. We assess the performance of GPT-4 and GPT-3.5 in zero shot, few shot and fine-tuned settings on the aspect-based sentiment analysis (ABSA) task. Fine-tuned GPT-3.5 achieves a state-of-the-art F1 score of 83.8 on the joint aspect term extraction and polarity classification task of the SemEval-2014 Task 4, improving upon InstructABSA [@scaria_instructabsa_2023] by 5.7%. However, this comes at the price of 1000 times more model parameters and thus increased inference cost. We discuss the the cost-performance trade-offs of different models, and analyze the typical errors that they make. Our results also indicate that detailed prompts improve performance in zero-shot and few-shot settings but are not necessary for fine-tuned models. This evidence is relevant for practioners that are faced with the choice of prompt engineering versus fine-tuning when using LLMs for ABSA.
翻訳日:2023-10-30 14:07:44 公開日:2023-10-27
# SentMix-3L: 感性分析のためのBangla- English-Hindi Code-Mixed Dataset

SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment Analysis ( http://arxiv.org/abs/2310.18023v1 )

ライセンス: Link先を確認
Md Nishat Raihan, Dhiman Goswami, Antara Mahmud, Antonios Anstasopoulos, Marcos Zampieri(参考訳) コードミキシング(code-mixing)は、2つ以上の言語をテキストまたは音声で混合するよく研究された言語現象である。 コードミキシングの計算モデルをトレーニングする目的で、いくつかのデータセットが構築されている。 複数の言語でコードミキシングを観測することは一般的だが、利用可能なほとんどのデータセットは2つの言語の間でのみコードミキシングされる。 本稿では,バングラ語,英語,ヒンディー語の3言語間のコード混合データを含む感情分析のための新しいデータセットであるSentMix-3Lを紹介する。 SentMix-3Lを用いて総合評価を行う。 GPT-3.5によるゼロショットプロンプトは、SentMix-3L上のすべてのトランスフォーマーモデルより優れていることを示す。

Code-mixing is a well-studied linguistic phenomenon when two or more languages are mixed in text or speech. Several datasets have been build with the goal of training computational models for code-mixing. Although it is very common to observe code-mixing with multiple languages, most datasets available contain code-mixed between only two languages. In this paper, we introduce SentMix-3L, a novel dataset for sentiment analysis containing code-mixed data between three languages Bangla, English, and Hindi. We carry out a comprehensive evaluation using SentMix-3L. We show that zero-shot prompting with GPT-3.5 outperforms all transformer-based models on SentMix-3L.
翻訳日:2023-10-30 14:07:20 公開日:2023-10-27
# FormalGeo:人間ライクなIMOレベルの自動推論への第一歩

FormalGeo: The First Step Toward Human-like IMO-level Geometric Automated Reasoning ( http://arxiv.org/abs/2310.18021v1 )

ライセンス: Link先を確認
Xiaokai Zhang, Na Zhu, Yiming He, Jia Zou, Qike Huang, Xiaoxiao Jin, Yanjun Guo, Chenyang Mao, Zhe Zhu, Dengfeng Yue, Fangzhen Zhu, Yang Li, Yifan Wang, Yiwen Huang, Runan Wang, Cheng Qin, Zhenbing Zeng, Shaorong Xie, Xiangfeng Luo, Tuo Leng(参考訳) これは過去10年間の私たちの仕事の最初の記事です。 この一連の論文では、完全かつ互換性のある形式平面幾何学システムを構築した。 これは、IMOレベルの平面形状問題と可読性AI自動推論の間に重要な橋渡しとなる。 このフォーマルなシステムがあれば、最新のAIモデルを私たちのフォーマルなシステムとシームレスに統合することができます。 この形式的なフレームワークの中で、AIは、他の自然言語を扱うのと同じように、IMOレベルの平面幾何学問題に対する推論的推論ソリューションを提供することができ、これらの証明は読みやすく、トレース可能で、検証可能である。 本稿では,幾何形式体系の発展を導くために,幾何形式化理論(GFT)を提案する。 GFTに基づいて、88の幾何述語と196の定理からなるフォーマルジオを確立した。 IMOレベルの幾何学問題を表現、検証、解決することができる。 また、PythonでFGPS(形式幾何学問題の解法)も作成しました。 これは、問題解決プロセスを検証するインタラクティブアシスタントと、前方探索、後方探索、AI支援検索などの様々な手法を活用する自動問題解決ツールの両方として機能する。 FormalGeo7kデータセットには6,981(データ拡張による186,832)の幾何学的問題と完全な形式言語アノテーションが含まれています。 フォーマルシステムの実装とフォーマルGeo7kの実験は、GFTの正しさと実用性を検証する。 奥行き優先探索法は2.42%の問題解決失敗率しか生み出せず,より低い解を得るために深層学習手法を組み込むことができる。 FGPSとFormalGeo7kデータセットのソースコードはhttps://github.com/BitSecret/FormalGeoで公開されている。

This is the first article of our work over the past decade. In this series of papers, we have constructed a complete and compatible formal plane geometry system. This will serve as a crucial bridge between IMO-level plane geometry challenges and readable AI automated reasoning. With this formal system in place, we have been able to seamlessly integrate modern AI models with our formal system. Within this formal framework, AI is now capable of providing deductive reasoning solutions to IMO-level plane geometry problems, just like handling other natural languages, and these proofs are readable, traceable, and verifiable. We propose the geometry formalization theory (GFT) to guide the development of the geometry formal system. Based on the GFT, we have established the FormalGeo, which consists of 88 geometric predicates and 196 theorems. It can represent, validate, and solve IMO-level geometry problems. we also have crafted the FGPS (formal geometry problem solver) in Python. It serves as both an interactive assistant for verifying problem-solving processes and an automated problem solver, utilizing various methods such as forward search, backward search and AI-assisted search. We've annotated the FormalGeo7k dataset, containing 6,981 (expand to 186,832 through data augmentation) geometry problems with complete formal language annotations. Implementation of the formal system and experiments on the FormalGeo7k validate the correctness and utility of the GFT. The backward depth-first search method only yields a 2.42% problem-solving failure rate, and we can incorporate deep learning techniques to achieve lower one. The source code of FGPS and FormalGeo7k dataset are available at https://github.com/BitSecret/FormalGeo.
翻訳日:2023-10-30 14:07:10 公開日:2023-10-27
# 安全なデータルームにおける農業地帯の温度モニタリング

Temperature Monitoring of Agricultural Areas in a Secure Data Room ( http://arxiv.org/abs/2310.18019v1 )

ライセンス: Link先を確認
Thomas Ederer, Martin Ivancsits, and Igor Ivki\'c(参考訳) 農業生産は季節の変化や天候など自然発生の環境に大きく依存している。 特に果実やワインの生育では、作物が発芽した直後の後期フロストは植物 [L1,L2] [1] に大きな損傷を与える可能性がある。 本稿では,農作物の失敗を防止するため,後期凍土の検出・反応を行う費用効率のよい温度モニタリングシステムを提案する。 提案されたソリューションは、IoT(Internet of Things)デバイスがサイバー物理システム(CPS)を形成して、近くの環境と対話し、データを安全に交換するデータ空間を含む。 このデータに基づいて、将来的には機械学習(ML)を用いてより正確な予測を行うことができる。

Agricultural production is highly dependent on naturally occurring environmental conditions like change of seasons and the weather. Especially in fruit and wine growing, late frosts occurring shortly after the crops have sprouted have the potential to cause massive damage to plants [L1,L2] [1]. In this article we present a cost-efficient temperature monitoring system for detecting and reacting to late frosts to prevent crop failures. The proposed solution includes a data space where Internet of Things (IoT) devices can form a cyber-physical system (CPS) to interact with their nearby environment and securely exchange data. Based on this data, more accurate predictions can be made in the future using machine learning (ML), which will further contribute to minimising economic damage caused by crop failures.
翻訳日:2023-10-30 14:06:43 公開日:2023-10-27
# er.autopilot 1.0:オーバルレースの完全自動運転スタック

er.autopilot 1.0: The Full Autonomous Stack for Oval Racing at High Speeds ( http://arxiv.org/abs/2310.18112v1 )

ライセンス: Link先を確認
Ayoub Raji, Danilo Caporale, Francesco Gatti, Andrea Giove, Micaela Verucchi, Davide Malatesta, Nicola Musiu, Alessandro Toschi, Silviu Roberto Popitanu, Fabio Bagni, Massimiliano Bosi, Alexander Liniger, Marko Bertogna, Daniele Morra, Francesco Amerotti, Luca Bartoli, Federico Martello, Riccardo Porta(参考訳) indy autonomous challenge(iac)は、前例のないスピードとヘッドツーヘッドのシナリオで競う9つの自律レーシングチームが、オープンホイールレースカーで独自に開発されたソフトウェアを使用して、史上初めて集結した。 本稿では,tii-er (team tii euroracing) が使用している完全ソフトウェアアーキテクチャについて述べる。静的障害回避,アクティブな乗っ取り,75 m/s (270 km/h) 以上の速度に達するために必要なモジュールをすべてカバーする。 知覚、計画、制御に関連する最も一般的なモジュールに加えて、車両の動力学モデリング、シミュレーション、テレメトリ、および安全性に使用されるアプローチについて論じる。 総合的な結果と各モジュールのパフォーマンス、および、チームがそれぞれ2番目と3番目を置く楕円軌道上の競技の最初の2つのイベントで学んだ教訓について説明する。

The Indy Autonomous Challenge (IAC) brought together for the first time in history nine autonomous racing teams competing at unprecedented speed and in head-to-head scenario, using independently developed software on open-wheel racecars. This paper presents the complete software architecture used by team TII EuroRacing (TII-ER), covering all the modules needed to avoid static obstacles, perform active overtakes and reach speeds above 75 m/s (270 km/h). In addition to the most common modules related to perception, planning, and control, we discuss the approaches used for vehicle dynamics modelling, simulation, telemetry, and safety. Overall results and the performance of each module are described, as well as the lessons learned during the first two events of the competition on oval tracks, where the team placed respectively second and third.
翻訳日:2023-10-30 13:59:23 公開日:2023-10-27
# 中性子干渉法によるダークエネルギーの探索

Search for dark energy with neutron interferometry ( http://arxiv.org/abs/2310.18109v1 )

ライセンス: Link先を確認
Hauke Fischer, Christian K\"ading, Hartmut Lemmel, Stephan Sponar, and Mario Pitschmann(参考訳) 中性子干渉法による実験結果を用いて,いくつかの暗黒エネルギーモデルのパラメータ空間を効果的に制約する。 この研究は、シンメトロン場やカメレオン場とともに、弦理論の強い結合限界内で自然に現れるダークエネルギーの強い競合である環境依存ディラトン場を含む。 本研究は、ディラトンおよびシンメトロン場の以前の制約よりも大幅に改善し、パラメータの制約を桁違いに改善する。 しかし、この解析はカメレオン場に新たな制約を与えない。 さらに, 中性子スプリット干渉計に関する制約を定め, 最近, 原理実証実験を結論づけた。 シンメトロンシミュレーションにより, パラメータ値によっては, ノード数が増加し, 筒状真空チャンバー内のエネルギーが増大する複数の静的解が存在することがわかった。 これは、無限平行板の文献で得られた結果と一致する。 興味深いことに、これらの多重解は真空室の内部で形成されるドメインウォールに対応できるが、真空室内では真空期待値に達しないが、それでも複数のノードを表示する解も見つかる。

We use previously obtained experimental results by neutron interferometry to effectively constrain the parameter space of several prominent dark energy models. This investigation encompasses the environment-dependent dilaton field, a compelling contender for dark energy that emerges naturally within the strong coupling limit of string theory, alongside symmetron and chameleon fields. Our study presents substantial improvements over previous constraints of the dilaton and symmetron fields, improving parameter constraints by several orders of magnitude. However, the analysis does not yield any new constraints on the chameleon field. Furthermore, we establish constraints for the projected neutron split interferometer, which has recently concluded a decisive proof-of-principle demonstration. Our symmetron simulations reveal that depending on the parameter values there are multiple static solutions with increasing number of nodes and increasing energy inside a cylindrical vacuum chamber. This agrees with results obtained earlier in the literature for infinitely parallel plates. Interestingly, while these multiple solutions can correspond to domain walls forming inside the vacuum chamber, we also find solutions that do not reach their vacuum expectation value inside the vacuum chamber, but display multiple nodes nonetheless.
翻訳日:2023-10-30 13:59:06 公開日:2023-10-27
# 適応スコアを用いた帰納的共形推論

Transductive conformal inference with adaptive scores ( http://arxiv.org/abs/2310.18108v1 )

ライセンス: Link先を確認
Ulysse Gazin, Gilles Blanchard, Etienne Roquain(参考訳) 共形推論(conformal inference)は、多くの機械学習タスクに分散フリーな保証を提供する、基本かつ汎用的なツールである。 帰納的設定(transductive set)を考えると、m$ new pointのテストサンプルで決定が行われ、m$conformal $p$-valuesが生まれます。 古典的結果が限界分布のみに関係しているのに対し,それらの合同分布はp\'olya urnモデルに従い,経験的分布関数に対する濃度不等式を確立する。 学習段階でテスト+校正サンプルの共変量を利用して精度を高めることができる「it adaptive」スコアを含む任意の交換可能なスコアについて、結果が得られた。 本稿では,2クラス分類に基づく伝達学習における区間予測と新規性検出の2つの機械学習タスクに対して,一様かつ不確率な保証により,これらの理論結果の有用性を実証する。

Conformal inference is a fundamental and versatile tool that provides distribution-free guarantees for many machine learning tasks. We consider the transductive setting, where decisions are made on a test sample of $m$ new points, giving rise to $m$ conformal $p$-values. {While classical results only concern their marginal distribution, we show that their joint distribution follows a P\'olya urn model, and establish a concentration inequality for their empirical distribution function.} The results hold for arbitrary exchangeable scores, including {\it adaptive} ones that can use the covariates of the test+calibration samples at training stage for increased accuracy. We demonstrate the usefulness of these theoretical results through uniform, in-probability guarantees for two machine learning tasks of current interest: interval prediction for transductive transfer learning and novelty detection based on two-class classification.
翻訳日:2023-10-30 13:58:46 公開日:2023-10-27
# 分散検出のための分類器頭インフォームド特徴マスキングとプロトタイプベースロジット平滑化

Classifier-head Informed Feature Masking and Prototype-based Logit Smoothing for Out-of-Distribution Detection ( http://arxiv.org/abs/2310.18104v1 )

ライセンス: Link先を確認
Zhuohao Sun, Yiqiao Qiu, Zhijun Tan, Weishi Zheng, Ruixuan Wang(参考訳) 現実世界にニューラルネットワークをデプロイするには、分散(ood)検出が不可欠である。 1つの大きな課題は、ニューラルネットワークがOODデータに対して過信的な予測をすることです。 本研究では,新しい特徴マスキング戦略と新しいロジット平滑化戦略に基づく効果的なポストホックOOD検出手法を提案する。 特徴マスキングは、分類器ヘッド内のIDクラスの重みに基づいて、各分布内(ID)クラスの最後層における重要な特徴を決定し、残りの特徴をマスキングする。 Logit smoothingは、テストサンプルの特徴ベクトルと予測IDクラスの試行的な層におけるプロトタイプとの間のコサイン類似性を計算し、この類似性をロジット上の適応温度因子として使用することにより、OODデータに対するネットワークの過信予測を軽減する。 これらの戦略により、OODデータの機能活性化を減らし、IDとOODデータのOODスコアのギャップを大きくすることができる。 複数の標準OOD検出ベンチマークに対する大規模な実験により,提案手法の有効性と既存手法との互換性が実証された。 ソースコードは公開される予定だ。

Out-of-distribution (OOD) detection is essential when deploying neural networks in the real world. One main challenge is that neural networks often make overconfident predictions on OOD data. In this study, we propose an effective post-hoc OOD detection method based on a new feature masking strategy and a novel logit smoothing strategy. Feature masking determines the important features at the penultimate layer for each in-distribution (ID) class based on the weights of the ID class in the classifier head and masks the rest features. Logit smoothing computes the cosine similarity between the feature vector of the test sample and the prototype of the predicted ID class at the penultimate layer and uses the similarity as an adaptive temperature factor on the logit to alleviate the network's overconfidence prediction for OOD data. With these strategies, we can reduce feature activation of OOD data and enlarge the gap in OOD score between ID and OOD data. Extensive experiments on multiple standard OOD detection benchmarks demonstrate the effectiveness of our method and its compatibility with existing methods, with new state-of-the-art performance achieved from our method. The source code will be released publicly.
翻訳日:2023-10-30 13:58:29 公開日:2023-10-27
# mind the gap: 学習者の議論におけるエンサイム検出と再構成のためのコーパスの自動生成

Mind the Gap: Automated Corpus Creation for Enthymeme Detection and Reconstruction in Learner Arguments ( http://arxiv.org/abs/2310.18098v1 )

ライセンス: Link先を確認
Maja Stahl, Nick D\"usterhus, Mei-Hua Chen, Henning Wachsmuth(参考訳) 強力な議論を書くことは学習者にとって難しい。 複数の議論的談話単位(ADU)を論理的かつ一貫性のある方法で選択・配置し、どのADUが暗黙的なままにするかを判断する必要がある。 しかし、重要なADUが欠けている場合、読者は推論に従うことができず、議論の要点を理解することができないかもしれない。 本稿では,引数のギャップを識別する(エンサイム検出)と,そのギャップを埋める(エンサイム再構築)という2つのタスクについて述べる。 両方のタスクへのアプローチは、学習者が議論の質を向上させるのに役立つ。 本研究では,これらのタスクのコーパスを,テキストの自然性を維持しつつ,議論や品質の中心となる議論文からADUを削除し,自動生成する方法について検討する。 議論的学習者エッセイのICLEv3コーパスに基づいて,40,089個の議論インスタンスを作成し,エントロメムの検出と再構築を行う。 本研究では,提案するコーパス作成プロセスが望ましい品質低下につながる証拠を手作業で検証し,学習者にとって自然な議論へと導く。 最後に, エントイム検出と再構成に対する第1ベースラインアプローチにより, コーパスの有用性が示された。

Writing strong arguments can be challenging for learners. It requires to select and arrange multiple argumentative discourse units (ADUs) in a logical and coherent way as well as to decide which ADUs to leave implicit, so called enthymemes. However, when important ADUs are missing, readers might not be able to follow the reasoning or understand the argument's main point. This paper introduces two new tasks for learner arguments: to identify gaps in arguments (enthymeme detection) and to fill such gaps (enthymeme reconstruction). Approaches to both tasks may help learners improve their argument quality. We study how corpora for these tasks can be created automatically by deleting ADUs from an argumentative text that are central to the argument and its quality, while maintaining the text's naturalness. Based on the ICLEv3 corpus of argumentative learner essays, we create 40,089 argument instances for enthymeme detection and reconstruction. Through manual studies, we provide evidence that the proposed corpus creation process leads to the desired quality reduction, and results in arguments that are similarly natural to those written by learners. Finally, first baseline approaches to enthymeme detection and reconstruction demonstrate the corpus' usefulness.
翻訳日:2023-10-30 13:58:08 公開日:2023-10-27
# 格子正則化による陽イオン電磁力学におけるカシミール効果

Casimir effect in axion electrodynamics with lattice regularizations ( http://arxiv.org/abs/2310.18092v1 )

ライセンス: Link先を確認
Katsumasa Nakayama and Kei Suzuki(参考訳) カシミール効果は光子場と境界条件の相互作用によって引き起こされ、特にアクシオン電気力学で修飾された光子場はカシミールエネルギーのサイン・フリップにつながる可能性がある。 軸電力学におけるカシミール効果を導出するための理論的アプローチを提案する。 このアプローチは格子正則化に基づいており、カシミールエネルギーの格子間隔依存性を議論することができる。 このアプローチでは、カシミールエネルギーのサインフリップ挙動が正しく再現される。 格子上で計算された物理量の連続体極限を取ることにより、連続体理論と一致する結果が得られる。 このアプローチは非零温度でのカシミール効果にも適用できる。

The Casimir effect is induced by the interplay between photon fields and boundary conditions, and in particular, photon fields modified in axion electrodynamics may lead to the sign-flipping of the Casimir energy. We propose a theoretical approach to derive the Casimir effect in axion electrodynamics. This approach is based on a lattice regularization and enables us to discuss the dependence on the lattice spacing for the Casimir energy. With this approach, the sign-flipping behavior of the Casimir energy is correctly reproduced. By taking the continuum limit of physical quantity calculated on the lattice, we can obtain the results consistent with the continuum theory. This approach can also be applied to the Casimir effect at nonzero temperature.
翻訳日:2023-10-30 13:57:46 公開日:2023-10-27
# ガウス先行値と非線形異常スコアを用いた逆方向異常検出

Adversarial Anomaly Detection using Gaussian Priors and Nonlinear Anomaly Scores ( http://arxiv.org/abs/2310.18091v1 )

ライセンス: Link先を確認
Fiete L\"uer, Tobias Weber, Maxim Dolgich, Christian B\"ohm(参考訳) 不均衡なデータセットにおける異常検出は、特に医療領域において、頻繁に、かつ重要な問題である。 本稿では,$\beta$-variational autoencoder(VAE)の生成安定性とGAN(Generative Adversarial Network)の識別強度を組み合わせることにより,新たなモデルである$\beta$-VAEGANを提案する。 本研究では,モデルの識別的および再構成的能力に基づいて,異常スコアを構成する手法について検討する。 既存の作業は、データが異常かどうかを決定するために、これらのコンポーネントの線形結合に焦点を当てている。 我々は,各誤差成分についてカーネル化サポートベクターマシン(svm)を訓練し,非線形関係も考慮し,既存の作業を進める。 これにより異常検出性能が向上し、最適化が高速化される。 最後に、$\beta$-VAEGANの前にガウスの偏差を使って、新しい異常スコアコンポーネントを形成する。 最先端の作業と比較して、広く使われているMITBIH Arrhythmia Database上で、異常検出時のF_1$スコアを0.85から0.92に改善する。

Anomaly detection in imbalanced datasets is a frequent and crucial problem, especially in the medical domain where retrieving and labeling irregularities is often expensive. By combining the generative stability of a $\beta$-variational autoencoder (VAE) with the discriminative strengths of generative adversarial networks (GANs), we propose a novel model, $\beta$-VAEGAN. We investigate methods for composing anomaly scores based on the discriminative and reconstructive capabilities of our model. Existing work focuses on linear combinations of these components to determine if data is anomalous. We advance existing work by training a kernelized support vector machine (SVM) on the respective error components to also consider nonlinear relationships. This improves anomaly detection performance, while allowing faster optimization. Lastly, we use the deviations from the Gaussian prior of $\beta$-VAEGAN to form a novel anomaly score component. In comparison to state-of-the-art work, we improve the $F_1$ score during anomaly detection from 0.85 to 0.92 on the widely used MITBIH Arrhythmia Database.
翻訳日:2023-10-30 13:57:35 公開日:2023-10-27
# los in translation --多言語誤情報とその進化

Lost in Translation -- Multilingual Misinformation and its Evolution ( http://arxiv.org/abs/2310.18089v1 )

ライセンス: Link先を確認
Dorian Quelle, Calvin Cheng, Alexandre Bovet, Scott A. Hale(参考訳) 誤情報や偽情報はデジタル時代に脅威を増し、言語や国境を越えて急速に広まっている。 本稿では,95言語にまたがる25万以上のファクトチェックを分析し,多言語誤報の頻度とダイナミクスについて検討する。 まず、誤情報のクレームの大半は1回だけ事実チェックされているが、21,000以上のクレームに対応する11.7%は複数回チェックされている。 誤情報拡散の指標としてファクトチェックを用いると、言語境界を越えて繰り返し主張する主張の33%が言語障壁に浸透していることが示唆される。 しかし、拡散パターンは強い相同性を示し、誤情報が同じ言語内で広まる傾向が強い。 言語間のクレームの進化と変異を研究するために,多言語文の埋め込みとクラスタのセマンティックな類似クレームを用いてファクトチェックを表現する。 我々は,異なる種類のクレームを接続する連結コンポーネントと最短パスを分析し,クレームが徐々に時間とともに移動し,言語を横断する際に大きな変化を起こすことを示す。 全体として、この新しい多言語誤情報の調査は重要な洞察を与える。 余分な事実チェックの努力を定量化し、いくつかの主張が言語間で拡散し、言語的ホモフィリーを測り、クレームの時間的および言語的進化をモデル化する。 本研究は,局所的検証の重要性を強調しつつ,ファクトチェッカー間の情報共有の拡大を提唱するものである。

Misinformation and disinformation are growing threats in the digital age, spreading rapidly across languages and borders. This paper investigates the prevalence and dynamics of multilingual misinformation through an analysis of over 250,000 unique fact-checks spanning 95 languages. First, we find that while the majority of misinformation claims are only fact-checked once, 11.7%, corresponding to more than 21,000 claims, are checked multiple times. Using fact-checks as a proxy for the spread of misinformation, we find 33% of repeated claims cross linguistic boundaries, suggesting that some misinformation permeates language barriers. However, spreading patterns exhibit strong homophily, with misinformation more likely to spread within the same language. To study the evolution of claims over time and mutations across languages, we represent fact-checks with multilingual sentence embeddings and cluster semantically similar claims. We analyze the connected components and shortest paths connecting different versions of a claim finding that claims gradually drift over time and undergo greater alteration when traversing languages. Overall, this novel investigation of multilingual misinformation provides key insights. It quantifies redundant fact-checking efforts, establishes that some claims diffuse across languages, measures linguistic homophily, and models the temporal and cross-lingual evolution of claims. The findings advocate for expanded information sharing between fact-checkers globally while underscoring the importance of localized verification.
翻訳日:2023-10-30 13:57:10 公開日:2023-10-27
# 医学画像セグメンテーションのためのchebyshev confidence誘導ソースフリードメイン適応フレームワーク

A Chebyshev Confidence Guided Source-Free Domain Adaptation Framework for Medical Image Segmentation ( http://arxiv.org/abs/2310.18087v1 )

ライセンス: Link先を確認
Jiesi Hu, Yanwu Yang, Xutao Guo, Jinghua Wang, Ting Ma(参考訳) ソースフリードメイン適応(SFDA)は、ラベル付きソースドメインでトレーニングされたモデルを、ソースデータにアクセスせずにラベルなしのターゲットドメインに適応することを目的としている。 医療画像のシナリオでは,プライバシー上の懸念からsfda法の実用的意義が強調されている。 最近のSFDA法は、主に擬似ラベル(PL)に基づく自己学習に依存している。 残念ながら、PLはドメインシフトによる精度の劣化に悩まされ、適応プロセスの有効性が制限される。 そこで本研究では,PLの信頼性を正確に評価し,自己学習のための自己改善PLを生成するためのSFDAフレームワークを提案する。 予測と対応する不確実性から、チェビシェフ信頼度をpl信頼度の下限を計算することにより推定する。 チェビシェフの信頼を生かして,信頼度を導いた2つの弁別法(直接弁別法と原型弁別法)を導入する。 さらに,PLを反復的に改善するための信頼度重み付けモジュールを組み込んだTJTS(Teacher-student joint training scheme)を提案する。 tjtsは、ノイズの伝搬を効果的に防止し、plsの精度を向上させる。 多様なドメインシナリオにおける大規模な実験により,提案手法の有効性が検証され,最先端のSFDA法よりも優れていることが確認された。 本稿では,疑似ラベルの信頼性を高精度に推定する新しい手法と,高品質plsを得るためのフレームワークを提供することにより,適応性能の向上を図ることにより,sfdaの分野に寄与する。

Source-free domain adaptation (SFDA) aims to adapt models trained on a labeled source domain to an unlabeled target domain without the access to source data. In medical imaging scenarios, the practical significance of SFDA methods has been emphasized due to privacy concerns. Recent State-of-the-art SFDA methods primarily rely on self-training based on pseudo-labels (PLs). Unfortunately, PLs suffer from accuracy deterioration caused by domain shift, and thus limit the effectiveness of the adaptation process. To address this issue, we propose a Chebyshev confidence guided SFDA framework to accurately assess the reliability of PLs and generate self-improving PLs for self-training. The Chebyshev confidence is estimated by calculating probability lower bound of the PL confidence, given the prediction and the corresponding uncertainty. Leveraging the Chebyshev confidence, we introduce two confidence-guided denoising methods: direct denoising and prototypical denoising. Additionally, we propose a novel teacher-student joint training scheme (TJTS) that incorporates a confidence weighting module to improve PLs iteratively. The TJTS, in collaboration with the denoising methods, effectively prevents the propagation of noise and enhances the accuracy of PLs. Extensive experiments in diverse domain scenarios validate the effectiveness of our proposed framework and establish its superiority over state-of-the-art SFDA methods. Our paper contributes to the field of SFDA by providing a novel approach for precisely estimating the reliability of pseudo-labels and a framework for obtaining high-quality PLs, resulting in improved adaptation performance.
翻訳日:2023-10-30 13:56:46 公開日:2023-10-27
# 自己監督型学習における確率的埋め込みの可能性

Unveiling the Potential of Probabilistic Embeddings in Self-Supervised Learning ( http://arxiv.org/abs/2310.18080v1 )

ライセンス: Link先を確認
Denis Janiak, Jakub Binkowski, Piotr Bielak, Tomasz Kajdanowicz(参考訳) 近年、自己教師あり学習は、ラベルなしのデータから有意義な表現を得ることで、機械学習の進歩において重要な役割を果たしている。 興味深い研究の道は、情報理論の枠組みの中で自己教師付きモデルを開発することであるが、多くの研究は、目的を導出するときの確率的仮定から逸脱する。 この問題に対する深い洞察を得るためには,確率的埋め込みによる表現を明示的にモデル化し,その効果,情報圧縮,分散検出の可能性を評価することを提案する。 情報理論の観点から,情報ボトルネックに対する確率モデルの影響を考察し,表現空間と損失空間における情報の圧縮と保存のトレードオフに光を当てる。 これら2つの空間を区別することの重要性を強調し、一方の制約が他方にどのように影響し、潜在的に性能劣化につながるかを実証する。 さらに, 損失空間に新たなボトルネックを導入することにより, 分布の表現的特徴や分散を生かして, 分布外例を検出する能力が著しく向上することが示唆された。

In recent years, self-supervised learning has played a pivotal role in advancing machine learning by allowing models to acquire meaningful representations from unlabeled data. An intriguing research avenue involves developing self-supervised models within an information-theoretic framework, but many studies often deviate from the stochasticity assumptions made when deriving their objectives. To gain deeper insights into this issue, we propose to explicitly model the representation with stochastic embeddings and assess their effects on performance, information compression and potential for out-of-distribution detection. From an information-theoretic perspective, we seek to investigate the impact of probabilistic modeling on the information bottleneck, shedding light on a trade-off between compression and preservation of information in both representation and loss space. Emphasizing the importance of distinguishing between these two spaces, we demonstrate how constraining one can affect the other, potentially leading to performance degradation. Moreover, our findings suggest that introducing an additional bottleneck in the loss space can significantly enhance the ability to detect out-of-distribution examples, only leveraging either representation features or the variance of their underlying distribution.
翻訳日:2023-10-30 13:56:19 公開日:2023-10-27
# カーネルヒルベルト空間の再生におけるリプシッツとH\古い連続性

Lipschitz and H\"older Continuity in Reproducing Kernel Hilbert Spaces ( http://arxiv.org/abs/2310.18078v1 )

ライセンス: Link先を確認
Christian Fiedler(参考訳) 再現カーネルヒルベルト空間(RKHS)は非常に重要な関数空間であり、機械学習、統計学、数値解析、純粋数学において重要な役割を果たす。 Lipschitz と H\"older の連続性は重要な正則性の性質であり、補間、近似、最適化問題に多くの応用があるので、本研究では RKHS におけるこれらの連続性の概念について検討する。 我々は、所定のリプシッツまたはh\"older continuityを誘発する再生核の詳細な調査に加えて、いくつかの十分な条件を提供する。 新たな結果とは別に,文献から関連する既知の結果も収集し,本論文を本トピックの参考文献とした。

Reproducing kernel Hilbert spaces (RKHSs) are very important function spaces, playing an important role in machine learning, statistics, numerical analysis and pure mathematics. Since Lipschitz and H\"older continuity are important regularity properties, with many applications in interpolation, approximation and optimization problems, in this work we investigate these continuity notion in RKHSs. We provide several sufficient conditions as well as an in depth investigation of reproducing kernels inducing prescribed Lipschitz or H\"older continuity. Apart from new results, we also collect related known results from the literature, making the present work also a convenient reference on this topic.
翻訳日:2023-10-30 13:55:59 公開日:2023-10-27
# オープンドメイン質問応答における有害文脈

Detrimental Contexts in Open-Domain Question Answering ( http://arxiv.org/abs/2310.18077v1 )

ライセンス: Link先を確認
Philhoon Oh and James Thorne(参考訳) 知識集約型nlpタスクでは、より多くの情報にアクセスすることがモデルのエンドツーエンドパフォーマンス改善の要因であると広く受け入れられている。 しかし、反故意に、一般的な質問応答(QA)データセットで評価すると、コンテキストが多すぎるとモデルに悪影響を及ぼす可能性がある。 本稿では,質問応答に使用される検索テーマのアーキテクチャに対して,パスが有害な影響を与えるか分析する。 我々の経験的証拠は、現在の読み取りアーキテクチャは、取得したパスを完全に活用せず、そのサブセットを利用するよりも、全パスを使用する場合のパフォーマンスが著しく低下していることを示している。 この結果から,2つの人気のあるQAデータセットにおいて,有害経路をフィルタリングすることにより,モデル精度を10%向上できることが示唆された。 さらに、さらなる訓練やデータなしで既存の検索方法を利用して、これらの結果を得る。 さらに、有害な通路の特定に関わる課題を強調します。 まず、正しいコンテキストであっても、モデルが誤った予測を行うことができ、どのパスが最も影響力があるかを決定する上での課題となる。 第二に、評価は通常、正しい答えのバリエーションに対して堅牢でない語彙マッチングを考慮する。 これらの制限にもかかわらず、実験結果は、コンテキスト効率のよい検索-then-readパイプラインのための、これらの有害な通路を識別および削除する重要な役割を強調する。 コードとデータはhttps://github.com/xfactlab/emnlp2023-damaging-retrievalで入手できる。

For knowledge intensive NLP tasks, it has been widely accepted that accessing more information is a contributing factor to improvements in the model's end-to-end performance. However, counter-intuitively, too much context can have a negative impact on the model when evaluated on common question answering (QA) datasets. In this paper, we analyze how passages can have a detrimental effect on retrieve-then-read architectures used in question answering. Our empirical evidence indicates that the current read architecture does not fully leverage the retrieved passages and significantly degrades its performance when using the whole passages compared to utilizing subsets of them. Our findings demonstrate that model accuracy can be improved by 10% on two popular QA datasets by filtering out detrimental passages. Additionally, these outcomes are attained by utilizing existing retrieval methods without further training or data. We further highlight the challenges associated with identifying the detrimental passages. First, even with the correct context, the model can make an incorrect prediction, posing a challenge in determining which passages are most influential. Second, evaluation typically considers lexical matching, which is not robust to variations of correct answers. Despite these limitations, our experimental results underscore the pivotal role of identifying and removing these detrimental passages for the context-efficient retrieve-then-read pipeline. Code and data are available at https://github.com/xfactlab/emnlp2023-damaging-retrieval
翻訳日:2023-10-30 13:55:45 公開日:2023-10-27
# 質問応答における知識コーパス誤り

Knowledge Corpus Error in Question Answering ( http://arxiv.org/abs/2310.18076v1 )

ライセンス: Link先を確認
Yejoon Lee, Philhoon Oh, James Thorne(参考訳) オープンドメイン質問応答(QA)における最近の研究は、大規模言語モデル(LLM)からコンテキストパスを生成し、QAパイプラインにおける従来の検索ステップを置き換えることを検討している。 しかし、なぜ生成した節が検索された節よりも効果的になるのかはよく分かっていない。 本稿では,従来のQAの定式化を再考し,知識コーパスエラーの概念を紹介する。 この誤りは、検索に使用する知識コーパスが文字列空間全体のサブセットに過ぎず、コーパスの外にあるより有用なパスを除外する可能性がある場合に発生する。 LLMは、この欠点を軽減するために、より大きな空間の通路を生成する。 我々は, LLMを用いて, 知識コーパスの誤りを経験的に観察する実験を行った。 3つのQAベンチマークに比較して,パラフレーズパスを用いた場合のパフォーマンスが10%~13%向上し,知識コーパスエラー発生のシグナルが示唆された。 私たちのコードはhttps://github.com/xfactlab/emnlp2023-knowledge-corpus-errorで利用可能です。

Recent works in open-domain question answering (QA) have explored generating context passages from large language models (LLMs), replacing the traditional retrieval step in the QA pipeline. However, it is not well understood why generated passages can be more effective than retrieved ones. This study revisits the conventional formulation of QA and introduces the concept of knowledge corpus error. This error arises when the knowledge corpus used for retrieval is only a subset of the entire string space, potentially excluding more helpful passages that exist outside the corpus. LLMs may mitigate this shortcoming by generating passages in a larger space. We come up with an experiment of paraphrasing human-annotated gold context using LLMs to observe knowledge corpus error empirically. Our results across three QA benchmarks reveal an increased performance (10% - 13%) when using paraphrased passage, indicating a signal for the existence of knowledge corpus error. Our code is available at https://github.com/xfactlab/emnlp2023-knowledge-corpus-error
翻訳日:2023-10-30 13:55:22 公開日:2023-10-27
# duma: 速い思考と遅い思考を持つデュアルマインド会話エージェント

DUMA: a Dual-Mind Conversational Agent with Fast and Slow Thinking ( http://arxiv.org/abs/2310.18075v1 )

ライセンス: Link先を確認
Xiaoyu Tian, Liangyu Chen, Na Liu, Yaxuan Liu, Wei Zou, Kaijiang Chen, Ming Cui(参考訳) 人間の認知の二重プロセス理論に着想を得て,2つの生成的大言語モデル(LLM)をそれぞれ高速・低速な思考に用い,二重マシン機構を具現化した対話エージェントフレームワークであるDUMAを導入する。 高速思考モデルは、外的相互作用と初期応答生成の主要なインターフェースとして機能し、完全な応答の複雑さに基づいて、遅い思考モデルに取り組む必要性を評価する。 起動すると、遅い思考モデルが会話を引き継ぎ、綿密な計画、推論、ツール利用に取り組み、よく分析された応答を提供する。 このデュアルミンド構成は、直感的な応答と状況に基づいた意図的な問題解決プロセスのシームレスな遷移を可能にする。 我々は,不動産業界のオンライン調査を扱う対話エージェントを構築した。 実験は,本手法が有効性と効率のバランスをとることを証明し,ベースラインと比較して著しく改善した。

Inspired by the dual-process theory of human cognition, we introduce DUMA, a novel conversational agent framework that embodies a dual-mind mechanism through the utilization of two generative Large Language Models (LLMs) dedicated to fast and slow thinking respectively. The fast thinking model serves as the primary interface for external interactions and initial response generation, evaluating the necessity for engaging the slow thinking model based on the complexity of the complete response. When invoked, the slow thinking model takes over the conversation, engaging in meticulous planning, reasoning, and tool utilization to provide a well-analyzed response. This dual-mind configuration allows for a seamless transition between intuitive responses and deliberate problem-solving processes based on the situation. We have constructed a conversational agent to handle online inquiries in the real estate industry. The experiment proves that our method balances effectiveness and efficiency, and has a significant improvement compared to the baseline.
翻訳日:2023-10-30 13:54:59 公開日:2023-10-27
# 平均場限におけるカーネルベース統計学習について

On kernel-based statistical learning in the mean field limit ( http://arxiv.org/abs/2310.18074v1 )

ライセンス: Link先を確認
Christian Fiedler, Michael Herty, Sebastian Trimpe(参考訳) 機械学習の多くの応用において、多くの変数が考慮される。 相互作用する粒子系の機械学習に動機づけられ,入力変数の数が無限になる状況について考察する。 まず、カーネルの平均場限とそれらの再生核ヒルベルト空間に関する最近の研究を継続し、既存の理論を完結させる。 次に、表現定理を含む平均場限界におけるそのようなカーネルとの近似に関する結果を提供する。 最後に,これらのカーネルを平均場限界における統計的学習の文脈で使用し,サポートベクターマシンに着目した。 特に,経験的および無限サンプル解の平均場収束と対応するリスクの収束を示す。 一方,カーネル手法の文脈における厳密な平均場限界を確立し,大規模問題に対する新たな理論ツールと洞察を提供する。 一方,この設定は,統計的学習理論の文献ではまだ研究されていないと思われる,学習問題の限界の新たな形態に対応している。

In many applications of machine learning, a large number of variables are considered. Motivated by machine learning of interacting particle systems, we consider the situation when the number of input variables goes to infinity. First, we continue the recent investigation of the mean field limit of kernels and their reproducing kernel Hilbert spaces, completing the existing theory. Next, we provide results relevant for approximation with such kernels in the mean field limit, including a representer theorem. Finally, we use these kernels in the context of statistical learning in the mean field limit, focusing on Support Vector Machines. In particular, we show mean field convergence of empirical and infinite-sample solutions as well as the convergence of the corresponding risks. On the one hand, our results establish rigorous mean field limits in the context of kernel methods, providing new theoretical tools and insights for large-scale problems. On the other hand, our setting corresponds to a new form of limit of learning problems, which seems to have not been investigated yet in the statistical learning theory literature.
翻訳日:2023-10-30 13:54:29 公開日:2023-10-27
# 可変形状コレクションの教師なし表現学習

Unsupervised Representation Learning for Diverse Deformable Shape Collections ( http://arxiv.org/abs/2310.18141v1 )

ライセンス: Link先を確認
Sara Hahner, Souhaib Attaiki, Jochen Garcke, Maks Ovsjanikov(参考訳) 本稿では,3次元表面メッシュの符号化と操作を行う新しい学習手法を提案する。 本手法は変形可能な形状コレクションのための解釈可能な埋め込み空間を作成するために特別に設計されている。 メッシュを1対1で対応させる従来の3Dメッシュオートエンコーダとは異なり、我々のアプローチは教師なしの方法で多様なメッシュで訓練されている。 メッシュ接続や形状カテゴリの従来の制約から解放された普遍的潜在空間を確立する,スペクトルプーリング手法が本手法の中心である。 全工程は2段階からなる。 第一段階では、関数写像パラダイムを用いて、教師なしの方法で形状の集合間の点対点(p2p)マップを抽出する。 これらの p2p マップは共通の潜在空間を構築するために利用され、メッシュ接続性や形状圏からの直接的な解釈と独立性を保証する。 広範な実験により,本手法が優れた再構成を達成し,ベースラインアプローチよりも現実的かつ円滑な補間を実現することを実証した。

We introduce a novel learning-based method for encoding and manipulating 3D surface meshes. Our method is specifically designed to create an interpretable embedding space for deformable shape collections. Unlike previous 3D mesh autoencoders that require meshes to be in a 1-to-1 correspondence, our approach is trained on diverse meshes in an unsupervised manner. Central to our method is a spectral pooling technique that establishes a universal latent space, breaking free from traditional constraints of mesh connectivity and shape categories. The entire process consists of two stages. In the first stage, we employ the functional map paradigm to extract point-to-point (p2p) maps between a collection of shapes in an unsupervised manner. These p2p maps are then utilized to construct a common latent space, which ensures straightforward interpretation and independence from mesh connectivity and shape category. Through extensive experiments, we demonstrate that our method achieves excellent reconstructions and produces more realistic and smoother interpolations than baseline approaches.
翻訳日:2023-10-30 13:46:35 公開日:2023-10-27
# 量子コードの最適単一ショット復号法

Optimal Single-Shot Decoding of Quantum Codes ( http://arxiv.org/abs/2310.18138v1 )

ライセンス: Link先を確認
Aldo Cumitini, Stefano Tinelli, Bal\'azs Matuz, Francisco L\'azaro, Luca Barletta(参考訳) 量子カルダーバンク・ソール・ステアン符号の単一ショット復号について,故障シンドローム測定を用いて検討する。 我々は、この問題を共用音源チャネル符号化問題として記述する。 コードのパリティチェックマトリックスに冗長な行を追加することで、障害症候群の測定に対処する追加のシンドロームエラー訂正コードが得られる。 これにより、冗長行が選択され、安定剤重みを低く保ちながら、良好なシンドロームエラー補正能力が得られる。 一般的な符号では複雑すぎるが、短い量子符号では評価できない最適結合復号法が導出される。

We discuss single-shot decoding of quantum Calderbank-Shor-Steane codes with faulty syndrome measurements. We state the problem as a joint source-channel coding problem. By adding redundant rows to the code's parity-check matrix we obtain an additional syndrome error correcting code which addresses faulty syndrome measurements. Thereby, the redundant rows are chosen to obtain good syndrome error correcting capabilities while keeping the stabilizer weights low. Optimal joint decoding rules are derived which, though too complex for general codes, can be evaluated for short quantum codes.
翻訳日:2023-10-30 13:46:19 公開日:2023-10-27
# 等変単純分布と量子文脈性

Equivariant simplicial distributions and quantum contextuality ( http://arxiv.org/abs/2310.18135v1 )

ライセンス: Link先を確認
Cihan Okay and Igor Sikora(参考訳) 我々は、対称性群に対する文脈性の同変バージョンを導入し、量子論への自然な応用をもたらす。 同変集合において、文脈性を検出するコホモロジークラスを構築する。 この枠組みは、測定ベースの量子コンピューティングにおいて計算プリミティブとして機能するコホモロジークラスを生成する、以前のトポロジカルなアプローチに動機づけられている。

We introduce an equivariant version of contextuality with respect to a symmetry group, which comes with natural applications to quantum theory. In the equivariant setting, we construct cohomology classes that can detect contextuality. This framework is motivated by the earlier topological approach to contextuality producing cohomology classes that serve as computational primitives in measurement-based quantum computing.
翻訳日:2023-10-30 13:46:11 公開日:2023-10-27
# 光速通信原理に制限されない量子演算と位置ベースにおける客観性の一般的な出現

Quantum operations restricted by no faster-than-light communication principle and generic emergence of objectivity in position basis ( http://arxiv.org/abs/2310.18133v1 )

ライセンス: Link先を確認
Rajendra Singh Bhati and Arvind(参考訳) 客観的古典世界の出現は、微視的構成要素の量子的挙動から完全には理解されていない。 このような説明を提供しようとするデコヒーレンスと量子ダーウィン主義の原理に基づくモデルは、システムとバスの相互作用を優先的に要求する。 したがって、現実世界で見られるように、位置ベースにおける客観性の一般的な出現は、まだ説明されていない。 本文では,非高速光通信の原理に基づくノーゴー定理を提示し,内部自由度間の相互作用がシステム波動関数を必然的に位置ベースで分岐させることを示す。 この結果をスピンデコヒーレンスモデルに適用し、一般的な熱スピン1/2浴がスピン1/2粒子の位置に関する情報を冗長に記録することを示す。 特に、このモデルは望ましいスピン相互作用を仮定しない。 これらの発見は、位置に基づく客観性の一般的な出現を示す説得力のある証拠である。

The emergence of the objective classical world from the quantum behavior of microscopic constituents is not fully understood. Models based on decoherence and the principle of quantum Darwinism, which attempt to provide such an explanation, require system-bath interactions in a preferred basis. Thus, the generic emergence of objectivity in the position basis, as observed in the real world remains unexplained. In this Letter, we present a no-go theorem based on the principle of no-faster-than-light communication, showing that interactions between internal degrees of freedom unavoidably cause system wave functions to branch in the position basis. We apply this result to a spin decoherence model to demonstrate that a generic thermal spin-1/2 bath redundantly records information about the position of a spin-1/2 particle. Notably, the model does not assume any preferred spin interaction. These findings represent a compelling demonstration of the generic emergence of objectivity in the position basis.
翻訳日:2023-10-30 13:46:03 公開日:2023-10-27
# 頭部・視線空間・時間的相互作用コンテキストのキャプチャによるエンドツーエンド映像視線推定

End-to-end Video Gaze Estimation via Capturing Head-face-eye Spatial-temporal Interaction Context ( http://arxiv.org/abs/2310.18131v1 )

ライセンス: Link先を確認
Yiran Guan, Zhuoguang Chen, Wenzheng Zeng, Zhiguo Cao, and Yang Xiao(参考訳) 本稿では,頭部,顔,眼の空間的相互作用コンテキストを,まだ意識されていないエンドツーエンドの学習方法で把握し,映像の視線推定を容易にする新しい手法MCGaze(Multi-Clue Gaze)を提案する。 mcgazeの主な利点は、頭、顔、目の手がかりの局在化のタスクを、最適な性能を求めるための協調最適化とともに、一段階の視点推定のために共同で解決できることである。 この間、空間的-時間的文脈交換は頭、顔、目の手がかりの間で起こる。 したがって、様々なクエリから特徴を融合して得られる最終視線は、頭や顔からのグローバルな手がかりと、パフォーマンスを生かした目からのローカルな手がかりを同時に認識することができる。 一方、ワンステップ走行方式は高い走行効率を確保する。 gaze360データセットの挑戦的な実験は、提案の優越性を検証する。 ソースコードはhttps://github.com/zgchen33/MCGazeで公開される。

In this letter, we propose a new method, Multi-Clue Gaze (MCGaze), to facilitate video gaze estimation via capturing spatial-temporal interaction context among head, face, and eye in an end-to-end learning way, which has not been well concerned yet. The main advantage of MCGaze is that the tasks of clue localization of head, face, and eye can be solved jointly for gaze estimation in a one-step way, with joint optimization to seek optimal performance. During this, spatial-temporal context exchange happens among the clues on the head, face, and eye. Accordingly, the final gazes obtained by fusing features from various queries can be aware of global clues from heads and faces, and local clues from eyes simultaneously, which essentially leverages performance. Meanwhile, the one-step running way also ensures high running efficiency. Experiments on the challenging Gaze360 dataset verify the superiority of our proposition. The source code will be released at https://github.com/zgchen33/MCGaze.
翻訳日:2023-10-30 13:45:48 公開日:2023-10-27
# DELPHI: 論争問題への対処におけるLLMの性能評価データ

DELPHI: Data for Evaluating LLMs' Performance in Handling Controversial Issues ( http://arxiv.org/abs/2310.18130v1 )

ライセンス: Link先を確認
David Q. Sun, Artem Abzaliev, Hadas Kotek, Zidi Xiu, Christopher Klein, Jason D. Williams(参考訳) 論争は我々の世俗主義の反映であり、あらゆる言説にとって重要な側面である。 対話型システムとしての大規模言語モデル(LLM)の台頭は、これらのシステムに対する様々な質問に対する回答に対する大衆の信頼を高めている。 したがって、これらのモデルが進行中の議論に関連する質問に対してどのように反応するかを体系的に検討することが重要である。 しかし、現代の議論を反映した人名ラベルの提供にはそのようなデータセットはほとんど存在しない。 この分野の研究を促進するために,議論を呼んでいる質問データセットを新たに構築し,一般公開されたQuora Question Pairs Datasetに拡張する。 このデータセットは、知識の正確性、安全性、公平性、バイアスに関する課題を示す。 我々は、このデータセットのサブセットを使用して異なるLCMを評価し、議論を呼んでいる問題と彼らが採用する姿勢をどのように扱うかを明らかにした。 この研究は最終的に、LLMと議論の的となる問題との相互作用の理解に寄与し、それらの理解の改善と複雑な社会的議論への対処の道を開いた。

Controversy is a reflection of our zeitgeist, and an important aspect to any discourse. The rise of large language models (LLMs) as conversational systems has increased public reliance on these systems for answers to their various questions. Consequently, it is crucial to systematically examine how these models respond to questions that pertaining to ongoing debates. However, few such datasets exist in providing human-annotated labels reflecting the contemporary discussions. To foster research in this area, we propose a novel construction of a controversial questions dataset, expanding upon the publicly released Quora Question Pairs Dataset. This dataset presents challenges concerning knowledge recency, safety, fairness, and bias. We evaluate different LLMs using a subset of this dataset, illuminating how they handle controversial issues and the stances they adopt. This research ultimately contributes to our understanding of LLMs' interaction with controversial issues, paving the way for improvements in their comprehension and handling of complex societal debates.
翻訳日:2023-10-30 13:45:29 公開日:2023-10-27
# より多く、もっとよく聞く: 大規模言語モデルによる意思決定のための強化学習型プロンプト質問

Ask more, know better: Reinforce-Learned Prompt Questions for Decision Making with Large Language Models ( http://arxiv.org/abs/2310.18127v1 )

ライセンス: Link先を確認
Xue Yan, Yan Song, Xinyu Cui, Filippos Christianos, Haifeng Zhang, David Henry Mguni, Jun Wang(参考訳) 大規模言語モデル(LLM)は、行動ベースのポリシーと思考の連鎖(CoT)推論を組み合わせることで、複雑な実践的な課題に取り組むという彼らの約束を示す。 しかし、高品質なプロンプトを持つことは、フレームワークの有効性にとって不可欠である。 現在、これらのプロンプトは広範囲な人的労働力を利用して手作りされており、その結果、しばしば一般化に失敗するCoTポリシーが導かれる。 人間の介入も必要であり、低レベルコントローラがCoT推論を適切に処理するための基盤関数を開発する。 本稿では,複雑な推論を用いた実環境におけるタスク解決のための,完全に統合されたエンドツーエンドフレームワークに向けた第一歩を踏み出す。 その目的のために、関係する質問(プロンプト)を学習し、その後、環境における行動の学習を指導するための推論を行うことのできる、新しいリーダー・フォロー・バイレベル・フレームワークを提供する。 適切なプロンプトは、歴史的知見に基づいて内省的な修正を行うことで、CoTは予想される目標を考慮すべきである。 プロンプト生成ポリシーは、我々のシステムにおいて独自の目的を持ち、アクションポリシーに適応し、CoTプロセスが決定的かつ高いパフォーマンスのアクションにつながる出力に自動的に根ざすことができる。 一方、アクションポリシーは、cot出力を使って特定のアクションを取る方法を学びます。 実験データによると,本システムはOvercookedやFourRoomといったエージェント学習ベンチマークにおいて,先進的な手法よりも優れていることがわかった。

Large language models (LLMs) demonstrate their promise in tackling complicated practical challenges by combining action-based policies with chain of thought (CoT) reasoning. Having high-quality prompts on hand, however, is vital to the framework's effectiveness. Currently, these prompts are handcrafted utilizing extensive human labor, resulting in CoT policies that frequently fail to generalize. Human intervention is also required in order to develop grounding functions that ensure low-level controllers appropriately process CoT reasoning. In this paper, we take the first step towards a fully integrated end-to-end framework for task-solving in real settings employing complicated reasoning. To that purpose, we offer a new leader-follower bilevel framework capable of learning to ask relevant questions (prompts) and subsequently undertaking reasoning to guide the learning of actions to be performed in an environment. A good prompt should make introspective revisions based on historical findings, leading the CoT to consider the anticipated goals. A prompt-generator policy has its own aim in our system, allowing it to adapt to the action policy and automatically root the CoT process towards outputs that lead to decisive, high-performing actions. Meanwhile, the action policy is learning how to use the CoT outputs to take specific actions. Our empirical data reveal that our system outperforms leading methods in agent learning benchmarks such as Overcooked and FourRoom.
翻訳日:2023-10-30 13:45:13 公開日:2023-10-27
# 超ラジカル多量冷凍機のフロケット解析

Floquet analysis of a superradiant many-qutrit refrigerator ( http://arxiv.org/abs/2310.18126v1 )

ライセンス: Link先を確認
Dmytro Kolisnyk and Friedemann Queisser and Gernot Schaller and Ralf Sch\"utzhold(参考訳) 熱水貯留層と冷水貯留層に結合され、さらに周期的(循環的)駆動を受けるn$3-レベル系の冷蔵性能の超ラジアント強化について検討した。 システム-保存結合が弱くなると仮定し, 集合的弱駆動, フロッケ-リンドブラッド, フロッケ-レッドフィールドマスター方程式を比較することにより, より強い周期駆動強度の体系を探求する。 本研究では, 周期駆動によって誘導される電力が, 寒冷から高温の貯水池へ熱を汲み上げ, フロケ・リンドブラッド・マスター方程式のサイクル解析に基づいて十分な解析条件を導出する機構を同定する。 これらの制度では, 冷却電流をN$で2次スケーリングするようなパラメータの集合的拡張も期待でき, 数値シミュレーションによる議論を支援することができる。

We investigate superradiant enhancements in the refrigeration performance in a set of $N$ three-level systems that are collectively coupled to a hot and a cold thermal reservoir and are additionally subject to collective periodic (circular) driving. Assuming the system-reservoir coupling to be weak, we explore the regime of stronger periodic driving strengths by comparing collective weak-driving, Floquet-Lindblad, and Floquet-Redfield master equations. We identify regimes where the power injected by the periodic driving is used to pump heat from the cold to the hot reservoir and derive analytic sufficient conditions for them based on a cycle analysis of the Floquet-Lindblad master equation. In those regimes, we also argue for which parameters collective enhancements like a quadratic scaling of the cooling current with $N$ can be expected and support our arguments by numerical simulations.
翻訳日:2023-10-30 13:44:45 公開日:2023-10-27
# スコアマッチングのためのサンプル複雑度境界:因果発見と生成モデリング

Sample Complexity Bounds for Score-Matching: Causal Discovery and Generative Modeling ( http://arxiv.org/abs/2310.18123v1 )

ライセンス: Link先を確認
Zhenyu Zhu, Francesco Locatello, Volkan Cevher(参考訳) 本稿では,スコアマッチングのための統計的サンプル複雑性境界とその因果発見への応用について述べる。 我々は,確率勾配勾配を用いた標準深部ReLUニューラルネットワークのトレーニングにより,スコア関数の正確な推定が可能であることを実証した。 スコアマッチングに基づくRollandらの因果発見手法を用いて,因果関係の回復の誤差率の限界を確立する。 [2022] スコア関数を十分に適切に推定すると仮定する。 最後に,因果発見に適用されているが生成モデルの領域内では独立した関心を持つスコアベース生成モデルにおいて,スコアマッチング推定の上限を解析した。

This paper provides statistical sample complexity bounds for score-matching and its applications in causal discovery. We demonstrate that accurate estimation of the score function is achievable by training a standard deep ReLU neural network using stochastic gradient descent. We establish bounds on the error rate of recovering causal relationships using the score-matching-based causal discovery method of Rolland et al. [2022], assuming a sufficiently good estimation of the score function. Finally, we analyze the upper bound of score-matching estimation within the score-based generative modeling, which has been applied for causal discovery but is also of independent interest within the domain of generative models.
翻訳日:2023-10-30 13:44:27 公開日:2023-10-27
# OpinSummEval: 意見要約のための自動評価の再検討

OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization ( http://arxiv.org/abs/2310.18122v1 )

ライセンス: Link先を確認
Yuchen Shen, Xiaojun Wan(参考訳) 意見要約は、側面や感情に特有な焦点をあてることから、他の種類の要約タスクとは分離する。 ROUGEのような一部の自動評価手法が人気を博しているが、意見要約の質を評価するには信頼性が低い。 本稿では,人間の判断と14の意見要約モデルからの出力からなるデータセットであるopinsummevalを提案する。 さらに、4次元にわたる24の自動測定値と人間の評価値の相関について検討する。 以上の結果から,ニューラルネットに基づく指標は一般に非ニューラル指標よりも優れていることが示唆された。 しかしながら、BART や GPT-3/3.5 のような強力なバックボーン上に構築されたメトリクスでさえ、すべての次元にわたって一貫して相関するわけではなく、意見要約のための自動評価手法の進歩の必要性を強調している。 コードとデータはhttps://github.com/A-Chicharito-S/OpinSummEval/tree/mainで公開されている。

Opinion summarization sets itself apart from other types of summarization tasks due to its distinctive focus on aspects and sentiments. Although certain automated evaluation methods like ROUGE have gained popularity, we have found them to be unreliable measures for assessing the quality of opinion summaries. In this paper, we present OpinSummEval, a dataset comprising human judgments and outputs from 14 opinion summarization models. We further explore the correlation between 24 automatic metrics and human ratings across four dimensions. Our findings indicate that metrics based on neural networks generally outperform non-neural ones. However, even metrics built on powerful backbones, such as BART and GPT-3/3.5, do not consistently correlate well across all dimensions, highlighting the need for advancements in automated evaluation methods for opinion summarization. The code and data are publicly available at https://github.com/A-Chicharito-S/OpinSummEval/tree/main.
翻訳日:2023-10-30 13:44:18 公開日:2023-10-27
# 円形ブラッグ格子キャビティにおけるシリコンw中心のパーセル増強

Purcell enhancement of silicon W centers in circular Bragg grating cavities ( http://arxiv.org/abs/2310.18121v1 )

ライセンス: Link先を確認
Baptiste Lefaucher (1), Jean-Baptiste Jager (1), Vincent Calvo (1), F\'elix Cache (2), Alrik Durand (2), Vincent Jacques (2), Isabelle Robert-Philip (2), Guillaume Cassabois (2), Yoann Baron (3), Fr\'ed\'eric Mazen (3), S\'ebastien Kerdil\`es (3), Shay Reboh (3), Ana\"is Dr\'eau (2) and Jean-Michel G\'erard (1)(参考訳) シリコンの需要に応じて単一光子を生成することは、シリコンオン絶縁体統合量子フォトニックチップのスケーラビリティへの挑戦である。 人工原子として作用するいくつかの欠陥は、最近反束された単一光子を生成する能力を示しているが、実用的な応用には量子空洞効果による放出の調整が必要である。 本研究では,シリコンオン絶縁体マイクロ共振器に埋め込まれた人工原子のアンサンブルを用いた空洞量子力学実験を行った。 w色中心として知られる研究中のエミッターは、自己イオン注入と熱焼鈍によって生じるシリコン三層間欠陥である。 共振器は、モード反極に位置するW中心のパーセル増強(F_p=12.5$)と効率的な発光抽出(0.26の数値開口に対して40\%$)のために設計された円形ブラッグ格子キャビティからなる。 共振器の共振周波数モードが1218nmのエミッタのゼロフォノン遷移で調整されると、ゼロフォノン線の強度が20倍に向上し、時間分解フォトルミネッセンス実験で全緩和時間の2倍の減少が観測される。 有限差分時間領域シミュレーションに基づき、エミッタと共振キャビティモードの重なりを考慮したw中心アンサンブルにおけるパーセル強化の詳細な理論的解析を提案する。 バルクシリコンのエミッタに対して, 量子効率が65 \pm 10 \%$と仮定して, 実験結果と良好な一致を得た。 したがってwは、シリコンフォトニックチップのキャビティ量子電磁力学を利用した単一光子のオンデマンド源の開発に有望な視点を抱いている。

Generating single photons on demand in silicon is a challenge to the scalability of silicon-on-insulator integrated quantum photonic chips. While several defects acting as artificial atoms have recently demonstrated an ability to generate antibunched single photons, practical applications require tailoring of their emission through quantum cavity effects. In this work, we perform cavity quantum electrodynamics experiments with ensembles of artificial atoms embedded in silicon-on-insulator microresonators. The emitters under study, known as W color centers, are silicon tri-interstitial defects created upon self-ion implantation and thermal annealing. The resonators consist of circular Bragg grating cavities, designed for moderate Purcell enhancement ($F_p=12.5$) and efficient luminescence extraction ($\eta_{coll}=40\%$ for a numerical aperture of 0.26) for W centers located at the mode antinode. When the resonant frequency mode of the cavity is tuned with the zero-phonon transition of the emitters at 1218 nm, we observe a 20-fold enhancement of the zero-phonon line intensity, together with a two-fold decrease of the total relaxation time in time-resolved photoluminescence experiments. Based on finite-difference time-domain simulations, we propose a detailed theoretical analysis of Purcell enhancement for an ensemble of W centers, considering the overlap between the emitters and the resonant cavity mode. We obtain a good agreement with our experimental results assuming a quantum efficiency of $65 \pm 10 \%$ for the emitters in bulk silicon. Therefore, W centers open promising perspectives for the development of on-demand sources of single photons, harnessing cavity quantum electrodynamics in silicon photonic chips.
翻訳日:2023-10-30 13:44:04 公開日:2023-10-27
# 統合会話推薦システムに向けて--文脈的知識蒸留によるマルチタスク学習

Towards a Unified Conversational Recommendation System: Multi-task Learning via Contextualized Knowledge Distillation ( http://arxiv.org/abs/2310.18119v1 )

ライセンス: Link先を確認
Yeongseo Jung, Eunseo Jung, Lei Chen(参考訳) Conversational Recommendation System (CRS)では、自然言語の会話の中でユーザに対して一連のアイテムを推薦するようエージェントに依頼する。 会話能力とパーソナライズドレコメンデーションの両方の必要性に対処するため、先行作品は個別のレコメンデーションと対話モジュールを使用している。 しかし、このようなアプローチは必然的にレコメンデーション結果と生成された応答の相違をもたらす。 このギャップを埋めるために,単一モデルでコンテキスト化知識蒸留(ConKD)を用いて協調的に両方のタスクを学習する統合CRSのためのマルチタスク学習を提案する。 conkdの2つのバージョン、hard gateとsoft gateを紹介します。 前者は2人のタスク固有の教師の間を選択的にゲートし、後者は両方の教師の知識を統合する。 私たちのゲートは、コンテキスト特有の方法でオンザフライで計算され、関連する知識の柔軟な統合が促進されます。 広範な実験により,単一モデルがフラレンシを高めながらレコメンデーション性能を著しく向上し,多様性の観点から同等の結果が得られることが示された。

In Conversational Recommendation System (CRS), an agent is asked to recommend a set of items to users within natural language conversations. To address the need for both conversational capability and personalized recommendations, prior works have utilized separate recommendation and dialogue modules. However, such approach inevitably results in a discrepancy between recommendation results and generated responses. To bridge the gap, we propose a multi-task learning for a unified CRS, where a single model jointly learns both tasks via Contextualized Knowledge Distillation (ConKD). We introduce two versions of ConKD: hard gate and soft gate. The former selectively gates between two task-specific teachers, while the latter integrates knowledge from both teachers. Our gates are computed on-the-fly in a context-specific manner, facilitating flexible integration of relevant knowledge. Extensive experiments demonstrate that our single model significantly improves recommendation performance while enhancing fluency, and achieves comparable results in terms of diversity.
翻訳日:2023-10-30 13:43:33 公開日:2023-10-27
# 大規模IoT粒子状物質モニタリングシステム展開のためのグローバルマルチユニット校正手法

A Global Multi-Unit Calibration as a Method for Large Scale IoT Particulate Matter Monitoring Systems Deployments ( http://arxiv.org/abs/2310.18118v1 )

ライセンス: Link先を確認
Saverio De Vito, Gerardo D Elia, Sergio Ferlito, Girolamo Di Francia, Milos Davidovic, Duska Kleut, Danka Stojanovic, Milena Jovasevic Stojanovic(参考訳) スケーラブルで効果的なキャリブレーションは、低コストの空気品質モニタリングシステムの基本的要件であり、都市における正確かつ広範囲なモニタリングを可能にする。 環境干渉や製造のばらつきが原因で、これらの装置は、空気品質(AQ)モニタリングネットワークにおける指標測定装置として配置される十分な精度に達するための、センサー特有の複雑な校正プロセスを含む必要がある。 コンセプトドリフトとセンサドリフトは、しばしばキャリブレーションプロセスを頻繁に繰り返します。 これらの問題は耐え難いキャリブレーションコストにつながり、精度が懸念される場合に大規模なデプロイメントを拒否する。 本研究では,低コスト粒子状物質(pm)センサを用いたiot aqマルチセンサデバイスのための技術実現手段として,ゼロ転送サンプル,グローバルキャリブレーション手法を提案する。 この方法論は、限られた数のIoT AQマルチセンサーユニットと機械学習の概念からのフィールド記録応答に基づいており、同じタイプのすべてのユニットに普遍的に適用することができる。 マルチシーズンテストのキャンペーンでは、異なるセンサーに適用した場合、異なるユニットごとに異なるキャリブレーションパラメータを導出する必要がある技術方法論の状態と、この手法の性能が一致することを示した。 これらの結果から,グローバルキャリブレーション法が適切に導出されれば,大規模なネットワークデバイスに利用でき,コストが劇的に削減され,最終的には正確なIoT AQ監視デバイスの大規模展開が可能になることが確認された。 さらに、このキャリブレーションモデルを簡単にデバイスに組み込むか、エッジに実装することで、パーソナル露出モニターアプリケーションに対する正確な読み出しへの即時アクセスを可能にし、長距離データ転送のニーズを低減できる。

Scalable and effective calibration is a fundamental requirement for Low Cost Air Quality Monitoring Systems and will enable accurate and pervasive monitoring in cities. Suffering from environmental interferences and fabrication variance, these devices need to encompass sensors specific and complex calibration processes for reaching a sufficient accuracy to be deployed as indicative measurement devices in Air Quality (AQ) monitoring networks. Concept and sensor drift often force calibration process to be frequently repeated. These issues lead to unbearable calibration costs which denies their massive deployment when accuracy is a concern. In this work, We propose a zero transfer samples, global calibration methodology as a technological enabler for IoT AQ multisensory devices which relies on low cost Particulate Matter (PM) sensors. This methodology is based on field recorded responses from a limited number of IoT AQ multisensors units and machine learning concepts and can be universally applied to all units of the same type. A multi season test campaign shown that, when applied to different sensors, this methodology performances match those of state of the art methodology which requires to derive different calibration parameters for each different unit. If confirmed, these results show that, when properly derived, a global calibration law can be exploited for a large number of networked devices with dramatic cost reduction eventually allowing massive deployment of accurate IoT AQ monitoring devices. Furthermore, this calibration model could be easily embedded on board of the device or implemented on the edge allowing immediate access to accurate readings for personal exposure monitor applications as well as reducing long range data transfer needs.
翻訳日:2023-10-30 13:43:14 公開日:2023-10-27
# 直接非教師なしDenoising

Direct Unsupervised Denoising ( http://arxiv.org/abs/2310.18116v1 )

ライセンス: Link先を確認
Benjamin Salmon and Alexander Krull(参考訳) 従来の教師付きデノイザーは、ノイズの多い入力とクリーンなターゲットイメージのペアを使って訓練される。 彼らは、可能なクリーンイメージよりも後方分布の中央傾向を予測することを学ぶ。 例えば、人気のある二次損失関数で訓練された場合、ネットワークの出力は最小平均二乗誤差(MMSE)推定に対応する。 変分オートエンコーダ(VAEs)に基づく教師なしノイズキャンセラーは、トレーニング入力として、未ペアノイズデータのみを必要としながら、最先端の結果を達成することに成功した。 従来の教師なしのアプローチとは対照的に、教師なしのデノイザーはmmse推定のような単一の予測を直接生成するのではなく、ノイズの多い入力に対応するクリーンな解の後方分布からサンプルを描くことができる。 推論中のMMSE推定を近似するためには、教師なしの手法は多数のサンプル(計算コストの高いプロセス)を作成し、描画する必要がある。 本稿では,vaeと並行して決定論的ネットワークを訓練し,中心傾向を直接予測する手法を提案する。 本手法は,教師なし手法により得られた結果を計算コストのごく一部で上回る結果を得る。

Traditional supervised denoisers are trained using pairs of noisy input and clean target images. They learn to predict a central tendency of the posterior distribution over possible clean images. When, e.g., trained with the popular quadratic loss function, the network's output will correspond to the minimum mean square error (MMSE) estimate. Unsupervised denoisers based on Variational AutoEncoders (VAEs) have succeeded in achieving state-of-the-art results while requiring only unpaired noisy data as training input. In contrast to the traditional supervised approach, unsupervised denoisers do not directly produce a single prediction, such as the MMSE estimate, but allow us to draw samples from the posterior distribution of clean solutions corresponding to the noisy input. To approximate the MMSE estimate during inference, unsupervised methods have to create and draw a large number of samples - a computationally expensive process - rendering the approach inapplicable in many situations. Here, we present an alternative approach that trains a deterministic network alongside the VAE to directly predict a central tendency. Our method achieves results that surpass the results achieved by the unsupervised method at a fraction of the computational cost.
翻訳日:2023-10-30 13:42:45 公開日:2023-10-27
# 検出器ビンニングによるガウスボソンサンプリングの検証

Gaussian boson sampling validation via detector binning ( http://arxiv.org/abs/2310.18113v1 )

ライセンス: Link先を確認
Gabriele Bressanini, Benoit Seron, Leonardo Novo, Nicolas J. Cerf and M.S. Kim(参考訳) ガウス・ボソンサンプリング(gaussian boson sampling, gbs)は、古典的マシンではシミュレーションが難しいと推測される計算問題であり、近年の量子的優位性を示す実験的・理論的取り組みの最前線にある。 サンプリングタスクの古典的な難易度は、これらの実験の検証を困難かつ不可欠な作業にする。 本稿では,光子数分解検出器を用いたgbs実験を統計的に検証するための適切な量として,binned-detector確率分布を提案する。 それぞれの特性関数との接続を利用してそのような分布を計算する方法を示す。 後者は、スクワッシュ状態のような関連する古典的仮説と同様に、圧縮された入力状態に対して効率的かつ解析的に計算することができる。 本手法は限界分布と相関関数に基づく他の検証手法を包含する。 さらに、gbsフレームワーク内ではほとんど注目されていない損失や部分的識別性など、さまざまなノイズソースに対応できる。 また,全干渉型ネットワーク上で平均値が得られた場合,バイナリ検出確率分布がどのように振る舞うかを示し,fock bosonサンプリングの既知の結果を拡張した。

Gaussian boson sampling (GBS), a computational problem conjectured to be hard to simulate on a classical machine, has been at the forefront of recent years' experimental and theoretical efforts to demonstrate quantum advantage. The classical intractability of the sampling task makes validating these experiments a challenging and essential undertaking. In this paper, we propose binned-detector probability distributions as a suitable quantity to statistically validate GBS experiments employing photon-number-resolving detectors. We show how to compute such distributions by leveraging their connection with their respective characteristic function. The latter may be efficiently and analytically computed for squeezed input states as well as for relevant classical hypothesis like squashed states. Our scheme encompasses other validation methods based on marginal distributions and correlation functions. Additionally, it can accommodate various sources of noise, such as losses and partial distinguishability, a feature that have received limited attention within the GBS framework so far. We also illustrate how binned-detector probability distributions behave when Haar-averaged over all possible interferometric networks, extending known results for Fock boson sampling.
翻訳日:2023-10-30 13:42:27 公開日:2023-10-27
# 1つのモデルがすべて:クロスリージョンタクシーの予測

One Model Fits All: Cross-Region Taxi-Demand Forecasting ( http://arxiv.org/abs/2310.18215v1 )

ライセンス: Link先を確認
Ren Ozeki, Haruki Yonekura, Aidana Baimbetova, Hamada Rizk, Hirozumi Yamaguchi(参考訳) 配車サービスの需要増加により、正確なタクシー需要予測の必要性が高まっている。 既存のシステムは特定の領域に限られており、見えない領域に一般化性がない。 本稿では,都市環境における空間依存やパターンの把握にグラフニューラルネットワークを活用する新しいタクシー需要予測システムを提案する。 さらに,提案システムでは,未確認領域を含む任意の領域に適用可能なモデルをトレーニング可能な領域ニュートラルアプローチを採用している。 これを実現するために、このフレームワークは変分オートエンコーダのパワーを取り入れ、入力特徴を領域固有および領域ニュートラルなコンポーネントに分解する。 地域ニュートラルの特徴は、地域横断タクシー需要予測を促進し、異なる都市部でモデルをうまく一般化することができる。 実験の結果,従来観測されていなかった地域においても,タクシー需要を正確に予測できるシステムの有効性が示され,タクシーサービスの最適化や交通効率の向上が期待できることがわかった。

The growing demand for ride-hailing services has led to an increasing need for accurate taxi demand prediction. Existing systems are limited to specific regions, lacking generalizability to unseen areas. This paper presents a novel taxi demand forecasting system that leverages a graph neural network to capture spatial dependencies and patterns in urban environments. Additionally, the proposed system employs a region-neutral approach, enabling it to train a model that can be applied to any region, including unseen regions. To achieve this, the framework incorporates the power of Variational Autoencoder to disentangle the input features into region-specific and region-neutral components. The region-neutral features facilitate cross-region taxi demand predictions, allowing the model to generalize well across different urban areas. Experimental results demonstrate the effectiveness of the proposed system in accurately forecasting taxi demand, even in previously unobserved regions, thus showcasing its potential for optimizing taxi services and improving transportation efficiency on a broader scale.
翻訳日:2023-10-30 13:34:49 公開日:2023-10-27
# スケーリング学習最適化は価値があるか? VeLO 4000 TPU ヶ月の価値評価

Is Scaling Learned Optimizers Worth It? Evaluating The Value of VeLO's 4000 TPU Months ( http://arxiv.org/abs/2310.18191v1 )

ライセンス: Link先を確認
Fady Rezk, Antreas Antoniou, Henry Gouk, Timothy Hospedales(参考訳) 汎用的な"基礎的"オプティマイザをこれまでで最大規模のトレーニングの試みであるVeLO(versatile learned optimizationr)を分析した。 VeLOは4000 TPUヶ月以上を使用して数千の機械学習タスクをトレーニングし、ハイパーパラメータフリーで新しい問題に一般化し、Adamのような業界標準を上回ったオプティマイザの開発を目標とした。 MLCommonsオプティマイザベンチマークスイート上で,VeLOを独立に評価する。 初期の主張とは対照的に,(1)VeLOは問題固有のチューニングを必要とする臨界ハイパーパラメータを持ち,(2)VeLOはソリューションの品質において必ずしも競合より優れておらず,(3)VeLOはトレーニング損失を減らすために競合するオプティマイザよりも高速ではない。 これらの観察は、ヴェロの一般性とそれを訓練する投資の価値に疑問を投げかける。

We analyze VeLO (versatile learned optimizer), the largest scale attempt to train a general purpose "foundational" optimizer to date. VeLO was trained on thousands of machine learning tasks using over 4000 TPU months with the goal of producing an optimizer capable of generalizing to new problems while being hyperparameter free, and outperforming industry standards such as Adam. We independently evaluate VeLO on the MLCommons optimizer benchmark suite. We find that, contrary to initial claims: (1) VeLO has a critical hyperparameter that needs problem-specific tuning, (2) VeLO does not necessarily outperform competitors in quality of solution found, and (3) VeLO is not faster than competing optimizers at reducing the training loss. These observations call into question VeLO's generality and the value of the investment in training it.
翻訳日:2023-10-30 13:34:34 公開日:2023-10-27
# 窒化アルミニウム中の量子エミッタの光力学

Photo-dynamics of quantum emitters in aluminum nitride ( http://arxiv.org/abs/2310.18190v1 )

ライセンス: Link先を確認
Yanzhao Guo, John P. Hadden, Rachel N. Clark, Samuel G. Bishop, and Anthony J. Bennett(参考訳) 窒化アルミニウムは技術的に重要な広帯域半導体であり、明るい量子エミッタを担っていることが示されている。 本稿では,光子放射相関と時間分解分光法を用いて窒化アルミニウム中の量子エミッタの光力学を調べる。 各エミッタは,レーザーパワー依存性の異なる内部エネルギー準位を最大6つ含むことが判明した。 光誘起イオン化や再結合などの電力依存型シェルビング・デシェルビングプロセスは、自然および光ポンピング遷移に関連する複雑な光学力学を示す。 状態人口動態シミュレーションは、量子エミッターの時間的挙動を定性的に説明し、ポンプ依存のデシェルビング過程を持つ者は、非常に高い強度で飽和し、室温の明るい量子発光をもたらすことを示した。

Aluminum nitride is a technologically important wide bandgap semiconductor which has been shown to host bright quantum emitters. In this paper, we probe the photodynamics of quantum emitters in aluminum nitride using photon emission correlations and time-resolved spectroscopy. We identify that each emitter contains as many as 6 internal energy levels with distinct laser power-dependent behaviors. Power-dependent shelving and de-shelving processes, such as optically induced ionization and recombination are considered, indicating complex optical dynamics associated with the spontaneous and optically pumped transitions. State population dynamics simulations qualitatively explain the temporal behaviours of the quantum emitters, revealing that those with pump-dependent de-shelving processes can saturate at significantly higher intensities, resulting in bright room-temperature quantum light emission.
翻訳日:2023-10-30 13:34:18 公開日:2023-10-27
# 学習率ランダム化によるモデルフリー後方サンプリング

Model-free Posterior Sampling via Learning Rate Randomization ( http://arxiv.org/abs/2310.18186v1 )

ライセンス: Link先を確認
Daniil Tiapkin, Denis Belomestny, Daniele Calandriello, Eric Moulines, Remi Munos, Alexey Naumov, Pierre Perrault, Michal Valko, Pierre Menard(参考訳) 本稿では,マルコフ決定過程(MDPs)における誤り最小化のための新しいランダム化モデルフリーアルゴリズムであるランダム化Q-ラーニング(RandQL)を紹介する。 我々の知る限りでは、RandQLは最初の抽出可能なモデルなし後方サンプリングベースアルゴリズムである。 我々はRandQLの性能を表と表のメトリック空間設定の両方で解析する。 表式mdpでは、randqlは$\widetilde{\mathcal{o}}(\sqrt{h^{5}sat})$の後悔の束縛を達成し、ここで$h$は計画の地平線、$s$は状態の数、$a$はアクションの数、$t$はエピソード数である。 計量状態-作用空間に対して、RandQL は次数 $\widetilde{\mathcal{O}}(H^{5/2} T^{(d_z+1)/(d_z+2)})$ の後悔境界を楽しむ。 特に、RandQLはボーナスを使わずに楽観的な探索を実現し、代わりに学習率ランダム化という新しいアイデアに依存している。 我々の実証的研究は、RandQLがベースライン探索環境における既存のアプローチより優れていることを示している。

In this paper, we introduce Randomized Q-learning (RandQL), a novel randomized model-free algorithm for regret minimization in episodic Markov Decision Processes (MDPs). To the best of our knowledge, RandQL is the first tractable model-free posterior sampling-based algorithm. We analyze the performance of RandQL in both tabular and non-tabular metric space settings. In tabular MDPs, RandQL achieves a regret bound of order $\widetilde{\mathcal{O}}(\sqrt{H^{5}SAT})$, where $H$ is the planning horizon, $S$ is the number of states, $A$ is the number of actions, and $T$ is the number of episodes. For a metric state-action space, RandQL enjoys a regret bound of order $\widetilde{\mathcal{O}}(H^{5/2} T^{(d_z+1)/(d_z+2)})$, where $d_z$ denotes the zooming dimension. Notably, RandQL achieves optimistic exploration without using bonuses, relying instead on a novel idea of learning rate randomization. Our empirical study shows that RandQL outperforms existing approaches on baseline exploration environments.
翻訳日:2023-10-30 13:34:04 公開日:2023-10-27
# FeドープLi$_3$Nにおける磁化の協調量子トンネル

Cooperative quantum tunneling of the magnetization in Fe-doped Li$_3$N ( http://arxiv.org/abs/2310.18185v1 )

ライセンス: Link先を確認
M. Fix and A. Jesche(参考訳) x < 1$ % の希薄li$_2$(li$_{1-x}$fe$_{x}$)nのスピン反転は、空間的に分離された状態の共鳴量子トンネルによって支配される。 2つのスピンの協調的同時量子トンネル現象を引き起こすこれらの状態間の有限結合の効果について報告する。 この現象はスピンスピンクロス緩和と呼ばれ、それまで未解決であった等温磁化ループで観測された微細構造を効果的に解明する。 T = 2 K から 300 K の範囲で温度および磁場依存性の磁化測定を行い,最大で$\mu_0H$ = 7 T の磁場を数値計算した。 以上の結果から, li$_2$(li$_{1-x}$fe$_{x}$)n に立体的欠陥がないことが証明され, スピン反転過程を微視的に観察するためのモデルシステムとしてその模範的適合性が証明された。 これは、比較的単純な結晶構造、大きな単結晶の可用性、高い特性エネルギー、よく定義されたエネルギー準位に起因する。

The spin-reversal in dilute Li$_2$(Li$_{1-x}$Fe$_{x}$)N with $x < 1$ % is dominated by resonant quantum tunneling of spatially well-separated states. We report on the effect of finite couplings between those states that give rise to cooperative, simultaneous quantum tunneling of two spins. This phenomenon, known as spin-spin cross relaxation, effectively elucidates the fine-structure observed in isothermal magnetization loops, a previously unresolved aspect. Temperature and field-dependent magnetization measurements were conducted over a range from T = 2 K to 300 K in applied fields of up to $\mu_0H$ = 7 T. Magnetic dipole fields are computed numerically. Our findings affirm the absence of stoichiometric defects in Li$_2$(Li$_{1-x}$Fe$_{x}$)N and underscore its exemplary suitability as a model system for investigating spin-reversal processes at the microscopic level. This is attributed to its comparatively simple crystal structure, the availability of large single crystals, elevated characteristic energies, and well-defined energy levels
翻訳日:2023-10-30 13:33:36 公開日:2023-10-27
# 条件付き韻律層正規化に基づくスタイル記述に基づくテキスト音声合成

Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN ( http://arxiv.org/abs/2310.18169v1 )

ライセンス: Link先を確認
Neeraj Kumar and Ankur Narang and Brejesh Lall(参考訳) 本稿では,4段階以内の音声サンプルを生成する入力として,スタイル記述とコンテンツテキストに基づく高忠実度音声を生成するための拡散GANに基づくアプローチ(韻律Diff-TTS)を提案する。 これは、新しい条件付き韻律層正規化を利用して、マルチヘッドアテンションベースの音素エンコーダとメルスペクトログラムデコーダベースのジェネレータアーキテクチャにスタイル埋め込みを組み込んで音声を生成する。 スタイル埋め込みは、ピッチ、スピーキングスピード、感情、性別分類などの補助タスクに事前訓練されたbertモデルを微調整することで生成される。 本研究では,多話者リブレットとプロンプトスペッチデータセットに対する提案アーキテクチャの有効性を,生成精度とmosを測定する複数の定量的指標を用いて実証する。

In this paper, we present a Diffusion GAN based approach (Prosodic Diff-TTS) to generate the corresponding high-fidelity speech based on the style description and content text as an input to generate speech samples within only 4 denoising steps. It leverages the novel conditional prosodic layer normalization to incorporate the style embeddings into the multi head attention based phoneme encoder and mel spectrogram decoder based generator architecture to generate the speech. The style embedding is generated by fine tuning the pretrained BERT model on auxiliary tasks such as pitch, speaking speed, emotion,gender classifications. We demonstrate the efficacy of our proposed architecture on multi-speaker LibriTTS and PromptSpeech datasets, using multiple quantitative metrics that measure generated accuracy and MOS.
翻訳日:2023-10-30 13:33:20 公開日:2023-10-27
# 言語モデルにおける真さをモデル化するペルソナ

Personas as a Way to Model Truthfulness in Language Models ( http://arxiv.org/abs/2310.18168v1 )

ライセンス: Link先を確認
Nitish Joishi, Javier Rando, Abulhair Saparov, Najoung Kim, He He(参考訳) 大規模な言語モデルは、インターネットから大量のテキストで訓練されており、これは事実と誤解を招く世界に関する情報の両方を含んでいる。 言語モデルは、この矛盾するデータで真理と偽りを区別できるだろうか? llmがコーパスを生産する異なるエージェントをモデル化できるという見解を拡張して、真理のあるパーソナリティをモデル化することで真理のあるテキストをクラスタ化できると仮定した。 例えば、wikipediaやscienceのような信頼できる情報源は通常形式的な文体を使い、一貫した主張をする。 このペルソナをモデル化することにより、LLMは、各エージェントがトレーニングテキストを生成する特定のコンテキストを超えて、真実性を一般化することができる。 例えば、このモデルはエージェント"wikipedia"が、ペルソナを共有するため、"科学"によってのみ生成されたトピックに対して、真に振る舞うと推測できる。 まず2つの観察によってペルソナ仮説の証拠を示す:(1)生成前にモデルの答えが真理であるかどうかを検証できる、(2)一連の事実に基づいてモデルを微調整することで、未知の話題に対する真理性が向上する。 次に、算術を合成環境として用いて、言語モデルが真と偽の言明を分離し、エージェント間で真さを一般化できることを示し、訓練データ内のエージェントが真偽のペルソナを作成することができる真偽生成プロセスを共有する場合に限る。 全体としては、モデルがデータの階層構造を利用して真理のような抽象概念を学習できることが示唆されている。

Large Language Models are trained on vast amounts of text from the internet, which contains both factual and misleading information about the world. Can language models discern truth from falsehood in this contradicting data? Expanding on the view that LLMs can model different agents producing the corpora, we hypothesize that they can cluster truthful text by modeling a truthful persona: a group of agents that are likely to produce truthful text and share similar features. For example, trustworthy sources like Wikipedia and Science usually use formal writing styles and make consistent claims. By modeling this persona, LLMs can generalize truthfulness beyond the specific contexts in which each agent generated the training text. For example, the model can infer that the agent "Wikipedia" will behave truthfully on topics that were only generated by "Science" because they share a persona. We first show evidence for the persona hypothesis via two observations: (1) we can probe whether a model's answer will be truthful before it is generated; (2) finetuning a model on a set of facts improves its truthfulness on unseen topics. Next, using arithmetics as a synthetic environment, we show that language models can separate true and false statements, and generalize truthfulness across agents; but only if agents in the training data share a truthful generative process that enables the creation of a truthful persona. Overall, our findings suggest that models can exploit hierarchical structures in the data to learn abstract concepts like truthfulness.
翻訳日:2023-10-30 13:33:06 公開日:2023-10-27
# MPrompt: マシン読み込み理解のためのマルチレベルプロンプトチューニング

MPrompt: Exploring Multi-level Prompt Tuning for Machine Reading Comprehension ( http://arxiv.org/abs/2310.18167v1 )

ライセンス: Link先を確認
Guoxin Chen and Yiming Qian and Bowen Wang and Liangzhi Li(参考訳) 大規模言語モデルは様々な自然言語タスクにおいて優れた性能を達成している。 このようなアプローチの大きな欠点のひとつは、リソース集約的な新しいデータセットの微調整だ。 ソフトプロンプトチューニングは、プレトレーニング言語モデル(plm)を凍結しながら微調整するリソース効率の良いソリューションを提供する。 既存のソフトプロンプトメソッドは主に、入力非依存のプロンプトを設計することに焦点を当て、新しいデータセットのドメインに適合するようにモデルを操る。 これらの方法は、しばしばテキストのタスクとコンテキストに関するきめ細かい情報を無視します。 本稿では,機械読取理解のためのマルチレベルプロンプトチューニング(MPrompt)手法を提案する。 タスク特化、ドメイン特化、コンテキスト特化レベルでのプロンプトを利用して、異なる粒度の入力セマンティクスの理解を強化する。 また,各ドメイン固有のプロンプトに対して,冗長性を回避するために,ドメイン内の情報に集中するための独立制約を提案する。 さらに,文脈関連知識をプロンプト生成に取り入れ,文脈関連性を高めるプロンプト生成器を提案する。 各種QAフォーマットのベンチマーク12件について広範な実験を行い,最先端手法よりも平均1.94\%向上した。

The large language models have achieved superior performance on various natural language tasks. One major drawback of such approaches is they are resource-intensive in fine-tuning new datasets. Soft-prompt tuning presents a resource-efficient solution to fine-tune the pre-trained language models (PLMs) while keeping their weight frozen. Existing soft prompt methods mainly focus on designing the input-independent prompts that steer the model to fit the domain of the new dataset. Those methods often ignore the fine-grained information about the task and context of the text. In this paper, we propose a multi-level prompt tuning (MPrompt) method for machine reading comprehension. It utilizes prompts at task-specific, domain-specific, and context-specific levels to enhance the comprehension of input semantics at different granularities. We also propose an independence constraint to steer each domain-specific prompt to focus on information within its domain to avoid redundancy. Moreover, we present a prompt generator that incorporates context-related knowledge in the prompt generation to enhance contextual relevancy. We conducted extensive experiments on 12 benchmarks of various QA formats and achieved an average improvement of 1.94\% over the state-of-the-art methods.
翻訳日:2023-10-30 13:32:41 公開日:2023-10-27
# エンタープライズネットワークセキュリティの強化:動的マルウェア検出のためのマシンレベルとプロセスレベル分析の比較

Enhancing Enterprise Network Security: Comparing Machine-Level and Process-Level Analysis for Dynamic Malware Detection ( http://arxiv.org/abs/2310.18165v1 )

ライセンス: Link先を確認
Baskoro Adi Pratomo, Toby Jackson, Pete Burnap, Andrew Hood, Eirini Anthi(参考訳) マルウェアの分析は、悪意のあるソフトウェアがどのように動作するかを理解し、適切な検出と予防方法を開発するために重要である。 動的解析は、静的解析をバイパスし、マルウェアのランタイムアクティビティに関する洞察を提供するのによく使われる回避テクニックを克服することができる。 動的解析に関する多くの研究は、マシンが悪意あるアクティビティを実行しているかどうかを特定するためのマシンレベルの情報(CPU、メモリ、ネットワーク利用など)の調査に焦点を当てた。 悪意のあるマシンは必ずしもマシン上で実行されるすべてのプロセスが悪意があるという意味ではない。 マシン全体を分離するのではなく、悪意のあるプロセスを分離できれば、悪意のあるプロセスを排除でき、マシンはその仕事を続けることができる。 動的マルウェア検出の研究が直面するもうひとつの課題は、サンプルがバックグラウンドアプリケーションを実行せずにひとつのマシンで実行されることだ。 コンピュータは、マルウェアのインシデントが発生した場合、通常多くの良性(背景)アプリケーションを実行するため、非現実的です。 機械レベルのデータを用いた実験により、背景アプリケーションの存在は従来の最先端の精度を平均20.12%低下させることが示された。 また,プロセスレベルリカレントニューラルネットワーク(RNN)に基づく検出モデルを提案する。 提案モデルでは, 検出率0.049, 偽陽性率0.1。

Analysing malware is important to understand how malicious software works and to develop appropriate detection and prevention methods. Dynamic analysis can overcome evasion techniques commonly used to bypass static analysis and provide insights into malware runtime activities. Much research on dynamic analysis focused on investigating machine-level information (e.g., CPU, memory, network usage) to identify whether a machine is running malicious activities. A malicious machine does not necessarily mean all running processes on the machine are also malicious. If we can isolate the malicious process instead of isolating the whole machine, we could kill the malicious process, and the machine can keep doing its job. Another challenge dynamic malware detection research faces is that the samples are executed in one machine without any background applications running. It is unrealistic as a computer typically runs many benign (background) applications when a malware incident happens. Our experiment with machine-level data shows that the existence of background applications decreases previous state-of-the-art accuracy by about 20.12% on average. We also proposed a process-level Recurrent Neural Network (RNN)-based detection model. Our proposed model performs better than the machine-level detection model; 0.049 increase in detection rate and a false-positive rate below 0.1.
翻訳日:2023-10-30 13:32:22 公開日:2023-10-27
# クラスタリングにおける比例的公平性:社会的選択の観点から

Proportional Fairness in Clustering: A Social Choice Perspective ( http://arxiv.org/abs/2310.18162v1 )

ライセンス: Link先を確認
Leon Kellerhals and Jannik Peters(参考訳) 陳らによる比例クラスタリング問題について検討した。 [ICML'19]を計算社会選択におけるマルチウィンナー投票の分野に関連づける。 ブリルとピーターズ [EC'23] の弱比例概念を満たす任意のクラスタリングは、Chen らの比例フェアネス概念に対する最もよく知られた近似を同時に得られることを示す。 [ICML'19]だけでなく、個人的公正(Jung et al., FORC'20)と「中」(Li et al. ICML'21)にも当てはまる。 実際、比例的フェアネスへの任意の近似もまた個々のフェアネスの近似であり、逆もまた示している。 最後に、偏差が単一ではなく複数の候補中心に起こるような比例表現の強い概念も検討し、ブリルとピーターズの強い比例の概念がこれらの強い保証に近似することを示唆していることを示す。

We study the proportional clustering problem of Chen et al. [ICML'19] and relate it to the area of multiwinner voting in computational social choice. We show that any clustering satisfying a weak proportionality notion of Brill and Peters [EC'23] simultaneously obtains the best known approximations to the proportional fairness notion of Chen et al. [ICML'19], but also to individual fairness [Jung et al., FORC'20] and the "core" [Li et al. ICML'21]. In fact, we show that any approximation to proportional fairness is also an approximation to individual fairness and vice versa. Finally, we also study stronger notions of proportional representation, in which deviations do not only happen to single, but multiple candidate centers, and show that stronger proportionality notions of Brill and Peters [EC'23] imply approximations to these stronger guarantees.
翻訳日:2023-10-30 13:32:01 公開日:2023-10-27
# 2次元自由フェルミオン系におけるクエンチ後の絡み合いエントロピーの時間発展:次元還元処理

Time evolution of entanglement entropy after quenches in two-dimensional free fermion systems: a dimensional reduction treatment ( http://arxiv.org/abs/2310.18160v1 )

ライセンス: Link先を確認
Shion Yamashika, Filiberto Ares, Pasquale Calabrese(参考訳) 二次元(2次元)自由フェルミオン系における量子クエンチに続くR'enyiエンタングルメントエントロピーの時間発展について検討する。 次元還元を用いることで、2次元問題を一方向の変換不変性を示す場合に応用可能な非結合鎖に効果的に変換する。 様々な初期構成について検討し, エンタングルメントエントロピーの挙動を1次元の準粒子像に適応させることで説明できることを示した。 しかし、興味深いことに、特定の初期状態において、エンタングルメントエントロピーは、定常状態に収束する縮小密度行列なしで有限値に飽和する。 静止状態が存在するために必要な条件を議論し、そのような状態が存在しない場合、準粒子画像に必要な修正を精査する。

We study the time evolution of the R\'enyi entanglement entropies following a quantum quench in a two-dimensional (2D) free-fermion system. By employing dimensional reduction, we effectively transform the 2D problem into decoupled chains, a technique applicable when the system exhibits translational invariance in one direction. Various initial configurations are examined, revealing that the behavior of entanglement entropies can often be explained by adapting the one-dimensional quasiparticle picture. However, intriguingly, for specific initial states the entanglement entropy saturates to a finite value without the reduced density matrix converging to a stationary state. We discuss the conditions necessary for a stationary state to exist and delve into the necessary modifications to the quasiparticle picture when such a state is absent.
翻訳日:2023-10-30 13:31:44 公開日:2023-10-27
# 単語の聴覚情報によるコード混合テキスト処理の高度化

Elevating Code-mixed Text Handling through Auditory Information of Words ( http://arxiv.org/abs/2310.18155v1 )

ライセンス: Link先を確認
Mamta, Zishan Ahmad and Asif Ekbal(参考訳) コードミックスデータの人気が高まっているため、このタイプのデータを扱う必要性が高まっており、スペルのバリエーション、複数の言語、異なるスクリプト、リソース不足など、多くの課題が発生している。 現在の言語モデルは、主に単語の意味表現に焦点を当て、聴覚音声の特徴を無視するため、コードミックスデータの効果的処理に困難に直面している。 これにより、コード混合テキストの綴りのバリエーションを扱うのが困難になる。 本稿では,SOUNDEXからの単語の聴覚情報を用いて,コード混合テキストデータを扱うための言語モデルを作成するための効果的な手法を提案する。 提案手法は,SOUNDEX表現(SAMLM)と事前学習モデルに入力データを提供する新しい方法を含む,マスク付き言語モデルに基づく事前学習ステップを含む。 感情・攻撃的・攻撃的分類タスクのための様々なコード混合データセット(異なる言語)の実験を通じて、新しい言語モデリングアプローチ(samlm)により、コード混合分類タスクにおける敵対的攻撃に対する堅牢性が向上することを確認した。 さらに、SAMLMベースのアプローチは、コードミックスタスクの一般的なベースラインよりも、より良い分類結果をもたらす。 説明可能性のテクニックであるshap(shapley additive descriptions)を使用して、samlmが組み込んだ聴覚機能は、コード混合されたテキストを効果的に処理し、敵の攻撃に対する堅牢性を高めるためにモデルをどのように支援するかを説明し、 \url{https://github.com/20118/ defensewithphonetics}, \url{https://www.iitp.ac.in/~ai-nlp-ml/resources.html\#phonetics}}で利用可能になった。

With the growing popularity of code-mixed data, there is an increasing need for better handling of this type of data, which poses a number of challenges, such as dealing with spelling variations, multiple languages, different scripts, and a lack of resources. Current language models face difficulty in effectively handling code-mixed data as they primarily focus on the semantic representation of words and ignore the auditory phonetic features. This leads to difficulties in handling spelling variations in code-mixed text. In this paper, we propose an effective approach for creating language models for handling code-mixed textual data using auditory information of words from SOUNDEX. Our approach includes a pre-training step based on masked-language-modelling, which includes SOUNDEX representations (SAMLM) and a new method of providing input data to the pre-trained model. Through experimentation on various code-mixed datasets (of different languages) for sentiment, offensive and aggression classification tasks, we establish that our novel language modeling approach (SAMLM) results in improved robustness towards adversarial attacks on code-mixed classification tasks. Additionally, our SAMLM based approach also results in better classification results over the popular baselines for code-mixed tasks. We use the explainability technique, SHAP (SHapley Additive exPlanations) to explain how the auditory features incorporated through SAMLM assist the model to handle the code-mixed text effectively and increase robustness against adversarial attacks \footnote{Source code has been made available on \url{https://github.com/20118/DefenseWithPhonetics}, \url{https://www.iitp.ac.in/~ai-nlp-ml/resources.html\#Phonetics}}.
翻訳日:2023-10-30 13:31:30 公開日:2023-10-27
# テキスト属性グラフのための大規模言語モデルを用いた乱れ表現学習

Disentangled Representation Learning with Large Language Models for Text-Attributed Graphs ( http://arxiv.org/abs/2310.18152v1 )

ライセンス: Link先を確認
Yijian Qin, Xin Wang, Ziwei Zhang, Wenwu Zhu(参考訳) テキスト分散グラフ(TAG)はウェブ上で広く普及しており、引用ネットワークやeコマースネットワーク、ソーシャルネットワークといったTAGに関する調査がWebコミュニティで注目されている。 近年,大規模言語モデル (LLM) は,幅広いタスクにまたがる例外的な機能を示している。 しかし、既存の研究は、グラフ構造情報をLSMに伝達するプロンプトにのみ依存しているため、TAG内の複雑な構造関係の理解が不十分である。 本稿では,この問題を解決するために,タグに対するllmの推論と予測能力を向上させるためのdgtl(disentangled graph-text learner)モデルを提案する。 提案するdgtlモデルは,gnn(tailored disentangled graph neural network)層を介してグラフ構造情報を取り込み,複数の構造要素からテキスト属性グラフに隠された複雑な関係をllmでキャプチャする。 さらに、DGTLはフリーズされたLLMで動作し、計算コストを削減し、異なるLLMモデルと組み合わせる際の柔軟性をより高めている。 実験により,提案したDGTLモデルにより,最先端のベースラインよりも優れた性能,あるいは同等の性能が得られることを示した。 さらに,dgtlモデルが予測のための自然言語説明を提供することにより,モデル解釈可能性を大幅に向上できることを実証した。

Text-attributed graphs (TAGs) are prevalent on the web and research over TAGs such as citation networks, e-commerce networks and social networks has attracted considerable attention in the web community. Recently, large language models (LLMs) have demonstrated exceptional capabilities across a wide range of tasks. However, the existing works focus on harnessing the potential of LLMs solely relying on prompts to convey graph structure information to LLMs, thus suffering from insufficient understanding of the complex structural relationships within TAGs. To address this problem, in this paper we present the Disentangled Graph-Text Learner (DGTL) model, which is able to enhance the reasoning and predicting capabilities of LLMs for TAGs. Our proposed DGTL model incorporates graph structure information through tailored disentangled graph neural network (GNN) layers, enabling LLMs to capture the intricate relationships hidden in text-attributed graphs from multiple structural factors. Furthermore, DGTL operates with frozen pre-trained LLMs, reducing computational costs and allowing much more flexibility in combining with different LLM models. Experimental evaluations demonstrate the effectiveness of the proposed DGTL model on achieving superior or comparable performance over state-of-the-art baselines. Additionally, we also demonstrate that our DGTL model can offer natural language explanations for predictions, thereby significantly enhancing model interpretability.
翻訳日:2023-10-30 13:30:55 公開日:2023-10-27
# 定常目標作成による内在的探索の改善

Improving Intrinsic Exploration by Creating Stationary Objectives ( http://arxiv.org/abs/2310.18144v1 )

ライセンス: Link先を確認
Roger Creus Castanyer, Joshua Romoff, Glen Berseth(参考訳) 特注的目標の定義による強化学習ガイドの長期探索における探索ボーナス カウントベースの方法は、国家訪問の頻度を使って探索ボーナスを導出する。 本稿では,カウントベース法から導出される固有報酬関数が非定常であることから,エージェントの最適化が困難であることを示す。 我々の研究の重要な貢献は、拡張状態表現を通じて、元の非定常報酬を定常報酬に変換することである。 そこで本研究では,SOFE(Stationary Objectives For Exploration)フレームワークについて紹介する。 SOFEは、異なる探索ボーナスに対する十分な統計を識別し、深層ネットワークへの入力として使用するためにこれらの統計の効率的な符号化を見つける必要がある。 SOFEは状態空間を拡大するが、エージェントの目的の最適化を単純化するという約束を守る状態拡張の提案に基づいている。 実験の結果, sofeは, スパースリワードタスク, ピクセルベースの観測, 3次元ナビゲーション, 手続き的生成環境など, 探索課題におけるエージェントの性能が向上した。

Exploration bonuses in reinforcement learning guide long-horizon exploration by defining custom intrinsic objectives. Count-based methods use the frequency of state visits to derive an exploration bonus. In this paper, we identify that any intrinsic reward function derived from count-based methods is non-stationary and hence induces a difficult objective to optimize for the agent. The key contribution of our work lies in transforming the original non-stationary rewards into stationary rewards through an augmented state representation. For this purpose, we introduce the Stationary Objectives For Exploration (SOFE) framework. SOFE requires identifying sufficient statistics for different exploration bonuses and finding an efficient encoding of these statistics to use as input to a deep network. SOFE is based on proposing state augmentations that expand the state space but hold the promise of simplifying the optimization of the agent's objective. Our experiments show that SOFE improves the agents' performance in challenging exploration problems, including sparse-reward tasks, pixel-based observations, 3D navigation, and procedurally generated environments.
翻訳日:2023-10-30 13:30:32 公開日:2023-10-27
# セミスーパービジョンパノプティカル・ナラティブ・グラウンドディング

Semi-Supervised Panoptic Narrative Grounding ( http://arxiv.org/abs/2310.18142v1 )

ライセンス: Link先を確認
Danni Yang, Jiayi Ji, Xiaoshuai Sun, Haowei Wang, Yinan Li, Yiwei Ma, Rongrong Ji(参考訳) かなりの進歩にもかかわらず、PNG(Panoptic Narrative Grounding)の進歩は、高価なアノテーションによって妨げられている。 本稿では,より小さなラベル付き画像テキストペアとより大きなラベルなしペアを活かし,競争性能を達成するための半教師付きpanoptic narrative grounding (ss-png) 学習方式を提案する。 視覚的セグメンテーションタスクとは異なり、PNGは複数のオープンエンド名詞に属する1つのピクセルを含む。 その結果、既存のマルチクラスベースの半教師付きセグメンテーションフレームワークは、このタスクに直接適用できない。 この課題に対処するため,我々はSS-PNG設定に適した新しいSS-PNGネットワーク(SS-PNG-NW)を開発した。 SS-PNG-NWの最適構成を決定するため,バーンインやデータ拡張などの戦略を徹底的に検討する。 さらに,不均衡な擬似ラベル品質の問題に対処するため,半教師付き目標を調整し,SS-PNG-NW+を改良するQLA(Quality-Based Loss Adjustment)アプローチを提案する。 提案するqlaを用いて,bce損失とdice損失をそれぞれ画素レベルとマスクレベルで改善する。 PNGデータセットに関する広範な実験を行い、SS-PNG-NW+は全データ比で完全に教師されたモデルに匹敵する有望な結果を示す。 注目すべきは、当社のSS-PNG-NW+は、完全な教師付きモデルで30%と50%の監督データで、それぞれ0.8%と1.1%を上回っていることです。 このことは、限定アノテーションによる課題を克服し、PNGタスクの適用性を高める上で、提案したSS-PNG-NW+の有効性を強調している。 ソースコードはhttps://github.com/nini0919/SSPNGで入手できる。

Despite considerable progress, the advancement of Panoptic Narrative Grounding (PNG) remains hindered by costly annotations. In this paper, we introduce a novel Semi-Supervised Panoptic Narrative Grounding (SS-PNG) learning scheme, capitalizing on a smaller set of labeled image-text pairs and a larger set of unlabeled pairs to achieve competitive performance. Unlike visual segmentation tasks, PNG involves one pixel belonging to multiple open-ended nouns. As a result, existing multi-class based semi-supervised segmentation frameworks cannot be directly applied to this task. To address this challenge, we first develop a novel SS-PNG Network (SS-PNG-NW) tailored to the SS-PNG setting. We thoroughly investigate strategies such as Burn-In and data augmentation to determine the optimal generic configuration for the SS-PNG-NW. Additionally, to tackle the issue of imbalanced pseudo-label quality, we propose a Quality-Based Loss Adjustment (QLA) approach to adjust the semi-supervised objective, resulting in an enhanced SS-PNG-NW+. Employing our proposed QLA, we improve BCE Loss and Dice loss at pixel and mask levels, respectively. We conduct extensive experiments on PNG datasets, with our SS-PNG-NW+ demonstrating promising results comparable to fully-supervised models across all data ratios. Remarkably, our SS-PNG-NW+ outperforms fully-supervised models with only 30% and 50% supervision data, exceeding their performance by 0.8% and 1.1% respectively. This highlights the effectiveness of our proposed SS-PNG-NW+ in overcoming the challenges posed by limited annotations and enhancing the applicability of PNG tasks. The source code is available at https://github.com/nini0919/SSPNG.
翻訳日:2023-10-30 13:30:17 公開日:2023-10-27
# 深く変換されたガウス過程

Deep Transformed Gaussian Processes ( http://arxiv.org/abs/2310.18230v1 )

ライセンス: Link先を確認
S\'aez-Maldonado Francisco Javier, Maro\~nas Juan, Hern\'andez-Lobato Daniel(参考訳) 変換ガウス過程(英: transform gaussian process、tgps)は、逆変換を用いて先行過程(典型的にはgp)からサンプルをジョイント分布から変換し、基本過程の柔軟性を高めることにより定義される確率過程である。 さらに、GPの階層的連結によって構築された別の一般化であるディープガウス過程(DGP)と比較して、競合的な結果が得られる。 本研究では,確率過程の階層化の傾向に追従して,Deep Transformed Gaussian Processs (DTGPs) と呼ばれるTGPの一般化を提案する。 より正確には、各層がTGPである多層モデルを得る。 この一般化は、TGPとDGPの両方に対する柔軟性の増大を意味する。 そのようなモデルにおける厳密な推論は難解である。 しかし, DSVI推論アルゴリズムSalimbeni et al (2017) の直接拡張により, 必要な計算量を近似するために, 変分推論を利用できることを示す。 実験では,提案手法であるdtgpsを複数回帰データセットで評価し,スケーラビリティと性能を向上した。

Transformed Gaussian Processes (TGPs) are stochastic processes specified by transforming samples from the joint distribution from a prior process (typically a GP) using an invertible transformation; increasing the flexibility of the base process. Furthermore, they achieve competitive results compared with Deep Gaussian Processes (DGPs), which are another generalization constructed by a hierarchical concatenation of GPs. In this work, we propose a generalization of TGPs named Deep Transformed Gaussian Processes (DTGPs), which follows the trend of concatenating layers of stochastic processes. More precisely, we obtain a multi-layer model in which each layer is a TGP. This generalization implies an increment of flexibility with respect to both TGPs and DGPs. Exact inference in such a model is intractable. However, we show that one can use variational inference to approximate the required computations yielding a straightforward extension of the popular DSVI inference algorithm Salimbeni et al (2017). The experiments conducted evaluate the proposed novel DTGPs in multiple regression datasets, achieving good scalability and performance.
翻訳日:2023-10-30 13:22:20 公開日:2023-10-27
# 逆見による修正:漸進処理における修正方針の認知信号としての読み中の回帰とスキップ

Revising with a Backward Glance: Regressions and Skips during Reading as Cognitive Signals for Revision Policies in Incremental Processing ( http://arxiv.org/abs/2310.18229v1 )

ライセンス: Link先を確認
Brielen Madureira, Pelin \c{C}elikkol, David Schlangen(参考訳) NLPでは、インクリメンタルプロセッサが言語入力の入力プレフィックスに基づいてインストール時に出力を生成する。 いくつかのトークンはリビジョンを引き起こし、アウトプット仮説に編集を引き起こすが、なぜモデルがリビジョンを行うのかは分かっていない。 修正が行われるべき時間ステップを検出するポリシーは、効率を向上する。 それでも、リビジョンポリシをトレーニングする適切なシグナルを取得することは、データセットで自然に利用できないため、オープンな問題である。 本研究では,人間の視線追跡データをインクリメンタル・シーケンスラベリングにおける修正方針を知らせる信号として,回帰とスキップの適切性について検討する。 一般化された混合効果モデルを用いて、人間による回帰やスキップの確率は、様々な言語に対して一貫した結果をもたらすBiLSTMやTransformerモデルの修正に有用な予測因子となる可能性がある。

In NLP, incremental processors produce output in instalments, based on incoming prefixes of the linguistic input. Some tokens trigger revisions, causing edits to the output hypothesis, but little is known about why models revise when they revise. A policy that detects the time steps where revisions should happen can improve efficiency. Still, retrieving a suitable signal to train a revision policy is an open problem, since it is not naturally available in datasets. In this work, we investigate the appropriateness of regressions and skips in human reading eye-tracking data as signals to inform revision policies in incremental sequence labelling. Using generalised mixed-effects models, we find that the probability of regressions and skips by humans can potentially serve as useful predictors for revisions in BiLSTMs and Transformer models, with consistent results for various languages.
翻訳日:2023-10-30 13:22:01 公開日:2023-10-27
# 1次元上の格子のクエンチダイナミクス:自由フェルミオンの場合

Quench dynamics in lattices above one dimension: the free fermionic case ( http://arxiv.org/abs/2310.18227v1 )

ライセンス: Link先を確認
Molly Gibbins, Arash Jafarizadeh, Adam Smith, and Bruno Bertini(参考訳) 保存粒子数を持つ非相互作用フェルミオンの場合を考慮した高次元格子系のクエンチ力学の系統的研究を始める。 最も単純な例は、格子上の一定の位置にあるフェルミオンを持つ古典的構成であり、翻訳不変な非平衡初期状態においてシステムを準備し、時間とともに進化させることである。 有限連結領域とその補空間の絡み合いを測定することにより,システムのダイナミクスを特徴付ける。 熱力学的エントロピーへの絡み合いエントロピーの変換を観察し、この過程が基盤となる格子に対する領域の形状と向きに依存するかを検討する。 興味深いことに、不規則な領域は特異な多斜面の絡み合う成長を示すのに対し、向き角への依存は概してかなり弱い。 これは特に大きな(離散的な)回転対称群を持つ領域に当てはまる。 分析の主な道具はカラブレスとカーディの有名な準粒子図であり,本論文では手前の事例を概説する。 具体的には、(古典的構成に制限しても)ジェネリック初期構成の場合、${n>2}$準粒子を含む多重化を許容し、非対角相関を持つ必要があることを示す。 我々は、正確な数値に対して検証された量的精度の高い予測を求め、汎用高次元格子の任意の連結領域に対して、モンテカルロに基づく効率的なスキームを提案する。

We begin a systematic investigation of quench dynamics in higher-dimensional lattice systems considering the case of non-interacting fermions with conserved particle number. We prepare the system in a translational-invariant non-equilibrium initial state -- the simplest example being a classical configuration with fermions at fixed positions on the lattice -- and let it to evolve in time. We characterise the system's dynamics by measuring the entanglement between a finite connected region and its complement. We observe the transmutation of entanglement entropy into thermodynamic entropy and investigate how this process depends on the shape and orientation of the region with respect to the underlying lattice. Interestingly, we find that irregular regions display a distinctive multi-slope entanglement growth, while the dependence on the orientation angle is generically fairly weak. This is particularly true for regions with a large (discrete) rotational symmetry group. The main tool of our analysis is the celebrated quasiparticle picture of Calabrese and Cardy, which we generalise to describe the case at hand. Specifically, we show that for generic initial configurations (even when restricting to classical ones) one has to allow for the production of multiplets involving ${n>2}$ quasiparticles and carrying non-diagonal correlations. We obtain quantitatively accurate predictions -- tested against exact numerics -- and propose an efficient Monte Carlo-based scheme to evaluate them for arbitrary connected regions of generic higher dimensional lattices.
翻訳日:2023-10-30 13:21:46 公開日:2023-10-27
# tbdlnet : 多剤耐性結核と薬剤感受性結核の分類ネットワーク

TBDLNet: a network for classifying multidrug-resistant and drug-sensitive tuberculosis ( http://arxiv.org/abs/2310.18222v1 )

ライセンス: Link先を確認
Ziquan Zhu, Jing Tao, Shuihua Wang, Xin Zhang, Yudong Zhang(参考訳) 本稿では,ct画像を認識し,多剤耐性結核と薬剤感受性結核を自動分類する新しいディープラーニングモデルtbdlnetを提案する。 予め訓練されたresnet50を選択して特徴を抽出する。 3つのランダム化されたニューラルネットワークは、オーバーフィッティング問題を緩和するために使用される。 3つのrnnのアンサンブルは多数決によるロバスト性を高めるために適用される。 提案モデルは5倍のクロスバリデーションにより評価される。 本論文では,精度,感度,精度,F1スコア,特異性の5つの指標を選択した。 TBDLNetは0.9822の精度、0.9815の特異性、0.9823の精度、0.9829の感度、0.9826のF1スコアを達成する。 TBDLNetは多剤耐性結核および薬剤感受性結核の分類に適している。 早期に多剤耐性肺結核を検出でき、治療計画の調整や治療効果の向上に寄与する。

This paper proposes applying a novel deep-learning model, TBDLNet, to recognize CT images to classify multidrug-resistant and drug-sensitive tuberculosis automatically. The pre-trained ResNet50 is selected to extract features. Three randomized neural networks are used to alleviate the overfitting problem. The ensemble of three RNNs is applied to boost the robustness via majority voting. The proposed model is evaluated by five-fold cross-validation. Five indexes are selected in this paper, which are accuracy, sensitivity, precision, F1-score, and specificity. The TBDLNet achieves 0.9822 accuracy, 0.9815 specificity, 0.9823 precision, 0.9829 sensitivity, and 0.9826 F1-score, respectively. The TBDLNet is suitable for classifying multidrug-resistant tuberculosis and drug-sensitive tuberculosis. It can detect multidrug-resistant pulmonary tuberculosis as early as possible, which helps to adjust the treatment plan in time and improve the treatment effect.
翻訳日:2023-10-30 13:21:24 公開日:2023-10-27
# Adaptive Requirement Weakeningによる機能インタラクションの実行時解決

Runtime Resolution of Feature Interactions through Adaptive Requirement Weakening ( http://arxiv.org/abs/2310.18217v1 )

ライセンス: Link先を確認
Simon Chu, Emma Shedden, Changjian Zhang, R\^omulo Meira-G\'oes, Gabriel A. Moreno, David Garlan, Eunsuk Kang(参考訳) 特徴的相互作用問題は、2つ以上の独立して開発されたコンポーネントが予期しない方法で相互に相互作用し、望ましくないシステム動作をもたらすときに発生する。 機能相互作用問題は、モノのインターネットや自律ドローンのようなサイバー物理システム(CPS)における新興ドメインにとって依然として課題である。 既存の機能インタラクションの解決手法では,対立する機能のうち1つを最も望ましいものとして選択し,残りを無効にする,"勝利のすべて"アプローチを採用している。 しかしながら、複数の競合する機能が重要なシステム要件を満たす場合、その1つを選択することを余儀なくされると、望ましくないシステム結果が発生する可能性がある。 本稿では,すべての競合する特徴が解決プロセス中に部分的に要求を満たすことができる新しい解決手法を提案する。 特に,本手法では,1つ以上の機能を一時的に性能レベルを低下させ,他の機能を一貫した方法で共存させる適応要件の弱化という考え方を採用している。 本稿では,STL(Signal Temporal Logic)に規定される機能要件を考慮し,競合を解決するための要求を自動的に弱める自動手法とランタイムアーキテクチャを提案する。 自律ドローンにおける特徴的相互作用のケーススタディを通じて、我々のアプローチを実証する。

The feature interaction problem occurs when two or more independently developed components interact with each other in unanticipated ways, resulting in undesirable system behaviors. Feature interaction problems remain a challenge for emerging domains in cyber-physical systems (CPS), such as the Internet of Things and autonomous drones. Existing techniques for resolving feature interactions take a "winner-takes-all" approach, where one out of the conflicting features is selected as the most desirable one, and the rest are disabled. However, when multiple of the conflicting features fulfill important system requirements, being forced to select one of them can result in an undesirable system outcome. In this paper, we propose a new resolution approach that allows all of the conflicting features to continue to partially fulfill their requirements during the resolution process. In particular, our approach leverages the idea of adaptive requirement weakening, which involves one or more features temporarily weakening their level of performance in order to co-exist with the other features in a consistent manner. Given feature requirements specified in Signal Temporal Logic (STL), we propose an automated method and a runtime architecture for automatically weakening the requirements to resolve a conflict. We demonstrate our approach through case studies on feature interactions in autonomous drones.
翻訳日:2023-10-30 13:21:08 公開日:2023-10-27
# 固定平均忠実性のための最適量子テレポーテーションプロトコル

Optimal quantum teleportation protocols for fixed average fidelity ( http://arxiv.org/abs/2310.18213v1 )

ライセンス: Link先を確認
Fabricio Toscano, Diego G. Bussandri, Gustavo M. Bosyk, Ana P. Majtey, and Mariela Portesi(参考訳) 入力状態と出力状態の間のブロッホベクトルを整合させた量子テレポーテーションプロトコルでは、最小平均トレース距離を示す。 これは最適なプロトコルを定義する。 さらに, 最適なプロトコルを, 相関1量子ビットチャネルの動作下での完全量子テレポーテーションプロトコルと解釈できることを示した。 特に、最終ブロッホベクトル長がすべての測定結果に等しい決定論的ケースに焦点を当てる。 これらのプロトコルの中には、非相関チャネルの作用に対応する1つのタイプが存在する。 そこで我々は,非常に一般的な実験雑音下で最適な量子テレポーテーションプロトコルを構築した。

We demonstrate that among all quantum teleportation protocols giving rise to the same average fidelity, those with aligned Bloch vectors between input and output states exhibit the minimum average trace distance. This defines optimal protocols. Furthermore, we show that optimal protocols can be interpreted as the perfect quantum teleportation protocol under the action of correlated one-qubit channels. In particular, we focus on the deterministic case, for which the final Bloch vector length is equal for all measurement outcomes. Within these protocols, there exists one type that corresponds to the action of uncorrelated channels: these are depolarizing channels. Thus, we established the optimal quantum teleportation protocol under a very common experimental noise.
翻訳日:2023-10-30 13:20:46 公開日:2023-10-27
# ハイパーパラメータ選択のための因果構造学習アルゴリズムのロバスト性

Robustness of Algorithms for Causal Structure Learning to Hyperparameter Choice ( http://arxiv.org/abs/2310.18212v1 )

ライセンス: Link先を確認
Damian Machlanski, Spyridon Samothrakis, Paul Clarke(参考訳) ハイパーパラメータは機械学習において重要な役割を果たす。 ハイパーパラメータチューニングは、あらゆるアルゴリズムの最先端と低い予測性能の違いをもたらすが、教師なしの性質のため、構造学習では特に困難である。 その結果、ハイパーパラメータチューニングはアルゴリズムの特定の実装によって提供されるデフォルト値を使うことを好んで無視されることが多い。 因果発見アルゴリズムの性能評価には多くの研究があるが、ハイパーパラメータが個々のアルゴリズムにどのように影響するか、また特定の問題に対する最適なアルゴリズムの選択は、これまで深く研究されていない。 本研究は,ハイパーパラメータが因果構造学習タスクに与える影響を調べることで,このギャップに対処する。 具体的には,複雑性の異なるデータセット上での正規学習アルゴリズムに対するハイパーパラメータ選択の実証的評価を行う。 アルゴリズムの選択は最先端のパフォーマンスを得るためには不可欠であるが、アンサンブル設定におけるハイパーパラメータの選択はアルゴリズムの選択に強く影響を与えており、ハイパーパラメータの選択が貧弱であれば、データに最先端のパフォーマンスを与えないアルゴリズムを使う分析者につながる可能性がある。

Hyperparameters play a critical role in machine learning. Hyperparameter tuning can make the difference between state-of-the-art and poor prediction performance for any algorithm, but it is particularly challenging for structure learning due to its unsupervised nature. As a result, hyperparameter tuning is often neglected in favour of using the default values provided by a particular implementation of an algorithm. While there have been numerous studies on performance evaluation of causal discovery algorithms, how hyperparameters affect individual algorithms, as well as the choice of the best algorithm for a specific problem, has not been studied in depth before. This work addresses this gap by investigating the influence of hyperparameters on causal structure learning tasks. Specifically, we perform an empirical evaluation of hyperparameter selection for some seminal learning algorithms on datasets of varying levels of complexity. We find that, while the choice of algorithm remains crucial to obtaining state-of-the-art performance, hyperparameter selection in ensemble settings strongly influences the choice of algorithm, in that a poor choice of hyperparameters can lead to analysts using algorithms which do not give state-of-the-art performance for their data.
翻訳日:2023-10-30 13:20:37 公開日:2023-10-27
# 双曲グラフコントラスト学習のためのアライメントと外殻等方性

Alignment and Outer Shell Isotropy for Hyperbolic Graph Contrastive Learning ( http://arxiv.org/abs/2310.18209v1 )

ライセンス: Link先を確認
Yifei Zhang, Hao Zhu, Jiahong Liu, Piotr Koniusz, Irwin King(参考訳) 下流のタスクに有益な、優れた自己教師付きグラフ表現を学ぶことは難しい。 様々な方法の中で、コントラスト学習は競争力のあるパフォーマンスを享受する。 対比学習の埋め込みは、ユークリッド空間におけるコサイン距離測定を可能にする超球面上に配置される。 しかし、グラフのような多くの領域の基盤構造は、非常に非ユークリッド潜在幾何学を示している。 そこで本稿では,高品質なグラフ埋め込みを学習するための新しいコントラスト学習フレームワークを提案する。 具体的には,階層的データ不変情報を効果的にキャプチャするアライメントメトリックを設計するとともに,いわゆる次元崩壊を防止する一様性メトリックの代用を提案する。 双曲空間では、木の性質に関連した葉と高さレベルの一様性に対処しなければならないが、双曲多様体の周囲空間では、これらの概念はポアンカル(poincar\'e)ボールの境界に向かって等方環密度を与える。 この環密度は、多様体の接空間上の等方的特徴分布を推し進めることにより容易に課すことができる。 実験では,教師付き学習と自己教師付き学習の両方において,異なる双曲グラフ埋め込み手法を用いた提案手法の有効性を示す。

Learning good self-supervised graph representations that are beneficial to downstream tasks is challenging. Among a variety of methods, contrastive learning enjoys competitive performance. The embeddings of contrastive learning are arranged on a hypersphere that enables the Cosine distance measurement in the Euclidean space. However, the underlying structure of many domains such as graphs exhibits highly non-Euclidean latent geometry. To this end, we propose a novel contrastive learning framework to learn high-quality graph embedding. Specifically, we design the alignment metric that effectively captures the hierarchical data-invariant information, as well as we propose a substitute of uniformity metric to prevent the so-called dimensional collapse. We show that in the hyperbolic space one has to address the leaf- and height-level uniformity which are related to properties of trees, whereas in the ambient space of the hyperbolic manifold, these notions translate into imposing an isotropic ring density towards boundaries of Poincar\'e ball. This ring density can be easily imposed by promoting the isotropic feature distribution on the tangent space of manifold. In the experiments, we demonstrate the efficacy of our proposed method across different hyperbolic graph embedding techniques in both supervised and self-supervised learning settings.
翻訳日:2023-10-30 13:20:16 公開日:2023-10-27
# ArcheType: 大規模言語モデルを用いたオープンソースのカラム型アノテーションフレームワーク

ArcheType: A Novel Framework for Open-Source Column Type Annotation using Large Language Models ( http://arxiv.org/abs/2310.18208v1 )

ライセンス: Link先を確認
Benjamin Feuer, Yurong Liu, Chinmay Hegde, Juliana Freire(参考訳) 既存のセマンティックカラム型アノテーション(CTA)に対するディープラーニングアプローチには、トレーニング時に固定されたセマンティックタイプに依存すること、型毎のトレーニングサンプルを大量に必要とし、大量のランタイム推論コストを発生させること、新しいデータセットで型が一定である場合でもパフォーマンスが低下する、という重大な欠点がある。 大規模言語モデルは幅広いタスクにおいて強いゼロショット分類性能を示しており,本論文ではctaへの応用について検討する。 archetypeは,コンテキストサンプリング,プロンプトシリアライズ,モデルクエリ,ラベルリマップといった,単純な実用的な方法で,大規模な言語モデルによる列型アノテーション問題をゼロショット方式で解決する手法である。 提案手法の各コンポーネントを個別にアブレーションし、コンテキストサンプリングとラベルリマッピングの改善により、最も一貫した利得が得られることを示す。 archetypeは、ゼロショットと微調整されたctaの両方で、新しい最先端のパフォーマンスを確立します。これには、3つの新しいドメイン固有のベンチマークが含まれています。

Existing deep-learning approaches to semantic column type annotation (CTA) have important shortcomings: they rely on semantic types which are fixed at training time; require a large number of training samples per type and incur large run-time inference costs; and their performance can degrade when evaluated on novel datasets, even when types remain constant. Large language models have exhibited strong zero-shot classification performance on a wide range of tasks and in this paper we explore their use for CTA. We introduce ArcheType, a simple, practical method for context sampling, prompt serialization, model querying, and label remapping, which enables large language models to solve column type annotation problems in a fully zero-shot manner. We ablate each component of our method separately, and establish that improvements to context sampling and label remapping provide the most consistent gains. ArcheType establishes new state-of-the-art performance on both zero-shot and fine-tuned CTA, including three new domain-specific benchmarks, which we release, along with the code to reproduce our results at https://github.com/penfever/ArcheType.
翻訳日:2023-10-30 13:19:57 公開日:2023-10-27
# ina:報酬に基づく対話システムによる交渉戦略強化のための統合的アプローチ

INA: An Integrative Approach for Enhancing Negotiation Strategies with Reward-Based Dialogue System ( http://arxiv.org/abs/2310.18207v1 )

ライセンス: Link先を確認
Zishan Ahmad, Suman Saurabh, Vaishakh Sreekanth Menon, Asif Ekbal, Roshni Ramnani, Anutosh Maitra(参考訳) 本稿では,オンライン市場向けに設計された新しい交渉対話エージェントを提案する。 私たちのエージェントは本質的に統合的です。つまり、価格だけでなく、取引バンドルからアイテムの追加や削除といった他の要素についても交渉する能力を持ち、より柔軟で包括的な交渉体験を提供します。 この機能を実現するために、Integative Negotiation Dataset(IND)と呼ばれる新しいデータセットを作成します。 このデータセット作成のために,ユーザとエージェント間のネゴシエーションインテント,アクション,インテントアクションシミュレーションの定義を組み合わせて,潜在的な対話フローを生成する,新たな半自動データ生成手法を提案する。 最後に、最先端の言語モデルであるGPT-Jのプロンプトは、与えられた意図に対する対話を生成するために行われる。 我々は,統合ネゴシエーションエージェント(INA)と呼ばれるネゴシエーションエージェント(ネゴシエーションエージェント)を訓練するための交渉タスクに適した,一連の新しい報酬を採用。 これらの報酬はチャットボットにインセンティブを与え、様々なコンテキスト要求や価格提案に適応できる効果的な交渉戦略を学ぶ。 indを活用し,モデルと実験を訓練し,交渉における報酬に基づく対話システムの有効性を評価する。 提案手法と報奨システムはエージェントの交渉能力を大幅に向上させることを示す。 inaは統合交渉に成功し、価格を動的に調整し、バンドル取引におけるアイテムの包含または排除を交渉する能力を示す。

In this paper, we propose a novel negotiation dialogue agent designed for the online marketplace. Our agent is integrative in nature i.e, it possesses the capability to negotiate on price as well as other factors, such as the addition or removal of items from a deal bundle, thereby offering a more flexible and comprehensive negotiation experience. We create a new dataset called Integrative Negotiation Dataset (IND) to enable this functionality. For this dataset creation, we introduce a new semi-automated data creation method, which combines defining negotiation intents, actions, and intent-action simulation between users and the agent to generate potential dialogue flows. Finally, the prompting of GPT-J, a state-of-the-art language model, is done to generate dialogues for a given intent, with a human-in-the-loop process for post-editing and refining minor errors to ensure high data quality. We employ a set of novel rewards, specifically tailored for the negotiation task to train our Negotiation Agent, termed as the Integrative Negotiation Agent (INA). These rewards incentivize the chatbot to learn effective negotiation strategies that can adapt to various contextual requirements and price proposals. By leveraging the IND, we train our model and conduct experiments to evaluate the effectiveness of our reward-based dialogue system for negotiation. Our results demonstrate that the proposed approach and reward system significantly enhance the agent's negotiation capabilities. The INA successfully engages in integrative negotiations, displaying the ability to dynamically adjust prices and negotiate the inclusion or exclusion of items in a bundle deal
翻訳日:2023-10-30 13:19:34 公開日:2023-10-27
# スペイン語翻訳の損失:多言語ソーシャルメディアにおける主張の特定

Lost in Translation, Found in Spans: Identifying Claims in Multilingual Social Media ( http://arxiv.org/abs/2310.18205v1 )

ライセンス: Link先を確認
Shubham Mittal, Megha Sundriyal, Preslav Nakov(参考訳) クレームスパン識別(CSI)はファクトチェックパイプラインにおける重要なステップであり、ソーシャルメディア投稿でチェック価値のあるクレームやアサーションを含むテキストセグメントを特定することを目的としている。 ジャーナリストやヒューマン・ファクト・チェッカーにとって重要性は高いものの、深刻な未熟な問題であり、この話題に関するこれまでの研究は英語にのみ焦点が当てられている。 ここでは、5つのインド語と英語のソーシャルメディアプラットフォームから収集された7Kの現実世界のクレームからなる、新しいデータセットX-CLAIMを作成することで、このギャップを埋めることを目指している。 我々は,最先端のエンコーダのみの言語モデル(例えばxlm-r)を用いた強固なベースラインを報告し,ゼロショット転送や翻訳データのトレーニングといった代替的な言語間転送方法よりも,複数の言語でのトレーニングのメリットを,英語などの高リソース言語から実証する。 x-claim データセットのプロンプトメソッドを用いて gpt シリーズから生成した大言語モデルを評価し,低リソース言語用のエンコーダのみの小型言語モデルを過小評価した。

Claim span identification (CSI) is an important step in fact-checking pipelines, aiming to identify text segments that contain a checkworthy claim or assertion in a social media post. Despite its importance to journalists and human fact-checkers, it remains a severely understudied problem, and the scarce research on this topic so far has only focused on English. Here we aim to bridge this gap by creating a novel dataset, X-CLAIM, consisting of 7K real-world claims collected from numerous social media platforms in five Indian languages and English. We report strong baselines with state-of-the-art encoder-only language models (e.g., XLM-R) and we demonstrate the benefits of training on multiple languages over alternative cross-lingual transfer methods such as zero-shot transfer, or training on translated data, from a high-resource language such as English. We evaluate generative large language models from the GPT series using prompting methods on the X-CLAIM dataset and we find that they underperform the smaller encoder-only language models for low-resource languages.
翻訳日:2023-10-30 13:19:07 公開日:2023-10-27
# 清浄下におけるリンクレベルの絡み合いの忠実性分布について

On the Fidelity Distribution of Link-level Entanglements under Purification ( http://arxiv.org/abs/2310.18198v1 )

ライセンス: Link先を確認
Karim Elsayed, Wasiur R. KhudaBukhsh, Amr Rizk(参考訳) 量子絡み合いは、かなりの距離にわたる量子通信の鍵である。 量子通信ノード間の絡み合い分布の最初のステップは、隣接する通信ノード間でリンクレベルEinstein-Podolsky-Rosenペアを生成することである。 EPRペアは連続的に生成され、数個の量子メモリに格納され、量子アプリケーションで利用できる。 大きな課題は、量子ビットが環境との相互作用によって避けられないノイズに悩まされることである。 このデコヒーレンスにより、量子ビットの時間的忠実性の既知の指数的減衰モデルが得られ、量子メモリにおける量子ビットの寿命と量子アプリケーションの性能が制限される。 本稿では,2つの逆の動的および確率的現象,第1に,前述のデコヒーレンスと第2の浄化,すなわち,他のEPRペアを犠牲にして,EPRペアの忠実度を向上させる操作の下で,保存されたEPRペアの忠実度を評価する。 2つのEPRペアが生成されるとすぐに精製を適用する代わりに、2つのEPRペアのPBG(Beyond the Generation Time)のパーフィケーションスキームを導入する。 本稿では,各ノードに2つの量子メモリを持つシステムにおいて,格納されたリンクレベルEPRペアの忠実度の確率分布を解析的に示す。 さらに,2つの格納されたEPRペアを,追加で生成した後に精製するPBGスキームを適用した。 最後に,分析手法の数値評価を行い,検討した浄化計画の忠実度トレードオフを示す。

Quantum entanglement is the key to quantum communications over considerable distances. The first step for entanglement distribution among quantum communication nodes is to generate link-level Einstein-Podolsky-Rosen (EPR) pairs between adjacent communication nodes. EPR pairs may be continuously generated and stored in a few quantum memories to be ready for utilization by quantum applications. A major challenge is that qubits suffer from unavoidable noise due to their interaction with the environment, which is called decoherence. This decoherence results in the known exponential decay model of the fidelity of the qubits with time, thus, limiting the lifetime of a qubit in a quantum memory and the performance of quantum applications. In this paper, we evaluate the fidelity of the stored EPR pairs under two opposite dynamical and probabilistic phenomena, first, the aforementioned decoherence and second purification, i.e. an operation to improve the fidelity of an EPR pair at the expense of sacrificing another EPR pair. Instead of applying the purification as soon as two EPR pairs are generated, we introduce a Purification scheme Beyond the Generation time (PBG) of two EPR pairs. We analytically show the probability distribution of the fidelity of stored link-level EPR pairs in a system with two quantum memories at each node allowing a maximum of two stored EPR pairs. In addition, we apply a PBG scheme that purifies the two stored EPR pairs upon the generation of an additional one. We finally provide numerical evaluations of the analytical approach and show the fidelity-rate trade-off of the considered purification scheme.
翻訳日:2023-10-30 13:18:43 公開日:2023-10-27
# デジタル病理学におけるArtifact-Robust Graph-based Learning

Artifact-Robust Graph-Based Learning in Digital Pathology ( http://arxiv.org/abs/2310.18192v1 )

ライセンス: Link先を確認
Saba Heidari Gheshlaghi, Milan Aryal, Nasim Yahyasoltani, and Masoud Ganji(参考訳) 全スライド画像~(wsis)は、高度なスキャナーを用いてガラススライドに配置された組織のデジタル画像である。 WSIのデジタル処理は、ギガピクセルイメージであり、マルチレゾリューションフォーマットで保存されているため、困難である。 WSIsの一般的な課題は、ガラススライドを保存してデジタル化する際、摂動/人工物は避けられないことである。 これらの摂動には、配置中のスライド運動から生じる動きや、染色化学物質の変異とデジタルスキャナの品質による色合いや明るさの変化が含まれる。 本稿では,これらの成果物を考慮した新しい頑健な学習手法を提案する。 WSIのサイズと解像度、および近隣情報を考慮するため、グラフベースの手法が求められている。 グラフ畳み込みネットワーク~(gcn)を使用して、wsiを表すグラフから特徴を抽出する。 デノイザー {and pooling layer} を通じて、wsisにおける摂動の効果を制御し、その出力を前立腺がんの異なる分類のためのトランスフォーマによって追従する。 提案手法の有効性を比較するために,デノイザーのないモデルはwsisでトレーニングされ,摂動なしでテストされ,wsisで異なる摂動が導入され,デノイザーでネットワークを通過する。 前立腺癌モデルと非ロバストアルゴリズムの精度とkappaスコアは,癌診断において有意な改善を示した。

Whole slide images~(WSIs) are digitized images of tissues placed in glass slides using advanced scanners. The digital processing of WSIs is challenging as they are gigapixel images and stored in multi-resolution format. A common challenge with WSIs is that perturbations/artifacts are inevitable during storing the glass slides and digitizing them. These perturbations include motion, which often arises from slide movement during placement, and changes in hue and brightness due to variations in staining chemicals and the quality of digitizing scanners. In this work, a novel robust learning approach to account for these artifacts is presented. Due to the size and resolution of WSIs and to account for neighborhood information, graph-based methods are called for. We use graph convolutional network~(GCN) to extract features from the graph representing WSI. Through a denoiser {and pooling layer}, the effects of perturbations in WSIs are controlled and the output is followed by a transformer for the classification of different grades of prostate cancer. To compare the efficacy of the proposed approach, the model without denoiser is trained and tested with WSIs without any perturbation and then different perturbations are introduced in WSIs and passed through the network with the denoiser. The accuracy and kappa scores of the proposed model with prostate cancer dataset compared with non-robust algorithms show significant improvement in cancer diagnosis.
翻訳日:2023-10-30 13:18:16 公開日:2023-10-27
# 連続体における非エルミート拡張中ギャップ状態と有界状態

Non-Hermitian extended midgap states and bound states in the continuum ( http://arxiv.org/abs/2310.18270v1 )

ライセンス: Link先を確認
Maria Zelenayova, Emil J. Bergholtz(参考訳) 一般化されたsu-schrieffer-heeger/rice-meleモデルのクラスを解き、その証明をトポロジー、対称性破砕、バイオロトゴナリティの基本概念に関連付けることで、非エルミート系における異常局在現象を調査した。 連続体には2つの境界状態のフレーバーがあり、どちらもキラル対称性がなくても安定である。 1つ目は、スペクトル巻数によって保護される皮膚のバルク状態である。 第2のフレーバーは、量子化された生体直交偏光に関連する境界モードによって構成される。 さらに,バルク臨界点におけるギャップに留まりながら非局在化する境界状態から生じる拡張状態も見いだす。 この状態は、局所(スキン)状態の連続体内でも非局在化することができる。 これらの結果は、トポロジーの基本的側面と、異常な非ハーミタンバルク境界対応に対する異なるアプローチの光の対称性を明らかにし、機械系、電気系、フォトニック系の直接的な実験的関連性である。

We investigate anomalous localization phenomena in non-Hermitian systems by solving a class of generalized Su-Schrieffer-Heeger/Rice-Mele models and by relating their provenance to fundamental notions of topology, symmetry-breaking and biorthogonality. We find two flavours of bound states in the continuum, both stable even in the absence of chiral symmetry. The first being skin bulk states which are protected by the spectral winding number. The second flavour is constituted by boundary modes associated with a quantized biorthogonal polarization. Furthermore, we find the extended state stemming from the boundary state that delocalizes while remaining in the gap at bulk critical points. This state may also delocalize within a continuum of localized (skin) states. These results clarify fundamental aspects of topology, and symmetry in the light of different approaches to the anomalous non-Hermitan bulk-boundary correspondence -- and are of direct experimental relevance for mechanical, electrical and photonic systems.
翻訳日:2023-10-30 13:09:55 公開日:2023-10-27
# 揺らぎによる臨界が非エルミタン皮膚効果と量子センサーに及ぼす影響の探索

Exploring the impact of fluctuation-induced criticality on non-hermitian skin effect and quantum sensors ( http://arxiv.org/abs/2310.18259v1 )

ライセンス: Link先を確認
Clement Ehrhardt and Jonas Larson(参考訳) 本稿では,非エルミート量子力学における予測が,モデル内の環境変動の欠如によって不正確な影響を受けることを強調する具体例を示す。 特に,Hermitian skin effect and sensor in the Hatano-Nelson modelにおいて,より正確なLindblad記述と対比して検討を行った。 解析の結果, 環境変動が前面に現れるとこれらの現象は崩壊し, 非平衡相が局所化皮膚相から非局在化相へ遷移することが明らかとなった。 この特定のケーススタディを越えて、非エルミート量子力学の解釈と意味に関する幅広い議論を行っている。 この検証は、これらの現象とその潜在的な結果の理解を広げるのに役立つ。

In this paper, we present a concrete example that highlights how predictions in non-Hermitian quantum mechanics can be inaccurately influenced by the absence of environment-induced fluctuations in the model. Specifically, we investigate the non-Hermitian skin effect and sensor in the Hatano-Nelson model, contrasting it with a more precise Lindblad description. Our analysis reveals that these phenomena can undergo breakdown when environmental fluctuations come to the forefront, resulting in a non-equilibrium phase transition from a localized skin phase to a delocalized phase. Beyond this specific case study, we engage in a broader discussion regarding the interpretations and implications of non-Hermitian quantum mechanics. This examination serves to broaden our understanding of these phenomena and their potential consequences.
翻訳日:2023-10-30 13:09:36 公開日:2023-10-27
# 土地被覆セグメンテーションへの自己監督的アプローチ

A Self-Supervised Approach to Land Cover Segmentation ( http://arxiv.org/abs/2310.18251v1 )

ライセンス: Link先を確認
Charles Moore, Dakota Hester (Mississippi State University)(参考訳) 土地利用/土地被覆変化マップ(LULC map)は、地球科学と農業研究において重要な資源である。 このような地図の性質から、LULCマップの作成は、衛星画像やリモートセンシングデータを正確にアノテートするために必要な時間と人的資源によって制約されることが多い。 このようなデータから詳細なラベルを作成するためにセマンティックセグメンテーションを行うコンピュータビジョンモデルは珍しくないが、llcマップを接地面を使わずにラベル付けするための自己教師ありかつ教師なしのアプローチで、litle researchが行われている。 本稿では,高品質な地中真実ラベルを必要としない土地被覆セグメンテーションの自己管理手法を示す。 提案したディープラーニングでは、DINOからSTEGOアーキテクチャに移行した凍結トレーニング済みのViTバックボーンを使用し、超高解像度(VHR)衛星画像からなるカスタムデータセットを使用して微調整を行う。 VHR LULCマップの自動ラベリングのための自己教師型モデルの実現可能性を示すため, わずか10回の微調整の後, 5サンプルで約52%の精度が観察された。

Land use/land cover change (LULC) maps are integral resources in earth science and agricultural research. Due to the nature of such maps, the creation of LULC maps is often constrained by the time and human resources necessary to accurately annotate satellite imagery and remote sensing data. While computer vision models that perform semantic segmentation to create detailed labels from such data are not uncommon, litle research has been done on self-supervised and unsupervised approaches to labelling LULC maps without the use of ground-truth masks. Here, we demonstrate a self-supervised method of land cover segmentation that has no need for high-quality ground truth labels. The proposed deep learning employs a frozen pre-trained ViT backbone transferred from DINO in a STEGO architecture and is fine-tuned using a custom dataset consisting of very high resolution (VHR) sattelite imagery. After only 10 epochs of fine-tuning, an accuracy of roughly 52% was observed across 5 samples, signifying the feasibility of self-supervised models for the automated labelling of VHR LULC maps.
翻訳日:2023-10-30 13:09:09 公開日:2023-10-27
# オフライン強化学習と模倣学習のための誘導データ拡張

Guided Data Augmentation for Offline Reinforcement Learning and Imitation Learning ( http://arxiv.org/abs/2310.18247v1 )

ライセンス: Link先を確認
Nicholas E. Corrado, Yuxiao Qu, John U. Balis, Adam Labiosa, Josiah P. Hanna(参考訳) learning from demonstration(lfd)は、ロボットの制御ポリシーを学ぶために、専門家によるデモンストレーションを使用する一般的なテクニックである。 実世界のデータ収集はコストがかかることが多く、デモの質はデモの能力や安全性に大きく依存する。 多くの研究がデータ拡張(DA)を活用して追加のデモデータを安価に生成していますが、ほとんどのDA作業はランダムな方法で拡張データを生成し、最終的に非常に最適なデータを生成します。 本研究では,有能な拡張データを生成する人間誘導型DAフレームワークであるGuDA(Guid Data Augmentation)を提案する。 GuDAのキーとなる洞察は、専門家データを生成するのに必要なアクションのシーケンスを示すのは難しいかもしれないが、拡張された軌道セグメントがタスクの進行を表すときに容易に識別できるということである。 これにより、DAプロセスに一連の簡単なルールを課し、専門家の行動を近似した拡張サンプルを自動的に生成することができる。 gudaからポリシーを抽出するために,オフライン強化学習と行動クローニングアルゴリズムを用いた。 我々は,物理ロボットサッカーの課題とシミュレーションD4RLナビゲーションタスク,シミュレーション自律運転タスク,シミュレーションサッカータスクについてGuDAを評価する。 経験的に、GuDAは、潜在的に最適でないデモの小さなセットから学習することができ、無作為なデータ収集を行うDA戦略よりも大幅に優れています。

Learning from demonstration (LfD) is a popular technique that uses expert demonstrations to learn robot control policies. However, the difficulty in acquiring expert-quality demonstrations limits the applicability of LfD methods: real-world data collection is often costly, and the quality of the demonstrations depends greatly on the demonstrator's abilities and safety concerns. A number of works have leveraged data augmentation (DA) to inexpensively generate additional demonstration data, but most DA works generate augmented data in a random fashion and ultimately produce highly suboptimal data. In this work, we propose Guided Data Augmentation (GuDA), a human-guided DA framework that generates expert-quality augmented data. The key insight of GuDA is that while it may be difficult to demonstrate the sequence of actions required to produce expert data, a user can often easily identify when an augmented trajectory segment represents task progress. Thus, the user can impose a series of simple rules on the DA process to automatically generate augmented samples that approximate expert behavior. To extract a policy from GuDA, we use off-the-shelf offline reinforcement learning and behavior cloning algorithms. We evaluate GuDA on a physical robot soccer task as well as simulated D4RL navigation tasks, a simulated autonomous driving task, and a simulated soccer task. Empirically, we find that GuDA enables learning from a small set of potentially suboptimal demonstrations and substantially outperforms a DA strategy that samples augmented data randomly.
翻訳日:2023-10-30 13:08:48 公開日:2023-10-27
# 電力探索のミスアライメントによるAIによる既存リスクの証拠のレビュー

A Review of the Evidence for Existential Risk from AI via Misaligned Power-Seeking ( http://arxiv.org/abs/2310.18244v1 )

ライセンス: Link先を確認
Rose Hadshar(参考訳) 人工知能(AI)の急速な進歩は、専門家、政策立案者、そして世界のリーダーの間で、より高度なAIシステムが現実的なリスクをもたらす可能性に対する懸念が高まりつつある。 本稿では,AIシステムが人間の価値観と不一致な目標を達成し,不一致なAIが積極的に力を求めるような,AIの実在するリスクの証拠をレビューする。 このレビューは、経験的知見、概念的議論、仕様ゲーム、目標の一般化、パワーシーキングに関する専門家の意見を考察している。 証拠の現在の状態は、過度に整合した電力探索の極端な形態の存在に関して不確定である。 仕様ゲームと強力な概念的証拠が組み合わさった強い実証的証拠は、実存リスクの可能性を不一致の電力探究から排除することを困難にしている。 一方、これまでAIシステムに不整合電力探索の公的な実証例は存在せず、将来のシステムが実在的なリスクをもたらすという議論は幾らか投機的のままである。 証拠の現在の状況を考えると、不整合電力探索が大きな存在リスクを生じさせるか、実在リスクを生じさせるかのどちらかが極めて確実である。 不正な電力探索を通じてAIから現実的なリスクを確実に排除できないという事実は、深刻な懸念を引き起こします。

Rapid advancements in artificial intelligence (AI) have sparked growing concerns among experts, policymakers, and world leaders regarding the potential for increasingly advanced AI systems to pose existential risks. This paper reviews the evidence for existential risks from AI via misalignment, where AI systems develop goals misaligned with human values, and power-seeking, where misaligned AIs actively seek power. The review examines empirical findings, conceptual arguments and expert opinion relating to specification gaming, goal misgeneralization, and power-seeking. The current state of the evidence is found to be concerning but inconclusive regarding the existence of extreme forms of misaligned power-seeking. Strong empirical evidence of specification gaming combined with strong conceptual evidence for power-seeking make it difficult to dismiss the possibility of existential risk from misaligned power-seeking. On the other hand, to date there are no public empirical examples of misaligned power-seeking in AI systems, and so arguments that future systems will pose an existential risk remain somewhat speculative. Given the current state of the evidence, it is hard to be extremely confident either that misaligned power-seeking poses a large existential risk, or that it poses no existential risk. The fact that we cannot confidently rule out existential risk from AI via misaligned power-seeking is cause for serious concern.
翻訳日:2023-10-30 13:08:24 公開日:2023-10-27
# 量子インスパイアされた属性選択アルゴリズム:忠実性に基づく量子決定木

Quantum-inspired attribute selection algorithm: A Fidelity-based Quantum Decision Tree ( http://arxiv.org/abs/2310.18243v1 )

ライセンス: Link先を確認
Diksha Sharma, Parvinder Singh, Atul Kumar(参考訳) 古典的な決定木は完全に分割測度に基づいており、データセットを最適に分離するためにクラスラベルに対応するランダムイベントの発生を利用する。 しかし, 分割尺度は, 不均衡木の構築につながり, 従来の決定木アルゴリズムの予測精度を低下させるグリーディ戦略に基づいている。 興味深いアプローチは、決定木アルゴリズムの強化に量子コンピューティングの基礎的側面を活用することである。 そこで本研究では,効率良くバランスの取れた量子決定木を構築するために,量子分割基準として忠実性を用いることを提案する。 このために,特徴量とその対応クラスにおけるランダム事象の発生を用いて量子状態を構築する。 量子状態は、全ての特徴の分割属性を決定するための忠実度を計算するためにさらに利用される。 数値解析を用いて,提案アルゴリズムがバランス木の構築を協調的に行うことを明らかにした。 さらに,提案する量子分割基準の効率を,均衡データセットと不均衡データセットの異なる古典的分割基準と比較した。 シミュレーションの結果,提案する分割基準は,すべての評価指標の古典的分割基準を超えることがわかった。

A classical decision tree is completely based on splitting measures, which utilize the occurrence of random events in correspondence to its class labels in order to optimally segregate datasets. However, the splitting measures are based on greedy strategy, which leads to construction of an imbalanced tree and hence decreases the prediction accuracy of the classical decision tree algorithm. An intriguing approach is to utilize the foundational aspects of quantum computing for enhancing decision tree algorithm. Therefore, in this work, we propose to use fidelity as a quantum splitting criterion to construct an efficient and balanced quantum decision tree. For this, we construct a quantum state using the occurrence of random events in a feature and its corresponding class. The quantum state is further utilized to compute fidelity for determining the splitting attribute among all features. Using numerical analysis, our results clearly demonstrate that the proposed algorithm cooperatively ensures the construction of a balanced tree. We further compared the efficiency of our proposed quantum splitting criterion to different classical splitting criteria on balanced and imbalanced datasets. Our simulation results show that the proposed splitting criterion exceeds all classical splitting criteria for all possible evaluation metrics.
翻訳日:2023-10-30 13:07:59 公開日:2023-10-27
# ライドバーグ原子トロンデバイス

Rydberg atomtronic devices ( http://arxiv.org/abs/2310.18242v1 )

ライセンス: Link先を確認
Philip Kitson, Tobias Haug, Antonino La Magna, Oliver Morsch, Luigi Amico(参考訳) ライドバーグ原子のネットワークは量子シミュレータや量子技術に強力な基盤を提供する。 物質波アトムトロニクスに触発されて、スイッチ、ダイオード、ユニバーサルロジックゲートを設計。 提案手法は, アンチブロック機構やファシリテーション機構により, ライドバーグ励起ダイナミクスを制御し, 低温原子系に比べてはるかに高速なデバイスを実現する。 我々のアプローチは雑音に対して頑健であり、個別に捕捉された原子や広範囲の三次元気体に適用できる。 エレクトロニクスと類似して、Rydberg atomtronic devicesは量子情報プロセッサと量子シミュレータを強化することを約束している。

Networks of Rydberg atoms provide a powerful basis for quantum simulators and quantum technologies. Inspired by matter-wave atomtronics, here we engineer switches, diodes and universal logic gates. Our schemes control the Rydberg excitation dynamics via the anti-blockade or facilitation mechanism, allowing for much faster devices compared to cold atom systems. Our approach is robust to noise and can be applied to individually trapped atoms and extensive three-dimensional gases. In analogy to electronics, Rydberg atomtronic devices promise to enhance quantum information processors and quantum simulators.
翻訳日:2023-10-30 13:07:40 公開日:2023-10-27
# $\alpha$-Mutual Information: データ共有におけるプライバシー保護のための厄介なプライバシー対策

$\alpha$-Mutual Information: A Tunable Privacy Measure for Privacy Protection in Data Sharing ( http://arxiv.org/abs/2310.18241v1 )

ライセンス: Link先を確認
MirHamed Jafarzadeh Asl, Mohammadhadi Shateri, Fabrice Labeau(参考訳) 本稿では,プライベートデータを敵に開示することを防止するプライバシ保存型データリリース設定において,arimotoの$\alpha$-mutual情報を活用する。 プライバシメトリックを微調整することで、我々のアプローチが攻撃者を効果的に回避する優れたモデルを生み出すことを示す。 我々は、プライバシ保護を提供するためにオリジナルのデータを操作するための一般的な歪みに基づくメカニズムを定式化する。 歪みメトリックは、特定の実験のデータ構造に応じて決定される。 我々は,この定式化で表される問題に対して,解答器と反対の目標で訓練された対向的な対向学習フレームワークを用いて対処する。 本研究では,画像および時系列データを用いた実験を行い,$\alpha$-mutual情報の機能を検証した。 カスタマイズされたモデルのプライバシユーティリティトレードオフを評価し,基本基準として相互情報と比較する。 最後に、攻撃者がプライベートデータに関するサイド情報にアクセスした結果を分析し、プライバシー対策を適用すると、サイド情報に対するレジリエンスの観点から、最先端のモデルよりも洗練されたモデルになることを示す。

This paper adopts Arimoto's $\alpha$-Mutual Information as a tunable privacy measure, in a privacy-preserving data release setting that aims to prevent disclosing private data to adversaries. By fine-tuning the privacy metric, we demonstrate that our approach yields superior models that effectively thwart attackers across various performance dimensions. We formulate a general distortion-based mechanism that manipulates the original data to offer privacy protection. The distortion metrics are determined according to the data structure of a specific experiment. We confront the problem expressed in the formulation by employing a general adversarial deep learning framework that consists of a releaser and an adversary, trained with opposite goals. This study conducts empirical experiments on images and time-series data to verify the functionality of $\alpha$-Mutual Information. We evaluate the privacy-utility trade-off of customized models and compare them to mutual information as the baseline measure. Finally, we analyze the consequence of an attacker's access to side information about private data and witness that adapting the privacy measure results in a more refined model than the state-of-the-art in terms of resiliency against side information.
翻訳日:2023-10-30 13:07:31 公開日:2023-10-27
# Proxy Design: Proxy のユーザに対して,脆弱性や到達不能なユーザの半減期を共同設計で語る方法

Proxy Design: A Method for Involving Proxy Users to Speak on Behalf of Vulnerable or Unreachable Users in Co-Design ( http://arxiv.org/abs/2310.18240v1 )

ライセンス: Link先を確認
Anna Sigridur Islind, Johan Lundin, Katerina Cerna, Tomas Lindroth, Linda {\AA}keflo and Gunnar Steineck(参考訳) デジタルアーティファクトの設計は、線形で簡単なプロセスではありません。 これは、設計プロセスに参加できないユーザに対して、ユーザ中心の設計アプローチや共同設計を適用する場合に特に当てはまります。 特定のユーザーグループの参加が減少することは最終結果に悪影響を及ぼす可能性があるが、この問題の解決に関する文献は乏しい。 この記事では、ユーザグループをプロキシユーザとして、到達しにくいグループのために話す方法として、プロキシ設計を概説します。 がんリハビリテーションクリニックで3年間にわたるデザインエスノグラフィーを行い,看護婦と患者が共同でデジタルアーティファクトを使用できるように設計した。 実験データは内容分析を用いて分析され,診療所における観察日数20日,代理設計ワークショップ6回,患者と看護師との電話相談21回,デジタルアーティファクトからのログデータであった。 本研究は, 看護職が患者のプロキシとしてロールプレイングを担い, 設計プロセスを開始し, 患者の深い理解を効果的に行えるようにする。 さらに,提案手法としてのプロキシ設計が設計をさらに拡大することを示す。 1) 設計開始方法としてのプロキシ設計, (2) 共設計における組込み要素としてのプロキシ設計, (3) プロキシ設計に関わる際に考慮すべき6つの設計ガイドラインについて述べる。 主要な貢献は、重要なユーザが到達不能、脆弱、あるいは共同設計プロセスで自身を表現することができない場合に、共同設計プロセスを点火し、開始できる方法としてのプロキシ設計の概念化である。 本論文は, 看護婦が患者に代わって発言する代理利用者を巻き込んだデザインエスノグラフィーによる経験的知見に基づいて, プロキシデザインにおけるロールプレイングがデザインプロセスの開始に適した方法であり, プロキシデザインを共同設計の組み込み要素として概説していることを示す。

Designing digital artifacts is not a linear, straightforward process. This is particularly true when applying a user-centered design approach, or co-design, with users who are unable to participate in the design process. Although the reduced participation of a particular user group may harm the end result, the literature on solving this issue is sparse. In this article, proxy design is outlined as a method for involving a user group as proxy users to speak on behalf of a group that is difficult to reach. We present a design ethnography spanning three years at a cancer rehabilitation clinic, where digital artifacts were designed to be used collaboratively by nurses and patients. The empirical data were analyzed using content analysis and consisted of 20 observation days at the clinic, six proxy design workshops, 21 telephone consultations between patients and nurses, and log data from the digital artifact. We show that simulated consultations, with nurses roleplaying as proxies for patients ignited and initiated the design process and enabled an efficient in-depth understanding of patients. Moreover, we reveal how proxy design as a method further expanded the design. We illustrate: (1) proxy design as a method for initiating design, (2) proxy design as an embedded element in co-design and (3) six design guidelines that should be considered when engaging in proxy design. The main contribution is the conceptualization of proxy design as a method that can ignite and initiate the co-design process when important users are unreachable, vulnerable or unable to represent themselves in the co-design process. Based on the empirical findings from a design ethnography that involved nurses as proxy users speaking on behalf of patients, the article shows that roleplaying in proxy design is a fitting way of initiating the design process, outlining proxy design as an embedded element of co-design.
翻訳日:2023-10-30 13:07:09 公開日:2023-10-27
# 形式的手法フィードバックを用いた微調整言語モデル

Fine-Tuning Language Models Using Formal Methods Feedback ( http://arxiv.org/abs/2310.18239v1 )

ライセンス: Link先を確認
Yunhao Yang, Neel P. Bhatt, Tyler Ingebrand, William Ward, Steven Carr, Zhangyang Wang, Ufuk Topcu(参考訳) 事前訓練された言語モデルは、計画と制御に有用な一般的な知識をエンコードするが、ドメイン固有のタスクに対して適切な制御ポリシーを生成しない可能性がある。 既存の微調整手法では、この制限に対処するためにヒューマンフィードバックを使用するが、ヒューマンフィードバックのソーシングは労働集約的でコストがかかる。 汎用知識とドメイン固有の要件のギャップを埋めつつ、コストを低減しながら、自律システムにおけるアプリケーションのための微調整済み言語モデルに完全に自動化されたアプローチを提案する。 本手法は,自然言語タスク記述による事前学習モデルから自動制御器を合成する。 これらのコントローラは、世界モデル内の独立した仕様に対して検証可能であり、高忠実度シミュレータから抽象化または取得することができる。 望ましい仕様に準拠したコントローラはより高いランクを受け取り、反復的な微調整プロセスを導く。 我々は、主に自動運転において、複数のタスクにまたがる方法の有効性を示す定量的な証拠を提供する。 その結果,コントローラが満足する仕様の割合が60%から90%に向上した。

Although pre-trained language models encode generic knowledge beneficial for planning and control, they may fail to generate appropriate control policies for domain-specific tasks. Existing fine-tuning methods use human feedback to address this limitation, however, sourcing human feedback is labor intensive and costly. We present a fully automated approach to fine-tune pre-trained language models for applications in autonomous systems, bridging the gap between generic knowledge and domain-specific requirements while reducing cost. The method synthesizes automaton-based controllers from pre-trained models guided by natural language task descriptions. These controllers are verifiable against independently provided specifications within a world model, which can be abstract or obtained from a high-fidelity simulator. Controllers with high compliance with the desired specifications receive higher ranks, guiding the iterative fine-tuning process. We provide quantitative evidences, primarily in autonomous driving, to demonstrate the method's effectiveness across multiple tasks. The results indicate an improvement in percentage of specifications satisfied by the controller from 60% to 90%.
翻訳日:2023-10-30 13:06:34 公開日:2023-10-27
# 畳み込みニューラルネットワークを用いた芸術的スタイル伝達のための生成AIモデル

Generative AI Model for Artistic Style Transfer Using Convolutional Neural Networks ( http://arxiv.org/abs/2310.18237v1 )

ライセンス: Link先を確認
Jonayet Miah, Duc M Cao, Md Abu Sayed, and Md. Sabbirul Haque(参考訳) 芸術的スタイル転送(artiteal style transfer)とは、生成的人工知能(generative artificial intelligence)のキャプティベーション応用であり、ある画像の内容を他の画像の芸術的スタイルと融合させ、ユニークな視覚的な構成を作り出すことを含む。 本稿では,畳み込みニューラルネットワーク(cnns)を用いた新しいスタイル転送手法の包括的概要について述べる。 cnnが学習した深層画像表現を活用し,画像コンテンツとスタイルを分離・操作する方法を実証し,コンテンツとスタイルを調和させた高品質画像の合成を可能にした。 コンテンツとスタイルの表現、損失計算、最適化を含む方法論を解説し、異なるスタイルとコンテンツにまたがるアプローチの有効性と汎用性を明らかにする実験結果を示す。

Artistic style transfer, a captivating application of generative artificial intelligence, involves fusing the content of one image with the artistic style of another to create unique visual compositions. This paper presents a comprehensive overview of a novel technique for style transfer using Convolutional Neural Networks (CNNs). By leveraging deep image representations learned by CNNs, we demonstrate how to separate and manipulate image content and style, enabling the synthesis of high-quality images that combine content and style in a harmonious manner. We describe the methodology, including content and style representations, loss computation, and optimization, and showcase experimental results highlighting the effectiveness and versatility of the approach across different styles and content
翻訳日:2023-10-30 13:06:19 公開日:2023-10-27
# 再サンプリングは長期学習に役立つか?

How Re-sampling Helps for Long-Tail Learning? ( http://arxiv.org/abs/2310.18236v1 )

ライセンス: Link先を確認
Jiang-Xin Shi, Tong Wei, Yuke Xiang, Yu-Feng Li(参考訳) 近年のロングテール学習は、極めて不均衡なデータセットで発生する課題により、大きな注目を集めている。 これらのデータセットでは、少数のクラス(ヘッドクラスとして知られる)のみが十分な数のトレーニングサンプルを持ち、残りのクラス(テールクラスと呼ばれる)はトレーニングデータにはほとんどありません。 再サンプリングはクラス不均衡問題に対処するための古典的で広く使われているアプローチである。 残念なことに、最近の研究では、リサンプリングは現代のロングテール学習タスクにおいて無視できるパフォーマンス改善をもたらすと主張している。 本稿では,この現象を体系的に研究することを目的とする。 本研究は,トレーニング画像が意味的に無関係な文脈を含まない場合,再サンプリングにより一般化が著しく向上することを示す。 しかし、他のシナリオでは、無関係なコンテキストとターゲットラベルの間の予期せぬ散発的な相関を学習することができる。 我々は,無関係な文脈を含む2つの均質なデータセットについて実験を行い,その実験結果を確認した。 そこで本研究では,ヘッドクラス画像から抽出したコンテキストバンクを維持して,テールクラスの多様なトレーニング画像を生成する新しいコンテキストシフト拡張モジュールを提案する。 実験により,提案モジュールは,クラスバランスの再サンプリング,非結合型分類器再学習,データ拡張手法など,他の手法より優れていることを示す。 ソースコードはhttps://www.lamda.nju.edu.cn/code_csa.ashxで入手できる。

Long-tail learning has received significant attention in recent years due to the challenge it poses with extremely imbalanced datasets. In these datasets, only a few classes (known as the head classes) have an adequate number of training samples, while the rest of the classes (known as the tail classes) are infrequent in the training data. Re-sampling is a classical and widely used approach for addressing class imbalance issues. Unfortunately, recent studies claim that re-sampling brings negligible performance improvements in modern long-tail learning tasks. This paper aims to investigate this phenomenon systematically. Our research shows that re-sampling can considerably improve generalization when the training images do not contain semantically irrelevant contexts. In other scenarios, however, it can learn unexpected spurious correlations between irrelevant contexts and target labels. We design experiments on two homogeneous datasets, one containing irrelevant context and the other not, to confirm our findings. To prevent the learning of spurious correlations, we propose a new context shift augmentation module that generates diverse training images for the tail class by maintaining a context bank extracted from the head-class images. Experiments demonstrate that our proposed module can boost the generalization and outperform other approaches, including class-balanced re-sampling, decoupled classifier re-training, and data augmentation methods. The source code is available at https://www.lamda.nju.edu.cn/code_CSA.ashx.
翻訳日:2023-10-30 13:06:05 公開日:2023-10-27
# Davidsonian Scene Graph: テキスト画像生成のためのきめ細かい評価における信頼性の向上

Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-Image Generation ( http://arxiv.org/abs/2310.18235v1 )

ライセンス: Link先を確認
Jaemin Cho, Yushi Hu, Roopal Garg, Peter Anderson, Ranjay Krishna, Jason Baldridge, Mohit Bansal, Jordi Pont-Tuset, Su Wang(参考訳) テキストから画像へのモデルの評価は、非常に難しい。 テキスト画像の忠実性を評価するための最近の強固なアプローチは、事前学習された基礎モデルを用いてプロンプトから質問と回答のセットを自動的に生成するqg/a(question generation and answering)に基づいており、これらの回答がプロンプトベースの回答と一致するかどうかに基づいて出力画像がスコア付けされる。 この種の評価は、基礎となるQGモデルとQAモデルの品質に自然に依存する。 既存のQG/A作業における信頼性上の課題を特定し,対処する。 (a)qg質問は、プロンプト(幻覚、重複、欠落を回避)を尊重すべきである。 (b)VQAの答えは一貫していなければならない(画像にはオートバイがないが、オートバイは青だと主張する)。 我々はこれらの問題を,形式的意味論に触発された経験的基盤評価フレームワークであるDavidsonian Scene Graph (DSG)で解決する。 DSGはグラフベースの自動QG/Aであり、任意のQG/Aモジュールに適応するようにモジュール実装されている。 DSGは依存グラフにまとめられた原子的およびユニークな質問を生成する。 (i)適切な意味的カバレッジを確保し、 (ii)不一致解答。 モデル構成(LLM, VQA, T2I)の広範な実験と人間による評価により,DSGが上記の課題に対処できることを実証的に実証した。 最後に,1060のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。 我々はDSG-1kプロンプトと対応するDSG質問をリリースする。

Evaluating text-to-image models is notoriously difficult. A strong recent approach for assessing text-image faithfulness is based on QG/A (question generation and answering), which uses pre-trained foundational models to automatically generate a set of questions and answers from the prompt, and output images are scored based on whether these answers extracted with a visual question answering model are consistent with the prompt-based answers. This kind of evaluation is naturally dependent on the quality of the underlying QG and QA models. We identify and address several reliability challenges in existing QG/A work: (a) QG questions should respect the prompt (avoiding hallucinations, duplications, and omissions) and (b) VQA answers should be consistent (not asserting that there is no motorcycle in an image while also claiming the motorcycle is blue). We address these issues with Davidsonian Scene Graph (DSG), an empirically grounded evaluation framework inspired by formal semantics. DSG is an automatic, graph-based QG/A that is modularly implemented to be adaptable to any QG/A module. DSG produces atomic and unique questions organized in dependency graphs, which (i) ensure appropriate semantic coverage and (ii) sidestep inconsistent answers. With extensive experimentation and human evaluation on a range of model configurations (LLM, VQA, and T2I), we empirically demonstrate that DSG addresses the challenges noted above. Finally, we present DSG-1k, an open-sourced evaluation benchmark that includes 1,060 prompts, covering a wide range of fine-grained semantic categories with a balanced distribution. We will release the DSG-1k prompts and the corresponding DSG questions.
翻訳日:2023-10-30 13:05:43 公開日:2023-10-27
# 眼窩部における高効率心室細動に対するエッジAIを用いた静脈検出装置

Edge AI-Based Vein Detector for Efficient Venipuncture in the Antecubital Fossa ( http://arxiv.org/abs/2310.18234v1 )

ライセンス: Link先を確認
Edwin Salcedo, Patricia Pe\~naloza(参考訳) 静脈の状態と可視性を評価することは、静脈窩への静脈内アクセスを得るための重要なステップであり、これは血液の採取や静脈内療法(IV療法)の一般的な手順である。 医療従事者は静脈内投与に熟練しているが、流体保持、年齢、体重過多、皮膚の色調、糖尿病などにより、視力の低い患者では治療に苦慮することが多い。 近年, 近赤外(NIR)イメージングと深部学習(DL)技術を組み合わせた前腕静脈セグメンテーションが提案されている。 彼らは説得力のある結果を示してきたが、その使用は移植性や精査を行うための精度の要求のため、かなり制限されている。 本稿では,このギャップを3つの戦略で橋渡しすることに貢献したい。 まず,1008名の被験者から収集した2,016個のラベル付き画像を用いたNIRを用いた前腕静脈セグメンテーションデータセットを提案する。 第2に, 検査患者の側頭窩領域に特異的な静脈を配置するu-netアーキテクチャの改良を提案する。 最後に,提案アーキテクチャの圧縮バージョンを,4つの共通組み込みマイクロコンピュータと4つの共通量子化モダリティを試験した後,ベーシックでポータブルな静脈ファインダ装置内に配置した。 実験の結果、このモデルがDynamic Range Quantizationで圧縮され、Raspberry Pi 4Bカードにデプロイされたことにより、それぞれ5.14 FPSと0.957のレイテンシとIoU(Intersection over Union)で実行時間と精度のバランスが得られた。 これらの結果は、リソース制限された低コストデバイス内で有望な性能を示す。

Assessing the condition and visibility of veins is a crucial step before obtaining intravenous access in the antecubital fossa, which is a common procedure to draw blood or administer intravenous therapies (IV therapies). Even though medical practitioners are highly skilled at intravenous cannulation, they usually struggle to perform the procedure in patients with low visible veins due to fluid retention, age, overweight, dark skin tone, or diabetes. Recently, several investigations proposed combining Near Infrared (NIR) imaging and deep learning (DL) techniques for forearm vein segmentation. Although they have demonstrated compelling results, their use has been rather limited owing to the portability and precision requirements to perform venipuncture. In this paper, we aim to contribute to bridging this gap using three strategies. First, we introduce a new NIR-based forearm vein segmentation dataset of 2,016 labelled images collected from 1,008 subjects with low visible veins. Second, we propose a modified U-Net architecture that locates veins specifically in the antecubital fossa region of the examined patient. Finally, a compressed version of the proposed architecture was deployed inside a bespoke, portable vein finder device after testing four common embedded microcomputers and four common quantization modalities. Experimental results showed that the model compressed with Dynamic Range Quantization and deployed on a Raspberry Pi 4B card produced the best execution time and precision balance, with 5.14 FPS and 0.957 of latency and Intersection over Union (IoU), respectively. These results show promising performance inside a resource-restricted low-cost device.
翻訳日:2023-10-30 13:05:13 公開日:2023-10-27
# 最適回路設計のためのquantumcircuitoptの非線形計画式の検討

Exploring Non-Linear Programming Formulations in QuantumCircuitOpt for Optimal Circuit Design ( http://arxiv.org/abs/2310.18281v1 )

ライセンス: Link先を確認
Elena R. Henderson, Harsha Nagarajan, Carleton Coffrin(参考訳) 現在のハードウェアの限界を考えると、量子コンピューティングによって約束される理論的なゲインは、実用アプリケーション全体でも実現されていない。 しかし、理論とハードウェアのギャップは閉じており、量子アルゴリズムモデリングの発展に助けられている。 このような最近の開発のひとつがQuantumCircuitOpt (QCOpt) である。これは最先端の最適化に基づく解法を利用して、大域的な位相と機械の精度の精度で、証明可能な最適なコンパクト回路分解を求めるオープンソースソフトウェアフレームワークである。 量子回路設計問題は非線形、非凸制約を用いてモデル化することができる。 しかし、QCOptはこれらの非線形制約をよく知られた線形化手法を用いて再構成し、結果として生じる設計問題を混合整数線形プログラミング(MILP)モデルとして解決する。 そこで本研究では,非線形制約における整数変数の緩和によって得られる連続非線形プログラミング(NLP)モデルにおいても,QCOptが有効であるかどうかを検討する。 QCOptには、平均的な実行時間で最大11.3倍のスピードアップを達成できるだけでなく、勾配ベースのNLPソルバの挙動をより一般的に探求する機会も提供できます。

Given the limitations of current hardware, the theoretical gains promised by quantum computing remain unrealized across practical applications. But the gap between theory and hardware is closing, assisted by developments in quantum algorithmic modeling. One such recent development is QuantumCircuitOpt (QCOpt), an open-source software framework that leverages state-of-the-art optimization-based solvers to find provably optimal compact circuit decompositions, which are exact up to global phase and machine precision. The quantum circuit design problem can be modeled using non-linear, non-convex constraints. However, QCOpt reformulates these non-linear constraints using well-known linearization techniques such that the resulting design problem is solved as a Mixed-Integer Linear Programming (MILP) model. In this work, we instead explore whether the QCOpt could also be effective with a continuous Non-Linear Programming (NLP) model obtained via relaxation of the integer variables in the non-linear constraints. We are able to present not only multiple significant enhancements to QCOpt, with up to 11.3x speed-up in run times on average, but also opportunities for more generally exploring the behavior of gradient-based NLP solvers.
翻訳日:2023-10-30 12:58:09 公開日:2023-10-27
# 多項式系におけるランダム内積核行列の大域的スペクトルの普遍性

Universality for the global spectrum of random inner-product kernel matrices in the polynomial regime ( http://arxiv.org/abs/2310.18280v1 )

ライセンス: Link先を確認
Sofiia Dubova, Yue M. Lu, Benjamin McKenna, Horng-Tzer Yau(参考訳) ランダム内積カーネル行列と呼ばれるある種の大きなランダム行列は、本質的には非線型関数 $f$ がサンプル共分散行列へのエントリワイズ $f(X^TX)$ で与えられるもので、$X \in \mathbb{R}^{d \times N}$ はランダムで正規化され、$f$ は通常オーダーワンの引数を持つ。 多項式系では、$N \asymp d^\ell$ for some $\ell > 0$, not the linear regime where $\ell = 1$.} が成り立つ。 様々な著者による初期の研究によれば、x$ の列が球面上または標準ガウスベクトル上一様であり、$\ell$ が整数であるとき(線形系 $\ell = 1$ は特によく研究されている)、そのような行列のバルク固有値は単純に振る舞う:それらは半円および mar\v{c}enko-pastur 分布の自由畳み込みによって漸近的に与えられる。 本稿では、この現象が普遍であることを示し、X$がすべての有限モーメントを持つi.d.エントリを持つとすぐに保持する。 非整数$\ell$の場合、mar\v{c}enko-pastur項は消滅する(自由畳み込みの重みは消滅する)。

We consider certain large random matrices, called random inner-product kernel matrices, which are essentially given by a nonlinear function $f$ applied entrywise to a sample-covariance matrix, $f(X^TX)$, where $X \in \mathbb{R}^{d \times N}$ is random and normalized in such a way that $f$ typically has order-one arguments. We work in the polynomial regime, where $N \asymp d^\ell$ for some $\ell > 0$, not just the linear regime where $\ell = 1$. Earlier work by various authors showed that, when the columns of $X$ are either uniform on the sphere or standard Gaussian vectors, and when $\ell$ is an integer (the linear regime $\ell = 1$ is particularly well-studied), the bulk eigenvalues of such matrices behave in a simple way: They are asymptotically given by the free convolution of the semicircular and Mar\v{c}enko-Pastur distributions, with relative weights given by expanding $f$ in the Hermite basis. In this paper, we show that this phenomenon is universal, holding as soon as $X$ has i.i.d. entries with all finite moments. In the case of non-integer $\ell$, the Mar\v{c}enko-Pastur term disappears (its weight in the free convolution vanishes), and the spectrum is just semicircular.
翻訳日:2023-10-30 12:57:50 公開日:2023-10-27
# 合成データを用いた表面変形の不確かさ正規化による足の最適化

FOUND: Foot Optimization with Uncertain Normals for Surface Deformation Using Synthetic Data ( http://arxiv.org/abs/2310.18279v1 )

ライセンス: Link先を確認
Oliver Boyne, Gwangbin Bae, James Charles, Roberto Cipolla(参考訳) マルチビュー画像の表面再構成は難しい課題であり、多くのサンプル画像と高い重なり合いのソリューションを必要とすることが多い。 本研究は,ヒトの足について,少数視点再構成法の開発を目指している。 この課題を解決するためには,RGB画像からリッチな幾何学的手がかりを抽出し,それらを最終3次元オブジェクトに慎重に融合させる必要がある。 私たちのFOUNDアプローチでは、主に4つのコントリビューションがあります。 (i)SynFootは、5万枚のフォトリアリスティックフット画像からなる合成データセットで、地上の真理面の正常値とキーポイントとを組み合わせている。 (ii)我々の合成データセットで訓練された不確実性認識面正規予測器 (iii)一連の画像に生成足モデルを適用するための最適化方法 (iv)校正画像と高分解能地上真理幾何学のベンチマークデータセット。 通常の予測器は実画像上では既定の等価値を大きく上回り、最適化方式は最先端のフォトグラメトリーパイプラインを上回っており、特に数ビュー設定では上回っています。 合成データセットとベースライン3Dスキャンを研究コミュニティに公開します。

Surface reconstruction from multi-view images is a challenging task, with solutions often requiring a large number of sampled images with high overlap. We seek to develop a method for few-view reconstruction, for the case of the human foot. To solve this task, we must extract rich geometric cues from RGB images, before carefully fusing them into a final 3D object. Our FOUND approach tackles this, with 4 main contributions: (i) SynFoot, a synthetic dataset of 50,000 photorealistic foot images, paired with ground truth surface normals and keypoints; (ii) an uncertainty-aware surface normal predictor trained on our synthetic dataset; (iii) an optimization scheme for fitting a generative foot model to a series of images; and (iv) a benchmark dataset of calibrated images and high resolution ground truth geometry. We show that our normal predictor outperforms all off-the-shelf equivalents significantly on real images, and our optimization scheme outperforms state-of-the-art photogrammetry pipelines, especially for a few-view setting. We release our synthetic dataset and baseline 3D scans to the research community.
翻訳日:2023-10-30 12:57:16 公開日:2023-10-27
# 機械学習型伝達性粗粒モデルによるタンパク質の探索

Navigating protein landscapes with a machine-learned transferable coarse-grained model ( http://arxiv.org/abs/2310.18278v1 )

ライセンス: Link先を確認
Nicholas E. Charron, Felix Musil, Andrea Guljas, Yaoyi Chen, Klara Bonneau, Aldo S. Pasos-Trejo, Jacopo Venturin, Daria Gusew, Iryna Zaporozhets, Andreas Kr\"amer, Clark Templeton, Atharva Kelkar, Aleksander E. P. Durumeric, Simon Olsson, Adri\`a P\'erez, Maciej Majewski, Brooke E. Husic, Ankit Patel, Gianni De Fabritiis, Frank No\'e, Cecilia Clementi(参考訳) 最も一般的かつ普遍的に予測されるタンパク質シミュレーションモデルは全原子分子動力学(md)を用いるが、計算コストは極端である。 予測性能に類似した普遍的, 計算効率の良い粗粒度(CG)モデルの開発は, 長年にわたる課題である。 近年の深層学習法と多種多様な全原子タンパク質シミュレーションを組み合わせることで, モデルパラメトリゼーションで使用されていない新しい配列の分子動力学の補間に使用できる, 化学伝達性を備えたボトムアップCG力場を開発した。 本モデルでは, 折りたたみ構造, 中間体, 準安定な折り畳み盆地, および内在的に乱れたタンパク質のゆらぎを予測できるが, 全原子モデルよりも数桁高速である。 これは、汎用で計算効率の良いタンパク質のcgモデルの実現可能性を示す。

The most popular and universally predictive protein simulation models employ all-atom molecular dynamics (MD), but they come at extreme computational cost. The development of a universal, computationally efficient coarse-grained (CG) model with similar prediction performance has been a long-standing challenge. By combining recent deep learning methods with a large and diverse training set of all-atom protein simulations, we here develop a bottom-up CG force field with chemical transferability, which can be used for extrapolative molecular dynamics on new sequences not used during model parametrization. We demonstrate that the model successfully predicts folded structures, intermediates, metastable folded and unfolded basins, and the fluctuations of intrinsically disordered proteins while it is several orders of magnitude faster than an all-atom model. This showcases the feasibility of a universal and computationally efficient machine-learned CG model for proteins.
翻訳日:2023-10-30 12:56:57 公開日:2023-10-27
# LipSim: 知覚的類似性メトリクスはおそらくロバスト

LipSim: A Provably Robust Perceptual Similarity Metric ( http://arxiv.org/abs/2310.18274v1 )

ライセンス: Link先を確認
Sara Ghazanfari, Alexandre Araujo, Prashanth Krishnamurthy, Farshad Khorrami, Siddharth Garg(参考訳) 近年、知覚的類似度指標の開発と適用への関心が高まっている。 研究は、人間の知覚と整合し、人間の視覚システムのプロキシとして機能する画素単位のメトリクスよりも知覚指標が優れていることを示した。 一方で、知覚的メトリクスはニューラルネットワークに依存しているため、ニューラルネットワークが敵の攻撃に対して確立された脆弱性を考えると、そのレジリエンスに関する懸念が高まっている。 知覚的メトリクスがニューラルネットワークの長所と短所の両方を継承する可能性があると推測するのは理にかなっている。 本研究では,ViTをベースとした特徴抽出器のアンサンブルに基づく,最先端の知覚的類似度指標の脆弱性を実証する。 次に、証明可能な保証でLipSim(Lipschitz similarity Metric)と呼ばれる堅牢な知覚類似度メトリックをトレーニングするためのフレームワークを提案する。 1-Lipschitzニューラルネットワークをバックボーンとして活用することにより、LipSimは各データポイント周辺の保護された領域と、$\ell_2$ボール内のすべての摂動の証明書を提供する。 最後に、実験の総合的なセットは、自然および認定されたスコアと画像検索アプリケーションにおけるLipSimの性能を示す。 コードはhttps://github.com/SaraGhazanfari/LipSimで入手できる。

Recent years have seen growing interest in developing and applying perceptual similarity metrics. Research has shown the superiority of perceptual metrics over pixel-wise metrics in aligning with human perception and serving as a proxy for the human visual system. On the other hand, as perceptual metrics rely on neural networks, there is a growing concern regarding their resilience, given the established vulnerability of neural networks to adversarial attacks. It is indeed logical to infer that perceptual metrics may inherit both the strengths and shortcomings of neural networks. In this work, we demonstrate the vulnerability of state-of-the-art perceptual similarity metrics based on an ensemble of ViT-based feature extractors to adversarial attacks. We then propose a framework to train a robust perceptual similarity metric called LipSim (Lipschitz Similarity Metric) with provable guarantees. By leveraging 1-Lipschitz neural networks as the backbone, LipSim provides guarded areas around each data point and certificates for all perturbations within an $\ell_2$ ball. Finally, a comprehensive set of experiments shows the performance of LipSim in terms of natural and certified scores and on the image retrieval application. The code is available at https://github.com/SaraGhazanfari/LipSim.
翻訳日:2023-10-30 12:56:39 公開日:2023-10-27
# 談話と物語に対する聴取の感情アタッチメントによる知覚的ナレーション分析のためのモーメント

Moments for Perceptive Narration Analysis Through the Emotional Attachment of Audience to Discourse and Story ( http://arxiv.org/abs/2310.18273v1 )

ライセンス: Link先を確認
Gary Bruins and Ergun Akleman(参考訳) 本研究の目的は,映画や漫画などのビジュアルストーリーの有効性を分析するために,最終的に使用できる理論的枠組みを開発することである。 この理論フレームワークを開発するために、モーメントと呼ばれる新しいストーリー要素を導入する。 我々の予想では、フィーチャーフィルムのストーリーのようなリニアなストーリーは、互いに追従する瞬間の集合に分解できる。 モーメントは、特定の期間におけるすべての文字または一つの文字の行動、相互作用、表現の知覚として定義される。 モーメントをストーリーモーメントと談話モーメントの2つの主要なタイプに分類する。 それぞれのモーメントはさらに3つのタイプに分類でき、それは普遍的なストーリーテリングモーメントと呼ばれる。 これらの普遍的な瞬間は、特定の人物や物語に対する聴衆の感情的な愛着を育むか、悪化させると信じている。 本稿では、これらの普遍的な瞬間の発生を物語で見られるようにカタログ化する手法を提案する。 カタログ化されたモーメントは曲線やカラーストリップを使って表現することができる。 したがって、キャラクターの物語の旅を3dカーブまたはカラーストリップとして可視化することができる。 また,ストーリーモーメントと談話モーメントを1つの総和アトラクションパラメータに変換できることを実証した。 時間内のアトラクションパラメータは、登場人物や物語に対する観客の感情的な愛着の変化を示すタイムライン上に、グラフィカルにプロットできる機能を提供する。 これらの機能を検査することで、ストーリーアナリストは、アタッチメントが確立、維持、強化、あるいは逆にランギングされているストーリーのモーメントを解析的に解読することができる。

In this work, our goal is to develop a theoretical framework that can eventually be used for analyzing the effectiveness of visual stories such as feature films to comic books. To develop this theoretical framework, we introduce a new story element called moments. Our conjecture is that any linear story such as the story of a feature film can be decomposed into a set of moments that follow each other. Moments are defined as the perception of the actions, interactions, and expressions of all characters or a single character during a given time period. We categorize the moments into two major types: story moments and discourse moments. Each type of moment can further be classified into three types, which we call universal storytelling moments. We believe these universal moments foster or deteriorate the emotional attachment of the audience to a particular character or the story. We present a methodology to catalog the occurrences of these universal moments as they are found in the story. The cataloged moments can be represented using curves or color strips. Therefore, we can visualize a character's journey through the story as either a 3D curve or a color strip. We also demonstrated that both story and discourse moments can be transformed into one lump-sum attraction parameter. The attraction parameter in time provides a function that can be plotted graphically onto a timeline illustrating changes in the emotional attachment of audience to a character or the story. By inspecting these functions the story analyst can analytically decipher the moments in the story where the attachment is being established, maintained, strengthened, or conversely where it is languishing.
翻訳日:2023-10-30 12:56:20 公開日:2023-10-27
# 古典的量子制限

The classical-quantum limit ( http://arxiv.org/abs/2310.18271v1 )

ライセンス: Link先を確認
Isaac Layton, Jonathan Oppenheim(参考訳) 古典極限の標準的な概念は、スキーマ的に $\hbar\rightarrow 0$ で表され、古典極限によって量子系を近似する方法を提供する。 本研究では,サブシステムに適用した場合に,標準古典限界が失敗する理由を説明し,その環境によるサブシステムの非一貫性を明示的にモデル化することにより,これを解決する方法を示す。 デコヒーレンス時間 $\tau$ に言及し、$\hbar \rightarrow 0$ と $\tau \rightarrow 0$ が固定された比$E_f =\hbar /\tau$ の二重スケーリング極限が、よく定義された古典的および量子的部分系を持つ可逆な開系進化をもたらすことを示した。 主要な技術的結果は、任意のハミルトニアンに対して、ウィグナー、フシミ、グラウバー・スダルシャン準確率分布の部分バージョンの生成元は、すべて上記の2重スケーリング極限で同じ正の古典量子生成元にマッピングされることを示している。 これは、有効で一貫した古典量子力学を研究できる体制を提供する。

The standard notion of a classical limit, represented schematically by $\hbar\rightarrow 0$, provides a method for approximating a quantum system by a classical one. In this work we explain why the standard classical limit fails when applied to subsystems, and show how one may resolve this by explicitly modelling the decoherence of a subsystem by its environment. Denoting the decoherence time $\tau$, we demonstrate that a double scaling limit in which $\hbar \rightarrow 0$ and $\tau \rightarrow 0$ such that the ratio $E_f =\hbar /\tau$ remains fixed leads to an irreversible open-system evolution with well-defined classical and quantum subsystems. The main technical result is showing that, for arbitrary Hamiltonians, the generators of partial versions of the Wigner, Husimi and Glauber-Sudarshan quasiprobability distributions may all be mapped in the above double scaling limit to the same completely-positive classical-quantum generator. This provides a regime in which one can study effective and consistent classical-quantum dynamics.
翻訳日:2023-10-30 12:55:59 公開日:2023-10-27
# PlantPlotGAN:植物病予測のための物理インフォームドジェネレーターネットワーク

PlantPlotGAN: A Physics-Informed Generative Adversarial Network for Plant Disease Prediction ( http://arxiv.org/abs/2310.18268v1 )

ライセンス: Link先を確認
Felipe A. Lopes, Vasit Sagan, Flavio Esposito(参考訳) プランテーションのモニタリングは作物管理と健全な収穫に不可欠である。 無人航空機(UAV)は、この監視を補助するマルチスペクトル画像の収集に使用されている。 しかし、監視対象のヘクタールの数と飛行の制限を考えると、植物病のシグナルは植物の成長の後期にのみ視覚的に明らかとなり、病がプランテーションのかなりの部分に拡がっている場合にのみ明らかになる。 この限られた量の関連するデータが予測モデルを妨げるのは、アルゴリズムが不均衡または非現実的な拡張データセットのパターンを効果的に一般化するのに苦労しているからだ。 そこで,本稿では,植生指標を用いた合成多スペクトルプロット画像の作成が可能な物理モデルであるplantplotganを提案する。 これらの指標は疾患検出の指標となり、モデルが予測モデルの精度を向上させるのに役立つかどうかを評価するのに用いられた。 その結果,植物PlotGANから生成された合成画像はFr'echet開始距離に関して最先端の手法よりも優れていた。 さらに、予測モデルは、実画像のみに基づく訓練プロセスと比較して、植物病検出のための合成画像および原画像の訓練において高い精度の指標を得る。

Monitoring plantations is crucial for crop management and producing healthy harvests. Unmanned Aerial Vehicles (UAVs) have been used to collect multispectral images that aid in this monitoring. However, given the number of hectares to be monitored and the limitations of flight, plant disease signals become visually clear only in the later stages of plant growth and only if the disease has spread throughout a significant portion of the plantation. This limited amount of relevant data hampers the prediction models, as the algorithms struggle to generalize patterns with unbalanced or unrealistic augmented datasets effectively. To address this issue, we propose PlantPlotGAN, a physics-informed generative model capable of creating synthetic multispectral plot images with realistic vegetation indices. These indices served as a proxy for disease detection and were used to evaluate if our model could help increase the accuracy of prediction models. The results demonstrate that the synthetic imagery generated from PlantPlotGAN outperforms state-of-the-art methods regarding the Fr\'echet inception distance. Moreover, prediction models achieve higher accuracy metrics when trained with synthetic and original imagery for earlier plant disease detection compared to the training processes based solely on real imagery.
翻訳日:2023-10-30 12:55:32 公開日:2023-10-27
# 構造付きプレコンディショナーの復元のための構造化半有限計画法

Structured Semidefinite Programming for Recovering Structured Preconditioners ( http://arxiv.org/abs/2310.18265v1 )

ライセンス: Link先を確認
Arun Jambulapati, Jerry Li, Christopher Musco, Kirankumar Shiragur, Aaron Sidford, Kevin Tian(参考訳) 線形系を解くための近似最適前提条件子を求めるための汎用フレームワークを開発した。 このフレームワークを活用することで、基本的なプリコンディショニングや、以下の問題を含む線形システム解決のためのランタイムが改善される。 正の定値 $\mathbf{k} \in \mathbb{r}^{d \times d}$ with $\mathrm{nnz}(\mathbf{k})$ nonzero エントリが与えられると、$\widetilde{o}(\mathrm{nnz}(\mathbf{k}) \cdot \mathrm{poly}(\kappa^\star,\epsilon^{-1})$, ここで$\kappa^\star$は再スケール行列の最適条件数である。 グラフラプラシア行列の擬逆あるいは1の定数スペクトル近似である$\mathbf{M} \in \mathbb{R}^{d \times d}$を与えられたアルゴリズムは、$\mathbf{M}$ in $\widetilde{O}(d^2)$ timeで線形系を解く。 我々の対角的プレコンディショニング結果は、汎用半定値プログラミングによって達成された$\Omega(d^{3.5})$の最先端ランタイムを改善するとともに、現在の行列乗算定数である$\Omega(d^{\omega})$の最先端ランタイムを改善する。 我々は、行列辞書近似SDPと呼ばれる半定値プログラム(SDP)のクラスに対する新しいアルゴリズムを用いて結果を得る。

We develop a general framework for finding approximately-optimal preconditioners for solving linear systems. Leveraging this framework we obtain improved runtimes for fundamental preconditioning and linear system solving problems including the following. We give an algorithm which, given positive definite $\mathbf{K} \in \mathbb{R}^{d \times d}$ with $\mathrm{nnz}(\mathbf{K})$ nonzero entries, computes an $\epsilon$-optimal diagonal preconditioner in time $\widetilde{O}(\mathrm{nnz}(\mathbf{K}) \cdot \mathrm{poly}(\kappa^\star,\epsilon^{-1}))$, where $\kappa^\star$ is the optimal condition number of the rescaled matrix. We give an algorithm which, given $\mathbf{M} \in \mathbb{R}^{d \times d}$ that is either the pseudoinverse of a graph Laplacian matrix or a constant spectral approximation of one, solves linear systems in $\mathbf{M}$ in $\widetilde{O}(d^2)$ time. Our diagonal preconditioning results improve state-of-the-art runtimes of $\Omega(d^{3.5})$ attained by general-purpose semidefinite programming, and our solvers improve state-of-the-art runtimes of $\Omega(d^{\omega})$ where $\omega > 2.3$ is the current matrix multiplication constant. We attain our results via new algorithms for a class of semidefinite programs (SDPs) we call matrix-dictionary approximation SDPs, which we leverage to solve an associated problem we call matrix-dictionary recovery.
翻訳日:2023-10-30 12:55:12 公開日:2023-10-27
# フレキシブル・ニューラルk-Optを用いた経路問題の有益かつ実用的領域の探索学習

Learning to Search Feasible and Infeasible Regions of Routing Problems with Flexible Neural k-Opt ( http://arxiv.org/abs/2310.18264v1 )

ライセンス: Link先を確認
Yining Ma, Zhiguang Cao, Yeow Meng Chee(参考訳) 本稿では,ルーティング問題に対する新しいL2S(Learning-to-search)解法であるNeuOpt(NeuOpt)を提案する。 カスタマイズされたアクションファクタライゼーション法とカスタマイズされた再帰的デュアルストリームデコーダに基づいて、柔軟なk-opt交換を行うことを学ぶ。 そこで,本研究では,本研究の先駆的な取り組みとして,Nuoptポリシネットワークに実現可能性に関連する特徴を補足し,報酬形成を活用して,強化学習をより効果的に進めるガイド・インファシブル地域探索(GIRE)手法を提案する。 さらに、推論中により多様な検索を行うために、動的データ拡張(D2A)をNeuOptに装備する。 CVRP(Traking Salesman Problem)とCVRP(Capacitated Vehicle Routing Problem)の広範な実験により、NeuOptは既存の(マスキングベース)L2Sソルバをはるかに上回るだけでなく、L2C(Learning-to-Construct)やL2P(Learning-to-predict)ソルバよりも優れていることが示された。 特に、ニューラルソルバがVRP制約をどのように扱えるか、新たな視点を提供しています。 コードはhttps://github.com/yining043/neuopt.com/。

In this paper, we present Neural k-Opt (NeuOpt), a novel learning-to-search (L2S) solver for routing problems. It learns to perform flexible k-opt exchanges based on a tailored action factorization method and a customized recurrent dual-stream decoder. As a pioneering work to circumvent the pure feasibility masking scheme and enable the autonomous exploration of both feasible and infeasible regions, we then propose the Guided Infeasible Region Exploration (GIRE) scheme, which supplements the NeuOpt policy network with feasibility-related features and leverages reward shaping to steer reinforcement learning more effectively. Additionally, we equip NeuOpt with Dynamic Data Augmentation (D2A) for more diverse searches during inference. Extensive experiments on the Traveling Salesman Problem (TSP) and Capacitated Vehicle Routing Problem (CVRP) demonstrate that our NeuOpt not only significantly outstrips existing (masking-based) L2S solvers, but also showcases superiority over the learning-to-construct (L2C) and learning-to-predict (L2P) solvers. Notably, we offer fresh perspectives on how neural solvers can handle VRP constraints. Our code is available: https://github.com/yining043/NeuOpt.
翻訳日:2023-10-30 12:54:25 公開日:2023-10-27
# MalFake: 繰り返しニューラルネットワークとVGG-16を用いたマラヤラムのマルチモーダルフェイクニュース識別

MalFake: A Multimodal Fake News Identification for Malayalam using Recurrent Neural Networks and VGG-16 ( http://arxiv.org/abs/2310.18263v1 )

ライセンス: Link先を確認
Adhish S. Sujan, Ajitha. V, Aleena Benny, Amiya M. P., V. S. Anoop(参考訳) 近年、オンラインで消費されるニュースの量は大幅に増加している。 偽ニュースは、特にマラヤラムのような地域言語では、急速な出版と一部のオンラインサイトでの編集基準の欠如により、ますます一般的になっている。 偽ニュースは社会にひどい影響を与える可能性があり、人々は悪い判断をし、当局への信頼を失い、暴力的な行動にも関与する。 インドの状況を考えると、多くの地域言語があり、あらゆる言語で偽ニュースが広まっている。 したがって,地域言語における偽情報同定の効率化が重要である。 これまで、マラヤラムでは、偽ニュースを分類するために複数のモダリティから特徴を抽出する作業はほとんど行われていない。 複数のモーダルから特徴を抽出してディープラーニング分類モデルを構築するため,マルチモーダルアプローチはフェイクニュースの検出においてより正確である。 私たちの知る限り、これはマルチモーダルディープラーニングを使って誤った情報に取り組む、マラヤラムにおける最初の仕事です。 複数のモダリティで訓練されたモデルは、通常、1つのモダリティで訓練されたモデルよりも優れている。 マルチモーダル深層学習を用いたマラヤラム語の研究は,より効果的な誤情報検出と緩和に向けた重要な一歩である。

The amount of news being consumed online has substantially expanded in recent years. Fake news has become increasingly common, especially in regional languages like Malayalam, due to the rapid publication and lack of editorial standards on some online sites. Fake news may have a terrible effect on society, causing people to make bad judgments, lose faith in authorities, and even engage in violent behavior. When we take into the context of India, there are many regional languages, and fake news is spreading in every language. Therefore, providing efficient techniques for identifying false information in regional tongues is crucial. Until now, little to no work has been done in Malayalam, extracting features from multiple modalities to classify fake news. Multimodal approaches are more accurate in detecting fake news, as features from multiple modalities are extracted to build the deep learning classification model. As far as we know, this is the first piece of work in Malayalam that uses multimodal deep learning to tackle false information. Models trained with more than one modality typically outperform models taught with only one modality. Our study in the Malayalam language utilizing multimodal deep learning is a significant step toward more effective misinformation detection and mitigation.
翻訳日:2023-10-30 12:53:54 公開日:2023-10-27
# ペニングトラップにおける1つの$^9$Be$^+$イオンの分解側バンド冷却

Resolved-sideband cooling of a single $^9$Be$^+$ ion in a Penning trap ( http://arxiv.org/abs/2310.18262v1 )

ライセンス: Link先を確認
Juan M. Cornejo, Johannes Brombacher, Julia A. Coenders, Moritz von Boehn, Teresa Meiners, Malte Niemann, Stefan Ulmer, Christian Ospelkaus(参考訳) 単一量子レベルで個々の閉じ込められたイオンを操作することは、高周波イオントラップの標準的な実践となり、量子情報処理から精密計測まで応用することができる。 鍵となる要素は、分解側バンドレーザー冷却による粒子の運動の基底状態冷却である。 ペニングイオントラップを用いた超高精度実験は、完全な運動制御によってもたらされる系統的誤差の低減と、原子質量や1g$-factor測定、基本定数の決定、基礎物理学の関連するテストへの応用に大きく貢献する。 さらに、高周波イオントラップにおける新しい種類の精密測定を可能にする技術である量子論理分光法の実装も可能になる。 ここでは,2光子励起ラマン過程を用いた極低温5テスラのペニングトラップ系における1つの^9$be$^+$イオンの軸運動の分解サイドバンドレーザー冷却を行い,平均フォノン数$\bar{n}_z = 0.10(4)$に達した。 これは、標準モデルのバリュニックセクタにおける物質-反物質比較テストのための量子論理分光法の実装における基本的なステップであり、量子限界で動作するペニングトラップにおける精度向上のための重要なステップである。

Manipulating individual trapped ions at the single quantum level has become standard practice in radio-frequency ion traps, enabling applications from quantum information processing to precision metrology. The key ingredient is ground-state cooling of the particle's motion through resolved-sideband laser cooling. Ultra-high-presicion experiments using Penning ion traps will greatly benefit from the reduction of systematic errors offered by full motional control, with applications to atomic masses and $g$-factor measurements, determinations of fundamental constants or related tests of fundamental physics. In addition, it will allow to implement quantum logic spectroscopy, a technique that has enabled a new class of precision measurements in radio-frequency ion traps. Here we demonstrate resolved-sideband laser cooling of the axial motion of a single $^9$Be$^+$ ion in a cryogenic 5 Tesla Penning trap system using a two-photon stimulated-Raman process, reaching a mean phonon number of $\bar{n}_z = 0.10(4)$. This is a fundamental step in the implementation of quantum logic spectroscopy for matter-antimatter comparison tests in the baryonic sector of the Standard Model and a key step towards improved precision experiments in Penning traps operating at the quantum limit.
翻訳日:2023-10-30 12:53:35 公開日:2023-10-27
# 無視不能データに対するラベルシフト推定器

Label Shift Estimators for Non-Ignorable Missing Data ( http://arxiv.org/abs/2310.18261v1 )

ライセンス: Link先を確認
Andrew C. Miller and Joseph Futoma(参考訳) 非無視的欠落に対する確率変数 y の平均を推定する問題、すなわち欠落機構が y に依存する場合を考える。 ラベルシフト設定(Saerens et al., 2002)に非無視的不足(West and Little, 2013)のための補助プロキシ変数フレームワークを接続する。 この接続を活用し、生成モデルを必要としない高次元共変量(またはプロキシ)を用いた無視不能データに対する推定器を構築する。 合成, 半合成実験において, 提案した推定器の挙動について検討し, 明確に特定された, 未特定な条件下でよく用いられる無知な推定器と比較した。 さらに,ラベルシフトの仮定とデータがどの程度一致しているかを評価するスコアを開発する。 本手法は,無知と無知の2つのアプローチを比較し,大規模健康調査を用いて疾患の有病率を推定する。 非無知な欠如を説明できないことは、非代表的サンプルから得られた結論に重大な影響を与える可能性がある。

We consider the problem of estimating the mean of a random variable Y subject to non-ignorable missingness, i.e., where the missingness mechanism depends on Y . We connect the auxiliary proxy variable framework for non-ignorable missingness (West and Little, 2013) to the label shift setting (Saerens et al., 2002). Exploiting this connection, we construct an estimator for non-ignorable missing data that uses high-dimensional covariates (or proxies) without the need for a generative model. In synthetic and semi-synthetic experiments, we study the behavior of the proposed estimator, comparing it to commonly used ignorable estimators in both well-specified and misspecified settings. Additionally, we develop a score to assess how consistent the data are with the label shift assumption. We use our approach to estimate disease prevalence using a large health survey, comparing ignorable and non-ignorable approaches. We show that failing to account for non-ignorable missingness can have profound consequences on conclusions drawn from non-representative samples.
翻訳日:2023-10-30 12:53:11 公開日:2023-10-27
# ニューロモルフィックプログラミングの概念とパラダイム

Concepts and Paradigms for Neuromorphic Programming ( http://arxiv.org/abs/2310.18260v1 )

ライセンス: Link先を確認
Steven Abreu(参考訳) ニューロモルフィックコンピュータの価値は、関連するタスクのためにプログラムする能力に大きく依存します。 現在、ニューロモルフィックコンピュータは、主にディープラーニングに適応した機械学習手法に限られている。 しかし、ニューロモルフィックコンピュータは、その計算特性をフルパワーに活用するだけでは、ディープラーニングをはるかに超える可能性を持っている。 ニューロモルフィックプログラミングは必ずしも従来のプログラミングとは異なるものであり、プログラミング全般に対する考え方のパラダイムシフトを必要とする。 この論文の貢献は 1)神経形コンピュータの文脈における「プログラミング」の意味に関する概念分析 2)ニューロモルフィックコンピューティングにおいて期待されている既存のプログラミングパラダイムの探求。 目標は、ニューロモルフィックプログラミングの手法の地平線を広げ、研究者が現在の方法の垣根を越えて新しい方向を探索できるようにすることである。

The value of neuromorphic computers depends crucially on our ability to program them for relevant tasks. Currently, neuromorphic computers are mostly limited to machine learning methods adapted from deep learning. However, neuromorphic computers have potential far beyond deep learning if we can only make use of their computational properties to harness their full power. Neuromorphic programming will necessarily be different from conventional programming, requiring a paradigm shift in how we think about programming in general. The contributions of this paper are 1) a conceptual analysis of what "programming" means in the context of neuromorphic computers and 2) an exploration of existing programming paradigms that are promising yet overlooked in neuromorphic computing. The goal is to expand the horizon of neuromorphic programming methods, thereby allowing researchers to move beyond the shackles of current methods and explore novel directions.
翻訳日:2023-10-30 12:52:53 公開日:2023-10-27
# FP8-LM: FP8大規模言語モデルのトレーニング

FP8-LM: Training FP8 Large Language Models ( http://arxiv.org/abs/2310.18313v1 )

ライセンス: Link先を確認
Houwen Peng and Kan Wu and Yixuan Wei and Guoshuai Zhao and Yuxiang Yang and Ze Liu and Yifan Xiong and Ziyue Yang and Bolin Ni and Jingcheng Hu and Ruihang Li and Miaosen Zhang and Chen Li and Jia Ning and Ruizhe Wang and Zheng Zhang and Shuguang Liu and Joe Chau and Han Hu and Peng Cheng(参考訳) 本稿では,大規模言語モデル(LLM)の効率的な学習のためのFP8低ビットデータフォーマットについて検討する。 我々の重要な洞察は、LLMトレーニングにおける勾配やオプティマイザ状態のようなほとんどの変数は、モデル精度を損なうことなく、ハイパーパラメータを変更することなく、低精度のデータフォーマットを使用することができるということです。 具体的には,LLMの学習のためのFP8自動混合精度フレームワークを提案する。 このフレームワークは、3段階のFP8利用を提供し、LLMの混合精度と分散並列トレーニングを効率化する。 徐々に8ビットの勾配、最適化状態、分散学習を段階的に取り入れている。 H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて、我々のFP8混合精度トレーニングフレームワークは、実際のメモリ使用量の42%削減を達成しただけでなく、広く採用されているBF16フレームワーク(Megatron-LM)よりも64%高速で、Nvidia Transformer Engineの速度を17%上回った。 これにより、大規模な基礎モデルのトレーニングコストが大幅に削減される。 さらに、FP8混合精度訓練手法は汎用的である。 llm命令チューニングや人間フィードバックによる強化学習など、他のタスクにもシームレスに適用でき、微調整費用の節約が期待できる。 FP8の低精度トレーニングフレームワークは、https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}でオープンソース化されています。

In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 42% reduction in real memory usage but also ran 64% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 17%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
翻訳日:2023-10-30 12:45:10 公開日:2023-10-27
# Gen2Sim: 生成モデルを用いたシミュレーションにおけるロボット学習のスケールアップ

Gen2Sim: Scaling up Robot Learning in Simulation with Generative Models ( http://arxiv.org/abs/2310.18308v1 )

ライセンス: Link先を確認
Pushkal Katara, Zhou Xian, Katerina Fragkiadaki(参考訳) 汎用ロボットマニピュレータは多様な環境にまたがる多様な操作技術を学ぶ必要がある。 現在のロボット訓練パイプラインは、人間による体美的なデモンストレーションやシミュレーション環境のプログラム、強化学習のための報酬関数のコーディングに頼っている。 このような人間的関与は、さまざまなタスクや環境にまたがるロボット学習をスケールアップするための重要なボトルネックである。 本稿では,3次元資産の自動生成,タスク記述,タスク分解,報酬関数を言語と視覚の学習前生成モデルを用いて,ロボットのスキル学習をシミュレーションでスケールアップする手法であるGene2Simを提案する。 オープンワールドの2dオブジェクト中心画像から3dの3dアセットを生成し,画像拡散モデルを用いてllmをクエリし,妥当な物理パラメータを決定する。 生成および人為的な資産のURDFファイルを考えると、我々はLLMにこれらを関連するタスク記述、時間分解、および強化学習のための対応するピソン報酬関数にマッピングするよう促す。 我々はGen2Simが,非時間分解型報酬関数による強化学習が失敗する多種多様な長軸タスクの学習ポリシーに成功していることを示す。 Gen2Simは、ロボットマニピュレータのタスクおよび環境開発を多様化・拡張し、RLにおける時間的タスク分解による強化学習の発見を容易にすることにより、シミュレーションにおける強化学習のスケールアップを可能にする。 私たちの研究は、シミュレーションにおける完全に自律的なロボット操作スキル獲得に向けて、何百ものシミュレーション資産、タスク、デモに貢献しています。

Generalist robot manipulators need to learn a wide variety of manipulation skills across diverse environments. Current robot training pipelines rely on humans to provide kinesthetic demonstrations or to program simulation environments and to code up reward functions for reinforcement learning. Such human involvement is an important bottleneck towards scaling up robot learning across diverse tasks and environments. We propose Generation to Simulation (Gen2Sim), a method for scaling up robot skill learning in simulation by automating generation of 3D assets, task descriptions, task decompositions and reward functions using large pre-trained generative models of language and vision. We generate 3D assets for simulation by lifting open-world 2D object-centric images to 3D using image diffusion models and querying LLMs to determine plausible physics parameters. Given URDF files of generated and human-developed assets, we chain-of-thought prompt LLMs to map these to relevant task descriptions, temporal decompositions, and corresponding python reward functions for reinforcement learning. We show Gen2Sim succeeds in learning policies for diverse long horizon tasks, where reinforcement learning with non temporally decomposed reward functions fails. Gen2Sim provides a viable path for scaling up reinforcement learning for robot manipulators in simulation, both by diversifying and expanding task and environment development, and by facilitating the discovery of reinforcement-learned behaviors through temporal task decomposition in RL. Our work contributes hundreds of simulated assets, tasks and demonstrations, taking a step towards fully autonomous robotic manipulation skill acquisition in simulation.
翻訳日:2023-10-30 12:44:44 公開日:2023-10-27
# 監督・罰則ベースライン補正

Supervised and Penalized Baseline Correction ( http://arxiv.org/abs/2310.18306v1 )

ライセンス: Link先を確認
Erik Andries Ramin Nikzad-Langerodi(参考訳) 分光測定は、吸収と散乱の混合から生じる歪んだスペクトルの形状を示すことができる。 これらの歪み(またはベースライン)は、しばしば非定常オフセットまたは低周波振動として現れる。 その結果、これらのベースラインは分析的および定量的な結果に悪影響を及ぼす可能性がある。 ベースライン補正(baseline correction)は、ベースラインスペクトル(望ましくない歪み)を得るために前処理法を適用し、その歪みを差分によって除去する包括的用語である。 しかし, 現状技術ベースライン補正法では, 可利用でも, 観測されたスペクトル変動に大きく寄与しても, 分析液濃度は利用されない。 我々は最先端の手法(ペナルドベースライン補正)のクラスを調べ,事前のアナライト濃度に対応できるように修正し,予測を強化した。 パフォーマンスは、古典的なペナライズドベースライン修正法(アナライト情報なし)と修正ペナライトベースライン修正法(アナライト情報平均化)の2つの近赤外線データセットでアクセスされる。

Spectroscopic measurements can show distorted spectra shapes arising from a mixture of absorbing and scattering contributions. These distortions (or baselines) often manifest themselves as non-constant offsets or low-frequency oscillations. As a result, these baselines can adversely affect analytical and quantitative results. Baseline correction is an umbrella term where one applies pre-processing methods to obtain baseline spectra (the unwanted distortions) and then remove the distortions by differencing. However, current state-of-the art baseline correction methods do not utilize analyte concentrations even if they are available, or even if they contribute significantly to the observed spectral variability. We examine a class of state-of-the-art methods (penalized baseline correction) and modify them such that they can accommodate a priori analyte concentration such that prediction can be enhanced. Performance will be access on two near infra-red data sets across both classical penalized baseline correction methods (without analyte information) and modified penalized baseline correction methods (leveraging analyte information).
翻訳日:2023-10-30 12:44:15 公開日:2023-10-27
# フィードフォワード誘起エンタングルメント負性転移の測定と制御

Measurement and feedforward induced entanglement negativity transition ( http://arxiv.org/abs/2310.18305v1 )

ライセンス: Link先を確認
Alireza Seif, Yu-Xin Wang, Ramis Movassagh, Aashish A. Clerk(参考訳) 量子系における計測誘起ダイナミクスと条件付きユニタリ進化の相互作用について検討する。 我々は,通勤ランダム計測およびフィードフォワード(MFF)プロセスの数値解析および解析を行い,MFFチャネル数の変化に応じて絡み合う負性度を生成する能力の急激な変化を見出した。 また, 時間反転対称性を損なう環境からランダムな嫌悪によって引き起こされる遷移とこれらの発見との間の直接的な関係を確立する。 問題の1つの変種では、遷移の存在を厳密に証明するために自由確率理論を用いる。 さらに、これらのMFFプロセスは、現在の量子コンピューティングプラットフォーム上で実験的に探索できる動的回路表現を持つ。

We study the interplay between measurement-induced dynamics and conditional unitary evolution in quantum systems. We numerically and analytically investigate commuting random measurement and feedforward (MFF) processes, and find a sharp transition in their ability to generate entanglement negativity as the number of MFF channels varies. We also establish a direct connection between these findings and transitions induced by random dephasing from an environment with broken time-reversal symmetry. In one variant of the problem, we employ free probability theory to rigorously prove the transition's existence. Furthermore, these MFF processes have dynamic circuit representations that can be experimentally explored on current quantum computing platforms.
翻訳日:2023-10-30 12:43:56 公開日:2023-10-27
# 非定常学習のための安定原理

A Stability Principle for Learning under Non-Stationarity ( http://arxiv.org/abs/2310.18304v1 )

ライセンス: Link先を確認
Chengpiao Huang, Kaizheng Wang(参考訳) 非定常環境における統計的学習のための多目的フレームワークを開発する。 各期間において,確率的誤差に対して累積バイアスを許容範囲に保ちつつ,履歴データの利用を最大化するルックバックウィンドウを選択するための安定性原理を適用した。 我々の理論は、未知の非定常性に対するこのアプローチの適応性を示している。 後悔の限界は、人口損失が強く凸している場合やリプシッツのみの対数的要因まで最小限である。 解析の中心には、関数間の類似性の尺度と、非定常データ列を準定常断片に分割するセグメンテーション技法の2つの新しい要素がある。

We develop a versatile framework for statistical learning in non-stationary environments. In each time period, our approach applies a stability principle to select a look-back window that maximizes the utilization of historical data while keeping the cumulative bias within an acceptable range relative to the stochastic error. Our theory showcases the adaptability of this approach to unknown non-stationarity. The regret bound is minimax optimal up to logarithmic factors when the population losses are strongly convex, or Lipschitz only. At the heart of our analysis lie two novel components: a measure of similarity between functions and a segmentation technique for dividing the non-stationary data sequence into quasi-stationary pieces.
翻訳日:2023-10-30 12:43:35 公開日:2023-10-27
# 技術強化社会のための社会認識ロボティクス

Socially Cognizant Robotics for a Technology Enhanced Society ( http://arxiv.org/abs/2310.18303v1 )

ライセンス: Link先を確認
Kristin J. Dana, Clinton Andrews, Kostas Bekris, Jacob Feldman, Matthew Stone, Pernille Hemmer, Aaron Mazzeo, Hal Salzman, Jingang Yi(参考訳) ロボティクスの新たな応用、そしてその影響に対する懸念は、研究コミュニティが人間中心の目標を前後に配置する必要がある。 この課題に対処するため,技術・社会科学の手法を合成する学際的アプローチである社会認識ロボティクスを提唱する。 このアプローチは、すべてのレベルでai駆動ロボットの振る舞いを形作る上で、ステークホルダーの参加(人間のフィードバックから非同期社会評価まで)を強化する必要性から、ロボットと個人とのインタラクションを改善するための新たな研究の視点と課題へと導かれる。 従来の技術に基づくメトリクス(効率、正確さ、正確さなど)と、人間や社会ベースのメトリクスとをバランスさせる、社会的に認識されるロボット設計のベストプラクティスを開発する。

Emerging applications of robotics, and concerns about their impact, require the research community to put human-centric objectives front-and-center. To meet this challenge, we advocate an interdisciplinary approach, socially cognizant robotics, which synthesizes technical and social science methods. We argue that this approach follows from the need to empower stakeholder participation (from synchronous human feedback to asynchronous societal assessment) in shaping AI-driven robot behavior at all levels, and leads to a range of novel research perspectives and problems both for improving robots' interactions with individuals and impacts on society. Drawing on these arguments, we develop best practices for socially cognizant robot design that balance traditional technology-based metrics (e.g. efficiency, precision and accuracy) with critically important, albeit challenging to measure, human and society-based metrics.
翻訳日:2023-10-30 12:43:23 公開日:2023-10-27
# 協調最適化による自律走行車のインタラクティブモーションプランニング

Interactive Motion Planning for Autonomous Vehicles with Joint Optimization ( http://arxiv.org/abs/2310.18301v1 )

ライセンス: Link先を確認
Yuxiao Chen, Sushant Veer, Peter Karkus, and Marco Pavone(参考訳) 高度にインタラクティブな運転シナリオでは、あるエージェントの行動は隣人の行動に大きく影響する。 このような対話的な環境で自動運転車の安全な動きを計画するには、エゴの意図した動き計画が近くのエージェントの行動に与える影響を推論する必要がある。 ディープラーニングモデルは最近、軌道予測で大きな成功を収めており、文献の多くのモデルは、自我条件付き予測を可能にしている。 しかしながら、ニューラルネットワークの複雑な性質から、ego条件付き予測の活用は下流計画において依然として困難であり、プランナー構造をサンプリングベースのプランナーのように単純なものに制限している。 細かい粒度の高い運動計画を生成する能力があるにもかかわらず、モデル予測制御(mpc)のような勾配に基づく計画アルゴリズムでは、反復的な性質と勾配の必要性から、エゴ条件付き予測を活用することが困難である。 IJP(Interactive Joint Planning)では、学習した予測モデルでMPCを橋渡し、両者の長所を提供する。 特に、IJPはエゴとその周辺エージェントの挙動を共同で最適化し、結合軌道最適化が近づこうとする事前予測として深層学習予測モデルを活用する。 さらに, ホモトピークラスを活用することで, 局所的なミニマに悩まされるのを避けるために, 多様な動きプランを探索する。 閉ループシミュレーションの結果、IJPは共同最適化やサンプリングベースプランニングを行わないベースラインよりも大幅に優れていた。

In highly interactive driving scenarios, the actions of one agent greatly influences those of its neighbors. Planning safe motions for autonomous vehicles in such interactive environments, therefore, requires reasoning about the impact of the ego's intended motion plan on nearby agents' behavior. Deep-learning-based models have recently achieved great success in trajectory prediction and many models in the literature allow for ego-conditioned prediction. However, leveraging ego-conditioned prediction remains challenging in downstream planning due to the complex nature of neural networks, limiting the planner structure to simple ones, e.g., sampling-based planner. Despite their ability to generate fine-grained high-quality motion plans, it is difficult for gradient-based planning algorithms, such as model predictive control (MPC), to leverage ego-conditioned prediction due to their iterative nature and need for gradient. We present Interactive Joint Planning (IJP) that bridges MPC with learned prediction models in a computationally scalable manner to provide us the best of both the worlds. In particular, IJP jointly optimizes over the behavior of the ego and the surrounding agents and leverages deep-learned prediction models as prediction priors that the join trajectory optimization tries to stay close to. Furthermore, by leveraging homotopy classes, our joint optimizer searches over diverse motion plans to avoid getting stuck at local minima. Closed-loop simulation result shows that IJP significantly outperforms the baselines that are either without joint optimization or running sampling-based planning.
翻訳日:2023-10-30 12:43:03 公開日:2023-10-27
# テキスト基準に基づく画像クラスタリング

Image Clustering Conditioned on Text Criteria ( http://arxiv.org/abs/2310.18297v1 )

ライセンス: Link先を確認
Sehyun Kwon, Jaeseung Park, Minkyu Kim, Jaewoong Cho, Ernest K. Ryu, Kangwook Lee(参考訳) 古典的なクラスタリング手法では,クラスタリング結果を直接制御することができず,クラスタリング結果がユーザの意識する関連する基準と一致しない場合がある。 本研究では,現代視覚言語モデルと大規模言語モデルを活用することで,ユーザ特定テキスト基準に基づく画像クラスタリングを行う手法を提案する。 我々は,テキストの基準(ic$|$tc)を条件とした手法を画像クラスタリングと呼び,画像クラスタリングの異なるパラダイムを表す。 IC$|$TCは、最小限かつ実用的な人間の介入を必要とし、ユーザーはクラスタリング結果に対してかなりの制御をすることができる。 実験の結果、IC$|$TCは、人間の行動、身体的位置、気分などの様々な基準で画像を効果的にクラスタリングし、ベースラインを大幅に上回ることを示した。

Classical clustering methods do not provide users with direct control of the clustering results, and the clustering results may not be consistent with the relevant criterion that a user has in mind. In this work, we present a new methodology for performing image clustering based on user-specified text criteria by leveraging modern vision-language models and large language models. We call our method Image Clustering Conditioned on Text Criteria (IC$|$TC), and it represents a different paradigm of image clustering. IC$|$TC requires a minimal and practical degree of human intervention and grants the user significant control over the clustering results in return. Our experiments show that IC$|$TC can effectively cluster images with various criteria, such as human action, physical location, or the person's mood, while significantly outperforming baselines.
翻訳日:2023-10-30 12:42:36 公開日:2023-10-27
# 常に晴れる日: 悪化タイプと重大度が悪天候の排除を全て認識する

Always Clear Days: Degradation Type and Severity Aware All-In-One Adverse Weather Removal ( http://arxiv.org/abs/2310.18293v1 )

ライセンス: Link先を確認
Yu-Wei Chen, Soo-Chang Pei(参考訳) オールインワンの悪天候除去は、統一されたモデルで複数の気象劣化を回復することを目的とした、画像復元の新たな話題である。 まず,複数の気象条件によって形成されるターゲット分布におけるマルチドメインの特性の発見と処理を行う。 第二に、異なる劣化タイプの設計を効率的かつ効果的に行う。 この問題に対処するため、ほとんどの先行研究は気象タイプに起因するマルチドメインに焦点を当てている。 気象のタイプだけでなく,気象の重大さも,従来の手法では無視されている各気象ドメインにマルチドメインを導入し,さらに性能を制限していることが,インター・イントラ・ドメイン適応文献に着想を得た。 そこで本研究では,悪天候画像復元のための劣化型および重大度対応モデルである \textbf{utilityir} を提案する。 単一画像から気象情報を抽出するために,MHCA (Multi-Head Cross Attention) やLG-Global Adaptive Instance Normalization (LG-AdaIN) などの新しい手法を応用し,空間的な気象劣化を効率的に復元する手法として,新規なMarginal Quality Ranking Loss (MQRL) とContrastive Loss (CL) を提案する。 提案手法は, 異なる気象復旧作業において, 主観的かつ客観的にSOTA法を著しく上回り, より少ないモデルパラメータを享受できる。 提案手法は、複数の劣化画像を組み合わせた \textbf{unseen} ドメインを復元し、復元レベルを調整できる。 実装コードは、https://github.com/fordevoted/UtilityIR}{\textit{this repository}}で利用可能になる。

All-in-one adverse weather removal is an emerging topic on image restoration, which aims to restore multiple weather degradation in an unified model, and the challenging are twofold. First, discovering and handling the property of multi-domain in target distribution formed by multiple weather conditions. Second, design efficient and effective operations for different degradation types. To address this problem, most prior works focus on the multi-domain caused by weather type. Inspired by inter\&intra-domain adaptation literature, we observed that not only weather type but also weather severity introduce multi-domain within each weather type domain, which is ignored by previous methods, and further limit their performance. To this end, we proposed a degradation type and severity aware model, called \textbf{UtilityIR}, for blind all-in-one bad weather image restoration. To extract weather information from single image, we proposed a novel Marginal Quality Ranking Loss (MQRL) and utilized Contrastive Loss (CL) to guide weather severity and type extraction, and leverage a bag of novel techniques such as Multi-Head Cross Attention (MHCA) and Local-Global Adaptive Instance Normalization (LG-AdaIN) to efficiently restore spatial varying weather degradation. The proposed method can significantly outperform the SOTA methods subjectively and objectively on different weather restoration tasks with a large margin, and enjoy less model parameters. Proposed method even can restore \textbf{unseen} domain combined multiple degradation images, and modulating restoration level. Implementation code will be available at {https://github.com/fordevoted/UtilityIR}{\textit{this repository}}
翻訳日:2023-10-30 12:42:23 公開日:2023-10-27
# 局所周波数参照を用いたツインフィールド量子鍵分布

Twin-field quantum key distribution with local frequency reference ( http://arxiv.org/abs/2310.18292v1 )

ライセンス: Link先を確認
Jiu-Peng Chen and Fei Zhou and Chi Zhang and Cong Jiang and Fa-Xi Chen and Jia Huang and Hao Li and Li-Xing You and Xiang-Bin Wang and Yang Liu and Qiang Zhang and Jian-Wei Pan(参考訳) ツインフィールド量子鍵分布(TF-QKD)は、長距離における安全な鍵レートの上昇を約束する線形速度損失制限を克服する。 しかし、独立したレーザー源間の周波数差を取り除く複雑さは、その実用的応用を妨げる。 そこで, アセチレンの飽和吸収分光法を絶対的基準として, 独立レーザー源の相対周波数制御を必要とせずに, tf-qkdを実現するための簡易かつ実用的な手法を提案する。 TF-QKDプロトコルを用いて, TF-QKDを502km, 301km, 201km超低損失光ファイバー上で実験した。 この高性能なスキームは、将来の都市間および自由空間量子通信ネットワークで広く使われるだろう。

Twin-field quantum key distribution (TF-QKD) overcomes the linear rate-loss limit, which promises a boost of secure key rate over long distance. However, the complexity of eliminating the frequency differences between the independent laser sources hinders its practical application. Here, taking the saturated absorption spectroscopy of acetylene as an absolute reference, we propose and demonstrate a simple and practical approach to realize TF-QKD without requiring relative frequency control of the independent laser sources. Adopting the 4-intensity sending-or-not-sending TF-QKD protocol, we experimentally demonstrate the TF-QKD over 502 km, 301 km and 201 km ultra-low loss optical fiber respectively. We expect this high-performance scheme will find widespread usage in future intercity and free-space quantum communication networks.
翻訳日:2023-10-30 12:41:49 公開日:2023-10-27
# 可変分類損失によるGAN訓練障害の対応

Addressing GAN Training Instabilities via Tunable Classification Losses ( http://arxiv.org/abs/2310.18291v1 )

ライセンス: Link先を確認
Monica Welfert, Gowtham R. Kurri, Kyle Otstot, Lalitha Sankar(参考訳) ジェネレータ(G)とディスクリミネータ(D)の間のゼロサムゲームとしてモデル化されたGAN(Generative Adversarial Network)は、正式な保証付き合成データを生成することができる。 D が分類器であることに注意し、クラス確率推定(CPE)損失を用いて GAN 値関数を再構成することから始める。 CPE損失GANと$f$-GANの双方向対応を証明し,$f$-divergencesを最小化する。 また、すべての対称$f$-発散は収束において同値であることを示す。 有限サンプルおよびモデルキャパシティ設定において、推定および一般化誤差のバウンダリを定義し、取得する。 これらの結果は $\alpha$-GANs に特化しており、$\alpha$-loss は $\alpha\in(0,\infty]$ でパラメータ化された調整可能な CPE 損失族である。 次に、各プレイヤーの目標を$\alpha$-lossを用いてモデル化し、GANのトレーニング不安定性に対処する2目的GANのクラスを導入し、$(\alpha_D,\alpha_G)$-GANを得る。 結果のゼロでない和ゲームは、$(\alpha_D,\alpha_G)$の適切な条件下での$f$-divergenceを最小化する。 CPE損失を用いたこの双対対象の定式化を一般化し、適切に定義された推定誤差の上限を定義し、求める。 最後に,合成2次元ガウス混合環のトレーニング不安定性を緩和する上での$(\alpha_D,\alpha_G)$のチューニング値と,Celeb-AおよびLSUN Classroomの画像データセットの大規模公開について述べる。

Generative adversarial networks (GANs), modeled as a zero-sum game between a generator (G) and a discriminator (D), allow generating synthetic data with formal guarantees. Noting that D is a classifier, we begin by reformulating the GAN value function using class probability estimation (CPE) losses. We prove a two-way correspondence between CPE loss GANs and $f$-GANs which minimize $f$-divergences. We also show that all symmetric $f$-divergences are equivalent in convergence. In the finite sample and model capacity setting, we define and obtain bounds on estimation and generalization errors. We specialize these results to $\alpha$-GANs, defined using $\alpha$-loss, a tunable CPE loss family parametrized by $\alpha\in(0,\infty]$. We next introduce a class of dual-objective GANs to address training instabilities of GANs by modeling each player's objective using $\alpha$-loss to obtain $(\alpha_D,\alpha_G)$-GANs. We show that the resulting non-zero sum game simplifies to minimizing an $f$-divergence under appropriate conditions on $(\alpha_D,\alpha_G)$. Generalizing this dual-objective formulation using CPE losses, we define and obtain upper bounds on an appropriately defined estimation error. Finally, we highlight the value of tuning $(\alpha_D,\alpha_G)$ in alleviating training instabilities for the synthetic 2D Gaussian mixture ring as well as the large publicly available Celeb-A and LSUN Classroom image datasets.
翻訳日:2023-10-30 12:41:33 公開日:2023-10-27
# 概念達成を支援する謎の自動生成手法

An Approach to Automatically generating Riddles aiding Concept Attainment ( http://arxiv.org/abs/2310.18290v1 )

ライセンス: Link先を確認
Niharika Sri Parasa, Chaitali Diwan, Srinath Srinivasa(参考訳) オンライン学習環境における主な課題の1つは、学習者のエンゲージメントを維持することである。 学習者のエンゲージメントを高めるために,オンライン環境とオフライン環境の両方で異なる教育戦略が提案されている。 概念達成モデルは、学習者が辞書の定義だけでなく、概念をより深く理解することに焦点を当てた教育戦略の一つである。 これは、様々な概念の非例から例を区別するために使われるプロパティを検索し、リストアップすることによってなされる。 我々の研究は、概念達成モデルを適用して概念的な結束を構築し、オンライン学習環境に展開しようと試みている。 このアプローチでは、学習リソースから事実三重項を作成し、その一意性に基づいて概念を‘トピックマーカー’と‘共通’に分類し、次に概念達成モデルのフォーマットに基づいて謎を生成し、それらの謎に対するすべての可能な解をキャプチャする。 謎の人為的な評価から得られた結果は有益である。

One of the primary challenges in online learning environments, is to retain learner engagement. Several different instructional strategies are proposed both in online and offline environments to enhance learner engagement. The Concept Attainment Model is one such instructional strategy that focuses on learners acquiring a deeper understanding of a concept rather than just its dictionary definition. This is done by searching and listing the properties used to distinguish examples from non-examples of various concepts. Our work attempts to apply the Concept Attainment Model to build conceptual riddles, to deploy over online learning environments. The approach involves creating factual triples from learning resources, classifying them based on their uniqueness to a concept into `Topic Markers' and `Common', followed by generating riddles based on the Concept Attainment Model's format and capturing all possible solutions to those riddles. The results obtained from the human evaluation of riddles prove encouraging.
翻訳日:2023-10-30 12:41:02 公開日:2023-10-27
# ベイズ最適化による持続可能なコンクリート

Sustainable Concrete via Bayesian Optimization ( http://arxiv.org/abs/2310.18288v1 )

ライセンス: Link先を確認
Sebastian Ament, Andrew Witte, Nishant Garg, Julius Kusuma(参考訳) 世界の二酸化炭素排出量の8%は、データセンター建設におけるco2排出源でもあるコンクリートの主要成分であるセメントの生産に起因する可能性がある。 したがって、低炭素コンクリート式の発見は持続可能性にとって非常に重要である。 しかし、新しいコンクリートの公式を実験することは時間がかかり、労働集約的であるため、通常、コンクリートの28日間の圧縮強度を記録するのを待たなければならない。 これにより、ベイズ最適化(BO)のような実験的な設計手法が、強力で持続可能なコンクリート公式の探索を加速する機会を提供する。 ここでは 1) 実測値が比較的少ないガウス過程モデルにより, コンクリート強度を精度良く予測できるモデリング手順を提案する。 2【多目的最適化問題としての持続可能なコンクリートの探索】 3)提案したモデルを用いて,アルゴリズムにより提案した混合体の実世界強度測定を行う。 実験の結果, 地球温暖化ポテンシャル(GWP)と関連する圧縮強度とのトレードオフは, 現在の産業プラクティスに基づく混合よりも改善した。

Eight percent of global carbon dioxide emissions can be attributed to the production of cement, the main component of concrete, which is also the dominant source of CO2 emissions in the construction of data centers. The discovery of lower-carbon concrete formulae is therefore of high significance for sustainability. However, experimenting with new concrete formulae is time consuming and labor intensive, as one usually has to wait to record the concrete's 28-day compressive strength, a quantity whose measurement can by its definition not be accelerated. This provides an opportunity for experimental design methodology like Bayesian Optimization (BO) to accelerate the search for strong and sustainable concrete formulae. Herein, we 1) propose modeling steps that make concrete strength amenable to be predicted accurately by a Gaussian process model with relatively few measurements, 2) formulate the search for sustainable concrete as a multi-objective optimization problem, and 3) leverage the proposed model to carry out multi-objective BO with real-world strength measurements of the algorithmically proposed mixes. Our experimental results show improved trade-offs between the mixtures' global warming potential (GWP) and their associated compressive strengths, compared to mixes based on current industry practices.
翻訳日:2023-10-30 12:40:44 公開日:2023-10-27
# 治療効果推定のための最適輸送

Optimal Transport for Treatment Effect Estimation ( http://arxiv.org/abs/2310.18286v1 )

ライセンス: Link先を確認
Hao Wang, Zhichao Chen, Jiajun Fan, Haoxuan Li, Tianqiao Liu, Weiming Liu, Quanyu Dai, Yichao Wang, Zhenhua Dong, Ruiming Tang(参考訳) 観察データから平均治療効果を推定することは,治療選択バイアスの存在から非常に困難である。 一般的な方法は、潜伏空間における異なる治療群の分布を整合させることでこの問題を軽減する。 しかし,本手法では,(1)非理想的ミニバッチにおいて,結果の不均衡や不整合を伴う不整合を引き起こすミニバッチサンプリング効果(MSE),(2)未観測の共同創業者の無視による不整合性計算(UCE)の2つの重要な問題に対処できない。 これらの問題に対処するため,本研究では,因果関係の文脈において最適な輸送手段であるEntire Space CounterFactual Regression (ESCFR)を提案する。 具体的には, 確率的最適輸送の枠組みに基づいて, MSE問題に対処し, UCE問題に対処するための近位実結果正規化器の設計を行う。 拡張実験により,提案したESCFRは治療選択バイアスに対処し,最先端手法よりも優れた性能が得られることが示された。

Estimating conditional average treatment effect from observational data is highly challenging due to the existence of treatment selection bias. Prevalent methods mitigate this issue by aligning distributions of different treatment groups in the latent space. However, there are two critical problems that these methods fail to address: (1) mini-batch sampling effects (MSE), which causes misalignment in non-ideal mini-batches with outcome imbalance and outliers; (2) unobserved confounder effects (UCE), which results in inaccurate discrepancy calculation due to the neglect of unobserved confounders. To tackle these problems, we propose a principled approach named Entire Space CounterFactual Regression (ESCFR), which is a new take on optimal transport in the context of causality. Specifically, based on the framework of stochastic optimal transport, we propose a relaxed mass-preserving regularizer to address the MSE issue and design a proximal factual outcome regularizer to handle the UCE issue. Extensive experiments demonstrate that our proposed ESCFR can successfully tackle the treatment selection bias and achieve significantly better performance than state-of-the-art methods.
翻訳日:2023-10-30 12:40:26 公開日:2023-10-27
# グループ認識型プロンプトチューニングによるヘテロジニアスフェデレーション学習

Heterogeneous Federated Learning with Group-Aware Prompt Tuning ( http://arxiv.org/abs/2310.18285v1 )

ライセンス: Link先を確認
Wenlong Deng, Christos Thrampoulidis, Xiaoxiao Li(参考訳) トランスフォーマーは様々な機械学習タスクで顕著な成功を収め、その普及を促した。 本稿では,フェデレーション学習(fl)の文脈において,個々のクライアントが多様なローカルデータセットを持つ異種シナリオに注目して,それらのアプリケーションについて検討する。 FLの計算・通信要求を満たすため、事前学習したトランスフォーマーを活用し、効率的なプロンプトチューニング戦略を用いる。 本戦略は,共有とグループの両方のプロンプトを学習する概念を導入し,普遍的な知識とグループ固有の知識を同時に獲得することを可能にする。 さらに、プロンプト選択モジュールは、各入力にパーソナライズされたグループプロンプトを割り当て、グローバルモデルと各クライアントのデータ分散を整合させる。 このアプローチにより、ローカルな微調整を必要とせずに、ローカルなクライアントデータ分散に自動的に適応できる単一のグローバルモデルをトレーニングできる。 このようにして,提案手法は,フェデレートラーニングにおけるグローバルモデルとパーソナライズされたローカルモデル間のギャップを効果的に橋渡しし,これまで見つからなかったクライアントに適応する能力に欠ける代替アプローチを克服する。 本手法の有効性は広範囲な実験およびアブレーション実験により厳密に検証される。

Transformers have achieved remarkable success in various machine-learning tasks, prompting their widespread adoption. In this paper, we explore their application in the context of federated learning (FL), with a particular focus on heterogeneous scenarios where individual clients possess diverse local datasets. To meet the computational and communication demands of FL, we leverage pre-trained Transformers and use an efficient prompt-tuning strategy. Our strategy introduces the concept of learning both shared and group prompts, enabling the acquisition of universal knowledge and group-specific knowledge simultaneously. Additionally, a prompt selection module assigns personalized group prompts to each input, aligning the global model with the data distribution of each client. This approach allows us to train a single global model that can automatically adapt to various local client data distributions without requiring local fine-tuning. In this way, our proposed method effectively bridges the gap between global and personalized local models in Federated Learning and surpasses alternative approaches that lack the capability to adapt to previously unseen clients. The effectiveness of our approach is rigorously validated through extensive experimentation and ablation studies.
翻訳日:2023-10-30 12:40:02 公開日:2023-10-27
# HyperFields:テキストからのNeRFのゼロショット生成を目指して

HyperFields: Towards Zero-Shot Generation of NeRFs from Text ( http://arxiv.org/abs/2310.17075v2 )

ライセンス: Link先を確認
Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka(参考訳) テキスト条件付きニューラルラジアンスフィールド(NeRF)を1つのフォワードパスで(任意に)微調整で生成する手法であるHyperFieldsを紹介する。 私たちのアプローチの鍵は i) テキストトークンの埋め込みからNeRF空間へのスムーズなマッピングを学習する動的ハイパーネットワーク (II)個々のNeRFに符号化されたシーンを1つの動的ハイパーネットワークに蒸留するNeRF蒸留訓練。 これらの技術により、1つのネットワークが100以上のユニークなシーンに収まる。 さらに、ハイパーフィールドはテキストとnerfsの間のより一般的なマップを学習し、その結果、ゼロショットか数回の微調整ステップで、新しい分布内および分布外シーンを予測できることを実証する。 ハイパーフィールドの微調整は、学習された一般マップによる収束の促進から恩恵を受け、既存のニューラル最適化ベースの方法よりも5倍から10倍速く新しいシーンを合成することができる。 我々のアブレーション実験は, 動的構造とNeRF蒸留の両方がHyperFieldの表現性に重要であることを示した。

We introduce HyperFields, a method for generating text-conditioned Neural Radiance Fields (NeRFs) with a single forward pass and (optionally) some fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF distillation training, which distills scenes encoded in individual NeRFs into one dynamic hypernetwork. These techniques enable a single network to fit over a hundred unique scenes. We further demonstrate that HyperFields learns a more general map between text and NeRFs, and consequently is capable of predicting novel in-distribution and out-of-distribution scenes -- either zero-shot or with a few finetuning steps. Finetuning HyperFields benefits from accelerated convergence thanks to the learned general map, and is capable of synthesizing novel scenes 5 to 10 times faster than existing neural optimization-based methods. Our ablation experiments show that both the dynamic architecture and NeRF distillation are critical to the expressivity of HyperFields.
翻訳日:2023-10-30 10:55:06 公開日:2023-10-27
# 小さな不均衡テキストデータにおける感情検出のためのデータ拡張

Data Augmentation for Emotion Detection in Small Imbalanced Text Data ( http://arxiv.org/abs/2310.17015v2 )

ライセンス: Link先を確認
Anna Koufakou, Diego Grisales, Ragy Costa de jesus, Oscar Fox(参考訳) テキストにおける感情認識は、喜びや怒りなどの感情を識別するタスクであり、多くのアプリケーションでNLPにおいて難しい問題である。 課題のひとつは、感情を注釈付けしたデータセットが不足していることだ。 既存のデータセットは小さく、異なる感情分類に従い、感情分布に不均衡を示す。 本研究では,RoBERTaのような現在の最先端モデルが低性能である小さな不均衡データセットに適用した場合に,データ拡張技術が与える影響について検討した。 具体的には、異なるソースから派生したサイズ、感情カテゴリー、分布の異なる3つのデータセットに対して、4つのデータ拡張方法(簡易データ拡張EDA、静的および文脈的埋め込みベース、ProtAugment)を利用した。 実験結果から,分類器モデルの訓練に拡張データを用いることで,大幅な改善が得られた。 最後に2つのケーススタディを行いました a) 一般的なチャット-GPT APIを使って、異なるプロンプトを使ってテキストを言い換え、 b) トレーニングセットを補強するために外部データを使用する。 結果はこれらの手法の有望な可能性を示している。

Emotion recognition in text, the task of identifying emotions such as joy or anger, is a challenging problem in NLP with many applications. One of the challenges is the shortage of available datasets that have been annotated with emotions. Certain existing datasets are small, follow different emotion taxonomies and display imbalance in their emotion distribution. In this work, we studied the impact of data augmentation techniques precisely when applied to small imbalanced datasets, for which current state-of-the-art models (such as RoBERTa) under-perform. Specifically, we utilized four data augmentation methods (Easy Data Augmentation EDA, static and contextual Embedding-based, and ProtAugment) on three datasets that come from different sources and vary in size, emotion categories and distributions. Our experimental results show that using the augmented data when training the classifier model leads to significant improvements. Finally, we conducted two case studies: a) directly using the popular chat-GPT API to paraphrase text using different prompts, and b) using external data to augment the training set. Results show the promising potential of these methods.
翻訳日:2023-10-30 10:54:44 公開日:2023-10-27
# MCUFormer: 限られたメモリでマイクロコントローラにビジョントレーサをデプロイする

MCUFormer: Deploying Vision Tranformers on Microcontrollers with Limited Memory ( http://arxiv.org/abs/2310.16898v2 )

ライセンス: Link先を確認
Yinan Liang, Ziwei Wang, Xiuwei Xu, Yansong Tang, Jie Zhou, Jiwen Lu(参考訳) GPUの高価格と高エネルギー消費のため、マイクロコントローラのようなIoTデバイスにディープモデルをデプロイすることは、エコロジーAIに大きな貢献をする。 従来の手法では、マイクロコントローラ上の高分解能画像の畳み込みニューラルネットワークの推論に成功しているが、視覚トランスフォーマーのフレームワークは、多くの視覚アプリケーションで最先端のパフォーマンスを達成している。 本稿では,超限られたメモリを持つマイクロコントローラに視覚トランスフォーマーを展開するために,mcuformerと呼ばれるハードウェア・アルゴリズムの共最適化手法を提案する。 より具体的には、1ショットネットワークアーキテクチャサーチ(NAS)を一般化し、マイクロコントローラからのメモリ予算から最高のタスク性能で最適なアーキテクチャを探索し、低ランク分解次元とメモリ削減のためのパッチ解像度を考慮して既存の視覚トランスフォーマーの探索空間を拡大する。 視覚変換器の推論演算子ライブラリを構築するために、演算子統合、パッチ埋め込み分解、トークン上書きによる推論中にメモリバッファをスケジュールし、メモリバッファを十分に活用してビジョン変換器の前方通過に適応させる。 STM32F746 マイクロコントローラ上で320KB のメモリを持つ画像分類において,MCUFormer は 73.62\% のトップ-1 の精度を実現している。 コードはhttps://github.com/liangyn22/mcuformerで入手できる。

Due to the high price and heavy energy consumption of GPUs, deploying deep models on IoT devices such as microcontrollers makes significant contributions for ecological AI. Conventional methods successfully enable convolutional neural network inference of high resolution images on microcontrollers, while the framework for vision transformers that achieve the state-of-the-art performance in many vision applications still remains unexplored. In this paper, we propose a hardware-algorithm co-optimizations method called MCUFormer to deploy vision transformers on microcontrollers with extremely limited memory, where we jointly design transformer architecture and construct the inference operator library to fit the memory resource constraint. More specifically, we generalize the one-shot network architecture search (NAS) to discover the optimal architecture with highest task performance given the memory budget from the microcontrollers, where we enlarge the existing search space of vision transformers by considering the low-rank decomposition dimensions and patch resolution for memory reduction. For the construction of the inference operator library of vision transformers, we schedule the memory buffer during inference through operator integration, patch embedding decomposition, and token overwriting, allowing the memory buffer to be fully utilized to adapt to the forward pass of the vision transformer. Experimental results demonstrate that our MCUFormer achieves 73.62\% top-1 accuracy on ImageNet for image classification with 320KB memory on STM32F746 microcontroller. Code is available at https://github.com/liangyn22/MCUFormer.
翻訳日:2023-10-30 10:54:26 公開日:2023-10-27
# マルチスケール拡散分別平滑化

Multi-scale Diffusion Denoised Smoothing ( http://arxiv.org/abs/2310.16779v3 )

ライセンス: Link先を確認
Jongheon Jeong, Jinwoo Shin(参考訳) 最近の拡散モデルとともに、ランダム化スムーシングは、大規模な事前訓練されたモデルのモデルに対する対角的堅牢性を提供するいくつかの具体的なアプローチの1つとなっている。 具体的には、拡散モデルのような正確な denoiser が利用できることを前提に、単純な "denoise-and-classify" パイプライン、いわゆる denoized smoothing を通じて任意の分類器上でランダム化スムーシングを実行することができる。 本稿では,正規化平滑化におけるロバスト性保証と精度のトレードオフに対処するために,スケーラブルな手法を提案する。 一つの拡散モデルで効率よく実装できるマルチスケールなスムース化という,複数のノイズスケール間のスムース化を「選択的に」適用することを目的としている。 このアプローチはまた、複数スケールの平滑化分類器の集団的ロバスト性を比較する新しい目的と、拡散モデルの表現が目的を最大化するかどうかを問うものである。 この問題に対処するため,我々はさらに微動拡散モデルを提案する。 (a)原画像が復元可能であればいつでも一貫した弁別を行うが b) 非常に多様な出力を生成すること。 提案手法と拡散微細調整を併用したマルチスケール平滑化手法により,非滑らかな分類器に近い精度を維持しつつ,高雑音レベルで高い信頼性の頑健性が得られることを示す。

Along with recent diffusion models, randomized smoothing has become one of a few tangible approaches that offers adversarial robustness to models at scale, e.g., those of large pre-trained models. Specifically, one can perform randomized smoothing on any classifier via a simple "denoise-and-classify" pipeline, so-called denoised smoothing, given that an accurate denoiser is available - such as diffusion model. In this paper, we present scalable methods to address the current trade-off between certified robustness and accuracy in denoised smoothing. Our key idea is to "selectively" apply smoothing among multiple noise scales, coined multi-scale smoothing, which can be efficiently implemented with a single diffusion model. This approach also suggests a new objective to compare the collective robustness of multi-scale smoothed classifiers, and questions which representation of diffusion model would maximize the objective. To address this, we propose to further fine-tune diffusion model (a) to perform consistent denoising whenever the original image is recoverable, but (b) to generate rather diverse outputs otherwise. Our experiments show that the proposed multi-scale smoothing scheme combined with diffusion fine-tuning enables strong certified robustness available with high noise level while maintaining its accuracy close to non-smoothed classifiers.
翻訳日:2023-10-30 10:53:37 公開日:2023-10-27
# ロボット環境のための知識グラフへのユニバーサルシーン記述の翻訳

Translating Universal Scene Descriptions into Knowledge Graphs for Robotic Environment ( http://arxiv.org/abs/2310.16737v2 )

ライセンス: Link先を確認
Giang Hoang Nguyen, Daniel Bessler, Simon Stelter, Mihai Pomarlan, Michael Beetz(参考訳) 人間サイズの操作タスクを実行するロボットは、その動作を有能かつ人間らしく行うために、周囲に関する膨大な知識を必要とします。 本研究では,ロボット環境モデリングの実装としての仮想現実技術の利用について検討し,シーングラフを知識ベースに変換する手法を提案する。 この目的のために我々は,複雑な環境のオーサリング,可視化,シミュレーションの新たな標準である,ユニバーサルシーン記述(USD)フォーマットを利用する。 我々は,USDベースの環境モデルから知識グラフ(KG)表現への変換について検討し,セマンティッククエリや付加的な知識ソースとの統合を容易にする。

Robots performing human-scale manipulation tasks require an extensive amount of knowledge about their surroundings in order to perform their actions competently and human-like. In this work, we investigate the use of virtual reality technology as an implementation for robot environment modeling, and present a technique for translating scene graphs into knowledge bases. To this end, we take advantage of the Universal Scene Description (USD) format which is an emerging standard for the authoring, visualization and simulation of complex environments. We investigate the conversion of USD-based environment models into Knowledge Graph (KG) representations that facilitate semantic querying and integration with additional knowledge sources.
翻訳日:2023-10-30 10:53:12 公開日:2023-10-27
# 画像からの強化学習における制御中心表現に向けて

Towards Control-Centric Representations in Reinforcement Learning from Images ( http://arxiv.org/abs/2310.16655v2 )

ライセンス: Link先を確認
Chen Liu, Hongyu Zang, Xin Li, Yong Heng, Yifei Wang, Zhen Fang, Yisen Wang, Mingzhong Wang(参考訳) イメージベースの強化学習は実践的だが難しい課題である。 主なハードルは、無関係な情報を無視しながら制御中心の表現を抽出することである。 バイシミュレーション原理に従うアプローチは、この問題に対処するために状態表現を学習する可能性を示す一方で、潜在力学の表現能力の制限と報酬環境のスパースに対する適応性の欠如にはまだ不満を呈している。 この制限に対処するため,報奨不要の制御情報と報奨特化知識を統合することで,制御中心の情報をキャプチャすることを目的としたReBisを導入する。 ReBisはトランスフォーマーアーキテクチャを使用して、動的を暗黙的にモデル化し、時空間冗長性を排除するブロックワイドマスキングを取り入れている。 さらにrebisは、バイシミュレーションに基づく損失と非対称なレコンストラクション損失を組み合わせることで、少ない報酬で機能崩壊を防止する。 AtariゲームとDeepMind Control Suitを含む2つの大きなベンチマークに関する実証研究は、ReBisが既存の方法よりも優れた性能を示し、その有効性を証明している。

Image-based Reinforcement Learning is a practical yet challenging task. A major hurdle lies in extracting control-centric representations while disregarding irrelevant information. While approaches that follow the bisimulation principle exhibit the potential in learning state representations to address this issue, they still grapple with the limited expressive capacity of latent dynamics and the inadaptability to sparse reward environments. To address these limitations, we introduce ReBis, which aims to capture control-centric information by integrating reward-free control information alongside reward-specific knowledge. ReBis utilizes a transformer architecture to implicitly model the dynamics and incorporates block-wise masking to eliminate spatiotemporal redundancy. Moreover, ReBis combines bisimulation-based loss with asymmetric reconstruction loss to prevent feature collapse in environments with sparse rewards. Empirical studies on two large benchmarks, including Atari games and DeepMind Control Suit, demonstrate that ReBis has superior performance compared to existing methods, proving its effectiveness.
翻訳日:2023-10-30 10:53:01 公開日:2023-10-27
# 最適化の落とし穴:リスク基準のランダム化による分散強化学習

Pitfall of Optimism: Distributional Reinforcement Learning by Randomizing Risk Criterion ( http://arxiv.org/abs/2310.16546v2 )

ライセンス: Link先を確認
Taehyun Cho, Seungyub Han, Heesoo Lee, Kyungjae Lee, Jungwoo Lee(参考訳) 分布強化学習アルゴリズムは、不確実性に直面した楽観主義などの推定不確実性を探索に利用しようと試みている。 しかし、楽観的な探索に推定分散を使うことは、偏りのあるデータ収集と収束や性能の妨げとなる可能性がある。 本稿では,リスク基準をランダム化することにより,リスクの一方的傾向を回避する行動選択を行う分布強化学習アルゴリズムを提案する。 リスク尺度を歪ませ、より弱い収縮特性で提案手法の収束性と最適性を証明し、摂動分布のベルマン最適性演算子を提供する。 理論的結果は,提案手法がバイアス探索に該当せず,最適回帰に収束することが保証されていることを裏付けるものである。 最後に,Atari 55 ゲームを含む様々な環境において,本手法が既存の分散アルゴリズムよりも優れていることを示す。

Distributional reinforcement learning algorithms have attempted to utilize estimated uncertainty for exploration, such as optimism in the face of uncertainty. However, using the estimated variance for optimistic exploration may cause biased data collection and hinder convergence or performance. In this paper, we present a novel distributional reinforcement learning algorithm that selects actions by randomizing risk criterion to avoid one-sided tendency on risk. We provide a perturbed distributional Bellman optimality operator by distorting the risk measure and prove the convergence and optimality of the proposed method with the weaker contraction property. Our theoretical results support that the proposed method does not fall into biased exploration and is guaranteed to converge to an optimal return. Finally, we empirically show that our method outperforms other existing distribution-based algorithms in various environments including Atari 55 games.
翻訳日:2023-10-30 10:52:42 公開日:2023-10-27
# コードセマンティックスを理解する:要約におけるトランスフォーマーモデルの評価

Understanding Code Semantics: An Evaluation of Transformer Models in Summarization ( http://arxiv.org/abs/2310.16314v2 )

ライセンス: Link先を確認
Debanjan Mondal, Abhilasha Lodha, Ankita Sahoo, Beena Kumari(参考訳) 本稿では,先進的なトランスフォーマーに基づく言語モデルを用いて,コード要約の複雑さを考察する。 経験的な研究を通じて,関数や変数名を変更することで,コードの意味論を真に理解しているか,あるいは単にテキストの手がかりに頼っているかを調べることで,コード要約の有効性を評価する。 また、デッドコードや3つのプログラミング言語(Python、Javascript、Java)にまたがるコメントコードのような敵も導入して、モデルの理解をさらに精査しています。 最終的には、トランスフォーマーベースのlmsの内部動作に関する貴重な洞察を提供し、コードを理解する能力を高め、より効率的なソフトウェア開発プラクティスとメンテナンスワークフローに貢献することを目標としています。

This paper delves into the intricacies of code summarization using advanced transformer-based language models. Through empirical studies, we evaluate the efficacy of code summarization by altering function and variable names to explore whether models truly understand code semantics or merely rely on textual cues. We have also introduced adversaries like dead code and commented code across three programming languages (Python, Javascript, and Java) to further scrutinize the model's understanding. Ultimately, our research aims to offer valuable insights into the inner workings of transformer-based LMs, enhancing their ability to understand code and contributing to more efficient software development practices and maintenance workflows.
翻訳日:2023-10-30 10:52:08 公開日:2023-10-27
# アクセント固有のコードブックを用いたアクセント音声認識

Accented Speech Recognition With Accent-specific Codebooks ( http://arxiv.org/abs/2310.15970v3 )

ライセンス: Link先を確認
Darshan Prabhu, Preethi Jyothi, Sriram Ganapathy, Vinit Unni(参考訳) 音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。 あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。 本研究では,トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。 これらの学習可能なコードブックはアクセント固有の情報をキャプチャし、ASRエンコーダ層に統合される。 モデルはアクセント付き英語音声で訓練されるが、テストデータには訓練中に見られなかったアクセントも含まれていた。 mozilla common voice multi-accented datasetでは、提案手法が英語のアクセント(単語誤り率の相対的改善)だけでなく、目に見えないアクセント(werでは最大$5\$$$の相対的改善)にも大きなパフォーマンス向上をもたらすことを示した。 さらに、L2Articデータセット上でゼロショット転送設定の利点を説明する。 また,アクセント対向訓練に基づく他の手法との比較を行った。

Speech accents pose a significant challenge to state-of-the-art automatic speech recognition (ASR) systems. Degradation in performance across underrepresented accents is a severe deterrent to the inclusive adoption of ASR. In this work, we propose a novel accent adaptation approach for end-to-end ASR systems using cross-attention with a trainable set of codebooks. These learnable codebooks capture accent-specific information and are integrated within the ASR encoder layers. The model is trained on accented English speech, while the test data also contained accents which were not seen during training. On the Mozilla Common Voice multi-accented dataset, we show that our proposed approach yields significant performance gains not only on the seen English accents (up to $37\%$ relative improvement in word error rate) but also on the unseen accents (up to $5\%$ relative improvement in WER). Further, we illustrate benefits for a zero-shot transfer setup on the L2Artic dataset. We also compare the performance with other approaches based on accent adversarial training.
翻訳日:2023-10-30 10:51:56 公開日:2023-10-27
# VoxArabica:ロバストな方言対応アラビア語音声認識システム

VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System ( http://arxiv.org/abs/2310.11069v4 )

ライセンス: Link先を確認
Abdul Waheed, Bashar Talafha, Peter Sullivan, AbdelRahim Elmadany, Muhammad Abdul-Mageed(参考訳) アラビア語は複雑な言語であり、世界中で4億5000万以上の方言が話されている。 言語的多様性とバリエーションのため、アラビア語のための堅牢で一般化されたASRシステムを構築することは困難である。 本研究では、方言識別(DID)とアラビア語の自動音声認識(ASR)のためのVoxArabicaと呼ばれるシステムを開発し、デモすることで、このギャップに対処する。 我々は、アラビアDIDおよびASRタスクの教師付き設定において、HuBERT(DID)、Whisper、XLS-R(ASR)などの広範囲のモデルを訓練する。 我々のDIDモデルは、MSAに加えて17種類の方言を識別するように訓練されている。 MSA、エジプト、モロッコ、および混合データでASRモデルを微調整します。 さらに、ASRの残りの方言に対しては、ゼロショット設定でWhisperやMMSなどの様々なモデルを選択するオプションを提供する。 私たちはこれらのモデルを単一Webインターフェースに統合し、オーディオ記録、ファイルアップロード、モデル選択、誤出力のためのフラグを掲げるオプションなど様々な機能を提供します。 全体としては、VoxArabicaはアラビア研究に関する幅広い聴衆にとって有用であると考えています。 私たちのシステムは、現在https://cdce-206-12-100-168.ngrok.io/で動作しています。

Arabic is a complex language with many varieties and dialects spoken by over 450 millions all around the world. Due to the linguistic diversity and variations, it is challenging to build a robust and generalized ASR system for Arabic. In this work, we address this gap by developing and demoing a system, dubbed VoxArabica, for dialect identification (DID) as well as automatic speech recognition (ASR) of Arabic. We train a wide range of models such as HuBERT (DID), Whisper, and XLS-R (ASR) in a supervised setting for Arabic DID and ASR tasks. Our DID models are trained to identify 17 different dialects in addition to MSA. We finetune our ASR models on MSA, Egyptian, Moroccan, and mixed data. Additionally, for the remaining dialects in ASR, we provide the option to choose various models such as Whisper and MMS in a zero-shot setting. We integrate these models into a single web interface with diverse features such as audio recording, file upload, model selection, and the option to raise flags for incorrect outputs. Overall, we believe VoxArabica will be useful for a wide range of audiences concerned with Arabic research. Our system is currently running at https://cdce-206-12-100-168.ngrok.io/.
翻訳日:2023-10-30 10:51:44 公開日:2023-10-27
# 表面から見る:試料効率の良いオフラインRLの基礎対称性の爆発

Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL ( http://arxiv.org/abs/2306.04220v5 )

ライセンス: Link先を確認
Peng Cheng, Xianyuan Zhan, Zhihao Wu, Wenjia Zhang, Shoucheng Song, Han Wang, Youfang Lin, Li Jiang(参考訳) オフライン強化学習(rl)は、事前収集されたデータセットから環境と対話することなくポリシーを学習することで、現実世界のタスクに魅力的なアプローチを提供する。 しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。 現実世界のデータ収集は、しばしば高価で制御不能であり、小規模で狭い範囲のデータセットにつながり、オフラインrlの実用的なデプロイに重大な課題をもたらす。 本稿では,システムダイナミクスの基本的な対称性を活用することで,小規模データセット下でのオフラインrl性能が大幅に向上することを示す。 具体的には,tdm(time-reversal symmetry)強制動力学モデル(t-symmetry enforced dynamics model, tdm)を提案する。 TDMは、小さなデータセットに対する良好な表現と、T対称性の遵守に基づくOODサンプルに対する新しい信頼性尺度の両方を提供する。 これらは、保守的なポリシー制約の少ない新しいオフラインRLアルゴリズム(TSRL)の構築や、信頼性の高い遅延空間データ拡張手順に容易に使用できる。 広範な実験に基づいて、TSRLは、原サンプルの1%に満たない小さなベンチマークデータセットで優れたパフォーマンスを達成し、データ効率と一般化性の観点から最近のオフラインRLアルゴリズムを著しく上回っている。

Offline reinforcement learning (RL) offers an appealing approach to real-world tasks by learning policies from pre-collected datasets without interacting with the environment. However, the performance of existing offline RL algorithms heavily depends on the scale and state-action space coverage of datasets. Real-world data collection is often expensive and uncontrollable, leading to small and narrowly covered datasets and posing significant challenges for practical deployments of offline RL. In this paper, we provide a new insight that leveraging the fundamental symmetry of system dynamics can substantially enhance offline RL performance under small datasets. Specifically, we propose a Time-reversal symmetry (T-symmetry) enforced Dynamics Model (TDM), which establishes consistency between a pair of forward and reverse latent dynamics. TDM provides both well-behaved representations for small datasets and a new reliability measure for OOD samples based on compliance with the T-symmetry. These can be readily used to construct a new offline RL algorithm (TSRL) with less conservative policy constraints and a reliable latent space data augmentation procedure. Based on extensive experiments, we find TSRL achieves great performance on small benchmark datasets with as few as 1% of the original samples, which significantly outperforms the recent offline RL algorithms in terms of data efficiency and generalizability.Code is available at: https://github.com/pcheng2/TSRL
翻訳日:2023-10-30 10:51:20 公開日:2023-10-27
# ビジュアルリッチ文書のグローバル構造知識誘導関係抽出法

Global Structure Knowledge-Guided Relation Extraction Method for Visually-Rich Document ( http://arxiv.org/abs/2305.13850v3 )

ライセンス: Link先を確認
Xiangnan Chen, Qian Xiao, Juncheng Li, Duo Dong, Jun Lin, Xiaozhong Liu, Siliang Tang(参考訳) 視覚関係抽出(VRE)は、視覚的にリッチなドキュメント内のエンティティ間の関係を発見する強力な手段である。 既存の方法は、ペア関係を見つけるためにエンティティ機能を操作することに集中するが、異なるエンティティペアを結合するより基本的な構造情報を無視する。 グローバル構造情報の欠如は、モデルが長距離関係を学習し、矛盾した結果を容易に予測するのに苦労するかもしれない。 このような制約を軽減するために,GlObal Structure Knowledge-Guided Relation extract (GOSE) フレームワークを提案する。 GOSEは、文書のスキャン画像から抽出されたエンティティペアの予備関係予測を生成して開始する。 その後、グローバルな構造的知識は、前回の反復予測から取得され、エンティティの表現に組み込まれる。 この「ジェネレート・キャプチャー・インコーポレート」サイクルは何度も繰り返され、エンティティ表現とグローバル構造知識が相互に強化される。 広範な実験により、GOSEは標準的な微調整環境で既存の手法よりも優れているだけでなく、言語間学習能力も優れていることが証明された。 GOSEのコードはhttps://github.com/chenxn2020/GOSEで入手できる。

Visual Relation Extraction (VRE) is a powerful means of discovering relationships between entities within visually-rich documents. Existing methods often focus on manipulating entity features to find pairwise relations, yet neglect the more fundamental structural information that links disparate entity pairs together. The absence of global structure information may make the model struggle to learn long-range relations and easily predict conflicted results. To alleviate such limitations, we propose a GlObal Structure knowledge-guided relation Extraction (GOSE) framework. GOSE initiates by generating preliminary relation predictions on entity pairs extracted from a scanned image of the document. Subsequently, global structural knowledge is captured from the preceding iterative predictions, which are then incorporated into the representations of the entities. This "generate-capture-incorporate" cycle is repeated multiple times, allowing entity representations and global structure knowledge to be mutually reinforced. Extensive experiments validate that GOSE not only outperforms existing methods in the standard fine-tuning setting but also reveals superior cross-lingual learning capabilities; indeed, even yields stronger data-efficient performance in the low-resource setting. The code for GOSE will be available at https://github.com/chenxn2020/GOSE.
翻訳日:2023-10-30 10:50:56 公開日:2023-10-27
# フレキシブルゴール指向認知と意識の神経計算的記述:ゴール適応表現内部操作理論(GARIM)

A Neurocomputational Account of Flexible Goal-directed Cognition and Consciousness: The Goal-Aligning Representation Internal Manipulation Theory (GARIM) ( http://arxiv.org/abs/1912.13490v4 )

ライセンス: Link先を確認
Giovanni Granato and Gianluca Baldassarre(参考訳) 目標指向の表現操作は人間のフレキシブルな行動の重要な要素であるが、意識は高次の認知と人間の柔軟性のいくつかの側面と関連していることが多い。 現在この2つの現象は部分的に統合されている(神経表現論など)。 a) 意識状態がフレキシブルな目標指向行動を生み出すための神経計算過程の理解を制限すること。 (b)脳内で起こる表現の意識的目標指向的操作の計算形式化を防止し、 (c)この知識のモデリング及び技術的目的への活用を阻害する。 これらの問題に対処するために,我々は,意識的かつ柔軟な目標指向的認知の理論であるgarim(goal-aligning representations internal manipulation)を提唱することによって,「柔軟認知の三成分理論」を拡張した。 この理論の中心的な考え方は、意識的な状態が目標と関連する内部表現(例えば、世界状態、オブジェクト、アクションシーケンス)のアクティブな操作をサポートし、追求された目標に合致させることである。 これにより、新たな状況や目標に直面するために必要な知識が生成され、目標指向の行動の柔軟性が向上する。 GARIM理論は、意識の主要な理論の重要な側面をゴール指向行動の機能的神経計算の枠組みに統合している。 また、意識的な目標指向プロセス(GARIMエージェンシー)に付随するエージェンシーの主観的センセーションを考慮に入れている。 この提案はまた、意識的目標指向行動の意識および臨床的側面に関する実験的研究にも影響している。 最後に、GARIM理論は自律型ロボット工学や機械学習のような技術分野に恩恵を与える(例えば、操作プロセスはトランスフォーマーに基づくシステムによって実行される操作を記述することができる)。

Goal-directed manipulation of representations is a key element of human flexible behaviour, while consciousness is often related to several aspects of higher-order cognition and human flexibility. Currently these two phenomena are only partially integrated (e.g., see Neurorepresentationalism) and this (a) limits our understanding of neuro-computational processes that lead conscious states to produce flexible goal-directed behaviours, (b) prevents a computational formalisation of conscious goal-directed manipulations of representations occurring in the brain, and (c) inhibits the exploitation of this knowledge for modelling and technological purposes. Addressing these issues, here we extend our `three-component theory of flexible cognition' by proposing the `Goal-Aligning Representations Internal Manipulation' (GARIM) theory of conscious and flexible goal-directed cognition. The central idea of the theory is that conscious states support the active manipulation of goal-relevant internal representations (e.g., of world states, objects, and action sequences) to make them more aligned with the pursued goals. This leads to the generation of the knowledge which is necessary to face novel situations/goals, thus increasing the flexibility of goal-directed behaviours. The GARIM theory integrates key aspects of the main theories of consciousness into the functional neuro-computational framework of goal-directed behaviour. Moreover, it takes into account the subjective sensation of agency that accompanies conscious goal-directed processes (`GARIM agency'). The proposal has also implications for experimental studies on consciousness and clinical aspects of conscious goal-directed behaviour. Finally, the GARIM theory benefit technological fields such as autonomous robotics and machine learning (e.g., the manipulation process may describe the operations performed by systems based on transformers).
翻訳日:2023-10-30 10:50:26 公開日:2023-10-27
# シークエンシャル意思決定の高次元予測

High-Dimensional Prediction for Sequential Decision Making ( http://arxiv.org/abs/2310.17651v2 )

ライセンス: Link先を確認
Georgy Noarov, Ramya Ramalingam, Aaron Roth, Stephan Xie(参考訳) 本研究では,任意のコンディショニングイベントの収集対象とならない,敵対的に選択された高次元状態の予測を,下流の意思決定者に合わせることを目的として行う。 この問題を解決するための効率的なアルゴリズムと、適切なコンディショニングイベントを選択することに起因する多くのアプリケーションを提供します。 例えば、多項式的に多くの意思決定者をターゲットにした予測を効率的に行うことができ、予測に最もよく対応すれば、それぞれが最適なスワップ後悔を与えます。 我々は、意思決定者が非常に大きなアクション空間を持つオンライン組合せ最適化にこれを一般化し、多項式的に多くの意思決定者に提供する最初のアルゴリズムに、そのアクションとコンテキストに依存する可能性のある多項式的部分列を後悔しないようにする。 これらの結果を適用して、広範形式ゲーム(EFG)における効率のよい非逐次回帰アルゴリズム(non-subsequence-regret algorithm)を得るとともに、既存のEFGの後悔概念(例えば、因果偏差に対する後悔)を一般化するEFGに対する新しい遺族を与える。 次に,オンラインで有効な対向的多クラス予測セットを構築するための,コンフォメーション予測の新たな透明な代替手法を開発する。 下流アルゴリズムが有効な被覆予測セットを作成するのに使用できるクラススコアを,そのスコアが真の条件付きクラス確率であるかのように作成する。 これは、多項式に多数存在する下流予測集合に対して、セットサイズ条件付きおよびマルチグループフェアカバレッジを含む強い条件付き妥当性保証を示す。 さらに、我々のクラススコアは、任意のベンチマークモデルと比較すると、$L_2$損失、クロスエントロピー損失、および一般的なブレグマン損失の改善が保証され、高次元の実測値バージョンが得られる。

We study the problem of making predictions of an adversarially chosen high-dimensional state that are unbiased subject to an arbitrary collection of conditioning events, with the goal of tailoring these events to downstream decision makers. We give efficient algorithms for solving this problem, as well as a number of applications that stem from choosing an appropriate set of conditioning events. For example, we can efficiently make predictions targeted at polynomially many decision makers, giving each of them optimal swap regret if they best-respond to our predictions. We generalize this to online combinatorial optimization, where the decision makers have a very large action space, to give the first algorithms offering polynomially many decision makers no regret on polynomially many subsequences that may depend on their actions and the context. We apply these results to get efficient no-subsequence-regret algorithms in extensive-form games (EFGs), yielding a new family of regret guarantees for EFGs that generalizes some existing EFG regret notions, e.g. regret to informed causal deviations, and is generally incomparable to other known such notions. Next, we develop a novel transparent alternative to conformal prediction for building valid online adversarial multiclass prediction sets. We produce class scores that downstream algorithms can use for producing valid-coverage prediction sets, as if these scores were the true conditional class probabilities. We show this implies strong conditional validity guarantees including set-size-conditional and multigroup-fair coverage for polynomially many downstream prediction sets. Moreover, our class scores can be guaranteed to have improved $L_2$ loss, cross-entropy loss, and generally any Bregman loss, compared to any collection of benchmark models, yielding a high-dimensional real-valued version of omniprediction.
翻訳日:2023-10-30 10:42:29 公開日:2023-10-27
# spa: 領域適応のためのグラフスペクトルアライメント視点

SPA: A Graph Spectral Alignment Perspective for Domain Adaptation ( http://arxiv.org/abs/2310.17594v2 )

ライセンス: Link先を確認
Zhiqing Xiao, Haobo Wang, Ying Jin, Lei Feng, Gang Chen, Fei Huang, Junbo Zhao(参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、データ分布が異なる特定のターゲットドメインにドメインモデルを拡張するための機械学習における重要な形式である。 ほとんどの先行研究はドメイン間転送可能性の把握に重点を置いているが、リッチなドメイン内構造は見過ごされている。 本稿では,このトレードオフに対処するための新しいグラフスペクトラルアライメント(SPA)フレームワークを提案する。 この手法の核心は、以下のように簡潔に凝縮される。 (i) DA問題をグラフプリミティブにキャストすることにより、SPAは、固有空間におけるドメイングラフの整列化に向けた新しいスペクトル正規化器を備えた粗グラフアライメント機構を構成する。 (II) ターゲットドメインの識別性を高めるため, 隣接する新たな自己学習機構を基盤として, よりきめ細かいメッセージ伝達モジュールをさらに開発する。 標準化されたベンチマークでは、SPAの広範な実験により、その性能が既存の最先端DAメソッドを上回ったことが示されている。 密度モデル解析と組み合わせて,本手法は優れた有効性,堅牢性,識別性,伝達性を有していると結論づける。 コードとデータは、https://github.com/CrownX/SPA.comで入手できる。

Unsupervised domain adaptation (UDA) is a pivotal form in machine learning to extend the in-domain model to the distinctive target domains where the data distributions differ. Most prior works focus on capturing the inter-domain transferability but largely overlook rich intra-domain structures, which empirically results in even worse discriminability. In this work, we introduce a novel graph SPectral Alignment (SPA) framework to tackle the tradeoff. The core of our method is briefly condensed as follows: (i)-by casting the DA problem to graph primitives, SPA composes a coarse graph alignment mechanism with a novel spectral regularizer towards aligning the domain graphs in eigenspaces; (ii)-we further develop a fine-grained message propagation module -- upon a novel neighbor-aware self-training mechanism -- in order for enhanced discriminability in the target domain. On standardized benchmarks, the extensive experiments of SPA demonstrate that its performance has surpassed the existing cutting-edge DA methods. Coupled with dense model analysis, we conclude that our approach indeed possesses superior efficacy, robustness, discriminability, and transferability. Code and data are available at: https://github.com/CrownX/SPA.
翻訳日:2023-10-30 10:41:58 公開日:2023-10-27
# 低光像強調のためのグローバル構造対応拡散プロセス

Global Structure-Aware Diffusion Process for Low-Light Image Enhancement ( http://arxiv.org/abs/2310.17577v2 )

ライセンス: Link先を確認
Jinhui Hou, Zhiyu Zhu, Junhui Hou, Hui Liu, Huanqiang Zeng, Hui Yuan(参考訳) 本稿では,低照度画像強調問題に対処する拡散型フレームワークについて検討する。 拡散モデルの能力を生かして、この複雑な過程を掘り下げ、その固有のODE軌道の正規化を提唱する。 具体的には、低曲率ODE軌道が安定かつ効果的な拡散過程をもたらすという最近の研究に着想を得て、画像データの内在的非局所構造(すなわち、グローバル構造認識正規化)に固定された曲率正規化項を定式化し、拡散過程における複雑な詳細の保存とコントラストの増大を徐々に促進する。 この組み込みは拡散過程によるノイズやアーチファクトの悪影響を緩和し、より正確で柔軟な拡張をもたらす。 さらに,課題領域における学習を促進するため,画像の最も極端な領域に対する制約を巧みに緩和する不確実性誘導正規化手法を導入する。 実験により,低照度向上において,ランクインフォームド正規化を補完する拡散型フレームワークが優れた性能を発揮することが示された。 その結果, 画像品質, ノイズ抑制, コントラスト増幅の進歩が, 最先端の手法と比較された。 この革新的なアプローチは、低光度画像処理のさらなる探索と進歩を刺激し、拡散モデルの他の応用に潜在的に影響すると信じている。 コードはhttps://github.com/jinnh/GSADで公開されている。

This paper studies a diffusion-based framework to address the low-light image enhancement problem. To harness the capabilities of diffusion models, we delve into this intricate process and advocate for the regularization of its inherent ODE-trajectory. To be specific, inspired by the recent research that low curvature ODE-trajectory results in a stable and effective diffusion process, we formulate a curvature regularization term anchored in the intrinsic non-local structures of image data, i.e., global structure-aware regularization, which gradually facilitates the preservation of complicated details and the augmentation of contrast during the diffusion process. This incorporation mitigates the adverse effects of noise and artifacts resulting from the diffusion process, leading to a more precise and flexible enhancement. To additionally promote learning in challenging regions, we introduce an uncertainty-guided regularization technique, which wisely relaxes constraints on the most extreme regions of the image. Experimental evaluations reveal that the proposed diffusion-based framework, complemented by rank-informed regularization, attains distinguished performance in low-light enhancement. The outcomes indicate substantial advancements in image quality, noise suppression, and contrast amplification in comparison with state-of-the-art methods. We believe this innovative approach will stimulate further exploration and advancement in low-light image processing, with potential implications for other applications of diffusion models. The code is publicly available at https://github.com/jinnh/GSAD.
翻訳日:2023-10-30 10:41:39 公開日:2023-10-27
# 人間誘導複雑度制御抽象化

Human-Guided Complexity-Controlled Abstractions ( http://arxiv.org/abs/2310.17550v2 )

ライセンス: Link先を確認
Andi Peng, Mycal Tucker, Eoin Kenny, Noga Zaslavsky, Pulkit Agrawal, Julie Shah(参考訳) ニューラルネットワークはしばしば、新しい設定やタスクに一般化できないタスク固有の潜在表現を学ぶ。 逆に、人間は様々な抽象レベル(例えば「バード」対「スパロウ」など)で離散表現(概念や言葉)を学び、タスクに基づいた適切な抽象化をデプロイする。 これにより、ニューラルネットワークを訓練して離散表現のスペクトルを生成し、表現上の分布のエントロピーをチューニングすることにより、表現の複雑さ(入力を符号化するために割り当てられるビット数)を制御する。 微調整実験では,新しいタスクのラベル付き例のみを用いて,(1)タスクに適した複雑性レベルへの表現のチューニングが最高の微調整性能をサポートすること,(2)人間参加型研究では,個別表現の可視化を用いて下流タスクの適切な複雑さレベルを識別できることを示した。 結果は,人間の洞察を活かし,迅速なモデルの微調整に有望な方向を示す。

Neural networks often learn task-specific latent representations that fail to generalize to novel settings or tasks. Conversely, humans learn discrete representations (i.e., concepts or words) at a variety of abstraction levels (e.g., "bird" vs. "sparrow") and deploy the appropriate abstraction based on task. Inspired by this, we train neural models to generate a spectrum of discrete representations, and control the complexity of the representations (roughly, how many bits are allocated for encoding inputs) by tuning the entropy of the distribution over representations. In finetuning experiments, using only a small number of labeled examples for a new task, we show that (1) tuning the representation to a task-appropriate complexity level supports the highest finetuning performance, and (2) in a human-participant study, users were able to identify the appropriate complexity level for a downstream task using visualizations of discrete representations. Our results indicate a promising direction for rapid model finetuning by leveraging human insight.
翻訳日:2023-10-30 10:41:12 公開日:2023-10-27
# 大規模言語モデルは体系的レビュープロセスで人間に取って代わることができるか? 複数の言語におけるGPT-4によるピアレビューおよびグレー文学からのデータのスクリーニングと抽出の有効性の評価

Can large language models replace humans in the systematic review process? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages ( http://arxiv.org/abs/2310.17526v2 )

ライセンス: Link先を確認
Qusai Khraisha, Sophie Put, Johanna Kappenberg, Azza Warraitch, Kristin Hadfield(参考訳) 体系的なレビューは実践、研究、政策の指導に不可欠であるが、それらはしばしば遅く、労働集約的である。 大きな言語モデル(LLM)は、体系的なレビューをスピードアップし、自動化する方法を提供するが、そのようなタスクにおけるそれらのパフォーマンスは、人間に対して包括的に評価されておらず、これまで最大のLCMであるGPT-4を試験した研究はない。 本研究は, "human-out-of-the-loop" アプローチを用いて, gpt-4のタイトル/アブストラクトスクリーニング, フルテキストレビュー, データ抽出における能力を評価する。 gpt-4は、ほとんどのタスクで人間のパフォーマンスに匹敵する精度を持っていたが、結果が偶然の一致とデータセットの不均衡によって歪んだ。 これらを調整した後、データ抽出のパフォーマンスは適度に低下し、高い信頼性を持つプロンプトスクリーニングパフォーマンスを用いた研究は、異なるステージや言語で適度に低下した。 信頼性の高いプロンプトを用いた全文文献のスクリーニングでは、GPT-4の性能は「ほぼ完璧」であった。 信頼性の高いプロンプトを用いた重要な研究の欠如に対するGPT-4の適用により、さらに性能が向上した。 この結果から,LLMを体系的レビューに使用した場合は,現在かなりの注意が必要であるが,信頼性の高いプロンプトで提供される特定の系統的レビュータスクに対して,LLMは人的パフォーマンスに匹敵する可能性があることが示唆された。

Systematic reviews are vital for guiding practice, research, and policy, yet they are often slow and labour-intensive. Large language models (LLMs) could offer a way to speed up and automate systematic reviews, but their performance in such tasks has not been comprehensively evaluated against humans, and no study has tested GPT-4, the biggest LLM so far. This pre-registered study evaluates GPT-4's capability in title/abstract screening, full-text review, and data extraction across various literature types and languages using a 'human-out-of-the-loop' approach. Although GPT-4 had accuracy on par with human performance in most tasks, results were skewed by chance agreement and dataset imbalance. After adjusting for these, there was a moderate level of performance for data extraction, and - barring studies that used highly reliable prompts - screening performance levelled at none to moderate for different stages and languages. When screening full-text literature using highly reliable prompts, GPT-4's performance was 'almost perfect.' Penalising GPT-4 for missing key studies using highly reliable prompts improved its performance even more. Our findings indicate that, currently, substantial caution should be used if LLMs are being used to conduct systematic reviews, but suggest that, for certain systematic review tasks delivered under reliable prompts, LLMs can rival human performance.
翻訳日:2023-10-30 10:40:52 公開日:2023-10-27
# flare: アニメーションとリフレッシュ可能なメッシュアバターの高速学習

FLARE: Fast Learning of Animatable and Relightable Mesh Avatars ( http://arxiv.org/abs/2310.17519v2 )

ライセンス: Link先を確認
Shrisha Bharadwaj, Yufeng Zheng, Otmar Hilliges, Michael J. Black, Victoria Fernandez-Abrevaya(参考訳) 私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。 3Dメッシュは効率的な処理を可能にし、ポータブル性が高いが、形状や外観の面では現実性に欠ける。 一方、ニューラル表現は現実的であるが、互換性がなく、トレーニングやレンダリングが遅い。 我々の重要な洞察は、従来のコンピュータグラフィックスから高度に最適化された手法を活用し、ニューラルネットワークで一部のコンポーネントを近似することにより、差別化可能なレンダリングにより、高忠実な3Dメッシュ表現を効率的に学習できるということです。 そこで本研究では,単一モノクロビデオからアニマタブルかつリライタブルなメッシュアバターの作成を可能にする技術であるFLAREを紹介する。 まず,メッシュ表現を用いて正準幾何学を学習し,学習したブレンド形状と線形ブレンドスキン重みを用いて,効率的な微分可能なラスタイゼーションとストレートアニメーションを実現する。 第2に,観察した色彩を物理的に表現し,本質的なアルベド,粗さ,照明のニューラル表現に分解し,学習したアバターを新たな場面でリライトさせる。 入力ビデオは視野が狭い単一のデバイスで撮影されるので、周囲の環境光をモデル化するのは簡単ではない。 鏡面反射をモデル化するためのスプリットサム近似に基づいて,表面粗さに変調された多層パーセプトロン (mlp) で事前フィルタされた環境マップを近似し,光を明示的にモデル化する必要をなくし,この問題に対処する。 メッシュをベースとしたアバターの定式化と学習した変形,材料,照明のMDPを組み合わせることで,高品質な幾何学と外観を持つアバターを生産し,既存のアプローチと比較してトレーニングやレンダリングが効率的であることを示す。

Our goal is to efficiently learn personalized animatable 3D head avatars from videos that are geometrically accurate, realistic, relightable, and compatible with current rendering systems. While 3D meshes enable efficient processing and are highly portable, they lack realism in terms of shape and appearance. Neural representations, on the other hand, are realistic but lack compatibility and are slow to train and render. Our key insight is that it is possible to efficiently learn high-fidelity 3D mesh representations via differentiable rendering by exploiting highly-optimized methods from traditional computer graphics and approximating some of the components with neural networks. To that end, we introduce FLARE, a technique that enables the creation of animatable and relightable mesh avatars from a single monocular video. First, we learn a canonical geometry using a mesh representation, enabling efficient differentiable rasterization and straightforward animation via learned blendshapes and linear blend skinning weights. Second, we follow physically-based rendering and factor observed colors into intrinsic albedo, roughness, and a neural representation of the illumination, allowing the learned avatars to be relit in novel scenes. Since our input videos are captured on a single device with a narrow field of view, modeling the surrounding environment light is non-trivial. Based on the split-sum approximation for modeling specular reflections, we address this by approximating the pre-filtered environment map with a multi-layer perceptron (MLP) modulated by the surface roughness, eliminating the need to explicitly model the light. We demonstrate that our mesh-based avatar formulation, combined with learned deformation, material, and lighting MLPs, produces avatars with high-quality geometry and appearance, while also being efficient to train and render compared to existing approaches.
翻訳日:2023-10-30 10:40:24 公開日:2023-10-27
# 低ランク適応の表現力

The Expressive Power of Low-Rank Adaptation ( http://arxiv.org/abs/2310.17513v2 )

ライセンス: Link先を確認
Yuchen Zeng, Kangwook Lee(参考訳) 重み行列の低ランク適応を利用するパラメータ効率のよい微調整法であるLoRAは,大規模言語モデルや拡散モデルなどの事前学習モデルの微調整手法として広く用いられている。 実際に大きな成功を収めたにもかかわらず、ロラの理論的基盤は未解明のままである。 本稿では,ロラの表現力を理論的に解析することで,このギャップを埋める第一歩を踏み出す。 完全に接続されたニューラルネットワークの場合、LoRAは任意のモデル$f$を適用でき、任意の小さなターゲットモデルを表す$\overline{f}$ if LoRA-rank $\geq(\text{width of }f) \times \frac{\text{depth of }\overline{f}}{\text{depth of }f}$を正確に表現できる。 また,LoRAランクが閾値よりも低い場合の近似誤差を定量化する。 トランスフォーマーネットワークの場合、任意のモデルが、ランク-$(\frac{\text{embedding size}}{2})$ LoRAアダプタで同じサイズのターゲットモデルに適応可能であることを示す。

Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method that leverages low-rank adaptation of weight matrices, has emerged as a prevalent technique for fine-tuning pre-trained models such as large language models and diffusion models. Despite its huge success in practice, the theoretical underpinnings of LoRA have largely remained unexplored. This paper takes the first step to bridge this gap by theoretically analyzing the expressive power of LoRA. We prove that, for fully connected neural networks, LoRA can adapt any model $f$ to accurately represent any smaller target model $\overline{f}$ if LoRA-rank $\geq(\text{width of }f) \times \frac{\text{depth of }\overline{f}}{\text{depth of }f}$. We also quantify the approximation error when LoRA-rank is lower than the threshold. For Transformer networks, we show any model can be adapted to a target model of the same size with rank-$(\frac{\text{embedding size}}{2})$ LoRA adapters.
翻訳日:2023-10-30 10:39:32 公開日:2023-10-27
# 古典的トフォリゲートのフル磁気的実装

Full-magnetic implementation of a classical Toffoli gate ( http://arxiv.org/abs/2310.17422v2 )

ライセンス: Link先を確認
Davide Nuzzi, Leonardo Banchi, Ruggero Vaia, Enrico Compagno, Alessandro Cuccoli, Paola Verrucchi, Sougato Bose(参考訳) トッフォリゲート(英: toffoli gate)は、ランダウアーの原理によるエネルギー散逸を回避したエネルギー効率の良い古典的計算パラダイムである可逆計算の必須成分である。 本稿では,トッホリゲートに必要な3ビットのうちの1つを具現化した3つの古典スピンを用いて,トッホリゲートの磁気的実装を実現するための異なる構成を解析する。 この方式では、異なる制御スピン構成により、目標スピンを条件付き反転可能な有効場を生成する。 本研究では,局所制御の程度,スピンスピン相互作用を動的に切り替える能力,古典スピンを安定させるために必要な単一スピン異方性に着目し,従来の技術との互換性を示す。

The Toffoli gate is the essential ingredient for reversible computing, an energy efficient classical computational paradigm that evades the energy dissipation resulting from Landauer's principle. In this paper we analyze different setups to realize a magnetic implementation of the Toffoli gate using three interacting classical spins, each one embodying one of the three bits needed for the Toffoli gate. In our scheme, different control-spins configurations produce an effective field capable of conditionally flipping the target spin. We study what are the experimental requirements for the realization of our scheme, focusing on the degree of local control, the ability to dynamically switch the spin-spin interactions, and the required single-spin anisotropies to make the classical spin stable, showing that these are compatible with current technology.
翻訳日:2023-10-30 10:39:12 公開日:2023-10-27
# Exoによるマトリックス乗算マイクロカーネルの生成

Tackling the Matrix Multiplication Micro-kernel Generation with Exo ( http://arxiv.org/abs/2310.17408v2 )

ライセンス: Link先を確認
Adri\'an Castell\'o, Julian Bellavita, Grace Dinh, Yuka Ikarashi, H\'ector Mart\'inez(参考訳) 行列乗法(gem)の最適化は、過去数十年間、必要とされてきた。 この操作は、blis、openblas、intel oneapiのような現在の線形代数ライブラリのフラッグシップであると考えられている。 GEMMは通常、GotoBLASの哲学に従って実装され、GEMMのオペランドをタイル化し、一連のネストループを使用してパフォーマンスを改善している。 これらの手法は、マイクロカーネルと呼ばれるハードウェア指向の高性能な小さなコードを通してアーキテクチャの最大計算能力を抽出する。 しかし、このアプローチによって開発者は、新しいハードウェアごとに専用のマイクロカーネルを作成せざるを得ない。 本稿では,組み込み関数やアセンブリ言語で記述された手作業によるマイクロカーネルに近い(あるいはそれ以上に)実行を行うexoコンパイラを用いて,マイクロカーネルを生成するステップバイステップの手順を提案する。 ハードウェアターゲットは簡潔なライブラリベースの命令記述によって完全に指定されるため、このソリューションは生成されたコードのポータビリティも改善します。

The optimization of the matrix multiplication (or GEMM) has been a need during the last decades. This operation is considered the flagship of current linear algebra libraries such as BLIS, OpenBLAS, or Intel OneAPI because of its widespread use in a large variety of scientific applications. The GEMM is usually implemented following the GotoBLAS philosophy, which tiles the GEMM operands and uses a series of nested loops for performance improvement. These approaches extract the maximum computational power of the architectures through small pieces of hardware-oriented, high-performance code called micro-kernel. However, this approach forces developers to generate, with a non-negligible effort, a dedicated micro-kernel for each new hardware. In this work, we present a step-by-step procedure for generating micro-kernels with the Exo compiler that performs close to (or even better than) manually developed microkernels written with intrinsic functions or assembly language. Our solution also improves the portability of the generated code, since a hardware target is fully specified by a concise library-based description of its instructions.
翻訳日:2023-10-30 10:38:56 公開日:2023-10-27
# 時相畳み込みニューラルネットワークによるデノボ化学反応生成

De-novo Chemical Reaction Generation by Means of Temporarily Convolutional Neural Networks ( http://arxiv.org/abs/2310.17341v2 )

ライセンス: Link先を確認
Andrei Buin, Hung Yi Chiang, S. Andrew Gadsden, Faraz A. Alderson(参考訳) 本稿では,リカレントニューラルネットワーク(RNN)と時間畳み込みニューラルネットワーク(TCN)の2つの組み合わせを,新しい反応スマイルズ様反応表現(CGRSmiles)と原子マッピングを直接組み込んだデノボ反応生成に適用する。 リカレントニューラルネットワークは自己回帰特性で知られており、SMILES生成への直接適用を伴う言語モデリングで頻繁に使用される。 比較的新しいTCNは、自然言語処理(NLP)に必要とされる因果性に従いながら、広い受容領域を持つ類似の性質を持つ。 TCNとRNNで表現された2つの潜在表現の組み合わせは、RNN単独と比較して全体的なパフォーマンスが向上する。 さらに、異なる微調整プロトコルが、転送学習による関心のデータセットに適用した場合、モデルの生成範囲に大きな影響を与えることを示した。

We present here a combination of two networks, Recurrent Neural Networks (RNN) and Temporarily Convolutional Neural Networks (TCN) in de novo reaction generation using the novel Reaction Smiles-like representation of reactions (CGRSmiles) with atom mapping directly incorporated. Recurrent Neural Networks are known for their autoregressive properties and are frequently used in language modelling with direct application to SMILES generation. The relatively novel TCNs possess similar properties with wide receptive field while obeying the causality required for natural language processing (NLP). The combination of both latent representations expressed through TCN and RNN results in an overall better performance compared to RNN alone. Additionally, it is shown that different fine-tuning protocols have a profound impact on generative scope of the model when applied on a dataset of interest via transfer learning.
翻訳日:2023-10-30 10:38:39 公開日:2023-10-27
# 人間のループ:協調的かつ説明可能なベイズ最適化

Looping in the Human: Collaborative and Explainable Bayesian Optimization ( http://arxiv.org/abs/2310.17273v2 )

ライセンス: Link先を確認
Masaki Adachi, Brady Planden, David A. Howey, Krikamol Maundet, Michael A. Osborne, Siu Lun Chau(参考訳) 多くのオプティマイザと同様に、ベイジアン最適化は不透明さのためにユーザの信頼を得られないことが多い。 人間中心のオプティマイザを開発する試みは行われているが、ユーザー知識はよく特定されエラーのないものであり、主に最適化プロセスのスーパーバイザーとして利用している。 我々はこれらの仮定を緩和し、コラボレーティブおよび説明可能なベイズ最適化(CoExBO)フレームワークとのよりバランスのとれた人間-AIパートナーシップを提案する。 ユーザが知識モデルを提供することを明示的に要求する代わりに、CoExBOは好み学習を使用して最適化に対する人間の洞察をシームレスに統合し、結果としてユーザの好みに共鳴するアルゴリズムの提案を行う。 coexboは、各イテレーションの候補選択を説明して信頼を育み、ユーザに最適化を明確に理解させる。 さらに、coexboはno-harmの保証を提供し、ユーザーが間違いを犯すことができる。極端な敵意介入であっても、アルゴリズムはバニラベイズ最適化に漸近的に収束する。 リチウムイオン電池設計における人間-aiチームによる実験により,coexboの有効性を検証する。

Like many optimizers, Bayesian optimization often falls short of gaining user trust due to opacity. While attempts have been made to develop human-centric optimizers, they typically assume user knowledge is well-specified and error-free, employing users mainly as supervisors of the optimization process. We relax these assumptions and propose a more balanced human-AI partnership with our Collaborative and Explainable Bayesian Optimization (CoExBO) framework. Instead of explicitly requiring a user to provide a knowledge model, CoExBO employs preference learning to seamlessly integrate human insights into the optimization, resulting in algorithmic suggestions that resonate with user preference. CoExBO explains its candidate selection every iteration to foster trust, empowering users with a clearer grasp of the optimization. Furthermore, CoExBO offers a no-harm guarantee, allowing users to make mistakes; even with extreme adversarial interventions, the algorithm converges asymptotically to a vanilla Bayesian optimization. We validate CoExBO's efficacy through human-AI teaming experiments in lithium-ion battery design, highlighting substantial improvements over conventional methods.
翻訳日:2023-10-30 10:38:23 公開日:2023-10-27
# 糖尿病網膜症分類における未確認領域への一般化

Generalizing to Unseen Domains in Diabetic Retinopathy Classification ( http://arxiv.org/abs/2310.17255v2 )

ライセンス: Link先を確認
Chamuditha Jayanga Galappaththige, Gayal Kuruppu, Muhammad Haris Khan(参考訳) 糖尿病網膜症(DR)は長期糖尿病によって引き起こされ、視覚障害の5番目の原因の一つである。 早期診断と治療のプロセスは、病気の治癒に役立ち得るが、検出手順は比較的困難であり、ほとんどが面倒である。 そのため, 深層学習技術を用いた糖尿病網膜症の自動分類は, 医用画像群で注目されている。 ディープラーニングの他の現実世界の応用と同様に、i.i.dデータの典型的な仮定は、ディープラーニングに依存するdr分類にも違反している。 したがって, 未知分布に頑健なdr分類法の開発は極めて有用である。 本稿では,dr分類における非知覚分布や領域(ドメイン一般化)へのモデル一般化の問題について検討する。 そこで本研究では,新しい予測ソフト化機構により視覚トランスフォーマ(vit)の自己蒸留を実現する,単純かつ効果的な領域一般化(dg)手法を提案する。 この予測ソフト化は、モデル自身の知識と1ホットラベルの適応凸結合である。 我々は3つの異なるViTバックボーンを持つマルチソースおよびシングルソースDG設定の下で、オープンソースのDR分類データセットに挑戦する広範囲な実験を行い、競合する手法に対するアプローチの有効性と適用性を確立する。 本報告では,オープンソースDR分類データセットにおけるDG法の性能について,徹底的な実験を行った後,初めて報告する。 また,本手法は他の方法と比較して校正性能が向上し,医療を含む安全上重要なアプリケーションに適合することを示す。 当社のコントリビューションが、医療画像コミュニティ全体でより多くのDG研究を調査することを期待しています。

Diabetic retinopathy (DR) is caused by long-standing diabetes and is among the fifth leading cause for visual impairments. The process of early diagnosis and treatments could be helpful in curing the disease, however, the detection procedure is rather challenging and mostly tedious. Therefore, automated diabetic retinopathy classification using deep learning techniques has gained interest in the medical imaging community. Akin to several other real-world applications of deep learning, the typical assumption of i.i.d data is also violated in DR classification that relies on deep learning. Therefore, developing DR classification methods robust to unseen distributions is of great value. In this paper, we study the problem of generalizing a model to unseen distributions or domains (a.k.a domain generalization) in DR classification. To this end, we propose a simple and effective domain generalization (DG) approach that achieves self-distillation in vision transformers (ViT) via a novel prediction softening mechanism. This prediction softening is an adaptive convex combination one-hot labels with the model's own knowledge. We perform extensive experiments on challenging open-source DR classification datasets under both multi-source and single-source DG settings with three different ViT backbones to establish the efficacy and applicability of our approach against competing methods. For the first time, we report the performance of several state-of-the-art DG methods on open-source DR classification datasets after conducting thorough experiments. Finally, our method is also capable of delivering improved calibration performance than other methods, showing its suitability for safety-critical applications, including healthcare. We hope that our contributions would investigate more DG research across the medical imaging community.
翻訳日:2023-10-30 10:38:03 公開日:2023-10-27
# ヒルベルト空間固有プロブレムによって生成される仮定公式

Summation formulas generated by Hilbert space eigenproblem ( http://arxiv.org/abs/2310.17210v2 )

ライセンス: Link先を確認
Petar Mali, Sonja Gombar, Slobodan Rado\v{s}evi\' c, Milica Rutonjski, Milan Panti\' c, Milica Pavkov-Hrvojevi\' c(参考訳) 一般化超幾何関数を含むschl\" omilch的無限級数と級数のあるクラスは、無限ポテンシャル井戸内に閉じ込められた粒子の単純な量子モデルと量子力学の原理から、閉じた形で計算できることを実証する。 我々は、ヒルベルト空間の固有プロブレムに基づく一般的なフレームワークを提供し、異なる正確な可解量子モデルに適用することができる。 明確に定義された量子問題における正規化条件から級数を取得することは、それらの収束を保証する。

We demonstrate that certain classes of Schl\" omilch-like infinite series and series that include generalized hypergeometric functions can be calculated in closed form starting from a simple quantum model of a particle trapped inside an infinite potential well and using principles of quantum mechanics. We provide a general framework based on the Hilbert space eigenproblem that can be applied to different exactly solvable quantum models. Obtaining series from normalization conditions in well-defined quantum problems secures their convergence.
翻訳日:2023-10-30 10:37:40 公開日:2023-10-27
# Core Challenge 2023:ソルバーとグラフ記述

Core Challenge 2023: Solver and Graph Descriptions ( http://arxiv.org/abs/2310.17136v2 )

ライセンス: Link先を確認
Takehide Soh, Tomoya Tanjo, Yoshio Okamoto, Takehiro Ito(参考訳) 本稿では,CoRe Challenge 2023に提出された解法とISRインスタンスのすべての記述をまとめた。

This paper collects all descriptions of solvers and ISR instances submitted to CoRe Challenge 2023.
翻訳日:2023-10-30 10:37:28 公開日:2023-10-27
# 半教師付き物体検出手法によるフェデレーション学習におけるデータ不均一性の探索

Navigating Data Heterogeneity in Federated Learning A Semi-Supervised Approach for Object Detection ( http://arxiv.org/abs/2310.17097v2 )

ライセンス: Link先を確認
Taehyeon Kim, Eric Lin, Junu Lee, Christian Lau, Vaikkunth Mugunthan(参考訳) フェデレートラーニング(FL)は、データプライバシを維持しながら、分散データソース間でモデルをトレーニングするための強力なフレームワークとして登場した。 それでも、特に自動運転のようなアプリケーションでは、限られた高品質ラベルと非iidクライアントデータで問題に直面している。 これらのハードルに対処するため、セミスーパーバイズド・フェデレート・オブジェクト検出(SSFOD)の未処理海域を航行する。 我々は,ラベル付きデータがサーバにのみ存在し,クライアントがラベル付きデータを所有するシナリオを想定した,先駆的なssfodフレームワークを提案する。 特に,0%のラベル付き非iidデータを持つクライアントに対するssfodの初回実装は,各クライアントでラベルのサブセットを保持する従来の研究とは対照的である。 我々は,サーバとクライアント間のデータシフト(天気条件など)を効果的に解決するために,選択学習とオルソゴン的に拡張されたフルパラメータトレーニングの2段階戦略であるFedSTOを提案する。 我々の貢献には、過剰フィッティングを回避するために検出器のバックボーンを選択的に精錬すること、表現の発散を促進するための直交性正規化、高品質の擬似ラベルを得るための局所ema駆動の擬似ラベル割り当てが含まれる。 顕著な自律運転データセット(BDD100K,Cityscapes,SODA10M)に対する広範な検証は、我々のアプローチの有効性を証明し、最先端の結果を示す。 注目すべきなのは、ラベルの20~30%しか使用していないFedSTOは、完全に管理された集中的なトレーニング方法と同様に、ほぼ同じように機能することです。

Federated Learning (FL) has emerged as a potent framework for training models across distributed data sources while maintaining data privacy. Nevertheless, it faces challenges with limited high-quality labels and non-IID client data, particularly in applications like autonomous driving. To address these hurdles, we navigate the uncharted waters of Semi-Supervised Federated Object Detection (SSFOD). We present a pioneering SSFOD framework, designed for scenarios where labeled data reside only at the server while clients possess unlabeled data. Notably, our method represents the inaugural implementation of SSFOD for clients with 0% labeled non-IID data, a stark contrast to previous studies that maintain some subset of labels at each client. We propose FedSTO, a two-stage strategy encompassing Selective Training followed by Orthogonally enhanced full-parameter training, to effectively address data shift (e.g. weather conditions) between server and clients. Our contributions include selectively refining the backbone of the detector to avert overfitting, orthogonality regularization to boost representation divergence, and local EMA-driven pseudo label assignment to yield high-quality pseudo labels. Extensive validation on prominent autonomous driving datasets (BDD100K, Cityscapes, and SODA10M) attests to the efficacy of our approach, demonstrating state-of-the-art results. Remarkably, FedSTO, using just 20-30% of labels, performs nearly as well as fully-supervised centralized training methods.
翻訳日:2023-10-30 10:37:25 公開日:2023-10-27