このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231113となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ドメインフロンティングに影響を及ぼすCDNの測定
Measuring CDNs susceptible to Domain Fronting ( http://arxiv.org/abs/2310.17851v3 ) ライセンス: Link先を確認 | Karthika Subramani, Roberto Perdisci, Pierros Skafidas, | (参考訳) ドメインフロンディング(Domain Fronting)とは、CDN(Content Delivery Network)を利用して、ネットワークパケットの最終的な宛先を、実際のエンドポイントと異なるドメインを意図したかのように見せかける、ネットワーク通信技術である。
この技術は、検閲を回避したり、ネットワークセキュリティシステムからマルウェア関連の通信を隠すといった、良心的および悪意的な目的に使用できる。
ドメインのフロンディングは数年前から知られていたため、いくつかの人気のあるCDNプロバイダは、CDNインフラストラクチャでの使用を抑制するためにトラフィックフィルタリングアプローチを実装している。
しかし、どの程度ドメインのフロンティアが緩和されたかは定かではない。
ドメインフロンティングが依然として有効であるかどうかをよりよく理解するために、ドメインフロンディングの傾向にあるCDNを見つけるための体系的なアプローチを提案する。
この目的のために、パッシブかつアクティブなDNSトラフィック分析を活用して、CDNによって提供されるドメイン名をピンポイントし、インフラストラクチャ内でドメインのフロンティングを可能にするCDNを見つけるために使用できる自動化ツールを構築する。
その結果、AkamaiやFastlyといった主要なCDNプロバイダを含む30のCDNのうち、22のドメインフロントが実現可能であることが判明した。
これは、ドメインフロントが広く利用可能であり、悪意のある目的のために簡単に悪用できることを示している。
Domain fronting is a network communication technique that involves leveraging (or abusing) content delivery networks (CDNs) to disguise the final destination of network packets by presenting them as if they were intended for a different domain than their actual endpoint. This technique can be used for both benign and malicious purposes, such as circumventing censorship or hiding malware-related communications from network security systems. Since domain fronting has been known for a few years, some popular CDN providers have implemented traffic filtering approaches to curb its use at their CDN infrastructure. However, it remains unclear to what extent domain fronting has been mitigated. To better understand whether domain fronting can still be effectively used, we propose a systematic approach to discover CDNs that are still prone to domain fronting. To this end, we leverage passive and active DNS traffic analysis to pinpoint domain names served by CDNs and build an automated tool that can be used to discover CDNs that allow domain fronting in their infrastructure. Our results reveal that domain fronting is feasible in 22 out of 30 CDNs that we tested, including some major CDN providers like Akamai and Fastly. This indicates that domain fronting remains widely available and can be easily abused for malicious purposes. | 翻訳日:2024-03-19 01:44:24 公開日:2023-11-13 |
# データセンターにおける大規模エンクレーブの管理
Managing Large Enclaves in a Data Center ( http://arxiv.org/abs/2311.06991v1 ) ライセンス: Link先を確認 | Sandeep Kumar, Smruti R. Sarangi, | (参考訳) アプリケーションやVMのライブマイグレーションは、ロードバランシング、パフォーマンス最適化、リソース管理においてよく知られているテクニックだ。
移行中の総ダウンタイムを最小限にするために、実際には2つの一般的なメソッド(プレコピーまたはポストコピー)が使用されている。
これらのメソッドは、ダウンタイムがアプリケーションのメモリフットプリントに依存しないため、大きなVMやアプリケーションにスケールする。
しかし、IntelのスケーラブルなSGXのようなセキュアで信頼性の高い実行環境(TEE)では、最先端技術は10年前のストップ・アンド・コピー方式を使用しており、総ダウンタイムはアプリケーションのメモリフットプリントに比例する。
これは主に、Intel SGXのようなTEEが、安全でないアプリケーションとは異なり、メモリとページテーブルへのアクセスを公開していないためである。
しかし、IntelのScalable SGXやAMDのEpycのような大規模アプリケーションを効率的にサポートする最新のTEEソリューションでは、TEEマイグレーションメソッドも進化して、ダウンタイムを最小限にした大規模なTEEアプリケーションのライブマイグレーションを可能にする(ストップアンドコピーはもはや使用できない)。
私たちは、TEE対応アプリケーションで大規模なメモリフットプリントをライブ移行するためのエンドツーエンドソリューションであるOpsMigを紹介します。
当社のアプローチでは、開発者がアプリケーションを変更する必要はないが、短時間で独立したコンパイルパスと特別なソフトウェアライブラリのサポートが必要である。
最適化により、20GBのセキュアメモリを使用する代表マイクロベンチマークの総ダウンタイムを98%削減し、マルチGBメモリフットプリントを備えたIntel SGXアプリケーションスイートの90-96%削減しました。
Live migration of an application or VM is a well-known technique for load balancing, performance optimization, and resource management. To minimize the total downtime during migration, two popular methods -- pre-copy or post-copy -- are used in practice. These methods scale to large VMs and applications since the downtime is independent of the memory footprint of an application. However, in a secure, trusted execution environment (TEE) like Intel's scalable SGX, the state-of-the-art still uses the decade-old stop-and-copy method, where the total downtime is proportional to the application's memory footprint. This is primarily due to the fact that TEEs like Intel SGX do not expose memory and page table accesses to the OS, quite unlike unsecure applications. However, with modern TEE solutions that efficiently support large applications, such as Intel's Scalable SGX and AMD's Epyc, it is high time that TEE migration methods also evolve to enable live migration of large TEE applications with minimal downtime (stop-and-copy cannot be used any more). We present OptMig, an end-to-end solution for live migrating large memory footprints in TEE-enabled applications. Our approach does not require a developer to modify the application; however, we need a short, separate compilation pass and specialized software library support. Our optimizations reduce the total downtime by 98% for a representative microbenchmark that uses 20GB of secure memory and by 90 -- 96% for a suite of Intel SGX applications that have multi-GB memory footprints. | 翻訳日:2024-03-18 23:32:03 公開日:2023-11-13 |
# プライバシ・ピラー - 基礎モデルに基づくシステムの概念的フレームワーク
The Privacy Pillar -- A Conceptual Framework for Foundation Model-based Systems ( http://arxiv.org/abs/2311.06998v1 ) ライセンス: Link先を確認 | Tingting Bi, Guangsheng Yu, Qinghua Lu, Xiwei Xu, Nick Van Beest, | (参考訳) AIとその関連技術(機械学習、ディープラーニング、チャットボット、バーチャルアシスタントなど)は、現在、企業内における開発プロセスと組織プロセスの大幅な変革を進めている。
ファンデーションモデルは、大きな課題と素晴らしい機会の両方を示します。
この文脈では、基礎モデルに基づくシステムの品質特性を保証することが最重要であり、特にデータと関連する情報の機密性に起因するプライバシーの問題に焦点を当てている。
しかし、現在、プライバシー評価プロセスが包含すべき技術的問題と非技術的問題の両方の包括的範囲について合意が得られていない。
さらに、これらのプライバシーの懸念に効果的に対処するのにどの方法が最適かは不確実である。
この課題に対応するために,我々は,プライバシ保護を念頭に,複数の視点からさまざまな責任あるAIパターンを統合する,新しい概念的枠組みを提案する。
AI and its relevant technologies, including machine learning, deep learning, chatbots, virtual assistants, and others, are currently undergoing a profound transformation of development and organizational processes within companies. Foundation models present both significant challenges and incredible opportunities. In this context, ensuring the quality attributes of foundation model-based systems is of paramount importance, and with a particular focus on the challenging issue of privacy due to the sensitive nature of the data and information involved. However, there is currently a lack of consensus regarding the comprehensive scope of both technical and non-technical issues that the privacy evaluation process should encompass. Additionally, there is uncertainty about which existing methods are best suited to effectively address these privacy concerns. In response to this challenge, this paper introduces a novel conceptual framework that integrates various responsible AI patterns from multiple perspectives, with the specific aim of safeguarding privacy. | 翻訳日:2024-03-18 23:32:03 公開日:2023-11-13 |
# NAC-ABEによるmHealthアプリケーションへのアクセス制御の強化
Enhancing NAC-ABE to Support Access Control for mHealth Applications and Beyond ( http://arxiv.org/abs/2311.07299v1 ) ライセンス: Link先を確認 | Saurab Dulal, Tianyuan Yu, Siqi Liu, Adam Robert Thieme, Lixia Zhang, Lan Wang, | (参考訳) NDN上の名前ベースのアクセス制御(NAC)は、データ生成時にデータを暗号化して署名することで、きめ細かなデータ機密性とアクセス制御を提供する。
NACは特別に制定された命名規則を利用してアクセス制御ポリシーを定義し、強制する。
NAC-ABEはNACの拡張で、属性ベースの暗号化(ABE)スキームを使用して、スケーラビリティと柔軟性を改善したアクセス制御をサポートする。
しかし、既存のNAC-ABEライブラリは、データパケットを暗号化する際にアクセスポリシーの知識を必要とする暗号文ポリシーAABE(CP-ABE)に基づいている。
mHealthを含むいくつかのアプリケーションでは、データ属性とプロパティが知られているが、データアクセスポリシーはデータ生成時に未知である。
本稿では,既存のNDN-ABEライブラリを拡張し,mHealthなどのアプリケーションでデータ共有における粒度制御を実現する。
また、アプリケーションデプロイメント中に遭遇した課題についても議論し、潜在的なソリューションの方向性とともにオープンな問題を維持します。
Name-based access control (NAC) over NDN provides fine-grained data confidentiality and access control by encrypting and signing data at the time of data production. NAC utilizes specially crafted naming conventions to define and enforce access control policies. NAC-ABE, an extension to NAC, uses an attribute-based encryption (ABE) scheme to support access control with improved scalability and flexibility. However, existing NAC-ABE libraries are based on ciphertext-policy ABE (CP-ABE), which requires knowledge of the access policy when encrypting data packets. In some applications, including mHealth, the data access policy is unknown at the time of data generation, while data attributes and properties are known. In this paper, we present an extension to the existing NDN-ABE library which can be used by mHealth and other applications to enforce fine-granularity access control in data sharing. We also discuss the challenges we encountered during the application deployment, and remaining open issues together with potential solution directions. | 翻訳日:2024-03-18 23:32:03 公開日:2023-11-13 |
# 微分プライベート近似パターンマッチング
Differentially Private Approximate Pattern Matching ( http://arxiv.org/abs/2311.07415v1 ) ライセンス: Link先を確認 | Teresa Anna Steiner, | (参考訳) 本稿では、差分プライバシー下での$k$-approximateパターンマッチング問題について考察する。ここでは、与えられた文字列のすべてのサブストリングを報告またはカウントすることを目的としており、最大で$k$のハミング距離を持つ$S$をパターン$P$に設定するか、そのようなサブストリングが存在するかどうかを決定する。
プライバシの定義では、文字列$S$の個々の位置が保護されます。
差分プライバシーの下でクエリに答えられるためには、$k$のスラック、すなわち、最大$(1+\gamma)k+\alpha$から$P$までのレポートやサブストリングを、乗算誤差$\gamma$と加算エラー$\alpha$に対して許可する。
我々は、$\epsilon$-differential privacyを満足しながら、$k$-approximateパターンマッチング問題を解決するのに、$\alpha$と$\gamma$の値が必要なのか、あるいは十分なのかを分析する。
$n$は$S$の長さを表す。
我々は与える
1)$\epsilon$-differentially private algorithm with an additive error of $O(\epsilon^{-1}\log n)$ and no multiplicative error for the existence variant。
2)$\epsilon$-differentially private algorithm with an additive error $O(\epsilon^{-1}\max(k,\log n)\cdot\log n)$ for the counting variant;
3)$\epsilon$-differentially private algorithm with an additive error of $O(\epsilon^{-1}\log n)$ and multiplicative error $O(1)$ for the reporting variant for a special class of pattern。
誤差境界は高い確率で保持される。
これら全てのアルゴリズムが証人を返す、すなわち、距離が最大$k$から$P$の$S$のサブストリングが存在するなら、アルゴリズムは距離が最大$(1+\gamma)k+\alpha$の$S$のサブストリングを最大$P$に返す。
さらに、これらの結果を下界で補い、証人を返す存在変種に対する任意のアルゴリズムは、一定の確率で$\Omega(\epsilon^{-1}\log n)$の加法誤差を持つ必要があることを示す。
In this paper, we consider the $k$-approximate pattern matching problem under differential privacy, where the goal is to report or count all substrings of a given string $S$ which have a Hamming distance at most $k$ to a pattern $P$, or decide whether such a substring exists. In our definition of privacy, individual positions of the string $S$ are protected. To be able to answer queries under differential privacy, we allow some slack on $k$, i.e. we allow reporting or counting substrings of $S$ with a distance at most $(1+\gamma)k+\alpha$ to $P$, for a multiplicative error $\gamma$ and an additive error $\alpha$. We analyze which values of $\alpha$ and $\gamma$ are necessary or sufficient to solve the $k$-approximate pattern matching problem while satisfying $\epsilon$-differential privacy. Let $n$ denote the length of $S$. We give 1) an $\epsilon$-differentially private algorithm with an additive error of $O(\epsilon^{-1}\log n)$ and no multiplicative error for the existence variant; 2) an $\epsilon$-differentially private algorithm with an additive error $O(\epsilon^{-1}\max(k,\log n)\cdot\log n)$ for the counting variant; 3) an $\epsilon$-differentially private algorithm with an additive error of $O(\epsilon^{-1}\log n)$ and multiplicative error $O(1)$ for the reporting variant for a special class of patterns. The error bounds hold with high probability. All of these algorithms return a witness, that is, if there exists a substring of $S$ with distance at most $k$ to $P$, then the algorithm returns a substring of $S$ with distance at most $(1+\gamma)k+\alpha$ to $P$. Further, we complement these results by a lower bound, showing that any algorithm for the existence variant which also returns a witness must have an additive error of $\Omega(\epsilon^{-1}\log n)$ with constant probability. | 翻訳日:2024-03-18 23:22:19 公開日:2023-11-13 |
# 不均衡データセットを用いたフェデレーション学習によるランサムウェア検出
Ransomware Detection Using Federated Learning with Imbalanced Datasets ( http://arxiv.org/abs/2311.07760v1 ) ライセンス: Link先を確認 | Aldin Vehabovic, Hadi Zanddizari, Nasir Ghani, G. Javidi, S. Uluagac, M. Rahouti, E. Bou-Harb, M. Safaei Pour, | (参考訳) ランサムウェア(英: Ransomware)は、ユーザーデータを暗号化し、復号鍵の代償として支払いをゆがめるマルウェアの一種である。
このサイバー脅威は、現在組織が直面している最も深刻な課題の1つであり、すでに巨額の経済的損害をもたらしている。
その結果、多くの研究者がランサムウェアに対抗する技術を開発してきた。
近年,フェデレーテッド・ラーニング(FL)アプローチはランサムウェア分析にも適用されており,企業がプライベートデータを共有することなく,スケーラブルで効果的な検出と帰属を実現できるようになっている。
しかし、実際には複数のFLクライアントサイト/リージョンで収集されたランサムウェアデータの量と構成に多くのバリエーションがある。
この不均衡は、防御機構の有効性を必然的に低下させる。
この問題に対処するために、データセットの不均衡を軽減するために、重み付きクロスエントロピー損失関数アプローチを用いて修正FLスキームを提案する。
次に、最新の Windows ベースのランサムウェアファミリを用いた静的解析のケースについて、詳細な性能評価研究を行う。
その結果,高度に不均衡なデータセットに対するML分類器の性能が向上していることが確認された。
Ransomware is a type of malware which encrypts user data and extorts payments in return for the decryption keys. This cyberthreat is one of the most serious challenges facing organizations today and has already caused immense financial damage. As a result, many researchers have been developing techniques to counter ransomware. Recently, the federated learning (FL) approach has also been applied for ransomware analysis, allowing corporations to achieve scalable, effective detection and attribution without having to share their private data. However, in reality there is much variation in the quantity and composition of ransomware data collected across multiple FL client sites/regions. This imbalance will inevitably degrade the effectiveness of any defense mechanisms. To address this concern, a modified FL scheme is proposed using a weighted cross-entropy loss function approach to mitigate dataset imbalance. A detailed performance evaluation study is then presented for the case of static analysis using the latest Windows-based ransomware families. The findings confirm improved ML classifier performance for a highly imbalanced dataset. | 翻訳日:2024-03-18 23:22:19 公開日:2023-11-13 |
# 定量的MRIにおけるパラメータ推定のための非バイアスニューラルネットワーク Unbiased Neural Networks for Parameter Estimation in Quantitative MRI ( http://arxiv.org/abs/2312.11468v1 ) ライセンス: Link先を確認 | Andrew Mao, Sebastian Flassbeck, Jakob Assl\"ander | (参考訳) 目的: ニューラルネットワーク(NN)に基づく定量的MRIパラメータ推定器の開発において, 最小バイアスと理論最小値に近いばらつきを有する。
理論と方法:我々は、トレーニング中にnnの見積もりのバイアスを明示的にペナルティし、同じ測定値の複数のノイズ実現を平均化する。
得られたNNのバイアスと分散特性を2つの定量的神経イメージング応用のために研究した。
結果: シミュレーションにおいて,提案手法はパラメータ空間全体の推定バイアスを低減し,Cram\'er-Rao境界に近い分散を実現する。
In vivoでは,提案したNNから推定したパラメータマップと,非線形最小二乗フィッティングなどの従来の推定値との一致が良好であるのに対し,最先端のNNは偏差が大きい。
結論: 提案手法で訓練されたnnは, ほぼ最小分散非偏差推定器であり, 従来の推定器と比較して, 同等あるいは優れた精度で計算効率が向上する。 Purpose: To develop neural-network (NN)-based quantitative MRI parameter estimators with minimal bias and a variance close to the theoretical minimum, the Cram\'er-Rao bound. Theory and Methods: We explicitly penalize the bias of the NN's estimates during training, which involves averaging over multiple noise realizations of the same measurements. Bias and variance properties of the resulting NNs are studied for two quantitative neuroimaging applications. Results: In simulation, the proposed strategy reduces the estimates' bias throughout parameter space and achieves a variance close to the Cram\'er-Rao bound. In vivo, we observe good concordance between parameter maps estimated with the proposed NNs and traditional estimators, such as non-linear least-squares fitting, while state-of-the-art NNs show larger deviations. Conclusion: NNs trained with the proposed strategy are approximately minimum variance unbiased estimators and offer significantly improved computational efficiency over traditional estimators with comparable or better accuracy. | 翻訳日:2024-01-15 13:35:34 公開日:2023-11-13 |
# 脳にインスパイアされたスパイクニューラルネットワークによる産業的障害診断--調査,課題,機会 Brain-Inspired Spiking Neural Networks for Industrial Fault Diagnosis: A Survey, Challenges, and Opportunities ( http://arxiv.org/abs/2401.02429v1 ) ライセンス: Link先を確認 | Huan Wang, Yan-Fu Li, and Konstantinos Gryllias | (参考訳) 近年、産業故障診断(ifd)は、産業機器の健康状態に関する重要な情報の検出と収集に関する重要な分野として登場し、故障の種類や問題点の特定が容易になっている。
高精度かつ効果的な断層認識の追求は、安全事故の防止と人的労働への依存を減らすための機器監視の自動化に重点を置いている。
人工知能ニューラルネットワーク(ANN)の出現は、特にビッグデータの文脈において、インテリジェントIFDアルゴリズムの強化に役立っている。
これらの進歩にもかかわらず、ANNは単純化されたバイオミメティックニューラルネットワークモデルであり、リソースやデータ依存や制限された認知能力といった固有の制限を示す。
これらの制限に対処するため、Brainにインスパイアされたコンピューティングの原則に基づく第3世代のスパイクニューラルネットワーク(SNN)が、有望な代替手段として浮上した。
SNNは、その生物学的ニューロンのダイナミクスとスパイク情報符号化によって特徴づけられ、時空間の特徴を表現するのに例外的なポテンシャルを示す。
その結果,SNNベースのIFDモデルの開発が勢いを増し,性能向上が図られた。
しかし、この分野は現在の状況、課題、今後の方向性を説明する体系的な調査を欠いている。
そこで本研究では,SNNモデルの理論的進歩を体系的に検証し,SNNとは何かという疑問に答える。
その後、既存のSNNベースのIFDモデルをレビューし分析し、なぜSNNを使う必要があるのか、どのように使う必要があるのかを説明する。
さらに,本論文は,IFDにおけるSNNの課題,解決,機会を体系的に解決する。 In recent decades, Industrial Fault Diagnosis (IFD) has emerged as a crucial discipline concerned with detecting and gathering vital information about industrial equipment's health condition, thereby facilitating the identification of failure types and severities. The pursuit of precise and effective fault recognition has garnered substantial attention, culminating in a focus on automating equipment monitoring to preclude safety accidents and reduce reliance on human labor. The advent of artificial neural networks (ANNs) has been instrumental in augmenting intelligent IFD algorithms, particularly in the context of big data. Despite these advancements, ANNs, being a simplified biomimetic neural network model, exhibit inherent limitations such as resource and data dependencies and restricted cognitive capabilities. To address these limitations, the third-generation Spiking Neural Network (SNN), founded on principles of Brain-inspired computing, has surfaced as a promising alternative. The SNN, characterized by its biological neuron dynamics and spiking information encoding, demonstrates exceptional potential in representing spatiotemporal features. Consequently, developing SNN-based IFD models has gained momentum, displaying encouraging performance. Nevertheless, this field lacks systematic surveys to illustrate the current situation, challenges, and future directions. Therefore, this paper systematically reviews the theoretical progress of SNN-based models to answer the question of what SNN is. Subsequently, it reviews and analyzes existing SNN-based IFD models to explain why SNN needs to be used and how to use it. More importantly, this paper systematically answers the challenges, solutions, and opportunities of SNN in IFD. | 翻訳日:2024-01-15 10:00:32 公開日:2023-11-13 |
# ImageNetによるモデルエラーの自動分類 Automated Classification of Model Errors on ImageNet ( http://arxiv.org/abs/2401.02430v1 ) ライセンス: Link先を確認 | Momchil Peychev, Mark Niklas M\"uller, Marc Fischer, Martin Vechev | (参考訳) ImageNetデータセットは過去10年間コンピュータビジョンの研究を推進してきたが、重要なラベルのノイズと曖昧さにより、トップ1の精度はさらなる進歩の不十分な指標となった。
これを解決するために、ImageNetに新しいラベルセットと評価プロトコルが提案されており、現状のモデルは95%以上の精度を実現しており、残りのエラーが持続する理由に焦点を移している。
この方向の最近の研究では、2つの選択されたモデルの残りの分類エラーを手動で分類する専門家パネルが採用されている。
しかし、このプロセスは時間がかかり、矛盾しやすいため、訓練された専門家を必要とするため、通常のモデル評価には適さないため、実用性が制限される。
これらの制約を克服するために,モデル選択がエラー分布に与える影響を研究する上で有用な,最初の自動エラー分類フレームワークを提案する。
900以上のモデルのエラー分布を網羅的に評価するために,我々のフレームワークを利用する。
おそらく驚くことに、モデルアーキテクチャ、スケール、および事前トレーニングコーパスにおいて、top-1精度はすべてのエラータイプにおいて強力な予測要因である。
特に、重大エラーの一部は、モデルの性能を過小評価しているにもかかわらず、重要なパフォーマンス指標であることを示すトップ1の精度で大幅に低下する。
私たちはすべてのコードをhttps://github.com/eth-sri/automated-error- analysisでリリースします。 While the ImageNet dataset has been driving computer vision research over the past decade, significant label noise and ambiguity have made top-1 accuracy an insufficient measure of further progress. To address this, new label-sets and evaluation protocols have been proposed for ImageNet showing that state-of-the-art models already achieve over 95% accuracy and shifting the focus on investigating why the remaining errors persist. Recent work in this direction employed a panel of experts to manually categorize all remaining classification errors for two selected models. However, this process is time-consuming, prone to inconsistencies, and requires trained experts, making it unsuitable for regular model evaluation thus limiting its utility. To overcome these limitations, we propose the first automated error classification framework, a valuable tool to study how modeling choices affect error distributions. We use our framework to comprehensively evaluate the error distribution of over 900 models. Perhaps surprisingly, we find that across model architectures, scales, and pre-training corpora, top-1 accuracy is a strong predictor for the portion of all error types. In particular, we observe that the portion of severe errors drops significantly with top-1 accuracy indicating that, while it underreports a model's true performance, it remains a valuable performance metric. We release all our code at https://github.com/eth-sri/automated-error-analysis . | 翻訳日:2024-01-15 09:41:59 公開日:2023-11-13 |
# LLMはセキュリティ問題に対処できるか? Can LLMs Patch Security Issues? ( http://arxiv.org/abs/2312.00024v1 ) ライセンス: Link先を確認 | Kamel Alrashedy, Abdullah Aljasser | (参考訳) 大規模言語モデル(llm)はコード生成に優れた能力を示している。
それでも、人間開発者と同様に、これらのモデルはセキュリティの脆弱性や欠陥を含むコードを生成する可能性がある。
セキュアなコードを書くことは依然として大きな課題であり、プログラムと外部システムやデータベースやオペレーティングシステムなどのサービスとのインタラクション中に脆弱性が発生することが多い。
本稿では,静的コード解析ツールであるBanditからフィードバックを受け取り,LLMがセキュリティ上の脆弱性を解決するための潜在的ソリューションを生成することを目的とした,フィードバック駆動型ソリューション合成(FDSS)という新しいアプローチを提案する。
脆弱性のあるコードとともに各ソリューションは、コードリファインメントのためにLLMに返される。
我々のアプローチは、ベースラインよりも大きな改善を示し、既存のアプローチよりも優れています。
さらに,stack overflow上の実世界のシナリオから収集した新しいデータセット pythonsecurityeval を導入して,セキュアなコードを生成する llms の能力を評価する。
コードとデータは \url{https://github.com/kamel773/llm-code-refine} で利用可能である。 Large Language Models (LLMs) have shown impressive proficiency in code generation. Nonetheless, similar to human developers, these models might generate code that contains security vulnerabilities and flaws. Writing secure code remains a substantial challenge, as vulnerabilities often arise during interactions between programs and external systems or services, such as databases and operating systems. In this paper, we propose a novel approach, Feedback-Driven Solution Synthesis (FDSS), designed to explore the use of LLMs in receiving feedback from Bandit, which is a static code analysis tool, and then the LLMs generate potential solutions to resolve security vulnerabilities. Each solution, along with the vulnerable code, is then sent back to the LLM for code refinement. Our approach shows a significant improvement over the baseline and outperforms existing approaches. Furthermore, we introduce a new dataset, PythonSecurityEval, collected from real-world scenarios on Stack Overflow to evaluate the LLMs' ability to generate secure code. Code and data are available at \url{https://github.com/Kamel773/LLM-code-refine} | 翻訳日:2023-12-11 04:04:29 公開日:2023-11-13 |
# Diff-GO:超高スペクトル効率を実現する拡散目標指向通信 Diff-GO: Diffusion Goal-Oriented Communications to Achieve Ultra-High Spectrum Efficiency ( http://arxiv.org/abs/2312.02984v1 ) ライセンス: Link先を確認 | Achintha Wijesinghe, Songyang Zhang, Suchinthaka Wanninayaka, Weiwei Wang, Zhi Ding | (参考訳) 人工知能(AI)の最近の進歩は、通信における帯域節約を大幅に改善する多くの前例のない機会をもたらす。
パケット転送に焦点を当てた従来の通信システムとは異なり、リッチデータセットとaiは、メッセージ受信者の目標に最も重要な情報のみを効率的に転送できるようにする。
拡散モデルとして知られる生成AIの最もエキサイティングな進歩の1つは、言語ベースのメッセージを超えて超高速通信システムを設計するユニークな機会を提供する。
汎用的な目標指向通信フレームワークの具体例として,拡散モデルに基づく生成AIを用いた超効率的な通信設計を提案する。
受信機出力における再生メッセージの制御を改善するため, 拡散系設計では, 有限次元雑音潜時を有する局所再生モジュールを備える。
Diff-GOにおけるノイズ潜時制御と共有の重要さは、「局所的生成フィードバック(Local-GF)」の概念を導入し、送信機がセマンティック・システム・レシーバーにおけるメッセージ回復の質や正確さを計測できるようにすることである。
そこで本研究では,拡散モデルの訓練のための新しい低次元ノイズ空間を提案し,通信オーバーヘッドを大幅に低減し,良好なメッセージ回復性能を実現する。
実験結果から,提案したノイズ空間と拡散モデルにより,伝送画像信号の超高スペクトル効率と精度の回復が得られた。
帯域幅効率(c4be)の計算をトレードオフすることで、この新しいフレームワークは、特別な計算帯域幅トレードオフを達成するための重要な手段となる。 The latest advances in artificial intelligence (AI) present many unprecedented opportunities to achieve much improved bandwidth saving in communications. Unlike conventional communication systems focusing on packet transport, rich datasets and AI makes it possible to efficiently transfer only the information most critical to the goals of message recipients. One of the most exciting advances in generative AI known as diffusion model presents a unique opportunity for designing ultra-fast communication systems well beyond language-based messages. This work presents an ultra-efficient communication design by utilizing generative AI-based on diffusion models as a specific example of the general goal-oriented communication framework. To better control the regenerated message at the receiver output, our diffusion system design includes a local regeneration module with finite dimensional noise latent. The critical significance of noise latent control and sharing residing on our Diff-GO is the ability to introduce the concept of "local generative feedback" (Local-GF), which enables the transmitter to monitor the quality and gauge the quality or accuracy of the message recovery at the semantic system receiver. To this end, we propose a new low-dimensional noise space for the training of diffusion models, which significantly reduces the communication overhead and achieves satisfactory message recovery performance. Our experimental results demonstrate that the proposed noise space and the diffusion-based generative model achieve ultra-high spectrum efficiency and accurate recovery of transmitted image signals. By trading off computation for bandwidth efficiency (C4BE), this new framework provides an important avenue to achieve exceptional computation-bandwidth tradeoff. | 翻訳日:2023-12-11 03:18:28 公開日:2023-11-13 |
# 知識追跡課題 : 学生のための最適活動シークエンシング Knowledge Tracing Challenge: Optimal Activity Sequencing for Students ( http://arxiv.org/abs/2311.14707v1 ) ライセンス: Link先を確認 | Yann Hicke | (参考訳) 知識追跡(きゅうがく、英: Knowledge Trace)は、個々の学習者による知識の獲得を評価・追跡する教育において用いられる手法である。
それは、学習者が特定の主題について何を知り、何を知らないかを決定するために、クイズ、テスト、その他の形態の評価などの様々なテクニックを使用する。
知識追跡の目的は、学習者が教材の理解と保持を改善するために、理解のギャップを特定し、目標とする指導を提供することである。
これは、オンライン学習環境など、学習者が自身のペースで作業している状況において特に有用である。
個別のニーズに基づいて定期的にフィードバックを提供し、指示を調整することで、知識追跡は学習者がより効率的に進歩し、より良い結果を得るのに役立つ。
KT問題を効果的に解決すれば、知的学習システム、カリキュラム学習、学習教材推薦といったコンピュータ支援の教育応用の可能性が解ける。
本稿では,AAAI2023 Global Knowledge Tracing Challengeの一環として,新たにリリースされたデータセット上に2つの知識追跡アルゴリズムの実装結果を示す。 Knowledge tracing is a method used in education to assess and track the acquisition of knowledge by individual learners. It involves using a variety of techniques, such as quizzes, tests, and other forms of assessment, to determine what a learner knows and does not know about a particular subject. The goal of knowledge tracing is to identify gaps in understanding and provide targeted instruction to help learners improve their understanding and retention of material. This can be particularly useful in situations where learners are working at their own pace, such as in online learning environments. By providing regular feedback and adjusting instruction based on individual needs, knowledge tracing can help learners make more efficient progress and achieve better outcomes. Effectively solving the KT problem would unlock the potential of computer-aided education applications such as intelligent tutoring systems, curriculum learning, and learning materials recommendations. In this paper, we will present the results of the implementation of two Knowledge Tracing algorithms on a newly released dataset as part of the AAAI2023 Global Knowledge Tracing Challenge. | 翻訳日:2023-12-03 13:55:34 公開日:2023-11-13 |
# 認知機構を定義し、モデル化し、分析する枠組み A Framework of Defining, Modeling, and Analyzing Cognition Mechanisms ( http://arxiv.org/abs/2311.10104v1 ) ライセンス: Link先を確認 | Amir Fayezioghani | (参考訳) 認知は心の哲学、心理学、神経科学、ai、認知科学の中心的な部分であり、一般的な話題である。
メカニスティックレンズを用いて,認知メカニズムを定義し,モデル化し,分析する枠組みを提案する。
まず、適切な用語がフレームワークに関する説明やメカニズムの定義の中で導入され、使用される。
この用語は基本的に議論に必要な概念世界を特徴付けるものだと暗黙的に主張する。
次に,有向グラフに基づく機構の数学的モデルを提案する。
第3に、認知メカニズムとして分類されるメカニズムに必要な基盤の定義を提案する。
認知基盤は人間の認知自己の特徴を持っていると私は主張する。
第4に,メカニズムを機械的に見ていく3つの方法が定義され,その具体例が提案されている。
第5に、メカニズムの可視化と提示のための標準、認知メカニズム、そしてそれを機械的に見るインスタンスを提案し、適切な例を通して認知メカニズムを分析する。
最後に,本論文の特徴について論じ,提案フレームワークのさらなる発展の可能性について概説する。 Cognition is a core part of and a common topic among philosophy of mind, psychology, neuroscience, AI, and cognitive science. Through a mechanistic lens, I propose a framework of defining, modeling, and analyzing cognition mechanisms. Firstly, appropriate terms are introduced and used in explanations related to the framework and within the definition of a mechanism. I implicitly contend that this terminology essentially characterizes a conceptual world required for discussions in this paper. Secondly, a mathematical model of a mechanism based on directed graphs is proposed. Thirdly, the definition of a base necessary for a mechanism to be classified as a cognition mechanism is proposed. I argue that the cognition base has the features of the cognition self of humans. Fourthly, three ways to mechanistically look at mechanisms is defined and specific instances of them are suggested. Fifthly, standards for visualization and presentation of mechanisms, cognition mechanisms, and the instances to mechanistically look at them are suggested and used to analyze cognition mechanisms through appropriate examples. Finally, the features of this paper are discussed and prospects of further development of the proposed framework are briefly expressed. | 翻訳日:2023-11-27 01:00:04 公開日:2023-11-13 |
# LaTeXコンテナ化技術ドキュメント作成のためのMakefile A Makefile for Developing Containerized LaTeX Technical Documents ( http://arxiv.org/abs/2005.12660v9 ) ライセンス: Link先を確認 | Paschalis Bizopoulos | (参考訳) コンテナ化された$\LaTeX$の技術ドキュメントを開発するためのMakefileを提案する。
makefileを使うと、作者は変数、テーブル、フィギュア(result)を生成するコードを実行し、$\latex$コンパイル中に使われ、ドキュメントのドラフト(fast)またはフル(slow)バージョンを生成することができる。
また,結果生成の自動化や文書の再現性の向上を支援する各種ユーティリティを提案する。
我々はMakefileを使ったテンプレートのオープンソースリポジトリをリリースし、本論文の開発でその使い方を実証する。 We propose a Makefile for developing containerized $\LaTeX$ technical documents. The Makefile allows the author to execute the code that generates variables, tables and figures (results), which are then used during the $\LaTeX$ compilation, to produce either the draft (fast) or full (slow) version of the document. We also present various utilities that aid in automating the results generation and improve the reproducibility of the document. We release an open source repository of a template that uses the Makefile and demonstrate its use by developing this paper. | 翻訳日:2023-11-27 00:57:52 公開日:2023-11-13 |
# 深層ニューラルネットワークにおける脳波分類のためのsignal2イメージモジュール Signal2Image Modules in Deep Neural Networks for EEG Classification ( http://arxiv.org/abs/1904.13216v9 ) ライセンス: Link先を確認 | Paschalis Bizopoulos, George I Lambrou and Dimitrios Koutsouris | (参考訳) ディープラーニングは、ビッグデータの可用性の向上とグラフィカル処理ユニットのような並列計算ユニットのパワーを活用して、コンピュータビジョンに革命をもたらした。
ディープラーニング研究の大部分はトレーニングデータとして画像を用いて行われているが、生体医学領域は診断や予測に使用される生理的シグナルに富んでいる。
ディープニューラルネットワークのトレーニングにシグナルを最大限に活用するには、まだ研究の余地がある。
本稿では,脳波(EEG)などの信号から,「ベースモデル」として定義された画像ベースディープニューラルネットワークのトレーニングに適した画像様表現に変換する,訓練可能なあるいは訓練不可能なプレフィックスモジュールとしてSignal2Image(S2Is)という用語を定義する。
我々は,4つのS2I("signal as image', Spectrogram, one and two layer Convolutional Neural Networks (CNNs)")の精度と時間性能を,後者の深度と1次元のバリエーションとともに,一連の'base model'(LeNet, AlexNet, VGGnet, ResNet, DenseNet)と組み合わせて比較した。
また、脳波信号の分類のための訓練不能なS2Iよりも、CNN S2Iが15の試験モデルのうち11の層で優れた性能を示し、S2Iの出力の視覚的比較を示す。 Deep learning has revolutionized computer vision utilizing the increased availability of big data and the power of parallel computational units such as graphical processing units. The vast majority of deep learning research is conducted using images as training data, however the biomedical domain is rich in physiological signals that are used for diagnosis and prediction problems. It is still an open research question how to best utilize signals to train deep neural networks. In this paper we define the term Signal2Image (S2Is) as trainable or non-trainable prefix modules that convert signals, such as Electroencephalography (EEG), to image-like representations making them suitable for training image-based deep neural networks defined as `base models'. We compare the accuracy and time performance of four S2Is (`signal as image', spectrogram, one and two layer Convolutional Neural Networks (CNNs)) combined with a set of `base models' (LeNet, AlexNet, VGGnet, ResNet, DenseNet) along with the depth-wise and 1D variations of the latter. We also provide empirical evidence that the one layer CNN S2I performs better in eleven out of fifteen tested models than non-trainable S2Is for classifying EEG signals and we present visual comparisons of the outputs of the S2Is. | 翻訳日:2023-11-27 00:57:41 公開日:2023-11-13 |
# 人と文化に関する議論的用語がlinked open dataでどのように使われるか How Contentious Terms About People and Cultures are Used in Linked Open Data ( http://arxiv.org/abs/2311.10757v1 ) ライセンス: Link先を確認 | Andrei Nesterov (1), Laura Hollink (1), Jacco van Ossenbruggen (2) ((1) Centrum Wiskunde & Informatica, (2) VU University Amsterdam) | (参考訳) リンクされたオープンデータ(LOD)内のWebリソースは、ラベル、ノート、コメントなどのリテラルテキストの値によって人間にとって理解しやすい。
リテラルにおける単語の選択は常に中立であるとは限らない。
時代遅れで文化的にステレオタイプされた用語がリテラルで使われる場合、インターフェイスのユーザに対して攻撃的に見える可能性があり、ステレオタイプを訓練されたアルゴリズムに伝達する。
我々は,LODにおける人や文化に関する論争的な用語の頻度と,その使用法を示す試みがあるかどうかを検討する。
分析では,英語とオランダ語の用語を知識グラフから再利用し,用語の論争性について文化遺産分野の専門家の意見を提供する。
Wikidata, The Getty Art & Architecture Thesaurus, Princeton WordNet, Open Dutch WordNetの4つの広く使用されているデータセットで,これらの用語の発生について検討する。
いくつかの用語は、特定の意味でのみ曖昧で論争的である。
単語感覚の曖昧さを応用して、分析に関連するリテラルの集合を生成する。
古き良き定型的、ステレオタイプ的用語は記述的およびラベル付けリテラルに頻繁に出現し、例えば、通常インターフェースで表示され、インデックス化に使用される好ましいラベルが現れることが判明した。
場合によっては、lodのコントリビュータはリテラル(簡単なマーカー)やリソースに関連付けられたプロパティ(説明マーカー)で、単語やフレーズで議論の的となる用語をマークする。
しかし、このようなマーキングはすべてのデータセットにおいて稀で一貫性がない。
我々の量的および質的な洞察は、LODを介してステレオタイプの伝播に対処するより体系的なアプローチを開発するのに役立つかもしれない。 Web resources in linked open data (LOD) are comprehensible to humans through literal textual values attached to them, such as labels, notes, or comments. Word choices in literals may not always be neutral. When outdated and culturally stereotyping terminology is used in literals, they may appear as offensive to users in interfaces and propagate stereotypes to algorithms trained on them. We study how frequently and in which literals contentious terms about people and cultures occur in LOD and whether there are attempts to mark the usage of such terms. For our analysis, we reuse English and Dutch terms from a knowledge graph that provides opinions of experts from the cultural heritage domain about terms' contentiousness. We inspect occurrences of these terms in four widely used datasets: Wikidata, The Getty Art & Architecture Thesaurus, Princeton WordNet, and Open Dutch WordNet. Some terms are ambiguous and contentious only in particular senses. Applying word sense disambiguation, we generate a set of literals relevant to our analysis. We found that outdated, derogatory, stereotyping terms frequently appear in descriptive and labelling literals, such as preferred labels that are usually displayed in interfaces and used for indexing. In some cases, LOD contributors mark contentious terms with words and phrases in literals (implicit markers) or properties linked to resources (explicit markers). However, such marking is rare and non-consistent in all datasets. Our quantitative and qualitative insights could be helpful in developing more systematic approaches to address the propagation of stereotypes via LOD. | 翻訳日:2023-11-27 00:49:17 公開日:2023-11-13 |
# 潜在空間探索を用いたポリシー適応による組合せ最適化 Combinatorial Optimization with Policy Adaptation using Latent Space Search ( http://arxiv.org/abs/2311.13569v1 ) ライセンス: Link先を確認 | Felix Chalumeau, Shikha Surana, Clement Bonnet, Nathan Grinsztajn, Arnu Pretorius, Alexandre Laterre, Thomas D. Barrett | (参考訳) Combinatorial Optimizationは多くの現実世界のアプリケーションを支えるが、これらの複雑なNPハードを解くために高性能なアルゴリズムを設計することは、依然として重要な研究課題である。
強化学習(RL)は、幅広い問題領域にわたるヒューリスティックを設計するための汎用的なフレームワークを提供する。
しかし、顕著な進歩にもかかわらず、RLは産業用解決器をGo-toソリューションとして置き換えていない。
現在のアプローチでは、ソリューションを構築するが、単一のポリシーから多数のソリューションを確率的にサンプリングしたり、個々の問題インスタンスに対して計算的に高価な微調整を施したりといった、限定的なばらつきを持つ探索手順に依存する事前学習ヒューリスティックが強調されている。
提案手法は,事前学習中に推論時間における性能的探索を期待する直観に基づいて,連続的な潜在空間上で条件付けられた多様かつ専門的なポリシーの分布をパラメータ化する新しいRL手法であるCompASSを提案する。
トラベリングセールスマン、キャパシタンドカールーティング、ジョブショップスケジューリングの3つの標準問題におけるCompASSを評価し、検索戦略を実証する。
(i)11の標準ベンチマークタスクにおける最先端アプローチと性能
(ii)18の手続き変換されたインスタンス分布の組の他のすべてのアプローチを上回って、より一般化する。 Combinatorial Optimization underpins many real-world applications and yet, designing performant algorithms to solve these complex, typically NP-hard, problems remains a significant research challenge. Reinforcement Learning (RL) provides a versatile framework for designing heuristics across a broad spectrum of problem domains. However, despite notable progress, RL has not yet supplanted industrial solvers as the go-to solution. Current approaches emphasize pre-training heuristics that construct solutions but often rely on search procedures with limited variance, such as stochastically sampling numerous solutions from a single policy or employing computationally expensive fine-tuning of the policy on individual problem instances. Building on the intuition that performant search at inference time should be anticipated during pre-training, we propose COMPASS, a novel RL approach that parameterizes a distribution of diverse and specialized policies conditioned on a continuous latent space. We evaluate COMPASS across three canonical problems - Travelling Salesman, Capacitated Vehicle Routing, and Job-Shop Scheduling - and demonstrate that our search strategy (i) outperforms state-of-the-art approaches on 11 standard benchmarking tasks and (ii) generalizes better, surpassing all other approaches on a set of 18 procedurally transformed instance distributions. | 翻訳日:2023-11-27 00:24:00 公開日:2023-11-13 |
# 連続ドメイン畳み込みニューラルネットワークにおけるアフィン不変性 Affine Invariance in Continuous-Domain Convolutional Neural Networks ( http://arxiv.org/abs/2311.09245v1 ) ライセンス: Link先を確認 | Ali Mohaddes, Johannes Lederer | (参考訳) 群不変性の概念は、幾何変換の下でパターンや特徴を認識するニューラルネットワークに役立つ。
実際、グループ不変性は、そのような変換が非常に一般的なディープラーニングのパフォーマンスを大幅に改善できることが示されている。
本研究では,連続領域畳み込みニューラルネットワークのアフィン不変性について研究する。
等方的不変性や類似性不変性を考える他の研究にもかかわらず、一般化線型群 $\mathrm{GL}_2(\mathbb{R})$ によって生成されるアフィン変換の全構造に焦点を当てる。
アフィン変換における2つの入力信号の類似性を評価するための新しい基準を導入する。
このとき、リー群$G_2$の複素最適化問題を解く従来の方法とは異なり、持ち上げられた信号の畳み込みを分析し、対応する積分を$G_2$で計算する。
私たちの研究は最終的に、実用的なディープラーニングパイプラインが扱える幾何学的変換の範囲を広げることができます。 The notion of group invariance helps neural networks in recognizing patterns and features under geometric transformations. Indeed, it has been shown that group invariance can largely improve deep learning performances in practice, where such transformations are very common. This research studies affine invariance on continuous-domain convolutional neural networks. Despite other research considering isometric invariance or similarity invariance, we focus on the full structure of affine transforms generated by the generalized linear group $\mathrm{GL}_2(\mathbb{R})$. We introduce a new criterion to assess the similarity of two input signals under affine transformations. Then, unlike conventional methods that involve solving complex optimization problems on the Lie group $G_2$, we analyze the convolution of lifted signals and compute the corresponding integration over $G_2$. In sum, our research could eventually extend the scope of geometrical transformations that practical deep-learning pipelines can handle. | 翻訳日:2023-11-17 18:34:52 公開日:2023-11-13 |
# 不均一な末尾依存の生成学習 Generative Learning of Heterogeneous Tail Dependence ( http://arxiv.org/abs/2011.13132v2 ) ライセンス: Link先を確認 | Xiangqian Sun, Xing Yan, Qi Wu | (参考訳) ビジネスデータや財務データでしばしば発生する複雑な依存構造を捉えるための多変量生成モデルを提案する。
我々のモデルは、各次元のすべての対間の不均一かつ非対称なテール依存を特徴とし、また、辺縁のテールにおける不均一性と非対称性を許容する。
モデル構造の重要な利点は,データセットの次元が大きくなるにつれて,パラメータ推定プロセスにおける誤差の伝播が難しくなるため,非常にスケーラブルである点である。
しかし,この場合のパラメータ推定には,閉形式密度関数の欠如による可能性推定は不可能である。
代わりに、パラメータを学習するための新しいモーメント学習アルゴリズムを考案する。
モデルとその推定器の有効性を実証するために,シミュレーションおよび実世界のデータセットを用いて実験を行った。
その結果、このフレームワークはコプラベースのベンチマークや最近の類似モデルと比較して、より優れた有限サンプル性能が得られることがわかった。 We propose a multivariate generative model to capture the complex dependence structure often encountered in business and financial data. Our model features heterogeneous and asymmetric tail dependence between all pairs of individual dimensions while also allowing heterogeneity and asymmetry in the tails of the marginals. A significant merit of our model structure is that it is not prone to error propagation in the parameter estimation process, hence very scalable, as the dimensions of datasets grow large. However, the likelihood methods are infeasible for parameter estimation in our case due to the lack of a closed-form density function. Instead, we devise a novel moment learning algorithm to learn the parameters. To demonstrate the effectiveness of the model and its estimator, we test them on simulated as well as real-world datasets. Results show that this framework gives better finite-sample performance compared to the copula-based benchmarks as well as recent similar models. | 翻訳日:2023-11-16 21:41:46 公開日:2023-11-13 |
# 非アルコール性脂肪性肝疾患患者の深部表現型 : 複雑な疾患への洞察のための遺伝的要因 Deep Phenotyping of Non-Alcoholic Fatty Liver Disease Patients with Genetic Factors for Insights into the Complex Disease ( http://arxiv.org/abs/2311.08428v1 ) ライセンス: Link先を確認 | Tahmina Sultana Priya, Fan Leng, Anthony C. Luehrs, Eric W. Klee, Alina M. Allen, Konstantinos N. Lazaridis, Danfeng (Daphne) Yao, Shulan Tian | (参考訳) 非アルコール性脂肪肝疾患(Non-Alcocholic fat liver disease、NAFLD)は、肥満、インスリン抵抗性、2型糖尿病などの危険因子を含む大量のアルコールを摂取していない個人において、肝臓に脂肪が過剰に蓄積されることを特徴とする慢性肝疾患である。
本研究の目的は,nafld患者の分類学的,臨床的,遺伝的特徴から,そのサブグループを同定することである。
本研究のゲノム学的および表現学的データ(3,408例,4,739コントロール)は,マヨクリニックタペストリー研究(IRB#19-000001)の参加者と,その人口統計学的,臨床的,共生的データ,およびExome+$^\circledR$ Assayを用いたヘリックスにおける全ゲノムシークエンシングによる遺伝子型情報を含む電気健康記録から収集された。
NAFLDに関連する因子は, カイ二乗試験と段階的に後方回帰モデルにより決定された。
NAFLD症例では, 有意な指標変数を用いた潜在クラス分析(LCA)を行い, サブグループを同定した。
最適なクラスタリングの結果,NAFLD患者2,013名(平均年齢60.6歳,女性62.1%)の潜伏性サブグループ5名,SNPの6つの変異型に基づく多因性リスクスコアと疾患結果を用いた。
メタボリックシンドローム、肥満、異なる共生性、精神神経学的要因、遺伝的要因を特徴とする。
オッズ比を用いて線維化,肝硬変,肝細胞癌(hcc)などの複雑な疾患のリスクと,肝不全のリスクを比較した。
クラスター2は他のクラスターに比べてかなり複雑な疾患の結果がある。
$$$$$$$キーワード:脂肪性肝疾患、多原性リスクスコア、精密医療、深部表現型、nafld複合性、潜在クラス分析。 Non-alcoholic fatty liver disease (NAFLD) is a prevalent chronic liver disorder characterized by the excessive accumulation of fat in the liver in individuals who do not consume significant amounts of alcohol, including risk factors like obesity, insulin resistance, type 2 diabetes, etc. We aim to identify subgroups of NAFLD patients based on demographic, clinical, and genetic characteristics for precision medicine. The genomic and phenotypic data (3,408 cases and 4,739 controls) for this study were gathered from participants in Mayo Clinic Tapestry Study (IRB#19-000001) and their electric health records, including their demographic, clinical, and comorbidity data, and the genotype information through whole exome sequencing performed at Helix using the Exome+$^\circledR$ Assay according to standard procedure $\href{https://www.helix.com/}{(www.helix.com)}$. Factors highly relevant to NAFLD were determined by the chi-square test and stepwise backward-forward regression model. Latent class analysis (LCA) was performed on NAFLD cases using significant indicator variables to identify subgroups. The optimal clustering revealed 5 latent subgroups from 2,013 NAFLD patients (mean age 60.6 years and 62.1% women), while a polygenic risk score based on 6 single-nucleotide polymorphism (SNP) variants and disease outcomes were used to analyze the subgroups. The groups are characterized by metabolic syndrome, obesity, different comorbidities, psychoneurological factors, and genetic factors. Odds ratios were utilized to compare the risk of complex diseases, such as fibrosis, cirrhosis, and hepatocellular carcinoma (HCC), as well as liver failure between the clusters. Cluster 2 has a significantly higher complex disease outcome compared to other clusters. $$\\$$ Keywords: Fatty liver disease; Polygenic risk score; Precision medicine; Deep phenotyping; NAFLD comorbidities; Latent class analysis. | 翻訳日:2023-11-16 18:55:06 公開日:2023-11-13 |
# 観察的医療データに基づく移動可能な因果ネットワークモデルの構築 Towards a Transportable Causal Network Model Based on Observational Healthcare Data ( http://arxiv.org/abs/2311.08427v1 ) ライセンス: Link先を確認 | Alice Bernasconi and Alessio Zanga and Peter J.F. Lucas and Marco Scutari Fabio Stella | (参考訳) 過去数十年間、人工知能技術に基づく多くの予後モデルが医療の詳細な予測に使われてきた。
残念なことに、これらのモデルのトレーニングと検証に使用される実世界の観測データは、結果の妥当性に強く影響を及ぼすバイアスによってほとんど常に影響を受ける。
それらに対処することは、輸送性を達成するための重要な要素であり、また、確率的関連に基づくより単純な統計的アプローチを超えて、臨床的意思決定において重要な因果関係の研究において重要である。
本研究では,乳がんを生き残った若年者および若年者の心血管性リスクを推定するために,選択図,欠失グラフ,因果発見,先行知識を単一のグラフィカルモデルに組み合わせた新しいアプローチを提案する。
2つの異なる患者のコホートからなるデータからこのモデルを学習する。
結果として得られた因果ネットワークモデルは、リスクアセスメント、正確性、説明可能性の観点から専門家臨床医によって検証され、競合する機械学習手法を上回る予測モデルを提供する。 Over the last decades, many prognostic models based on artificial intelligence techniques have been used to provide detailed predictions in healthcare. Unfortunately, the real-world observational data used to train and validate these models are almost always affected by biases that can strongly impact the outcomes validity: two examples are values missing not-at-random and selection bias. Addressing them is a key element in achieving transportability and in studying the causal relationships that are critical in clinical decision making, going beyond simpler statistical approaches based on probabilistic association. In this context, we propose a novel approach that combines selection diagrams, missingness graphs, causal discovery and prior knowledge into a single graphical model to estimate the cardiovascular risk of adolescent and young females who survived breast cancer. We learn this model from data comprising two different cohorts of patients. The resulting causal network model is validated by expert clinicians in terms of risk assessment, accuracy and explainability, and provides a prognostic model that outperforms competing machine learning methods. | 翻訳日:2023-11-16 18:54:05 公開日:2023-11-13 |
# 光流を用いた非接触呼吸速度検出 Non-Contact Breathing Rate Detection Using Optical Flow ( http://arxiv.org/abs/2311.08426v1 ) ライセンス: Link先を確認 | Robyn Maxwell, Timothy Hanley, Dara Golden, Adara Andonie, Joseph Lemley, and Ashkan Parsi | (参考訳) 呼吸率(breath rate)は、人の健康全体の指標として極めて重要な健康指標である。
近年,呼吸速度などの健康信号の非接触測定が開発され,遠隔医療から運転監視まで幅広い応用がなされている。
本稿では,運動検出アルゴリズムであるオプティカルフローを用いた非接触呼吸速度検出法について検討する。
光流は、身体の特定の点の動きを追跡することで呼吸速度を測定するのに有効である。
本研究では,異なる点集合を用いた場合の光学的流れの評価を行った。
テストの結果、胸部と顔面の運動は呼吸速度を決定するのに使えるが、成功度は異なることがわかった。
胸部は非常に正確な信号を生成し、ビデオのRMSEは0.63である。
頭の動きが最小限の場合、顔の焦点は信頼できる信号を生成することもあるが、頭や体の動きによって生じるノイズにずっと弱い。
これらの結果は,非侵襲的呼吸速度検出法としての光フローの可能性を強調し,精度を最適化するために適切な点を選択することの重要性を強調した。 Breathing rate is a vital health metric that is an invaluable indicator of the overall health of a person. In recent years, the non-contact measurement of health signals such as breathing rate has been a huge area of development, with a wide range of applications from telemedicine to driver monitoring systems. This paper presents an investigation into a method of non-contact breathing rate detection using a motion detection algorithm, optical flow. Optical flow is used to successfully measure breathing rate by tracking the motion of specific points on the body. In this study, the success of optical flow when using different sets of points is evaluated. Testing shows that both chest and facial movement can be used to determine breathing rate but to different degrees of success. The chest generates very accurate signals, with an RMSE of 0.63 on the tested videos. Facial points can also generate reliable signals when there is minimal head movement but are much more vulnerable to noise caused by head/body movements. These findings highlight the potential of optical flow as a non-invasive method for breathing rate detection and emphasize the importance of selecting appropriate points to optimize accuracy. | 翻訳日:2023-11-16 18:53:46 公開日:2023-11-13 |
# 後継表現を用いた辺縁化重要度サンプリングへの深層強化学習手法 A Deep Reinforcement Learning Approach to Marginalized Importance Sampling with the Successor Representation ( http://arxiv.org/abs/2106.06854v2 ) ライセンス: Link先を確認 | Scott Fujimoto, David Meger, Doina Precup | (参考訳) 目標政策の状態行動占有率とサンプリング分布の密度比を測定するマージン化重要度サンプリング(mis)は、オフポリシー評価に有望なアプローチである。
しかし、現在最先端のMIS法は複雑な最適化手法に依存しており、ほとんどは単純な玩具の問題で成功している。
本研究は,misと深層強化学習のギャップを,対象政策の後継表現から密度比を計算できることを観察することで橋渡しする。
後継表現は、深層強化学習手法を用いて訓練し、環境のダイナミクスから報酬最適化を分離することにより、アルゴリズムを安定させ、高次元領域に適用することができる。
我々は,さまざまな挑戦的なatari環境とmujoco環境におけるアプローチの実証的性能を評価する。 Marginalized importance sampling (MIS), which measures the density ratio between the state-action occupancy of a target policy and that of a sampling distribution, is a promising approach for off-policy evaluation. However, current state-of-the-art MIS methods rely on complex optimization tricks and succeed mostly on simple toy problems. We bridge the gap between MIS and deep reinforcement learning by observing that the density ratio can be computed from the successor representation of the target policy. The successor representation can be trained through deep reinforcement learning methodology and decouples the reward optimization from the dynamics of the environment, making the resulting algorithm stable and applicable to high-dimensional domains. We evaluate the empirical performance of our approach on a variety of challenging Atari and MuJoCo environments. | 翻訳日:2023-11-15 19:50:32 公開日:2023-11-13 |
# 決定木を用いた大規模予測 Large Scale Prediction with Decision Trees ( http://arxiv.org/abs/2104.13881v5 ) ライセンス: Link先を確認 | Jason M. Klusowski and Peter M. Tian | (参考訳) 本稿では, CART法とC4.5法を用いて構築された決定木が, 自然の0ノルムと1ノルムの空間的制約の下で, 予測変数の数が標本サイズに比例して増加する場合でも, 回帰および分類タスクに一貫性があることを示す。
この理論は、連続な、有界変動の、あるいはより一般的にはボレル可測な成分関数を持つ(通常またはロジスティック)加法回帰モデルを含む幅広いモデルに適用される。
一貫性は予測変数の任意の結合分布を保持し、連続的、離散的、および/または依存的なデータを調節する。
最後に,個々の樹木の質的性質は,ブレイマンのランダム林に受け継がれていることを示す。
この分析における重要なステップは、不平等の確立であり、不特定モデルの適合性と複雑性のトレードオフを正確に評価することができる。 This paper shows that decision trees constructed with Classification and Regression Trees (CART) and C4.5 methodology are consistent for regression and classification tasks, even when the number of predictor variables grows sub-exponentially with the sample size, under natural 0-norm and 1-norm sparsity constraints. The theory applies to a wide range of models, including (ordinary or logistic) additive regression models with component functions that are continuous, of bounded variation, or, more generally, Borel measurable. Consistency holds for arbitrary joint distributions of the predictor variables, thereby accommodating continuous, discrete, and/or dependent data. Finally, we show that these qualitative properties of individual trees are inherited by Breiman's random forests. A key step in the analysis is the establishment of an oracle inequality, which allows for a precise characterization of the goodness-of-fit and complexity tradeoff for a mis-specified model. | 翻訳日:2023-11-15 19:49:55 公開日:2023-11-13 |
# 語彙的最小文字列回転の量子アルゴリズム Quantum Algorithm for Lexicographically Minimal String Rotation ( http://arxiv.org/abs/2012.09376v3 ) ライセンス: Link先を確認 | Qisheng Wang and Mingsheng Ying | (参考訳) lexicographically minimal string rotation (lmsr) は、グラフ、多角形、オートマトン、化学構造の等式チェックにおいて広く用いられる、文字列の全ての回転のうち最小のものを見つける問題である。
本稿では,LMSRのための$O(n^{3/4})$量子クエリアルゴリズムを提案する。
特に、アルゴリズムは平均ケースクエリの複雑性$o(\sqrt n \log n)$ を持ち、これは多対数係数に対して漸近的に最適であることが示され、$\omega\left(\sqrt{n/\log n}\right)$ の下限である。
さらに,我々の量子アルゴリズムは,最悪の場合と平均の場合の両方において,任意の(古典的)ランダム化アルゴリズムを上回ることを示した。
応用例として、ベンゼノイド識別および解離サイクルオートマトン最小化に用いられる。 Lexicographically minimal string rotation (LMSR) is a problem to find the minimal one among all rotations of a string in the lexicographical order, which is widely used in equality checking of graphs, polygons, automata and chemical structures. In this paper, we propose an $O(n^{3/4})$ quantum query algorithm for LMSR. In particular, the algorithm has average-case query complexity $O(\sqrt n \log n)$, which is shown to be asymptotically optimal up to a polylogarithmic factor, compared to its $\Omega\left(\sqrt{n/\log n}\right)$ lower bound. Furthermore, we show that our quantum algorithm outperforms any (classical) randomized algorithms in both worst and average cases. As an application, it is used in benzenoid identification and disjoint-cycle automata minimization. | 翻訳日:2023-11-15 19:49:32 公開日:2023-11-13 |
# 2\times 2$一般化ランダム行列アンサンブルにおけるカオス対積分可能性クロスオーバーの動的シグネチャ Dynamical Signatures of Chaos to Integrability Crossover in $2\times 2$ Generalized Random Matrix Ensembles ( http://arxiv.org/abs/2010.16394v2 ) ライセンス: Link先を確認 | Adway Kumar Das, Anandamohan Ghosh | (参考訳) 一般化された2-パラメータアンサンブルは、$\beta$-Rosenzweig-Porter アンサンブル(\brpe)と呼ばれ、パラメータ化は$\beta$、類似のクーロンガスモデルの架空の逆温度、$\gamma$、障害の相対強度を制御する$\gamma$である。
\brpe\ は、直交、ユニタリ、シンプレクティックのすべてのダイソンの対称類から RPE を$\beta=1,2,4$ で包含する。
まず, 近接スペーシング(nns)の密度と第2モーメントを計算し, 種々のレベル反発のクロスオーバーをロバストに定量化することにより, エネルギー相関を考察した。
第二に、力学特性は、特性Thoulessと平衡時間スケールの同定を可能にする忠実度の時間的進化の正確な計算から決定される。
平均忠実度における相関ホールの相対深さはカオスから可積分性へのクロスオーバーの動的シグネチャとして機能し、$\gamma$-$\beta$平面において \brpe\ の位相図を構築することができる。
この結果は,$n\gg2$行列アンサンブルに対する数値計算忠実度と定性的に一致している。
さらに、NNSの2番目のモーメントの大きい$N$と相対的な相関穴の深さは、$\gamma=2$の2次位相遷移を示す。 We introduce a two-parameter ensemble of generalized $2\times 2$ real symmetric random matrices called the $\beta$-Rosenzweig-Porter ensemble (\brpe), parameterized by $\beta$, a fictitious inverse temperature of the analogous Coulomb gas model, and $\gamma$, controlling the relative strength of disorder. \brpe\ encompasses RPE from all of the Dyson's threefold symmetry classes: orthogonal, unitary and symplectic for $\beta=1,2,4$. Firstly, we study the energy correlations by calculating the density and 2nd moment of the Nearest Neighbor Spacing (NNS) and robustly quantify the crossover among various degrees of level repulsions. Secondly, the dynamical properties are determined from an exact calculation of the temporal evolution of the fidelity enabling an identification of the characteristic Thouless and the equilibration timescales. The relative depth of the correlation hole in the average fidelity serves as a dynamical signature of the crossover from chaos to integrability and enables us to construct the phase diagram of \brpe\ in the $\gamma$-$\beta$ plane. Our results are in qualitative agreement with numerically computed fidelity for $N\gg2$ matrix ensembles. Furthermore, we observe that for large $N$ the 2nd moment of NNS and the relative depth of the correlation hole exhibit a second order phase transition at $\gamma=2$. | 翻訳日:2023-11-15 19:49:04 公開日:2023-11-13 |
# 野生におけるフラッシュオンリーキューによるロバスト反射除去 Robust Reflection Removal with Flash-only Cues in the Wild ( http://arxiv.org/abs/2211.02914v2 ) ライセンス: Link先を確認 | Chenyang Lei, Xudong Jiang, Qifeng Chen | (参考訳) 一対のフラッシュと周囲(非フラッシュ)画像から頑健な反射除去を行うための、単純で効果的な反射除去キューを提案する。
反射フリーキューは、対応するフラッシュ画像から周囲画像を原データ空間に減じて得られるフラッシュ専用画像を利用する。
フラッシュのみの画像は、フラッシュオンのみの暗い環境で撮影された画像と同等である。
このフラッシュのみの画像は視覚的に反射しないので、周囲の画像の反射を推測するための堅牢な手がかりを提供することができる。
フラッシュのみの画像には通常アーティファクトがあるため、反射のないキューを利用するだけでなく、反射と透過を正確に推定するアーティファクトの導入を避ける専用モデルも提案する。
反射のないフラッシュオンリーキューを用いた実世界の画像実験により,PSNRにおける5.23dB以上の反射除去手法よりも優れた精度が得られた。
我々は、フラッシュとノンフラッシュのペア間の不一致に対処するために、ハンドヘルド写真へのアプローチを拡張します。
ミスアライメントトレーニングデータとアライメントモジュールにより、我々のアライメントモデルは、ミスアライメントデータセット上でPSNRで3.19dB以上の性能を向上します。
また,線形RGB画像をトレーニングデータとして用いた。
ソースコードとデータセットはhttps://github.com/ChenyangLEI/flash-reflection-removal.comで公開されています。 We propose a simple yet effective reflection-free cue for robust reflection removal from a pair of flash and ambient (no-flash) images. The reflection-free cue exploits a flash-only image obtained by subtracting the ambient image from the corresponding flash image in raw data space. The flash-only image is equivalent to an image taken in a dark environment with only a flash on. This flash-only image is visually reflection-free and thus can provide robust cues to infer the reflection in the ambient image. Since the flash-only image usually has artifacts, we further propose a dedicated model that not only utilizes the reflection-free cue but also avoids introducing artifacts, which helps accurately estimate reflection and transmission. Our experiments on real-world images with various types of reflection demonstrate the effectiveness of our model with reflection-free flash-only cues: our model outperforms state-of-the-art reflection removal approaches by more than 5.23dB in PSNR. We extend our approach to handheld photography to address the misalignment between the flash and no-flash pair. With misaligned training data and the alignment module, our aligned model outperforms our previous version by more than 3.19dB in PSNR on a misaligned dataset. We also study using linear RGB images as training data. Our source code and dataset are publicly available at https://github.com/ChenyangLEI/flash-reflection-removal. | 翻訳日:2023-11-15 19:42:11 公開日:2023-11-13 |
# Winnerがすべてを語る: ベテラン最適化のためのパフォーマンスの高いRL人口の育成 Winner Takes It All: Training Performant RL Populations for Combinatorial Optimization ( http://arxiv.org/abs/2210.03475v2 ) ライセンス: Link先を確認 | Nathan Grinsztajn, Daniel Furelos-Blanco, Shikha Surana, Cl\'ement Bonnet, Thomas D. Barrett | (参考訳) 強化学習(RL)を組合せ最適化問題に適用することは、専門家の知識や事前解決されたインスタンスの必要性を排除し、魅力的である。
しかし、エージェントがこれらの(しばしばNP-)ハード問題を単発推論で解くのは、その固有の複雑さのために非現実的である。
したがって、先導的なアプローチは、確率的サンプリングやビーム探索から明示的な微調整まで、追加の探索戦略を実装することが多い。
本稿では,補完的政策の集団を学習することの利点を議論する。
そこで本研究では,人口に対する簡単な訓練手順であるpoppyを紹介する。
事前に定義または手作りの多様性の概念に頼る代わりに、ポピーは人口のパフォーマンスを最大化することだけを目的とした教師なしの専門化を誘導する。
そこで我々は,Poppyが相補的なポリシーを作成し,旅行セールスマン,キャパシタンカールーティング,0-1knapsack,ジョブショップスケジューリングという4つの一般的なNPハード問題に対して,最先端のRL結果を得ることを示した。 Applying reinforcement learning (RL) to combinatorial optimization problems is attractive as it removes the need for expert knowledge or pre-solved instances. However, it is unrealistic to expect an agent to solve these (often NP-)hard problems in a single shot at inference due to their inherent complexity. Thus, leading approaches often implement additional search strategies, from stochastic sampling and beam search to explicit fine-tuning. In this paper, we argue for the benefits of learning a population of complementary policies, which can be simultaneously rolled out at inference. To this end, we introduce Poppy, a simple training procedure for populations. Instead of relying on a predefined or hand-crafted notion of diversity, Poppy induces an unsupervised specialization targeted solely at maximizing the performance of the population. We show that Poppy produces a set of complementary policies, and obtains state-of-the-art RL results on four popular NP-hard problems: traveling salesman, capacitated vehicle routing, 0-1 knapsack, and job-shop scheduling. | 翻訳日:2023-11-15 19:41:09 公開日:2023-11-13 |
# DynaConF:非定常時間系列の動的予測 DynaConF: Dynamic Forecasting of Non-Stationary Time-Series ( http://arxiv.org/abs/2209.08411v2 ) ライセンス: Link先を確認 | Siqi Liu, Andreas Lehrmann | (参考訳) 深層学習は様々な時系列予測タスクにおいて印象的な結果を示しており、過去の条件分布をモデル化することが本質である。
しかし、この条件分布が定常でない場合、これらのモデルが一貫して学習し、正確に予測することが課題となる。
本研究では,非定常力学モデルから定常条件分布モデルを明確に分離することにより,時間とともに非定常条件分布をモデル化する新しい手法を提案する。
本手法は,条件付き分布変化に適応可能なベイズ動的モデルと,因子付き出力空間を用いて多変量時系列を扱う深い条件付き分布モデルに基づいている。
人工および実世界のデータセットに関する実験結果から,我々のモデルは最先端のディープラーニングソリューションよりも非定常時系列に適応できることが示された。 Deep learning has shown impressive results in a variety of time series forecasting tasks, where modeling the conditional distribution of the future given the past is the essence. However, when this conditional distribution is non-stationary, it poses challenges for these models to learn consistently and to predict accurately. In this work, we propose a new method to model non-stationary conditional distributions over time by clearly decoupling stationary conditional distribution modeling from non-stationary dynamics modeling. Our method is based on a Bayesian dynamic model that can adapt to conditional distribution changes and a deep conditional distribution model that handles multivariate time series using a factorized output space. Our experimental results on synthetic and real-world datasets show that our model can adapt to non-stationary time series better than state-of-the-art deep learning solutions. | 翻訳日:2023-11-15 19:40:12 公開日:2023-11-13 |
# 大型トラックの効率的な輸送電化に向けて--トラックルーティングと充電のジョイントスケジューリング Toward Efficient Transportation Electrification of Heavy-Duty Trucks: Joint Scheduling of Truck Routing and Charging ( http://arxiv.org/abs/2302.00240v4 ) ライセンス: Link先を確認 | Mikhail A. Bragin, Zuzhao Ye, Nanpeng Yu | (参考訳) 顧客への商品のタイムリーな輸送は経済活動の重要な要素である。
しかし、貨物輸送に使われる大型ディーゼルトラックはロサンゼルス、ニューヨーク、サンフランシスコなど多くの大都市で温室効果ガスの排出に大きく寄与している。
貨物の電化を容易にすることでGHG排出を低減するため,電気トラックの連系ルーティングと充電スケジューリングを提案する。
関連する最適化問題の目的は、輸送、充電、重荷のコストを最小限に抑えることである。
多数の道路セグメントの組み合わせと、多数の充電決定と充電期間の組み合わせは、電気トラックができることの可能な決定において、組合せ的な爆発を引き起こす。
結果として生じる混合整数線形プログラミング問題は、決定論の場合でさえ組合せ複雑性のため、非常に難しい。
そこで,Surrogate Level-Based Lagrangian Relaxation (SLBLR)法を用いて,問題全体をより複雑なトラックサブプロブレムに分解する。
コーディネーション面では、ラグランジアン乗算器の値に基づいて、各トラックサブプロイムを他のサブプロイムとは独立に解く。
トラックの誘導と調整の手段としての役割に加えて、乗算器はトラックによる透明で説明的な意思決定の基盤としても機能する。
実験の結果,数日間の解決の後,市販のCPLEXを用いて小さなインスタンスでも解決できないことがわかった。
一方,SLBLR法は小症例では数分以内,大症例では30分以内の最適解が得られる。
さらに、バッテリ容量が増加するにつれて、総コストが大幅に減少し、さらに充電電力が増加するにつれて、必要なトラックの数が減少することが示されている。 The timely transportation of goods to customers is an essential component of economic activities. However, heavy-duty diesel trucks used for goods delivery significantly contribute to greenhouse gas emissions within many large metropolitan areas, including Los Angeles, New York, and San Francisco. To reduce GHG emissions by facilitating freight electrification, this paper proposes Joint Routing and Charging scheduling for electric trucks. The objective of the associated optimization problem is to minimize the cost of transportation, charging, and tardiness. A large number of possible combinations of road segments as well as a large number of combinations of charging decisions and charging durations leads to a combinatorial explosion in the possible decisions electric trucks can make. The resulting mixed-integer linear programming problem is thus extremely challenging because of the combinatorial complexity even in the deterministic case. Therefore, a Surrogate Level-Based Lagrangian Relaxation (SLBLR) method is employed to decompose the overall problem into significantly less complex truck subproblems. In the coordination aspect, each truck subproblem is solved independently of other subproblems based on the values of Lagrangian multipliers. In addition to serving as a means of guiding and coordinating trucks, multipliers can also serve as a basis for transparent and explanatory decision-making by trucks. Testing results demonstrate that even small instances cannot be solved using the off-the-shelf solver CPLEX after several days of solving. The SLBLR method, on the other hand, can obtain near-optimal solutions within a few minutes for small cases, and within 30 minutes for large ones. Furthermore, it has been demonstrated that as battery capacity increases, the total cost decreases significantly; moreover, as the charging power increases, the number of trucks required decreases as well. | 翻訳日:2023-11-15 19:30:34 公開日:2023-11-13 |
# a golden age:共謀説と偽情報、ニュースメディア、そしてより広いインターネットの関係 A Golden Age: Conspiracy Theories' Relationship with Misinformation Outlets, News Media, and the Wider Internet ( http://arxiv.org/abs/2301.10880v5 ) ライセンス: Link先を確認 | Hans W. A. Hanley, Deepak Kumar, Zakir Durumeric | (参考訳) 我々は「陰謀論の黄金時代」に生きているのか?
過去数十年間、陰謀説はインターネット上で広まり、現実世界では危険な結果をもたらしている。
1月6日の米国議会議事堂攻撃に参加した人々の多くは、QAnon陰謀説を熱心に信じていた。
本研究では,5つの有名な陰謀論(QAnon, COVID, UFO/Aliens, 9/11, Flat-Earth)と,それぞれのメディアとの関係について検討する。
5つの陰謀論を専門とする755の異なる陰謀論のwebサイトを同定し、公開することで、それぞれのセットが同じ外部ドメインにハイパーリンクされることが少なく、covid-19とqanon陰謀論のwebサイトが共有接続の量が最も多いことが分かりました。
ニュースメディアの役割を見てみると、私たちの陰謀論のウェブサイトに誤報のハイパーリンクを広めることで知られるメディアが、2018年から2021年にかけて、QAnonの出現と新型コロナウイルスのパンデミックの開始によって、そのハイパーリンクが劇的に増加したことも分かる。
誤報サイトからのハイパーリンクと陰謀論Webサイトの人気との間には,いくつかの肯定的な相関関係が発見され,誤報ニュースメディアが陰謀論の普及に果たす重要な役割が示唆された。 Do we live in a "Golden Age of Conspiracy Theories?" In the last few decades, conspiracy theories have proliferated on the Internet with some having dangerous real-world consequences. A large contingent of those who participated in the January 6th attack on the US Capitol fervently believed in the QAnon conspiracy theory. In this work, we study the relationships amongst five prominent conspiracy theories (QAnon, COVID, UFO/Aliens, 9/11, and Flat-Earth) and each of their respective relationships to the news media, both authentic news and misinformation. Identifying and publishing a set of 755 different conspiracy theory websites dedicated to our five conspiracy theories, we find that each set often hyperlinks to the same external domains, with COVID and QAnon conspiracy theory websites having the largest amount of shared connections. Examining the role of news media, we further find that not only do outlets known for spreading misinformation hyperlink to our set of conspiracy theory websites more often than authentic news websites but also that this hyperlinking increased dramatically between 2018 and 2021, with the advent of QAnon and the start of COVID-19 pandemic. Using partial Granger-causality, we uncover several positive correlative relationships between the hyperlinks from misinformation websites and the popularity of conspiracy theory websites, suggesting the prominent role that misinformation news outlets play in popularizing many conspiracy theories. | 翻訳日:2023-11-15 19:29:20 公開日:2023-11-13 |
# ComCLIP: 学習不要なコンポジションイメージとテキストマッチング ComCLIP: Training-Free Compositional Image and Text Matching ( http://arxiv.org/abs/2211.13854v3 ) ライセンス: Link先を確認 | Kenan Jiang, Xuehai He, Ruize Xu, Xin Eric Wang | (参考訳) Contrastive Language- Image Pretraining (CLIP)は画像とテキストのマッチングに優れたゼロショット性能を示した。
しかし、クリップから合成画像やテキストマッチングへの事前学習された視覚言語モデルの適用は依然として困難であり、合成語の概念や視覚コンポーネントのモデル理解を必要とする、より困難な画像とテキストマッチングタスクである。
本稿では,ゼロショット画像とテキストマッチングにおける合成汎化の改善に向けて,その問題を因果的観点から検討する。
そこで本研究では,新しい合成クリップモデルである\textbf{\textit{training-free}} を提案する。
comclipは入力画像を被写体、オブジェクト、アクションサブイメージに分割し、クリップの視覚エンコーダとテキストエンコーダを合成し、合成テキストの埋め込みとサブイメージの埋め込みで進化するマッチングを実行する。
このように、ComCLIPは、事前訓練されたCLIPモデルによって導入された素早い相関を緩和し、各コンポーネントの重要性を動的に評価することができる。
svo、comvg、winoground、vl-checklistの4つの合成画像テキストマッチングデータセットと、flick30kとmscocoの2つの一般的な画像テキスト検索データセットの実験は、更なるトレーニングや微調整なしにクリップ、スリップ、blip2の推論能力を向上させるプラグイン・アンド・プレイ法の有効性を実証している。
私たちのコードはhttps://github.com/eric-ai-lab/ComCLIPで参照できます。 Contrastive Language-Image Pretraining (CLIP) has demonstrated great zero-shot performance for matching images and text. However, it is still challenging to adapt vision-lanaguage pretrained models like CLIP to compositional image and text matching -- a more challenging image and text matching task requiring the model understanding of compositional word concepts and visual components. Towards better compositional generalization in zero-shot image and text matching, in this paper, we study the problem from a causal perspective: the erroneous semantics of individual entities are essentially confounders that cause the matching failure. Therefore, we propose a novel \textbf{\textit{training-free}} compositional CLIP model (ComCLIP). ComCLIP disentangles input images into subjects, objects, and action sub-images and composes CLIP's vision encoder and text encoder to perform evolving matching over compositional text embedding and sub-image embeddings. In this way, ComCLIP can mitigate spurious correlations introduced by the pretrained CLIP models and dynamically evaluate the importance of each component. Experiments on four compositional image-text matching datasets: SVO, ComVG, Winoground, and VL-checklist, and two general image-text retrieval datasets: Flick30K, and MSCOCO demonstrate the effectiveness of our plug-and-play method, which boosts the \textbf{\textit{zero-shot}} inference ability of CLIP, SLIP, and BLIP2 even without further training or fine-tuning. Our codes can be found at https://github.com/eric-ai-lab/ComCLIP. | 翻訳日:2023-11-15 19:26:08 公開日:2023-11-13 |
# 逆生成モデルに対するPAC-Bayesian一般化境界 PAC-Bayesian Generalization Bounds for Adversarial Generative Models ( http://arxiv.org/abs/2302.08942v4 ) ライセンス: Link先を確認 | Sokhna Diarra Mbacke, Florence Clerc, Pascal Germain | (参考訳) PAC-ベイズ理論を生成モデルに拡張し、ワッサーシュタイン距離と全変動距離に基づくモデルに対する一般化境界を開発する。
ワッサーシュタイン距離に関する我々の第一の結果は、インスタンス空間が有界であると仮定し、第二の結果は次元還元を利用する。
我々の結果はワッサースタイン GAN とエネルギーベース GAN に自然に適用され、これらの2つの領域に新たなトレーニング目標が提供される。
本研究は主に理論的だが, 合成データセット上でのワッサーシュタイン GAN の非空一般化境界を示す数値実験を行う。 We extend PAC-Bayesian theory to generative models and develop generalization bounds for models based on the Wasserstein distance and the total variation distance. Our first result on the Wasserstein distance assumes the instance space is bounded, while our second result takes advantage of dimensionality reduction. Our results naturally apply to Wasserstein GANs and Energy-Based GANs, and our bounds provide new training objectives for these two. Although our work is mainly theoretical, we perform numerical experiments showing non-vacuous generalization bounds for Wasserstein GANs on synthetic datasets. | 翻訳日:2023-11-15 19:13:52 公開日:2023-11-13 |
# 逐次決定過程の線形部分モニタリング:アルゴリズム,レグレト境界とその応用 Linear Partial Monitoring for Sequential Decision-Making: Algorithms, Regret Bounds and Applications ( http://arxiv.org/abs/2302.03683v2 ) ライセンス: Link先を確認 | Johannes Kirschner, Tor Lattimore, Andreas Krause | (参考訳) 部分監視は、グラフ構造やデュエルバンド、動的価格設定、トランスダクティブフィードバックモデルなど、多数のアプリケーションを備えた、シーケンシャルな意思決定のための表現力のあるフレームワークである。
線形帯域設定を自然に一般化する部分的モニタリングの線形定式化に関する最近の結果を調査し,拡張する。
主な結果は、1つのアルゴリズム、情報指向サンプリング(ids)が(ほぼ)すべての有限作用ゲームにおいて最適な最悪のケースレートであるということである。
本稿では,確率的部分モニタリングをシンプルかつ統一的に分析し,そのモデルをさらに文脈的およびカーネル的設定に拡張する。 Partial monitoring is an expressive framework for sequential decision-making with an abundance of applications, including graph-structured and dueling bandits, dynamic pricing and transductive feedback models. We survey and extend recent results on the linear formulation of partial monitoring that naturally generalizes the standard linear bandit setting. The main result is that a single algorithm, information-directed sampling (IDS), is (nearly) worst-case rate optimal in all finite-action games. We present a simple and unified analysis of stochastic partial monitoring, and further extend the model to the contextual and kernelized setting. | 翻訳日:2023-11-15 19:12:27 公開日:2023-11-13 |
# 科学的意見要約:チェックリスト誘導反復検査によるメタレビュー生成 Scientific Opinion Summarization: Meta-review Generation with Checklist-guided Iterative Introspection ( http://arxiv.org/abs/2305.14647v2 ) ライセンス: Link先を確認 | Qi Zeng, Mankeerat Sidhu, Hou Pong Chan, Lu Wang, Heng Ji | (参考訳) 科学分野の意見は多様化し、レビュアーの間で論争やコンセンサスに繋がることがある。
しかし、現在の意見要約データセットは、主に製品レビュードメインに焦点を当てており、入力された意見が議論の余地がないという仮定の下では、この変動を考慮していない。
このギャップに対処するために,研究論文レビューをメタレビューに合成する,科学的意見要約の課題を提案する。
この作業を容易にするために,39のカンファレンスから10,989のペーパーメタレビューと40,903のペーパーレビューを対象とする新しいORSUMデータセットを導入した。
さらに,チェックリストによる反復的イントロスペクション(cgi$^2$)アプローチを提案する。
結論として,(1) 人書き要約はガイドラインに従わないことが多いため,必ずしも信頼できない。(2) タスクの分解と反復的自己複製の組み合わせは,有望な議論参加能力を示し,ブラックボックス LLM を用いた複雑なテキスト生成に適用可能である。 Opinions in the scientific domain can be divergent, leading to controversy or consensus among reviewers. However, current opinion summarization datasets mostly focus on product review domains, which do not account for this variability under the assumption that the input opinions are non-controversial. To address this gap, we propose the task of scientific opinion summarization, where research paper reviews are synthesized into meta-reviews. To facilitate this task, we introduce a new ORSUM dataset covering 10,989 paper meta-reviews and 40,903 paper reviews from 39 conferences. Furthermore, we propose the Checklist-guided Iterative Introspection (CGI$^2$) approach, which breaks down the task into several stages and iteratively refines the summary under the guidance of questions from a checklist. We conclude that (1) human-written summaries are not always reliable since many do not follow the guidelines, and (2) the combination of task decomposition and iterative self-refinement shows promising discussion involvement ability and can be applied to other complex text generation using black-box LLM. | 翻訳日:2023-11-15 19:04:12 公開日:2023-11-13 |
# 部分観測非線形システムに対する契約とリプシッツ閉ループの学習(拡張バージョン) Learning Over Contracting and Lipschitz Closed-Loops for Partially-Observed Nonlinear Systems (Extended Version) ( http://arxiv.org/abs/2304.06193v2 ) ライセンス: Link先を確認 | Nicholas H. Barbara, Ruigang Wang, Ian R. Manchester | (参考訳) 本稿では非線形な部分観測力学系に対する学習に基づく制御のためのポリシーパラメータ化を提案する。
このパラメータ化は、Youlaパラメータ化の非線形バージョンと、最近提案されたRecurrent Equilibrium Network (REN)クラスに基づく。
その結果,Youla-RENパラメータ化は,閉ループシステム上での安定性(トラクション)とユーザチューニング可能な堅牢性(Lipschitz)を自動で満足することを証明する。
これは、安定性や堅牢性を強制するために必要な追加の制約やプロジェクションなしで、安全な学習ベースの制御に使用できることを意味する。
我々は2つの強化学習タスクで新しい政策クラスをシミュレーションでテストする。
1)磁気サスペンション、及び
2)回転アーム振り子を反転させる。
以上より,youla-renは既存の学習ベースおよび最適制御法と同様に動作し,安定性を確保しつつ,対向障害に対するロバスト性も向上した。 This paper presents a policy parameterization for learning-based control on nonlinear, partially-observed dynamical systems. The parameterization is based on a nonlinear version of the Youla parameterization and the recently proposed Recurrent Equilibrium Network (REN) class of models. We prove that the resulting Youla-REN parameterization automatically satisfies stability (contraction) and user-tunable robustness (Lipschitz) conditions on the closed-loop system. This means it can be used for safe learning-based control with no additional constraints or projections required to enforce stability or robustness. We test the new policy class in simulation on two reinforcement learning tasks: 1) magnetic suspension, and 2) inverting a rotary-arm pendulum. We find that the Youla-REN performs similarly to existing learning-based and optimal control methods while also ensuring stability and exhibiting improved robustness to adversarial disturbances. | 翻訳日:2023-11-15 19:01:07 公開日:2023-11-13 |
# 圧縮埋め込み層のレビューとレコメンダシステムへの応用 Review of compressed embedding layers and their applications for recommender systems ( http://arxiv.org/abs/2306.13724v2 ) ライセンス: Link先を確認 | Tamas Hajgato | (参考訳) 本稿では,学習可能な圧縮埋め込み層に関する文献を概観し,巨大ニューラルネットワークリコメンデータシステムへの適用性について考察する。
また,圧縮埋め込み層を用いて測定した結果を報告する。 We review the literature on trainable, compressed embedding layers and discuss their applicability for compressing gigantic neural recommender systems. We also report the results we measured with our compressed embedding layers. | 翻訳日:2023-11-15 18:53:31 公開日:2023-11-13 |
# 重力波データにおけるコンパクト二元融合検出のための頑健で信頼性の高い深層学習手法 Towards a robust and reliable deep learning approach for detection of compact binary mergers in gravitational wave data ( http://arxiv.org/abs/2306.11797v2 ) ライセンス: Link先を確認 | Shreejit Jadhav, Mihir Shrivastava, Sanjit Mitra | (参考訳) 一般化信号とノイズモデルを学ぶためのディープラーニング(DL)アプローチの能力は、GPU上での高速な推論と相まって、速度、パラメータ空間カバレッジ、探索感度の点で重力波(GW)探索の強化を大いに約束している。
しかし、DLモデルの不透明な性質は信頼性を著しく損なう。
本研究は,DLモデルを段階的に開発し,その堅牢性と信頼性の向上を目指したものである。
まず,データ中の「チャープ」信号の特徴の視覚的強度をよりよく反映した新しい指標を導出することにより,トレーニングデータの純度維持の課題に対処する。
可変オートエンコーダ (VAE) によって得られる縮小された滑らかな表現を用いて, コンパクトなバイナリ合体 (CBC) 信号を探す分類器を構築する。
実際のLIGOデータに対するテストでは,モデルの性能が印象的であった。
しかし、敵攻撃によるモデルの堅牢性を検証し、その単純な障害モードを特定し、そのようなモデルが依然として脆弱であることを示す。
堅牢性を実現するための第一歩として,GAN(Generative Adversarial Network)を含む新しいフレームワークでモデルを再訓練する。
トレーニングの過程で、モデルは敵によって特定される障害の一次モードを取り除くことを学ぶ。
絶対的ロバスト性は事実上達成できないが、モデルの異なる層で抽出された特徴のスパース性や縮退性といったトレーニングによって得られた基本的な改善を実証する。
GAN トレーニング前後の実際の LIGO データのモデル性能において,これらの利得は事実上ゼロ損失で達成されることを示す。
8.8日間のLIGOデータの直接探索により、GWTC-2.1、GW 190519_153544、GW 190521_074359の2つの重要なCBCイベントを復元する。
また, 注入試験から得られた検索感度についても報告する。 The ability of deep learning (DL) approaches to learn generalised signal and noise models, coupled with their fast inference on GPUs, holds great promise for enhancing gravitational-wave (GW) searches in terms of speed, parameter space coverage, and search sensitivity. However, the opaque nature of DL models severely harms their reliability. In this work, we meticulously develop a DL model stage-wise and work towards improving its robustness and reliability. First, we address the problems in maintaining the purity of training data by deriving a new metric that better reflects the visual strength of the 'chirp' signal features in the data. Using a reduced, smooth representation obtained through a variational auto-encoder (VAE), we build a classifier to search for compact binary coalescence (CBC) signals. Our tests on real LIGO data show an impressive performance of the model. However, upon probing the robustness of the model through adversarial attacks, its simple failure modes were identified, underlining how such models can still be highly fragile. As a first step towards bringing robustness, we retrain the model in a novel framework involving a generative adversarial network (GAN). Over the course of training, the model learns to eliminate the primary modes of failure identified by the adversaries. Although absolute robustness is practically impossible to achieve, we demonstrate some fundamental improvements earned through such training, like sparseness and reduced degeneracy in the extracted features at different layers inside the model. We show that these gains are achieved at practically zero loss in terms of model performance on real LIGO data before and after GAN training. Through a direct search on 8.8 days of LIGO data, we recover two significant CBC events from GWTC-2.1, GW190519_153544 and GW190521_074359. We also report the search sensitivity obtained from an injection study. | 翻訳日:2023-11-15 18:52:56 公開日:2023-11-13 |
# ルビックキューブのクリフォード合成へのアプローチ A Rubik's Cube inspired approach to Clifford synthesis ( http://arxiv.org/abs/2307.08684v2 ) ライセンス: Link先を確認 | Ning Bao and Gavin S. Hartnett | (参考訳) 任意のクリフォード要素をクリフォードゲートの列に分解する問題はクリフォード合成として知られている。
これと有名なルービックキューブ問題との類似性から着想を得て,同一視までの距離の近似を学習し,クリフォード合成のための機械学習手法を開発した。
このアプローチは確率的かつ計算集約的です。
しかし、分解が成功すると、しばしば既存の合成アルゴリズムよりもゲートが少なくなる。
さらに、任意のゲートセット、デバイストポロジー、ゲートフィディティを組み込むことができるため、アプローチを特定のデバイスに合わせることができるという、既存のアルゴリズムよりもはるかに柔軟なアプローチです。 The problem of decomposing an arbitrary Clifford element into a sequence of Clifford gates is known as Clifford synthesis. Drawing inspiration from similarities between this and the famous Rubik's Cube problem, we develop a machine learning approach for Clifford synthesis based on learning an approximation to the distance to the identity. This approach is probabilistic and computationally intensive. However, when a decomposition is successfully found, it often involves fewer gates than existing synthesis algorithms. Additionally, our approach is much more flexible than existing algorithms in that arbitrary gate sets, device topologies, and gate fidelities may incorporated, thus allowing for the approach to be tailored to a specific device. | 翻訳日:2023-11-15 18:37:48 公開日:2023-11-13 |
# 無限範囲散逸的横場イジングモデルの厳密解 Exact solution of the infinite-range dissipative transverse-field Ising model ( http://arxiv.org/abs/2307.06946v2 ) ライセンス: Link先を確認 | David Roberts and Aashish A. Clerk | (参考訳) 逆場におけるイジングモデルの散逸的変種は、駆動散逸性量子相転移を理解するためのパラダイム的性格と、原子物理学と量子シミュレーションにおける多様な実験プラットフォームをモデル化する関連性から、オープン量子多体系の解析において最も重要なモデルの1つである。
ここでは、局所散逸と不均一な横場を含む無限範囲相互作用の極限における横場イジングモデルの定常状態の正確な解を示す。
我々の解は、集合スピン対称性や置換対称性が欠如しているにもかかわらず成り立つ。
これにより、一階および二階の散逸相転移、駆動散逸相臨界を調べ、驚くべき「スピン遮断」現象の出現を捉えることができる。
空間的に変化する局所場を記述するための解の能力は、無秩序な開量子系を数値的手法で扱うのが極めて困難になるような方法で研究する新しいツールを提供する。 The dissipative variant of the Ising model in a transverse field is one of the most important models in the analysis of open quantum many-body systems, due to its paradigmatic character for understanding driven-dissipative quantum phase transitions, as well as its relevance in modelling diverse experimental platforms in atomic physics and quantum simulation. Here, we present an exact solution for the steady state of the transverse-field Ising model in the limit of infinite-range interactions, with local dissipation and inhomogeneous transverse fields. Our solution holds despite the lack of any collective spin symmetry or even permutation symmetry. It allows us to investigate first- and second-order dissipative phase transitions, driven-dissipative criticality, and captures the emergence of a surprising "spin blockade" phenomenon. The ability of the solution to describe spatially-varying local fields provides a new tool to study disordered open quantum systems in regimes that would be extremely difficult to treat with numerical methods. | 翻訳日:2023-11-15 18:37:31 公開日:2023-11-13 |
# 物理的不可逆過程における「消去」のエントロピーコスト Entropy Cost of "Erasure" in Physically Irreversible Processes ( http://arxiv.org/abs/2307.02643v4 ) ライセンス: Link先を確認 | R. E. Kastner, Andreas Schlatter | (参考訳) ランダウアーの原理の制限形式は、計算的な考察とは無関係に、共役可観測物に関連した合同エントロピーを参照して、熱システムに対して成り立つ。
非可逆的物理的過程に対する補償エントロピーの源は、情報理論的なアプローチで伝統的に想定された認識的不確実性ではなく、相互に相容れない可観測性の値に付随する存在論的不確実性にあることが示されている。
特に、リセット操作による論理的(直観的)情報の消去は熱力学的エントロピーの消去と等価ではないことが明確に示され、従来のランダウアーの原理の情報理論形式は物理学では支持されない。
分析のさらなる意味は、現実世界にマクスウェルの悪魔はいないということである。 A restricted form of Landauer's Principle, independent of computational considerations, is shown to hold for thermal systems by reference to the joint entropy associated with conjugate observables. It is shown that the source of the compensating entropy for irreversible physical processes is due to the ontological uncertainty attending values of such mutually incompatible observables, rather than due to epistemic uncertainty as traditionally assumed in the information-theoretic approach. In particular, it is explicitly shown that erasure of logical (epistemic) information via reset operations is not equivalent to erasure of thermodynamic entropy, so that the traditional, information-theoretic form of Landauer's Principle is not supported by the physics. A further implication of the analysis is that there is no Maxwell's Demon in the real world. | 翻訳日:2023-11-15 18:36:27 公開日:2023-11-13 |
# スケーラブルな分子機械学習のためのTanimoto Random機能 Tanimoto Random Features for Scalable Molecular Machine Learning ( http://arxiv.org/abs/2306.14809v2 ) ライセンス: Link先を確認 | Austin Tripp, Sergio Bacallado, Sukriti Singh, Jos\'e Miguel Hern\'andez-Lobato | (参考訳) 谷本係数は、離散指紋として表される分子間の類似度を距離メートル法または正定核として測定するために一般的に用いられる。
多くのカーネル法はランダムな特徴近似を用いて加速できるが、現在、谷本核にはそのような近似が欠如している。
本稿では,このカーネルを大規模データセットにスケール可能な2種類の新しいランダムな特徴を提案し,その過程で実数値ベクトルへのカーネルの新たな拡張を発見する。
我々はこれらのランダムな特徴を理論的に特徴づけ、グラム行列のスペクトルノルムに誤差境界を与える。
これらのランダムな特徴は実世界のデータセットの谷本係数の近似に有効であり、分子特性の予測や最適化タスクに有用であることを示す。 The Tanimoto coefficient is commonly used to measure the similarity between molecules represented as discrete fingerprints, either as a distance metric or a positive definite kernel. While many kernel methods can be accelerated using random feature approximations, at present there is a lack of such approximations for the Tanimoto kernel. In this paper we propose two kinds of novel random features to allow this kernel to scale to large datasets, and in the process discover a novel extension of the kernel to real-valued vectors. We theoretically characterize these random features, and provide error bounds on the spectral norm of the Gram matrix. Experimentally, we show that these random features are effective at approximating the Tanimoto coefficient of real-world datasets and are useful for molecular property prediction and optimization tasks. | 翻訳日:2023-11-15 18:35:11 公開日:2023-11-13 |
# 局所スクイージングによる2モードガウス状態のベル非局在性 Bell non-locality in two-mode Gaussian states revealed via local squeezing ( http://arxiv.org/abs/2309.03016v2 ) ライセンス: Link先を確認 | A. Lezama and A. Auyuanet | (参考訳) 局所ユニタリ変換は、局所測定の結果に影響を与えるが、絡み合った状態を共有する2つの系間の量子相関には影響しない。
2モードガウス系のCHSHベル不等式違反を許すため、局所的なスクイーズ操作を考慮し、拡張された観測機器群を導入する。
局所的スクイーズにより,非局所的な2モード状態の同定が可能であることを示す。
特に, 局所的なスクイージングと光子/非光子識別は, 純および混合2モードガウス状態の広いアンサンブルにおいて非局所性を明らかにするのに十分であることを示す。 Local unitary transforms cannot affect the quantum correlations between two systems sharing an entangled state although they do influence the outcomes of local measurements. By considering local squeezing operations we introduce an extended family of observables allowing violation of the CHSH Bell inequality for two-mode Gaussian systems. We show that local squeezing can enable or enhance the identification of non-local two-mode states. In particular, we show that local squeezing followed by photons/no-photons discrimination can suffice to reveal non-locality in a broad ensemble of pure and mixed two-mode Gaussian states. | 翻訳日:2023-11-15 18:26:47 公開日:2023-11-13 |
# 量子ドット内のベル状態テクスチャ間のキャビティ誘起スイッチング Cavity-induced switching between Bell-state textures in a quantum dot ( http://arxiv.org/abs/2308.08722v2 ) ライセンス: Link先を確認 | S. S. Beltr\'an-Romero, F. J. Rodr\'iguez, L. Quiroga, N. F. Johnson | (参考訳) マイクロ波キャビティ内のナノスケール量子ドットは、量子化された光と磁場の存在下で電子-電子相互作用とそのスピンを探索するための実験室として用いられる。
共鳴におけるこの相互作用の単純な理論モデルが、複雑だが測定可能な効果をいかに予測するかを示す。
スピン、相対モード、放射を結合する新しいポラリトン状態が出現する。
これらの状態は複雑なスピン空間相関を持ち、マイクロ波空洞場によって制御される偏光子遷移を行う。
我々は,一重項および不均一なベル状態分布を示す高相関スピンと電荷密度を含む新しいトポロジ効果を明らかにする。
これらの遷移のシグネチャは光子分布にインプリントされ、将来の実験やナノスケール量子技術で光読み出しプロトコルを可能にする。 Nanoscale quantum dots in microwave cavities can be used as a laboratory for exploring electron-electron interactions and their spin in the presence of quantized light and a magnetic field. We show how a simple theoretical model of this interplay at resonance predicts complex but measurable effects. New polariton states emerge that combine spin, relative modes, and radiation. These states have intricate spin-space correlations and undergo polariton transitions controlled by the microwave cavity field. We uncover novel topological effects involving highly correlated spin and charge density that display singlet-triplet and inhomogeneous Bell-state distributions. Signatures of these transitions are imprinted in the photon distribution, which will allow for optical read-out protocols in future experiments and nanoscale quantum technologies. | 翻訳日:2023-11-15 18:24:03 公開日:2023-11-13 |
# ヨダ: エリアを混乱させるだけです。
画像超解像に対する領域共振拡散法 YODA: You Only Diffuse Areas. An Area-Masked Diffusion Approach For Image Super-Resolution ( http://arxiv.org/abs/2308.07977v2 ) ライセンス: Link先を確認 | Brian B. Moser, Stanislav Frolov, Federico Raue, Sebastian Palacio and Andreas Dengel | (参考訳) 本研究は, 単一画像超解法(SISR)における部分拡散法である「You Only Diffuse Areas」(YODA)を紹介する。
中心となる考え方は,低解像度画像からの注目マップと拡散過程における現在の時間ステップに基づいて,空間領域での拡散を選択的に利用することである。
この時間依存のターゲティングは、反復的なリファインメントプロセス、すなわち詳細リッチなオブジェクトから最も恩恵を受ける領域にフォーカスすることで、より効果的な高分解能出力への変換を可能にする。
拡散型SISR法 SR3 と SRDiff を拡張して YODA を実証的に検証した。
実験ではPSNR, SSIM, LPIPS測定値にまたがって, 対面および一般SRの性能向上を示す。
注目すべき発見は、yodaのトレーニングに対する安定化効果であり、特に小さなバッチサイズによって引き起こされる場合、リソース制約されたシナリオに寄与する可能性がある。
提案した空間的・時間的適応拡散機構は,注目マップ抽出技術の開発やスペーサー拡散に基づく推論遅延の最適化など,有望な研究方向を開く。 This work introduces "You Only Diffuse Areas" (YODA), a novel method for partial diffusion in Single-Image Super-Resolution (SISR). The core idea is to utilize diffusion selectively on spatial regions based on attention maps derived from the low-resolution image and the current time step in the diffusion process. This time-dependent targeting enables a more effective conversion to high-resolution outputs by focusing on areas that benefit the most from the iterative refinement process, i.e., detail-rich objects. We empirically validate YODA by extending leading diffusion-based SISR methods SR3 and SRDiff. Our experiments demonstrate new state-of-the-art performance gains in face and general SR across PSNR, SSIM, and LPIPS metrics. A notable finding is YODA's stabilization effect on training by reducing color shifts, especially when induced by small batch sizes, potentially contributing to resource-constrained scenarios. The proposed spatial and temporal adaptive diffusion mechanism opens promising research directions, including developing enhanced attention map extraction techniques and optimizing inference latency based on sparser diffusion. | 翻訳日:2023-11-15 18:23:52 公開日:2023-11-13 |
# ノイズ観測における改善獲得関数の補正 A Corrected Expected Improvement Acquisition Function Under Noisy Observations ( http://arxiv.org/abs/2310.05166v3 ) ライセンス: Link先を確認 | Han Zhou and Xingchen Ma and Matthew B Blaschko | (参考訳) 期待される改善の逐次最大化(EI)は、ベイズ最適化において、ノイズの多い観測を扱うための単純さと能力のために最も広く使われている政策の一つである。
特に、改善関数は、ノイズの多い設定において、最良の後部平均を最も多く使用します。
しかし、既存の解に付随する不確実性は、多くの分析的ei型手法では無視されることが多い: 閉形式獲得関数はノイズのない設定で導かれるが、ノイズの観測を伴う設定に適用される。
この制限に対処するために,ガウス過程(GP)モデルによって提供される共分散情報を組み込んで,その閉形式表現を補正するEIの修正を提案する。
この取得関数は古典的なノイズフリーな結果に特化しており、ベイズ最適化ソフトウェアパッケージ、チュートリアル、教科書にその公式を置き換えるべきである。
この強化された取得は、ノイズやノイズのない設定に対して優れた一般化を提供する。
本研究では,不連続観測雑音下での累積残差に対するサブ線形収束率を求める。
実験の結果,提案する獲得関数は,ブラックボックス最適化のためのベンチマーク関数やニューラルネットワークモデル圧縮のパラメータ探索において,ノイズ観測の存在下ではeiよりも優れることがわかった。 Sequential maximization of expected improvement (EI) is one of the most widely used policies in Bayesian optimization because of its simplicity and ability to handle noisy observations. In particular, the improvement function often uses the best posterior mean as the best incumbent in noisy settings. However, the uncertainty associated with the incumbent solution is often neglected in many analytic EI-type methods: a closed-form acquisition function is derived in the noise-free setting, but then applied to the setting with noisy observations. To address this limitation, we propose a modification of EI that corrects its closed-form expression by incorporating the covariance information provided by the Gaussian Process (GP) model. This acquisition function specializes to the classical noise-free result, and we argue should replace that formula in Bayesian optimization software packages, tutorials, and textbooks. This enhanced acquisition provides good generality for noisy and noiseless settings. We show that our method achieves a sublinear convergence rate on the cumulative regret bound under heteroscedastic observation noise. Our empirical results demonstrate that our proposed acquisition function can outperform EI in the presence of noisy observations on benchmark functions for black-box optimization, as well as on parameter search for neural network model compression. | 翻訳日:2023-11-15 18:14:35 公開日:2023-11-13 |
# 一般化一様行列 Generalized unistochastic matrices ( http://arxiv.org/abs/2310.03436v2 ) ライセンス: Link先を確認 | Ion Nechita, Zikun Ouyang, Anna Szczepanek | (参考訳) 一様行列を一般化したビストカスティック行列のクラスについて検討する。
複素二部ユニタリ作用素が与えられたとき、ブロックのフロベニウスノルムの正規化二乗のエントリーを持つ双正則行列を構成する。
一般化された非正則行列の集合の閉包はバーホフポリトープ全体であることを示す。
我々は、Birkhoffポリトープの端点を、我々の集合の族に属する与えられたレベルに属する点の特徴付け、異なる(非凸)レベルがリッチな包含構造を持つことを示す。
オルソステキスティック行列の対応する一般化についても検討する。
最後に,集合上で誘導される自然確率測度をユニタリ群のハール測度により導入し,研究する。
これらの確率測度は、一様行列の集合上の自然測度とファン・デル・ワーデン行列上で支えられるディラック測度とを補間する。 We study a class of bistochastic matrices generalizing unistochastic matrices. Given a complex bipartite unitary operator, we construct a bistochastic matrix having as entries the normalized squares of Frobenius norm of the blocks. We show that the closure of the set of generalized unistochastic matrices is the whole Birkhoff polytope. We characterize the points on the edges of the Birkhoff polytope that belong to a given level of our family of sets, proving that the different (non-convex) levels have a rich inclusion structure. We also study the corresponding generalization of orthostochastic matrices. Finally, we introduce and study the natural probability measures induced on our sets by the Haar measure of the unitary group. These probability measures interpolate between the natural measure on the set of unistochastic matrices and the Dirac measure supported on the van der Waerden matrix. | 翻訳日:2023-11-15 18:14:16 公開日:2023-11-13 |
# Fetal-BET:胎児MRIのための脳抽出ツール Fetal-BET: Brain Extraction Tool for Fetal MRI ( http://arxiv.org/abs/2310.01523v2 ) ライセンス: Link先を確認 | Razieh Faghihpirayesh, Davood Karimi, Deniz Erdo\u{g}mu\c{s}, Ali Gholipour | (参考訳) 胎児脳抽出は、ほとんどの計算胎児脳MRIパイプラインにおいて必要な第一歩である。
しかし、標準的な胎児の頭部ポーズ、検査中の胎児の動き、発達する胎児の脳と近隣の胎児および母体解剖の様々な配列とスキャン条件の異種な出現など、非常に困難な課題であった。
このタスクに効果的に対処する機械学習手法の開発には、これまで利用できなかった大規模で豊富なラベル付きデータセットが必要である。
結果として、様々な胎児MRIで正確な胎児脳の抽出方法が現在存在しない。
本研究ではまず,約72,000個の胎児脳MRI画像の注釈付きデータセットを構築した。
本データセットでは,T2強調,拡散強調,機能MRIの3つのMRIシーケンスを異なるスキャナーで取得した。
また、正常脳と病理脳も含む。
このデータセットを用いて,U-Netスタイルアーキテクチャ,アテンション機構,マルチコントラスト特徴学習,高速で正確で一般化可能な自動胎児脳抽出のためのデータ拡張などを活用した深層学習手法の開発と検証を行った。
本手法では,マルチコントラスト(マルチシーケンス)胎児MRIデータからの豊富な情報を活用し,胎児の脳構造を正確に把握する。
独立試験データを用いた評価では, 異なるスキャナー, 病的脳, および様々な妊娠段階において, 異種検査データから正確な脳抽出が達成されている。
この堅牢性は、胎児脳のイメージングと画像解析におけるディープラーニングモデルの有用性を裏付けるものです。 Fetal brain extraction is a necessary first step in most computational fetal brain MRI pipelines. However, it has been a very challenging task due to non-standard fetal head pose, fetal movements during examination, and vastly heterogeneous appearance of the developing fetal brain and the neighboring fetal and maternal anatomy across various sequences and scanning conditions. Development of a machine learning method to effectively address this task requires a large and rich labeled dataset that has not been previously available. As a result, there is currently no method for accurate fetal brain extraction on various fetal MRI sequences. In this work, we first built a large annotated dataset of approximately 72,000 2D fetal brain MRI images. Our dataset covers the three common MRI sequences including T2-weighted, diffusion-weighted, and functional MRI acquired with different scanners. Moreover, it includes normal and pathological brains. Using this dataset, we developed and validated deep learning methods, by exploiting the power of the U-Net style architectures, the attention mechanism, multi-contrast feature learning, and data augmentation for fast, accurate, and generalizable automatic fetal brain extraction. Our approach leverages the rich information from multi-contrast (multi-sequence) fetal MRI data, enabling precise delineation of the fetal brain structures. Evaluations on independent test data show that our method achieves accurate brain extraction on heterogeneous test data acquired with different scanners, on pathological brains, and at various gestational stages. This robustness underscores the potential utility of our deep learning model for fetal brain imaging and image analysis. | 翻訳日:2023-11-15 18:13:41 公開日:2023-11-13 |
# 教師なしグラフ深層学習が都市域の創発的洪水リスクプロファイルを明らかに Unsupervised Graph Deep Learning Reveals Emergent Flood Risk Profile of Urban Areas ( http://arxiv.org/abs/2309.14610v3 ) ライセンス: Link先を確認 | Kai Yin, Ali Mostafavi | (参考訳) 都市洪水リスクは、複雑な空間的な洪水依存関係とともに、洪水の危険性、洪水暴露、社会的および身体的脆弱性に関連する複数の特徴間の複雑な非線形相互作用から生じる。
しかし, 都市浸水リスクを特徴付ける既存のアプローチは, 主に洪水平原の地図に基づいており, 特徴の相互作用や空間領域間の関係を考慮せずに, 限られた特徴, 主に危険・露光の特徴に着目している。
このギャップを解消するために,新しい教師なしグラフ深層学習モデル(FloodRisk-Net)に基づく都市洪水リスク評価モデルを提案する。
floodrisk-netは、地域間の空間的依存を捉え、洪水の危険度と都市の特徴の間の複雑で非線形な相互作用を捉えて、創発的な洪水リスクを特定することができる。
米国内の複数の大都市圏統計地域(MSA)のデータを用いて、このモデルは洪水のリスクを6つの都市固有のレベルに特徴づける。
このモデルは解釈可能であり、各洪水リスクレベルの領域の特徴分析が可能であり、各msa内で最大の洪水リスクを形成する3つのアーチタイプを識別することができる。
洪水リスクは各MSA内の階層構造に空間的に分布しており、中核都市が最も高い洪水リスクを負っている。
複数の都市が洪水リスクレベルが高く、空間格差が低く、都市開発と洪水リスク低減のバランスをとるための選択肢が限られている。
洪水リスクの最大値と不均一な空間分布を考慮し, 関連する洪水リスク低減戦略について議論した。 Urban flood risk emerges from complex and nonlinear interactions among multiple features related to flood hazard, flood exposure, and social and physical vulnerabilities, along with the complex spatial flood dependence relationships. Existing approaches for characterizing urban flood risk, however, are primarily based on flood plain maps, focusing on a limited number of features, primarily hazard and exposure features, without consideration of feature interactions or the dependence relationships among spatial areas. To address this gap, this study presents an integrated urban flood-risk rating model based on a novel unsupervised graph deep learning model (called FloodRisk-Net). FloodRisk-Net is capable of capturing spatial dependence among areas and complex and nonlinear interactions among flood hazards and urban features for specifying emergent flood risk. Using data from multiple metropolitan statistical areas (MSAs) in the United States, the model characterizes their flood risk into six distinct city-specific levels. The model is interpretable and enables feature analysis of areas within each flood-risk level, allowing for the identification of the three archetypes shaping the highest flood risk within each MSA. Flood risk is found to be spatially distributed in a hierarchical structure within each MSA, where the core city disproportionately bears the highest flood risk. Multiple cities are found to have high overall flood-risk levels and low spatial inequality, indicating limited options for balancing urban development and flood-risk reduction. Relevant flood-risk reduction strategies are discussed considering ways that the highest flood risk and uneven spatial distribution of flood risk are formed. | 翻訳日:2023-11-15 18:11:05 公開日:2023-11-13 |
# 独立意味試験の併用による中心的及び辺縁的拒絶のバランス Balancing central and marginal rejection when combining independent significance tests ( http://arxiv.org/abs/2310.16600v2 ) ライセンス: Link先を確認 | Chris Salahub and Wayne Oldford | (参考訳) p$-valuesのコレクションの重要性を評価する一般的なアプローチは、プール関数、特に元のデータが利用できない場合にそれらを組み合わせる。
これらのプールされた$p$-valuesは、$p$-valueのサンプルを1つの数値に変換し、不必要な$p$-valueのように振る舞う。
これらの関数の議論を明らかにするために、一般のプーリング式に先立つ$p$-values における非null証拠の強さと頻度を伝達するテレスコップ系列の代替仮説が導入された。
特定の代替品に対する$p$-valueをプールしたUMPのパターンは、中央および辺縁の拒絶レベルの定義と議論を$\alpha$で動機付けている。
中心的拒絶は常に限界的拒絶よりも大きいか等しいことが証明され、プールされた$p$-valuesの2つのバランスを測定するための商を動機付ける。
この商を制御するために$\chi^2_{\kappa}$ Quantile変換に基づく合成関数が提案され、UMPに対して不特定パラメータに対して堅牢であることが示されている。
異なるパラメータ設定の異なるパワーは、このプールされた$p$-valueが最小化された場所に基づいて、妥当な代替のマップを動機付ける。 A common approach to evaluating the significance of a collection of $p$-values combines them with a pooling function, in particular when the original data are not available. These pooled $p$-values convert a sample of $p$-values into a single number which behaves like a univariate $p$-value. To clarify discussion of these functions, a telescoping series of alternative hypotheses are introduced that communicate the strength and prevalence of non-null evidence in the $p$-values before general pooling formulae are discussed. A pattern noticed in the UMP pooled $p$-value for a particular alternative motivates the definition and discussion of central and marginal rejection levels at $\alpha$. It is proven that central rejection is always greater than or equal to marginal rejection, motivating a quotient to measure the balance between the two for pooled $p$-values. A combining function based on the $\chi^2_{\kappa}$ quantile transformation is proposed to control this quotient and shown to be robust to mis-specified parameters relative to the UMP. Different powers for different parameter settings motivate a map of plausible alternatives based on where this pooled $p$-value is minimized. | 翻訳日:2023-11-15 18:03:17 公開日:2023-11-13 |
# 時変誘電体を用いた量子電磁力学 Quantum Electrodynamics with Time-varying Dielectrics ( http://arxiv.org/abs/2310.13878v2 ) ライセンス: Link先を確認 | Ashwith Prabhu, Jennifer Parra-Contreras, Elizabeth A. Goldschmidt, Kanu Sinha | (参考訳) 本稿では、時変光特性を持つ誘電体媒体の存在下での電磁場定量化の枠組みを提案する。
電磁環境と相互作用する物質場の集合体として誘電体の微視的モデルを考えると、動的に変化する光-物質結合が可能である。
結合した光物質自由度の正規モードを求め、対応する生成および消滅作用素が等時正準可換関係に従うことを示す。
これらの正常モードは、動的誘電体媒体近傍の量子エミッタと結合し、結果として生じる原子の放射特性が得られることを示す。
この結果は,多種多様な物理プラットフォームと時間スケールで実現可能な時間変化境界条件に関係している。 We present a framework for quantization of electromagnetic field in the presence of dielectric media with time-varying optical properties. Considering a microscopic model for the dielectric as a collection of matter fields interacting with the electromagnetic environment, we allow for the possibility of dynamically varying light-matter coupling. We obtain the normal modes of the coupled light-matter degrees of freedom, showing that the corresponding creation and annihilation operators obey equal-time canonical commutation relations. We show that these normal modes can consequently couple to quantum emitters in the vicinity of dynamic dielectric media, and the resulting radiative properties of atoms are thus obtained. Our results are pertinent to time-varying boundary conditions realizable across a wide range of state-of-the-art physical platforms and timescales. | 翻訳日:2023-11-15 18:00:23 公開日:2023-11-13 |
# ChipNeMo: チップ設計のためのドメイン適応LDM ChipNeMo: Domain-Adapted LLMs for Chip Design ( http://arxiv.org/abs/2311.00176v2 ) ライセンス: Link先を確認 | Mingjie Liu, Teodor-Dumitru Ene, Robert Kirby, Chris Cheng, Nathaniel Pinckney, Rongjian Liang, Jonah Alben, Himyanshu Anand, Sanmitra Banerjee, Ismet Bayraktaroglu, Bonita Bhaskaran, Bryan Catanzaro, Arjun Chaudhuri, Sharon Clay, Bill Dally, Laura Dang, Parikshit Deshpande, Siddhanth Dhodhi, Sameer Halepete, Eric Hill, Jiashang Hu, Sumit Jain, Brucek Khailany, Kishor Kunal, Xiaowei Li, Hao Liu, Stuart Oberman, Sujeet Omar, Sreedhar Pratty, Jonathan Raiman, Ambar Sarkar, Zhengjiang Shao, Hanfei Sun, Pratik P Suthar, Varun Tej, Kaizhe Xu, Haoxing Ren | (参考訳) ChipNeMoは、産業用チップ設計のための大規模言語モデル(LLM)の適用を探求することを目的としている。
市販またはオープンソース LLM を直接デプロイする代わりに、カスタムトークン化、ドメイン適応型継続事前トレーニング、ドメイン固有命令による教師付き微調整(SFT)、ドメイン適応型検索モデルといったドメイン適応技術を採用しています。
チップ設計のための3つのLLMアプリケーション(エンジニアリングアシスタントチャットボット、EDAスクリプト生成、バグ要約と解析)でこれらの手法を評価する。
これらのドメイン適応手法により,評価された3つのアプリケーションにおいて,汎用ベースモデルよりも大幅にllm性能が向上し,様々な設計タスクにおいて,最大5倍のモデルサイズ削減が可能となった。
私たちの調査結果は、現在の結果と理想的な結果の間にはまだ改善の余地があることも示しています。
ドメイン適応型LLMアプローチのさらなる研究は、将来このギャップを埋めるのに役立つと信じている。 ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future. | 翻訳日:2023-11-15 17:49:45 公開日:2023-11-13 |
# Promise:事前訓練画像ベースモデルを用いたプロンプト駆動型3次元医用画像セグメンテーション Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained Image Foundation Models ( http://arxiv.org/abs/2310.19721v3 ) ライセンス: Link先を確認 | Hao Li, Han Liu, Dewei Hu, Jiacheng Wang, Ipek Oguz | (参考訳) データ取得の課題やラベルの可用性といった、医療画像における一般的な問題に対処するために、自然から医療画像領域への学習の伝達は、信頼できるセグメンテーション結果を生成するための有効な戦略となる。
しかしながら、コントラストの相違への対処、解剖学的変動の管理、および3Dセグメンテーションタスクのための2D事前訓練モデルの適用など、ドメイン間のいくつかの既存の障壁を分解する必要がある。
本稿では,事前学習した2次元画像基盤モデルからの知識を活用すべく,単一点プロンプトのみを用いたプロンプト駆動3次元医用画像セグメンテーションモデルpromiseを提案する。
特に,Segment Anything Model (SAM) から事前学習した視覚変換器を用いて,事前学習した重みを更新することなく,深度関連3D空間コンテキストを抽出する軽量アダプタを統合する。
頑健な結果を得るために,補完的なエンコーダを持つハイブリッドネットワークを設計し,正確な境界を達成するために境界認識損失を提案する。
大腸癌と膵腫瘍の分節の2つの公開データセットについて検討した。
提案手法は,最先端のセグメンテーション手法と即時エンジニアリングとを比較し,優れた性能を実現する。
コードはhttps://github.com/MedICL-VU/ProMISeで公開されている。 To address prevalent issues in medical imaging, such as data acquisition challenges and label availability, transfer learning from natural to medical image domains serves as a viable strategy to produce reliable segmentation results. However, several existing barriers between domains need to be broken down, including addressing contrast discrepancies, managing anatomical variability, and adapting 2D pretrained models for 3D segmentation tasks. In this paper, we propose ProMISe,a prompt-driven 3D medical image segmentation model using only a single point prompt to leverage knowledge from a pretrained 2D image foundation model. In particular, we use the pretrained vision transformer from the Segment Anything Model (SAM) and integrate lightweight adapters to extract depth-related (3D) spatial context without updating the pretrained weights. For robust results, a hybrid network with complementary encoders is designed, and a boundary-aware loss is proposed to achieve precise boundaries. We evaluate our model on two public datasets for colon and pancreas tumor segmentations, respectively. Compared to the state-of-the-art segmentation methods with and without prompt engineering, our proposed method achieves superior performance. The code is publicly available at https://github.com/MedICL-VU/ProMISe. | 翻訳日:2023-11-15 17:48:39 公開日:2023-11-13 |
# スピンスピン結合を持つ2量子ラビモデルにおける熱力学的限界 Thermodynamic Limit in the Two-qubit Quantum Rabi Model with Spin-Spin Coupling ( http://arxiv.org/abs/2310.19595v2 ) ライセンス: Link先を確認 | R. Grimaudo, A. Messina, A. Sergi, E. Solano, and D. Valenti | (参考訳) 同じ量子化場モードに結合された2つの相互作用量子ビットからなる量子系において、2階超放射性量子相転移が発生する。
スピンスピン相互作用を持つ積分可能な2量子ビット量子ラビモデルに対して,熱力学的に適切な限界を導入する。
すなわち、スピンとモードの周波数比に関係なく、スピンスピンとスピンモードのカップリングとモード周波数との無限比によって決定される。 The occurrence of a second-order superradiant quantum phase transition is brought to light in a quantum system consisting of two interacting qubits coupled to the same quantized field mode. We introduce an appropriate thermodynamic-like limit for the integrable two-qubit quantum Rabi model with spin-spin interaction. Namely, it is determined by the infinite ratios of the spin-spin and the spin-mode couplings to the mode frequency, regardless of the spin-to-mode frequency ratios. | 翻訳日:2023-11-15 17:47:35 公開日:2023-11-13 |
# 重み付き雑音下での非線形確率勾配の高確率収束境界 High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise ( http://arxiv.org/abs/2310.18784v2 ) ライセンス: Link先を確認 | Aleksandar Armacki, Pranay Sharma, Gauri Joshi, Dragana Bajovic, Dusan Jakovetic, Soummya Kar | (参考訳) 最近のいくつかの研究は、確率勾配降下 (sgd) の収束 \textit{in high probability} とそのクリップ付き変種を研究している。
バニラSGDと比較して、切断されたSGDは事実上安定しており、失敗確率に対する対数依存のさらなる理論的利点がある。
しかし、SGDの他の実用的な非線形変種、例えば符号 SGD、量子化 SGD および正規化 SGD の収束は、通信効率の向上や加速収束の達成をはるかに少なくする。
本研究では、非線形SGD法の幅広いクラスにおける収束境界 \textit{in high probability} について検討する。
リプシッツ連続勾配を持つ強凸損失関数に対して, 雑音が重み付きであっても, 故障確率に対する対数依存性が証明される。
クリッピングされたSGDの結果よりも厳密に一般的な結果として, クリッピング, 正規化, 量子化など, 有界(成分方向, 関節)の出力を持つ非線形性を示す。
さらに、重み付きノイズによる既存の結果は、$\eta$-th central moments, with $\eta \in (1,2]$である。
対照的に、洗練された分析は$\eta=1$でも機能し、文学におけるノイズモーメントの仮定を厳密に緩和する。 Several recent works have studied the convergence \textit{in high probability} of stochastic gradient descent (SGD) and its clipped variant. Compared to vanilla SGD, clipped SGD is practically more stable and has the additional theoretical benefit of logarithmic dependence on the failure probability. However, the convergence of other practical nonlinear variants of SGD, e.g., sign SGD, quantized SGD and normalized SGD, that achieve improved communication efficiency or accelerated convergence is much less understood. In this work, we study the convergence bounds \textit{in high probability} of a broad class of nonlinear SGD methods. For strongly convex loss functions with Lipschitz continuous gradients, we prove a logarithmic dependence on the failure probability, even when the noise is heavy-tailed. Strictly more general than the results for clipped SGD, our results hold for any nonlinearity with bounded (component-wise or joint) outputs, such as clipping, normalization, and quantization. Further, existing results with heavy-tailed noise assume bounded $\eta$-th central moments, with $\eta \in (1,2]$. In contrast, our refined analysis works even for $\eta=1$, strictly relaxing the noise moment assumptions in the literature. | 翻訳日:2023-11-15 17:46:52 公開日:2023-11-13 |
# 確率主成分分析の最大確率推定の一貫性について On the Consistency of Maximum Likelihood Estimation of Probabilistic Principal Component Analysis ( http://arxiv.org/abs/2311.05046v2 ) ライセンス: Link先を確認 | Arghya Datta, Sayak Chakrabarty | (参考訳) 確率的主成分分析(PPCA)は、現在、データの周囲寸法を減らすために最も使われている統計ツールの1つである。
多次元のスケーリングから欠落したデータの計算まで、PPCAは科学や工学から定量的ファイナンスまで幅広い応用範囲を持っている。
様々な分野に適用可能であるにもかかわらず、このモデルに対する最大可能性(ML)解の健全性を正当化する理論的な保証はほとんど存在しない。
実際、最大確率推定(mle)は、回転まで真のモデルパラメータのみを回復できることはよく知られている。
主障害は、パラメータ化の回転対称性から生じるPPCAモデル固有の識別性の性質によって引き起こされる。
この曖昧さを解決するために、商位相空間を用いた新しいアプローチを提案し、特に、最大極大解が適切な商ユークリッド空間において一貫したことを示す。
さらに、我々の整合性は、MLEを超えるより一般的な推定値を含む。
ML推定の強い一貫性、したがってPPCAモデルの強い共分散推定もコンパクト性仮定の下で確立されている。 Probabilistic principal component analysis (PPCA) is currently one of the most used statistical tools to reduce the ambient dimension of the data. From multidimensional scaling to the imputation of missing data, PPCA has a broad spectrum of applications ranging from science and engineering to quantitative finance. Despite this wide applicability in various fields, hardly any theoretical guarantees exist to justify the soundness of the maximal likelihood (ML) solution for this model. In fact, it is well known that the maximum likelihood estimation (MLE) can only recover the true model parameters up to a rotation. The main obstruction is posed by the inherent identifiability nature of the PPCA model resulting from the rotational symmetry of the parameterization. To resolve this ambiguity, we propose a novel approach using quotient topological spaces and in particular, we show that the maximum likelihood solution is consistent in an appropriate quotient Euclidean space. Furthermore, our consistency results encompass a more general class of estimators beyond the MLE. Strong consistency of the ML estimate and consequently strong covariance estimation of the PPCA model have also been established under a compactness assumption. | 翻訳日:2023-11-15 17:36:05 公開日:2023-11-13 |
# CycleCL: 周期ビデオのための自己教師型学習 CycleCL: Self-supervised Learning for Periodic Videos ( http://arxiv.org/abs/2311.03402v2 ) ライセンス: Link先を確認 | Matteo Destro, Michael Gygli | (参考訳) 定期的なビデオシーケンスの分析は、自動生産システム、リモートセンシング、医療アプリケーション、物理トレーニングなどのアプリケーションにおいて重要なトピックである。
例えば、身体運動の繰り返しを数えることである。
周期データの特徴から、標準画像データセット用に設計された自己教師あり法は、周期の進行に関連する変化を捉えず、無関係なノイズを無視できない。
したがって、周期データではうまく動作しない。
本稿では,周期データを扱うための自己教師型学習手法であるCycleCLを提案する。
まず、周期データのよい視覚表現はサイクルの位相に敏感であるべきであるが、正確な反復に不変である、すなわち全ての繰り返しを通して特定の位相に対して同一の表現を生成するべきであるという洞察から始める。
ビデオの繰り返しを利用して,これらの特性を最適化した三重項損失に基づく新しいコントラスト学習法を設計する。
本手法では,事前学習した特徴を用いて,ほぼ同相のフレーム対と異なる相のフレームの負のペアをサンプリングする。
次に、機能エンコーダの最適化とトリプレットの再サンプリングを収束するまで繰り返す。
このようにモデルを最適化することで、前述の望ましい特性を持つ機能を学ぶことができます。
我々はcycleclを産業用および複数のヒューマンアクションデータセットで評価し、全てのタスクにおいて従来のビデオベースの自己教師付き学習方法を大幅に上回る評価を行った。 Analyzing periodic video sequences is a key topic in applications such as automatic production systems, remote sensing, medical applications, or physical training. An example is counting repetitions of a physical exercise. Due to the distinct characteristics of periodic data, self-supervised methods designed for standard image datasets do not capture changes relevant to the progression of the cycle and fail to ignore unrelated noise. They thus do not work well on periodic data. In this paper, we propose CycleCL, a self-supervised learning method specifically designed to work with periodic data. We start from the insight that a good visual representation for periodic data should be sensitive to the phase of a cycle, but be invariant to the exact repetition, i.e. it should generate identical representations for a specific phase throughout all repetitions. We exploit the repetitions in videos to design a novel contrastive learning method based on a triplet loss that optimizes for these desired properties. Our method uses pre-trained features to sample pairs of frames from approximately the same phase and negative pairs of frames from different phases. Then, we iterate between optimizing a feature encoder and resampling triplets, until convergence. By optimizing a model this way, we are able to learn features that have the mentioned desired properties. We evaluate CycleCL on an industrial and multiple human actions datasets, where it significantly outperforms previous video-based self-supervised learning methods on all tasks. | 翻訳日:2023-11-15 17:34:43 公開日:2023-11-13 |
# 企業データガバナンスの基盤としての組織知識のセマンティックモデリング 4.0 --統一臨床データモデルへの応用 Semantic Modelling of Organizational Knowledge as a Basis for Enterprise Data Governance 4.0 -- Application to a Unified Clinical Data Model ( http://arxiv.org/abs/2311.02082v2 ) ライセンス: Link先を確認 | Miguel AP Oliveira, Stephane Manara, Bruno Mol\'e, Thomas Muller, Aur\'elien Guillouche, Lysann Hesske, Bruce Jordan, Gilles Hubert, Chinmay Kulkarni, Pralipta Jagdev and Cedric R. Berger | (参考訳) 個人や組織は常に成長するデータ量に対処し、内容やフォーマットは異質である。
このデータから価値を取得し、複数の利用に関する固有のリスクを最小化するための前提条件は、データ品質とライフサイクルの制御をもたらす適切なデータ管理プロセスである。
人、ポリシー、プロセスに依存する一般的なデータガバナンスフレームワークは、圧倒的なデータ複雑性に欠けています。
しかし、高品質な標準を達成するためには、この複雑さを活用する必要がある。
後者は、このデータで訓練された生成的人工知能を含む、ダウンストリームのデータ使用の結果を条件とする。
本稿では,メタデータ駆動,アジャイル,(準)自動データガバナンス(すなわちデータガバナンス 4.0)を実現する,シンプルでコスト効率のよいフレームワークを構築した具体的経験を報告する。
我々は,25年間の臨床研究データを企業規模で,完全に生産的な環境で統合するために,このフレームワークの実装と利用について説明する。
このフレームワークはセマンティックウェブの原則を利用する方法論と技術の両方を含んでいる。
ガバナンス原則を含むビジネスコンテキストにおけるデータ資産のアバターを記述する知識グラフを構築しました。
エンタープライズ上のオントロジーによって記述された複数のオントロジーは、FAIRification、ライフサイクル管理、役割と責任の定義、トランスフォーメーション間の血統、ソースコードからの証明といった重要なガバナンスのアクションを可能にします。
このメタデータモデルは、データガバナンスの4.0のキーストーンである。半自動化されたデータ管理プロセスで、ビジネスコンテキストをアジャイルな方法で考慮し、各ユースケースにガバナンスの制約を適用し、ビジネスの変化に基づいて動的に調整する。 Individuals and organizations cope with an always-growing data amount, heterogeneous in contents and formats. A prerequisite to get value out this data and minimise inherent risks related to multiple usages is an adequate data management process yielding data quality and control over its lifecycle. Common data governance frameworks relying on people, policies and processes falls short of the overwhelming data complexity. Yet, harnessing this complexity is necessary to achieve high quality standards. The later will condition the outcome of any downstream data usage, including generative artificial intelligence trained on this data. In this paper, we report our concrete experience establishing a simple, cost-efficient framework, that enables metadata-driven, agile and (semi-)automated data governance (i.e. Data Governance 4.0). We explain how we implement and use this framework to integrate 25 years of clinical study data at enterprise scale, in a fully productive environment. The framework encompasses both methodologies and technologies leveraging semantic web principles. We built a knowledge graph describing avatars of data assets in their business context including governance principles. Multiple ontologies articulated by an enterprise upper ontology enable key governance actions such as FAIRification, lifecycle management, definition of roles and responsibilities, lineage across transformations and provenance from source systems. This metadata model is the keystone to data governance 4.0: a semi-automatized data management process, taking in account the business context in an agile manner to adapt governance constraints to each use case and dynamically tune it based on business changes. | 翻訳日:2023-11-15 17:33:29 公開日:2023-11-13 |
# 予め訓練した視覚変換器を用いた病理画像の自動レポート生成 Automatic Report Generation for Histopathology images using pre-trained Vision Transformers ( http://arxiv.org/abs/2311.06176v2 ) ライセンス: Link先を確認 | Saurav Sengupta, Donald E. Brown | (参考訳) 病理組織学の深層学習は、疾患の分類、画像分割などに有効である。
しかし,病理組織像の高分解能化により,最先端の手法による画像とテキストの融合が課題となっている。
病理画像の自動レポート生成はそのような課題である。
本稿では,既存の事前学習済み視覚トランスフォーマを用いて,まず4096x4096 サイズのスライド画像(wsi)のパッチを符号化し,それをエンコーダとlstmデコーダとしてレポート生成に使用する2段階のプロセスにおいて,高い解像度の画像全体を考慮した,かなり高性能でポータブルなレポート生成機構を構築できることを示す。
また、既存の強力な訓練済み階層型視覚変換器の表現を使用でき、ゼロショット分類だけでなくレポート生成にも有用であることを示す。 Deep learning for histopathology has been successfully used for disease classification, image segmentation and more. However, combining image and text modalities using current state-of-the-art methods has been a challenge due to the high resolution of histopathology images. Automatic report generation for histopathology images is one such challenge. In this work, we show that using an existing pre-trained Vision Transformer in a two-step process of first using it to encode 4096x4096 sized patches of the Whole Slide Image (WSI) and then using it as the encoder and an LSTM decoder for report generation, we can build a fairly performant and portable report generation mechanism that takes into account the whole of the high resolution image, instead of just the patches. We are also able to use representations from an existing powerful pre-trained hierarchical vision transformer and show its usefulness in not just zero shot classification but also for report generation. | 翻訳日:2023-11-15 17:20:56 公開日:2023-11-13 |
# リモートセンシングのための量子機械学習:可能性と課題を探る Quantum Machine Learning for Remote Sensing: Exploring potential and challenges ( http://arxiv.org/abs/2311.07626v1 ) ライセンス: Link先を確認 | Artur Miroszewski, Jakub Nalepa, Bertrand Le Saux, Jakub Mielczarek | (参考訳) 量子技術産業は急速に拡大し、様々な科学分野に有望な機会を提供している。
これらの新興技術の中で、量子機械学習(QML)は、データ処理と分析に革命をもたらす可能性があるため、かなりの注目を集めている。
本稿では,リモートセンシング分野におけるQMLの適用について検討する。
QMLは、宇宙のデータ分析に有用な洞察を与えることができると考えられている。
リモートセンシングのためのQMLにおける量子優位性を取り巻く一般的な信念を掘り下げ、対処すべきオープンな課題を強調します。
この課題を浮き彫りにするため,量子コンピュータのランタイムに悪影響を及ぼす現象であるカーネル値集中の問題に焦点をあてた研究を行った。
この問題は量子コンピュータの性能に悪影響を及ぼすが、遠隔センシングにおけるQMLの量子優位性を完全に否定するものではない。 The industry of quantum technologies is rapidly expanding, offering promising opportunities for various scientific domains. Among these emerging technologies, Quantum Machine Learning (QML) has attracted considerable attention due to its potential to revolutionize data processing and analysis. In this paper, we investigate the application of QML in the field of remote sensing. It is believed that QML can provide valuable insights for analysis of data from space. We delve into the common beliefs surrounding the quantum advantage in QML for remote sensing and highlight the open challenges that need to be addressed. To shed light on the challenges, we conduct a study focused on the problem of kernel value concentration, a phenomenon that adversely affects the runtime of quantum computers. Our findings indicate that while this issue negatively impacts quantum computer performance, it does not entirely negate the potential quantum advantage in QML for remote sensing. | 翻訳日:2023-11-15 16:59:37 公開日:2023-11-13 |
# 効率的なRNN推論のためのアクティビティスパーシリティ補足ウェイトスパシリティ Activity Sparsity Complements Weight Sparsity for Efficient RNN Inference ( http://arxiv.org/abs/2311.07625v1 ) ライセンス: Link先を確認 | Rishav Mukherji, Mark Sch\"one, Khaleelulla Khan Nazeer, Christian Mayr, Anand Subramoney | (参考訳) 人工知能は、計算要求の増大を犠牲にして、前例のない機械学習機能を開放する。
重みの刈り取りによってしばしば達成されるパラメータのスパース化は、モデルパラメータの数を圧縮し、ニューラルネットワークの計算演算を減らす強力な技術として認識されている。
しかし、生物学的ニューラルネットワークとディープラーニングシステムの両方において、スパースアクティベーションは、深層学習における圧縮技術として完全には活用されていない。
さらに、スパースアクティベーションとウェイトプルーニングの相互作用は、完全には理解されていない。
本研究では,活動スパースとして設計されたGRUに基づく繰り返しニューラルネットワークモデルにおいて,活動空間がパラメータ空間と乗算的に構成できることを実証する。
我々は、penn treebank言語モデリングタスクで60ドル未満のパープレキシティを維持しながら、計算量を最大$20\times$まで削減する。
この縮小の程度は以前、sparsely connected lstmのみでは達成されておらず、このモデルの言語モデリング性能は、sparsely activated recurrent neural networksやspiking neural networksではこれまで達成されていなかった。
ニューロモルフィック・コンピューティング・デバイスは,特に動的活動空間の利点を生かし,深層学習モデルを疎外し,ニューロモルフィック・デバイスに移植することは,タスク性能を損なわない実行可能な戦略であることを示す強力な証拠を提供する。
また,より効率的な機械学習のための深層学習とニューロモルフィックコンピューティングの手法のさらなる収束も促進する。 Artificial neural networks open up unprecedented machine learning capabilities at the cost of ever growing computational requirements. Sparsifying the parameters, often achieved through weight pruning, has been identified as a powerful technique to compress the number of model parameters and reduce the computational operations of neural networks. Yet, sparse activations, while omnipresent in both biological neural networks and deep learning systems, have not been fully utilized as a compression technique in deep learning. Moreover, the interaction between sparse activations and weight pruning is not fully understood. In this work, we demonstrate that activity sparsity can compose multiplicatively with parameter sparsity in a recurrent neural network model based on the GRU that is designed to be activity sparse. We achieve up to $20\times$ reduction of computation while maintaining perplexities below $60$ on the Penn Treebank language modeling task. This magnitude of reduction has not been achieved previously with solely sparsely connected LSTMs, and the language modeling performance of our model has not been achieved previously with any sparsely activated recurrent neural networks or spiking neural networks. Neuromorphic computing devices are especially good at taking advantage of the dynamic activity sparsity, and our results provide strong evidence that making deep learning models activity sparse and porting them to neuromorphic devices can be a viable strategy that does not compromise on task performance. Our results also drive further convergence of methods from deep learning and neuromorphic computing for efficient machine learning. | 翻訳日:2023-11-15 16:59:23 公開日:2023-11-13 |
# PadChannel: 明示的なパディングエンコーディングによるCNNのパフォーマンス向上 PadChannel: Improving CNN Performance through Explicit Padding Encoding ( http://arxiv.org/abs/2311.07623v1 ) ライセンス: Link先を確認 | Juho Kim | (参考訳) 畳み込みニューラルネットワーク(cnns)では、パディングは層全体の空間次元を保存する上で重要な役割を果たす。
従来のパディング技術は、実際の画像の内容とパッド領域を明確に区別しないため、CNNが境界画素や境界に類似した領域を誤って解釈する可能性がある。
この曖昧さは、最適でない特徴抽出につながる可能性がある。
そこで本研究では,パディング状態を付加的な入力チャネルとしてエンコードする新しいパディング手法であるpadchannelを提案する。
padchannel をいくつかの著名な cnn アーキテクチャに組み込むことで,imagenet-1k 画像分類タスクのばらつきを計算コストの限界値に低減し,性能の向上がみられた。
ソースコードはhttps://github.com/AussieSeaweed/pad- channelで入手できる。 In convolutional neural networks (CNNs), padding plays a pivotal role in preserving spatial dimensions throughout the layers. Traditional padding techniques do not explicitly distinguish between the actual image content and the padded regions, potentially causing CNNs to incorrectly interpret the boundary pixels or regions that resemble boundaries. This ambiguity can lead to suboptimal feature extraction. To address this, we propose PadChannel, a novel padding method that encodes padding statuses as an additional input channel, enabling CNNs to easily distinguish genuine pixels from padded ones. By incorporating PadChannel into several prominent CNN architectures, we observed small performance improvements and notable reductions in the variances on the ImageNet-1K image classification task at marginal increases in the computational cost. The source code is available at https://github.com/AussieSeaweed/pad-channel | 翻訳日:2023-11-15 16:58:57 公開日:2023-11-13 |
# 仮面調整がゼロショット合成画像検索を改善した「Pretrain」 Pretrain like You Inference: Masked Tuning Improves Zero-Shot Composed Image Retrieval ( http://arxiv.org/abs/2311.07622v1 ) ライセンス: Link先を確認 | Junyang Chen, Hanjiang Lai | (参考訳) ゼロショット合成画像検索(zs-cir)は,トリプレットラベリングを必要とせず,参照画像のテキスト修正に基づく対象画像の検索を目的としたものである。
現在のZS-CIRの研究は主に、視覚言語モデル(例えばCLIP)とPic2Word/textual inversionモデル(英語版)である。
しかし、事前学習されたモデルとcirタスクは、視覚と言語の間の類似性を学ぶが、cirはテキストで導かれた画像の修正を学ぶことを目的としている。
本稿では,事前学習されたモデルと下流CIRタスクとのギャップを低減するために,未ラベルで事前学習したマスク付きチューニング手法を提案する。
そこで入力画像パッチをランダムにマスクして,画像-テキストペアから$\langle$masked image, text, image$\rangle$ tripleを生成する。
そこで本研究では,テキストとマスキング画像を用いて原画像の修正を学習するマスキングチューニングを提案する。
このようなシンプルな設計で、きめ細かいテキスト誘導の修正を捉えることができる。
FashionIQ, CIRR, CIRCOを含む3つのZS-CIRデータセットのベースラインモデルに対するアプローチの大幅な優位性を示した。 Zero-shot composed image retrieval (ZS-CIR), which aims to retrieve a target image based on textual modifications to a reference image without triplet labeling, has gained more and more attention. Current ZS-CIR research mainly relies on two unlabeled pre-trained models: the vision-language model, e.g., CLIP, and the Pic2Word/textual inversion model. However, the pre-trained models and CIR tasks have substantial discrepancies, where the pre-trained models learn the similarities between vision and language but CIR aims to learn the modifications of the image guided by text. In this paper, we introduce a novel unlabeled and pre-trained masked tuning approach to reduce the gap between the pre-trained model and the downstream CIR task. We first reformulate the pre-trained vision-language contrastive learning as the CIR task, where we randomly mask input image patches to generate $\langle$masked image, text, image$\rangle$ triple from an image-text pair. Then, we propose a masked tuning, which uses the text and the masked image to learn the modifications of the original image. With such a simple design, it can learn to capture fine-grained text-guided modifications. Extensive experimental results demonstrate the significant superiority of our approach over the baseline models on three ZS-CIR datasets, including FashionIQ, CIRR, and CIRCO. | 翻訳日:2023-11-15 16:58:42 公開日:2023-11-13 |
# トランスフォーマーやその先:ゲノムの大規模言語モデル To Transformers and Beyond: Large Language Models for the Genome ( http://arxiv.org/abs/2311.07621v1 ) ライセンス: Link先を確認 | Micaela E. Consens, Cameron Dufault, Michael Wainberg, Duncan Forster, Mehran Karimzadeh, Hani Goodarzi, Fabian J. Theis, Alan Moses, Bo Wang | (参考訳) ゲノム学の急速な発展の中で、深層学習は複雑な計算課題に取り組むための有用なツールとして登場してきた。
本論は、ゲノム学におけるトランスフォーマーアーキテクチャに基づく大規模言語モデル(llms)の変容的役割に焦点を当てたものである。
従来の畳み込みニューラルネットワークとリカレントニューラルネットワークの基礎の上に構築され、トランスフォーマーや他のゲノム学のためのLSMの強みと限界を探求する。
さらに,最近の研究動向に基づくトランスフォーマーアーキテクチャを超えて,ゲノムモデリングの将来について考察する。
本論文は,計算生物学者や計算機科学者がゲノムデータのLLMに興味を持つためのガイドとして機能することを目的としている。
この論文は、将来どのようにゲノムデータを分析するかについて、生物学者にとっての教育的な紹介や議論にも役立てられることを期待している。 In the rapidly evolving landscape of genomics, deep learning has emerged as a useful tool for tackling complex computational challenges. This review focuses on the transformative role of Large Language Models (LLMs), which are mostly based on the transformer architecture, in genomics. Building on the foundation of traditional convolutional neural networks and recurrent neural networks, we explore both the strengths and limitations of transformers and other LLMs for genomics. Additionally, we contemplate the future of genomic modeling beyond the transformer architecture based on current trends in research. The paper aims to serve as a guide for computational biologists and computer scientists interested in LLMs for genomic data. We hope the paper can also serve as an educational introduction and discussion for biologists to a fundamental shift in how we will be analyzing genomic data in the future. | 翻訳日:2023-11-15 16:58:16 公開日:2023-11-13 |
# 言語モデル・イン・ザ・ループ:テキストゲームにおける学習・推薦行動に対するデータ最適アプローチ Language Model-In-The-Loop: Data Optimal Approach to Learn-To-Recommend Actions in Text Games ( http://arxiv.org/abs/2311.07687v1 ) ライセンス: Link先を確認 | Arjun Vaithilingam Sudhakar, Prasanna Parthasarathi, Janarthanan Rajendran, Sarath Chandar | (参考訳) 大きな言語モデル(LLM)は、言語理解ベンチマークにおいて優れたパフォーマンスを示している。
一般的なアプローチであるCALMは、環境に配慮したアクションを伴わずにJerrichoのテキストゲームのパフォーマンスを改善するためのアクション候補レコメンデーションとして、LDMの言語的先行 -- GPT-2 -- を活用する。
しかし、CALMはGPT-2に注釈付きゲームプレイを適応させ、テキストベースのゲームの学習中にLCMを固定し続ける。
本研究は,テキストベースのゲーム学習における候補推薦に使用されるLSMの更新について検討・評価し,取得に要する注釈付きゲームプレイへの依存を軽減することを目的とする。
ゲーム内遷移を慎重に選択して学習中にLLMを更新することにより,LLMを微調整するために人間のアノテートゲームプレイによる依存を減らすことができる。
改良されたLLMの転送可能性についてさらなる分析を行い、ゲーム内トレーニングされたモデルを他のゲームに転送しても一貫した転送にはならないことを示した。 Large Language Models (LLMs) have demonstrated superior performance in language understanding benchmarks. CALM, a popular approach, leverages linguistic priors of LLMs -- GPT-2 -- for action candidate recommendations to improve the performance in text games in Jericho without environment-provided actions. However, CALM adapts GPT-2 with annotated human gameplays and keeps the LLM fixed during the learning of the text based games. In this work, we explore and evaluate updating LLM used for candidate recommendation during the learning of the text based game as well to mitigate the reliance on the human annotated gameplays, which are costly to acquire. We observe that by updating the LLM during learning using carefully selected in-game transitions, we can reduce the dependency on using human annotated game plays for fine-tuning the LLMs. We conducted further analysis to study the transferability of the updated LLMs and observed that transferring in-game trained models to other games did not result in a consistent transfer. | 翻訳日:2023-11-15 16:48:03 公開日:2023-11-13 |
# 1次元Bose-Hubbardモデルにおける散逸誘起長距離秩序 Dissipation-induced long-range order in the one-dimensional Bose-Hubbard model ( http://arxiv.org/abs/2311.07683v1 ) ライセンス: Link先を確認 | Afonso L. S. Ribeiro, Paul McClarty, Pedro Ribeiro, Manuel Weber | (参考訳) 環境自由度と結合した物質の強相関相の安定性を理解することは、これらの状態が観察できる条件を特定する上で重要である。
本稿では,一次元ボース・ハバードモデルに着目し,非相互作用ボソンの部位非依存浴との局所粒子交換の存在下でのLuttinger液およびMott絶縁相の安定性について検討する。
我々は、最近開発されたワームホール量子モンテカルロ法を、ワームホール更新を伴う連続時間定式化に適応させることにより、このモデルを数値的に正確に解析する。
以上の結果から, 液相が無限小水浴カップリング時に不安定になるというスケーリング予測が得られた。
続く位相は、自発的なU(1)対称性を持つ長距離順序超流動であることを示す。
モット絶縁体は小さな水槽カップリングの相は相変わらず異なるが、熱力学的限界において圧縮性や非整数の局所ボソン占有性を示す。
浴のカップリングが増加すると、この相は長距離オーダー超流動に遷移する。
最後に,超オーム散逸がルチンガー液相に及ぼす影響について考察する。
この結果は,有限系-バスカップリングで長距離秩序超流動に遷移する安定な散逸性潤滑液相と適合する。 Understanding the stability of strongly correlated phases of matter when coupled to environmental degrees of freedom is crucial for identifying the conditions under which these states may be observed. Here, we focus on the paradigmatic one-dimensional Bose-Hubbard model, and study the stability of the Luttinger liquid and Mott insulating phases in the presence of local particle exchange with site-independent baths of non-interacting bosons. We perform a numerically exact analysis of this model by adapting the recently developed wormhole quantum Monte Carlo method for retarded interactions to a continuous-time formulation with worm updates; we show how the wormhole updates can be easily implemented in this scheme. For an Ohmic bath, our numerical findings confirm the scaling prediction that the Luttinger-liquid phase becomes unstable at infinitesimal bath coupling. We show that the ensuing phase is a long-range ordered superfluid with spontaneously-broken U(1) symmetry. While the Mott insulator remains a distinct phase for small bath coupling, it exhibits diverging compressibility and non-integer local boson occupation in the thermodynamic limit. Upon increasing the bath coupling, this phase undergoes a transition to a long-range ordered superfluid. Finally, we discuss the effects of super-Ohmic dissipation on the Luttinger-liquid phase. Our results are compatible with a stable dissipative Luttinger-liquid phase that transitions to a long-range ordered superfluid at a finite system-bath coupling. | 翻訳日:2023-11-15 16:47:31 公開日:2023-11-13 |
# fuse to forget:モデル融合によるバイアス低減と選択的記憶 Fuse to Forget: Bias Reduction and Selective Memorization through Model Fusion ( http://arxiv.org/abs/2311.07682v1 ) ライセンス: Link先を確認 | Kerem Zaman, Leshem Choshen, Shashank Srivastava | (参考訳) model fusion researchは、複数のモデルの知識を集約し、重みを組み合わせることでパフォーマンスを向上させることを目的としている。
本研究では, 融合モデルが不必要な知識を阻害し, 還元できるかどうかを考察する。
微調整言語モデルにおける学習された近道,社会的バイアス,記憶能力に及ぼすモデル融合の影響について考察した。
テキスト分類と生成タスクに関するいくつかの実験を通じて、モデル間の共有知識は通常モデル融合時に強化されるが、非共有知識は通常失われたり忘れられたりする。
本研究は,モデル融合のデバイアス化ツールとしての可能性を実証し,言語モデルに関連するプライバシー問題に対処する上での有効性を示す。 Model fusion research aims to aggregate the knowledge of multiple models to enhance performance by combining their weights. In this work, we study the inverse, investigating whether and how can model fusion interfere and reduce unwanted knowledge. We delve into the effects of model fusion on the evolution of learned shortcuts, social biases, and memorization capabilities in fine-tuned language models. Through several experiments covering text classification and generation tasks, our analysis highlights that shared knowledge among models is usually enhanced during model fusion, while unshared knowledge is usually lost or forgotten. Based on this observation, we demonstrate the potential of model fusion as a debiasing tool and showcase its efficacy in addressing privacy concerns associated with language models. | 翻訳日:2023-11-15 16:46:50 公開日:2023-11-13 |
# 純度が制限された観測器の最大期待値 Maximum expectation of observables with restricted purity states ( http://arxiv.org/abs/2311.07680v1 ) ライセンス: Link先を確認 | Vikesh Siddhu and John Smolin | (参考訳) 実用的な量子情報処理(QIP)の評価は、ノイズによって課される限界を理解せずに部分的に行われている。
残念なことに、ノイズの記述はシステムサイズによって指数関数的に増加し、差し迫った実用的関心を持つ控えめな規模のシステムでさえも面倒になる。
我々は、ノイズ量子状態の準備、検証、観察を行うための推定の必要性を満たす。
推定を行うため、我々は有界純度状態上の任意の$d$-dimensional observableの期待値を最大化する高速数値アルゴリズムを提案する。
これは測定可能な方法でノイズの純度因子に縛られる。
私たちの最速のアルゴリズムは、オブザーバブルの固有分解が知られている場合、最悪の場合に$o(d^3)$のステップを取る。
アルゴリズムはまた、凸および非凸純度制約を伴う量子状態トモグラフィの最大確率推定も解決する。
数値は、我々のキーサブルーチンのパフォーマンスを示す(線形時間では、最も固定されたベクトルと重なり合う有界ノルムを持つ確率ベクトルを見つける)。
我々の研究は、量子ノイズによるQIPの制限を評価するための実践的な道のりを推し進めている。
その過程では、単純だが基本的な洞察を与え、ノイズの多いシステム(同じく雑音の多いハミルトン派)は常にノイズのないシステムよりも高い基底状態エネルギーを与える。 Assessment of practical quantum information processing (QIP) remains partial without understanding limits imposed by noise. Unfortunately, mere description of noise grows exponentially with system size, becoming cumbersome even for modest sized systems of imminent practical interest. We fulfill the need for estimates on performing noisy quantum state preparation, verification, and observation. To do the estimation we propose fast numerical algorithms to maximize the expectation value of any $d$-dimensional observable over states of bounded purity. This bound on purity factors in noise in a measurable way. Our fastest algorithm takes $O(d)$ steps if the eigendecomposition of the observable is known, otherwise takes $O(d^3)$ steps at worst. The algorithms also solve maximum likelihood estimation for quantum state tomography with convex and even non-convex purity constraints. Numerics show performance of our key sub-routine (it finds in linear time a probability vector with bounded norm that most overlaps with a fixed vector) can be several orders of magnitude faster than a common state-of-the-art convex optimization solver. Our work fosters a practical way forward to asses limitations on QIP imposed by quantum noise. Along the way, we also give a simple but fundamental insight, noisy systems (equivalently noisy Hamiltonians) always give higher ground-state energy than their noiseless counterparts. | 翻訳日:2023-11-15 16:46:28 公開日:2023-11-13 |
# ローターおよび発振器のクリフォード演算とホモロジー符号 Clifford operations and homological codes for rotors and oscillators ( http://arxiv.org/abs/2311.07679v1 ) ライセンス: Link先を確認 | Yijia Xu, Yixu Wang, and Victor V. Albert | (参考訳) 本研究では,円上の粒子の状態空間である平面ローターの量子情報処理プリミティブを開発する。
ロータ波動関数を周期的に同定された高調波発振器の波動関数として解釈することにより、ロータが継承するボゾンガウス演算のグループを決定する。
この$n$-rotor Clifford group, $\text{U}(1)^{n(n+1)/2} \rtimes \text{GL}_n(\mathbb{Z})$, は連続な$\text{U}(1)$ gates で表される。
我々は、クリフォード演算の等価性に基づいて、ホモロジーロータ誤り訂正符号(arXiv:2303.13723)と様々なロータ状態の分類を行う。
逆方向では、非負角運動量のロータ状態として占有数状態を解釈することにより、ホモロジーロータ符号とロータクリフォード演算を振動子にマッピングする。
これにより、新しいマルチモードホモロジーボソニック符号が、対応するエンコーディングとデコード回路とともに、占有数や変化に対する防御を行う。
特に,条件付き職業数加算とポスト選択を用いて振動子位相を非破壊的に測定する方法を示す。
また,gkp安定化符号 [arxiv:1903.12615] の複数のロータと発振器について概説する。 We develop quantum information processing primitives for the planar rotor, the state space of a particle on a circle. By interpreting rotor wavefunctions as periodically identified wavefunctions of a harmonic oscillator, we determine the group of bosonic Gaussian operations inherited by the rotor. This $n$-rotor Clifford group, $\text{U}(1)^{n(n+1)/2} \rtimes \text{GL}_n(\mathbb{Z})$, is represented by continuous $\text{U}(1)$ gates generated by polynomials quadratic in angular momenta, as well as discrete $\text{GL}_n(\mathbb Z)$ momentum sign-flip and sum gates. We classify homological rotor error-correcting codes [arXiv:2303.13723] and various rotor states based on equivalence under Clifford operations. Reversing direction, we map homological rotor codes and rotor Clifford operations back into oscillators by interpreting occupation-number states as rotor states of non-negative angular momentum. This yields new multimode homological bosonic codes protecting against dephasing and changes in occupation number, along with their corresponding encoding and decoding circuits. In particular, we show how to non-destructively measure the oscillator phase using conditional occupation-number addition and post selection. We also outline several rotor and oscillator varieties of the GKP-stabilizer codes [arXiv:1903.12615]. | 翻訳日:2023-11-15 16:45:35 公開日:2023-11-13 |
# 古典画像データのフーリエモードからの効率的なMPS表現と量子回路 Efficient MPS representations and quantum circuits from the Fourier modes of classical image data ( http://arxiv.org/abs/2311.07666v1 ) ライセンス: Link先を確認 | Bernhard Jobst, Kevin Shen, Carlos A. Riofr\'io, Elvira Shishenina and Frank Pollmann | (参考訳) 機械学習タスクは量子コンピュータのエキサイティングな応用であり、従来のタスクよりも効率的に特定の問題を学習できることが証明されている。
量子機械学習アルゴリズムを古典データに適用することは、古典ビットよりも指数関数的に多くのデータを扱うことができるため、多くの重要な応用をもたらす可能性がある。
しかし、対応する量子状態の準備は通常指数関数的なゲート数を必要とするため、潜在的な量子速度アップを損なう可能性がある。
ここで、量子状態へ写像された後に十分に急速に減衰するフーリエスペクトルを持つ古典データは、シュミット級数(すなわち行列積状態)の小さい状態によってよく近似され、明示的な誤差境界を導出できることを示す。
これらの近似状態は、隣り合う2量子ビットゲートの線形数を持つ量子コンピュータ上で準備することができる。
結果が,'Imagenette'データセットから得られた1024\times1024$-pixelイメージのセットで数値的に確認される。
さらに,異なる変分回路ans\"atzeを考察し,一次元シーケンシャル回路がより強力なans\"atzeと同じ圧縮品質を達成することを数値的に示す。 Machine learning tasks are an exciting application for quantum computers, as it has been proven that they can learn certain problems more efficiently than classical ones. Applying quantum machine learning algorithms to classical data can have many important applications, as qubits allow for dealing with exponentially more data than classical bits. However, preparing the corresponding quantum states usually requires an exponential number of gates and therefore may ruin any potential quantum speedups. Here, we show that classical data with a sufficiently quickly decaying Fourier spectrum after being mapped to a quantum state can be well-approximated by states with a small Schmidt rank (i.e., matrix product states) and we derive explicit error bounds. These approximated states can, in turn, be prepared on a quantum computer with a linear number of nearest-neighbor two-qubit gates. We confirm our results numerically on a set of $1024\times1024$-pixel images taken from the 'Imagenette' dataset. Additionally, we consider different variational circuit ans\"atze and demonstrate numerically that one-dimensional sequential circuits achieve the same compression quality as more powerful ans\"atze. | 翻訳日:2023-11-15 16:44:53 公開日:2023-11-13 |
# ランダムダイナミクスによるページ曲線とレプリカワームホール Page curves and replica wormholes from random dynamics ( http://arxiv.org/abs/2311.07655v1 ) ライセンス: Link先を確認 | Jan de Boer, Jildou Hollander, Andrew Rolph | (参考訳) 非単体ページ曲線と、ランダムなダイナミクスを持つ玩具量子系のユニタリティを復元する模擬ワームホールのような寄与の両方をキャプチャする方法を示す。
動機は、重力物理学のこの側面を捉える最も単純な力学モデルを見つけることである。
我々のモデルでは、マイクロカノニカルウィンドウ内でGUE統計を持つハミルトンのアンサンブルで進化する。
平均状態のエントロピーは非ユニタリ曲線、平均エントロピーはユニタリ曲線、この差は密度行列をレプリカワームホールのように連結するハール平均における行列指数の収縮から生じる。 We show how to capture both the non-unitary Page curve and replica wormhole-like contributions that restore unitarity in a toy quantum system with random dynamics. The motivation is to find the simplest dynamical model that captures this aspect of gravitational physics. In our model, we evolve with an ensemble of Hamiltonians with GUE statistics within microcanonical windows. The entropy of the averaged state gives the non-unitary curve, the averaged entropy gives the unitary curve, and the difference comes from matrix index contractions in the Haar averaging that connect the density matrices in a replica wormhole-like manner. | 翻訳日:2023-11-15 16:44:32 公開日:2023-11-13 |
# 表面状態対応によるホログラフィックエンタングルメント蒸留 Holographic Entanglement Distillation from the Surface State Correspondence ( http://arxiv.org/abs/2311.07649v1 ) ライセンス: Link先を確認 | Ning Bao, Gun Suer | (参考訳) 我々は, 絡み合う龍高柳表面の幾何学的部分因子間の相関について検討した。
表面状態対応とビットスレッドプログラムを用いて、サブファクタ間の相互情報と条件付き相互情報を計算することができる。
これにより、サブファクタ間の共有ベル対を数えることができ、SWAPゲートプロトコルを介してこれらのサブシステムに絡み合う蒸留手順を提案する。
マルチパーティの絡み合いへの拡張についてコメントする。 We study correlations between geometric subfactors living on the Ryu-Takayanagi surface that bounds the entanglement wedge. Using the surface-state correspondence and the bit threads program, we are able to calculate mutual information and conditional mutual information between subfactors. This enables us to count the shared Bell pairs between subfactors, and we propose an entanglement distillation procedure over these subsystems via a SWAP gate protocol. We comment on extending to multipartite entanglement. | 翻訳日:2023-11-15 16:44:19 公開日:2023-11-13 |
# ベースエディタ結果予測のための注意に基づくマルチタスク学習 Attention-based Multi-task Learning for Base Editor Outcome Prediction ( http://arxiv.org/abs/2311.07636v1 ) ライセンス: Link先を確認 | Amina Mollaysa, Ahmed Allam, Michael Krauthamme | (参考訳) ヒトの遺伝病はしばしば点突然変異から生じ、正確なゲノム編集技術の必要性を強調する。
これらのうち、塩基編集は単一のヌクレオチドレベルで標的となる改変を可能にするため際立っている。
しかし、その臨床応用は編集効率の低下と意図しない突然変異によって妨げられ、実験室での広範囲な試行錯誤実験が必要となる。
この過程を高速化するために、あるゲノム標的配列に対する全ての編集結果の可能性を予測するために、注目に基づく2段階機械学習モデルを提案する。
さらに,複数のベースエディタ(変種)を同時に学習するためのマルチタスク学習スキーマを提案する。
本モデルの予測は,複数のデータセットおよびベースエディタの実際の実験結果と一貫して強い相関を示した。
これらの結果は、ベース編集設計を改良するプロセスを強化し、加速するためのモデルの能力のさらなる検証を提供する。 Human genetic diseases often arise from point mutations, emphasizing the critical need for precise genome editing techniques. Among these, base editing stands out as it allows targeted alterations at the single nucleotide level. However, its clinical application is hindered by low editing efficiency and unintended mutations, necessitating extensive trial-and-error experimentation in the laboratory. To speed up this process, we present an attention-based two-stage machine learning model that learns to predict the likelihood of all possible editing outcomes for a given genomic target sequence. We further propose a multi-task learning schema to jointly learn multiple base editors (i.e. variants) at once. Our model's predictions consistently demonstrated a strong correlation with the actual experimental results on multiple datasets and base editor variants. These results provide further validation for the models' capacity to enhance and accelerate the process of refining base editing designs. | 翻訳日:2023-11-15 16:44:12 公開日:2023-11-13 |
# Past as a Guide: Pythonコード補完のためのレトロスペクティブ学習の活用 Past as a Guide: Leveraging Retrospective Learning for Python Code Completion ( http://arxiv.org/abs/2311.07635v1 ) ライセンス: Link先を確認 | Seunggyoon Shin, Seunggyu Chang, Sungjoon Choi | (参考訳) この研究は、過去の歴史をインタラクティブで反復的なコード修正と統合することで、コーディング能力を改善するための、LLM(Large Language Models)のためのシンプルなアプローチであるPasas as a Guide(PaG)を提示する。
人間の認知プロセスにインスパイアされた具体的な方法として、LLMは従来のプログラミングおよびデバッグ経験を利用してPythonのコード補完タスクを強化することができる。
このフレームワークは、以前の実行とデバッグ結果に基づいて反復的にPythonコードを洗練し、学習と推論機能を最適化する。
提案手法は,過去の経験からの振り返りや,外部の正確性指標を使わずにインタラクティブで反復的なリファインメントプロセスを活用することで,分野を前進させる可能性を実証する92\%のpass@1を達成した。 This work presents Past as a Guide (PaG), a simple approach for Large Language Models (LLMs) to improve the coding capabilities by integrating the past history with interactive and iterative code refinements. To be specific, inspired by human cognitive processes, the proposed method enables LLMs to utilize previous programming and debugging experiences to enhance the Python code completion tasks. The framework facilitates LLMs to iteratively refine the Python code based on previous execution and debugging results and optimize learning and reasoning capabilities. The proposed methodology achieved a 92\% pass@1 on HumanEval, demonstrating the potential to advance the field by leveraging retrospection from past experiences and interactive and iterative refinement processes without external correctness indicators. | 翻訳日:2023-11-15 16:43:57 公開日:2023-11-13 |
# ActiveDC:Active Finetuningのための配電校正 ActiveDC: Distribution Calibration for Active Finetuning ( http://arxiv.org/abs/2311.07634v1 ) ライセンス: Link先を確認 | Wenshuai Xu, Zhenhui Hu, Yu Lu, Jinzhou Meng, Qingjie Liu, Yunhong Wang | (参考訳) プレトレーニング・ファインタニングのパラダイムは様々なコンピュータビジョンタスクで人気を集めている。
このパラダイムでは、大規模なデータとコストのかかるアノテーションの要求により、アクティブな微調整が出現する。
アクティブな微調整は、アノテーションのためにラベルのないプールからデータのサブセットを選択し、その後の微調整を容易にする。
しかし、限られた数のトレーニングサンプルを使用することでバイアスのある分布が生じ、モデルオーバーフィットにつながる可能性がある。
本稿では,アクティブなファインタニングタスクのためのActiveDCと呼ばれる新しい手法を提案する。
まず、選択すべき部分集合と連続空間における未ラベルプール全体の分布類似性を最適化することにより、アノテーションのためのサンプルを選択する。
次に,ラベルなしプール内の暗黙のカテゴリ情報を利用して,選択したサンプルの分布を校正する。
特徴の可視化は,分散キャリブレーションに対する我々のアプローチの有効性を直感的に把握する。
サンプル比の異なる3つの画像分類データセットについて広範な実験を行った。
その結果,ActiveDCは画像分類タスクのベースライン性能を一貫して上回ることがわかった。
サンプリング比が低く、パフォーマンスが最大10%向上した場合には、特に改善が重要である。
私たちのコードはリリースされます。 The pretraining-finetuning paradigm has gained popularity in various computer vision tasks. In this paradigm, the emergence of active finetuning arises due to the abundance of large-scale data and costly annotation requirements. Active finetuning involves selecting a subset of data from an unlabeled pool for annotation, facilitating subsequent finetuning. However, the use of a limited number of training samples can lead to a biased distribution, potentially resulting in model overfitting. In this paper, we propose a new method called ActiveDC for the active finetuning tasks. Firstly, we select samples for annotation by optimizing the distribution similarity between the subset to be selected and the entire unlabeled pool in continuous space. Secondly, we calibrate the distribution of the selected samples by exploiting implicit category information in the unlabeled pool. The feature visualization provides an intuitive sense of the effectiveness of our approach to distribution calibration. We conducted extensive experiments on three image classification datasets with different sampling ratios. The results indicate that ActiveDC consistently outperforms the baseline performance in all image classification tasks. The improvement is particularly significant when the sampling ratio is low, with performance gains of up to 10%. Our code will be released. | 翻訳日:2023-11-15 16:43:40 公開日:2023-11-13 |
# 組合せ最適化問題に対する予測候補最適化パラダイムの再考とベンチマーク Rethinking and Benchmarking Predict-then-Optimize Paradigm for Combinatorial Optimization Problems ( http://arxiv.org/abs/2311.07633v1 ) ライセンス: Link先を確認 | Haoyu Geng, Han Ruan, Runzhong Wang, Yang Li, Yang Wang, Lei Chen, Junchi Yan | (参考訳) 多くのwebアプリケーションは、エネルギーコスト認識スケジューリング、web広告の予算配分、ソーシャルネットワークでのグラフマッチングなど、組合せ最適化の問題を解決することに依存している。
しかし、多くの最適化問題には未知の係数が含まれており、これらの要因の不適切な予測は、エネルギー浪費、非効率な資源配分、ソーシャルネットワークにおける不適切なマッチングなどを引き起こす可能性がある。
このような研究テーマを「予測テーマ最適化(PTO)」と呼び、統一システムにおける予測と意思決定のパフォーマンスを考察する。
注目すべき最近の開発は、従来の2段階のアプローチとは対照的に、よりよい結果をもたらすと主張する最終的な意思決定品質を直接最適化する、エンドツーエンドの手法である。
しかしながら、この分野の評価ベンチマークは断片化されており、様々なシナリオにおける様々なモデルの有効性はいまだ不明であり、包括的な評価と迅速な展開を妨げる。
これらの問題に対処するため,我々は,現在のアプローチを包括的に分類し,既存の実験シナリオを統合し,統合ベンチマークを確立する。
また,インクルーシブファイナンスのためのインダストリアルコンビネート広告問題の新たなデータセットをオープンソースとして紹介する。
ptoの再設計とベンチマークによって、より便利な評価とデプロイメントが促進され、この分野のアカデミーと業界の両方でさらなる改善がもたらされることを願っています。 Numerous web applications rely on solving combinatorial optimization problems, such as energy cost-aware scheduling, budget allocation on web advertising, and graph matching on social networks. However, many optimization problems involve unknown coefficients, and improper predictions of these factors may lead to inferior decisions which may cause energy wastage, inefficient resource allocation, inappropriate matching in social networks, etc. Such a research topic is referred to as "Predict-Then-Optimize (PTO)" which considers the performance of prediction and decision-making in a unified system. A noteworthy recent development is the end-to-end methods by directly optimizing the ultimate decision quality which claims to yield better results in contrast to the traditional two-stage approach. However, the evaluation benchmarks in this field are fragmented and the effectiveness of various models in different scenarios remains unclear, hindering the comprehensive assessment and fast deployment of these methods. To address these issues, we provide a comprehensive categorization of current approaches and integrate existing experimental scenarios to establish a unified benchmark, elucidating the circumstances under which end-to-end training yields improvements, as well as the contexts in which it performs ineffectively. We also introduce a new dataset for the industrial combinatorial advertising problem for inclusive finance to open-source. We hope the rethinking and benchmarking of PTO could facilitate more convenient evaluation and deployment, and inspire further improvements both in the academy and industry within this field. | 翻訳日:2023-11-15 16:43:24 公開日:2023-11-13 |
# ResMGCN: 高速バイオメディカルインタラクションのための残留メッセージグラフ畳み込みネットワーク ResMGCN: Residual Message Graph Convolution Network for Fast Biomedical Interactions Discovering ( http://arxiv.org/abs/2311.07632v1 ) ライセンス: Link先を確認 | Zecheng Yin | (参考訳) バイオメディカル情報グラフは、生物医療、バイオインフォマティクス、ヒトの医療コミュニティの関心を惹きつける多種多様な分子相互作用の同定や薬物発見など、現代におけるバイオメディカル情報の発見に不可欠である。
今日では、バイオメディカル情報の実体を学習し、最先端の結果と生体分子の相互作用を正確に明らかにするために、グラフニューラルネットワークがますます多く提案されている。
これらの手法は、遠方から特徴の消失を防ぎつつ、冗長なメモリと時間を犠牲にしてそのような問題を治療する。
本稿では,異なる考え方で高速かつ正確な生体医学的相互作用予測を行うための,新しい残差メッセージグラフ畳み込みネットワーク (resmgcn) を提案する。
具体的には、遠くのノードからメッセージを拡張する代わりに、ResMGCNは下位情報を次のラウンドの上位情報と集約してノード更新をガイドし、より意味のあるノード表現を得る。
resmgcnは、前層からの様々なメッセージと現在の層内の高次情報を最小のメモリと時間コストで認識・保存することができ、生体医学的実体の情報表現を得ることができる。
タンパク質・タンパク質・薬物・薬物・ターゲット・遺伝子・疾患の相互作用を含む4つのバイオメディカル相互作用ネットワークデータセットについて実験を行い、ResMGCNが従来の最先端モデルより優れており、記憶と時間の両方において非常に有効であることを示した。 Biomedical information graphs are crucial for interaction discovering of biomedical information in modern age, such as identification of multifarious molecular interactions and drug discovery, which attracts increasing interests in biomedicine, bioinformatics, and human healthcare communities. Nowadays, more and more graph neural networks have been proposed to learn the entities of biomedical information and precisely reveal biomedical molecule interactions with state-of-the-art results. These methods remedy the fading of features from a far distance but suffer from remedying such problem at the expensive cost of redundant memory and time. In our paper, we propose a novel Residual Message Graph Convolution Network (ResMGCN) for fast and precise biomedical interaction prediction in a different idea. Specifically, instead of enhancing the message from far nodes, ResMGCN aggregates lower-order information with the next round higher information to guide the node update to obtain a more meaningful node representation. ResMGCN is able to perceive and preserve various messages from the previous layer and high-order information in the current layer with least memory and time cost to obtain informative representations of biomedical entities. We conduct experiments on four biomedical interaction network datasets, including protein-protein, drug-drug, drug-target, and gene-disease interactions, which demonstrates that ResMGCN outperforms previous state-of-the-art models while achieving superb effectiveness on both storage and time. | 翻訳日:2023-11-15 16:43:01 公開日:2023-11-13 |
# 視覚誘導バイノーラルステレオ生成のためのクロスモーダル生成モデル Cross-modal Generative Model for Visual-Guided Binaural Stereo Generation ( http://arxiv.org/abs/2311.07630v1 ) ライセンス: Link先を確認 | Zhaojian Li, Bin Zhao and Yuan Yuan | (参考訳) バイノーラルステレオオーディオは、人間の耳が音を受信する方法を模倣し、没入感のある聴取体験を提供する。
既存のアプローチではオートエンコーダを利用し、視覚空間情報を直接利用してバイノーラルステレオを合成し、視覚誘導の限られた表現をもたらす。
そこで,本研究では,モノラルオーディオからバイノーラルステレオ音声を生成するための視覚誘導生成型逆向き手法を提案する。
具体的には,共有時空間情報を利用したステレオ音声生成モデル(SAGM)を開発し,生成器と識別器を別々に動作させる。
共有された視覚情報は生成的敵ステージにおいて交互に更新され、生成者および判別者が視覚的に共有しながらそれぞれのガイドされた知識を配信することができる。
提案手法は双方向補完視覚情報を学習し,生成時の視覚誘導の表現を容易にする。
加えて、空間知覚はバイノーラルステレオオーディオの重要な特性であり、ステレオ空間知覚の評価は不可欠である。
しかし、以前の測定では音の空間知覚は測定できなかった。
この目的のために,音声の空間的知覚を測定する尺度を初めて提案する。
提案手法は,時間次元における空間知覚の大きさと方向を測定することができる。
また、その機能を考えると、ある程度のユーザー研究を要求するのではなく、利用することが可能である。
提案手法は,2つのデータセットと5つの評価指標で最先端の性能を実現する。
定性的実験とユーザスタディにより、この手法が空間現実的なステレオオーディオを生成することを示す。 Binaural stereo audio is recorded by imitating the way the human ear receives sound, which provides people with an immersive listening experience. Existing approaches leverage autoencoders and directly exploit visual spatial information to synthesize binaural stereo, resulting in a limited representation of visual guidance. For the first time, we propose a visually guided generative adversarial approach for generating binaural stereo audio from mono audio. Specifically, we develop a Stereo Audio Generation Model (SAGM), which utilizes shared spatio-temporal visual information to guide the generator and the discriminator to work separately. The shared visual information is updated alternately in the generative adversarial stage, allowing the generator and discriminator to deliver their respective guided knowledge while visually sharing. The proposed method learns bidirectional complementary visual information, which facilitates the expression of visual guidance in generation. In addition, spatial perception is a crucial attribute of binaural stereo audio, and thus the evaluation of stereo spatial perception is essential. However, previous metrics failed to measure the spatial perception of audio. To this end, a metric to measure the spatial perception of audio is proposed for the first time. The proposed metric is capable of measuring the magnitude and direction of spatial perception in the temporal dimension. Further, considering its function, it is feasible to utilize it instead of demanding user studies to some extent. The proposed method achieves state-of-the-art performance on 2 datasets and 5 evaluation metrics. Qualitative experiments and user studies demonstrate that the method generates space-realistic stereo audio. | 翻訳日:2023-11-15 16:42:31 公開日:2023-11-13 |
# 半教師付きグラフ学習のための一貫性拡散に基づくアルゴリズム A Consistent Diffusion-Based Algorithm for Semi-Supervised Graph Learning ( http://arxiv.org/abs/2311.07627v1 ) ライセンス: Link先を確認 | Thomas Bonald (IP Paris), Nathan de Lara (IP Paris) | (参考訳) 半教師付き分類のタスクは、種と呼ばれるいくつかのノードで知られているラベルに基づいて、グラフのすべてのノードにラベルを割り当てることを目的としている。
最も一般的なアルゴリズムの1つは熱拡散の原理に依存し、そこでは種子のラベルが熱伝導によって拡散され、各ノードの平衡温度が各ラベルのスコア関数として使用される。
本稿では,平衡点の温度が点数よりも先に集中しない限り,このアルゴリズムは整合性がないことを示す。
この重要なステップは、アルゴリズムをブロックモデル上で確実に一貫性を持たせるだけでなく、実際のグラフで大幅なパフォーマンス向上をもたらす。 The task of semi-supervised classification aims at assigning labels to all nodes of a graph based on the labels known for a few nodes, called the seeds. One of the most popular algorithms relies on the principle of heat diffusion, where the labels of the seeds are spread by thermoconductance and the temperature of each node at equilibrium is used as a score function for each label. In this paper, we prove that this algorithm is not consistent unless the temperatures of the nodes at equilibrium are centered before scoring. This crucial step does not only make the algorithm provably consistent on a block model but brings significant performance gains on real graphs. | 翻訳日:2023-11-15 16:42:10 公開日:2023-11-13 |
# 量子ビットと置換を用いた単純な量子ブロックモデリング A Simple Quantum Blockmodeling with Qubits and Permutations ( http://arxiv.org/abs/2311.07726v1 ) ライセンス: Link先を確認 | Ammar Daskin | (参考訳) 与えられた問題のブロックモデリングを$N\times N$ adjacency matrix で表し、行列の行と列(行列を左右に置換行列で乗算する)を交換することによって見つけることができる。
一般に、このタスクを実行することで、行と列の置換が最適化の適合値に影響を与える:$N\times N$ matrixの場合、候補ソリューションの適合値を見つけ(または更新)するために$O(N)$計算が必要である。
量子コンピュータでは、置換は並列かつ効率的に適用でき、その実装は1量子ビット演算(量子ビット上のNOTゲート)のように単純で、O(1)$時間アルゴリズムのステップを踏むことができる。
本稿では,置換行列を用いて,データ解析タスクの量子ブロックモデリングについて述べる。
モデルでは、小グループの量子ビットの測定結果をマッピングして、適合値を示す。
したがって、$O(log(N))$timeでフィットネス値を検索または更新することが可能である。
これにより、繰り返し回数が$log(N)$時間未満である場合、古典的コンピュータと比較して量子コンピュータ上では指数関数的に高速に同じ解に到達できることが示される。
さらに、量子回路上では、異なる置換列を並列に適用できる(スーパーポジトン)ため、このモデルにおける機械学習タスクは量子コンピュータ上でより効率的に実装できる。 Blockmodeling of a given problem represented by an $N\times N$ adjacency matrix can be found by swapping rows and columns of the matrix (i.e. multiplying matrix from left and right by a permutation matrix). In general, through performing this task, row and column permutations affect the fitness value in optimization: For an $N\times N$ matrix, it requires $O(N)$ computations to find (or update) the fitness value of a candidate solution. On quantum computers, permutations can be applied in parallel and efficiently, and their implementations can be as simple as a single qubit operation (a NOT gate on a qubit) which takes an $O(1)$ time algorithmic step. In this paper, using permutation matrices, we describe a quantum blockmodeling for data analysis tasks. In the model, the measurement outcome of a small group of qubits are mapped to indicate the fitness value. Therefore, we show that it is possible to find or update the fitness value in $O(log(N))$ time. This lead us to show that when the number of iterations are less than $log(N)$ time, it may be possible to reach the same solution exponentially faster on quantum computers in comparison to classical computers. In addition, since on quantum circuits the different sequence of permutations can be applied in parallel (superpositon), the machine learning task in this model can be implemented more efficiently on quantum computers. | 翻訳日:2023-11-15 16:34:53 公開日:2023-11-13 |
# generalization analogies (genies):aiの監視を測定困難領域に一般化するためのテストベッド Generalization Analogies (GENIES): A Testbed for Generalizing AI Oversight to Hard-To-Measure Domains ( http://arxiv.org/abs/2311.07723v1 ) ライセンス: Link先を確認 | Joshua Clymer, Garrett Baker, Rohan Subramani, Sam Wang | (参考訳) aiシステムがよりインテリジェントになり、その行動がより評価が難しくなるにつれ、彼らは指示に従うのではなく、人間のフィードバックの欠陥を競うことを学ぶことができるが、このリスクは、llmが人間のフィードバックを信頼できない状況に一般化する方法を制御することによって軽減できる。
報酬モデルをいかに一般化するかをよりよく理解するために、私たちは8つのカテゴリにまたがる69の分布シフトを作成します。
報酬モデルでは,「インストラクション・フォロー」の評価をデフォルトでは学ばず,代わりにインターネットテキストに似たペルソナを好んでいる。
報酬モデルの内部表現を解釈する技術は、標準的な微調整よりも優れた一般化を実現するが、それでもしばしば、複雑な振る舞いと命令追従を区別することができない。
我々は、最も難しい15の分散シフトをジェネラライゼーションアナログIES(GENIES)ベンチマークに統合し、報酬モデル一般化の制御に向けた進歩を期待する。 As AI systems become more intelligent and their behavior becomes more challenging to assess, they may learn to game the flaws of human feedback instead of genuinely striving to follow instructions; however, this risk can be mitigated by controlling how LLMs generalize human feedback to situations where it is unreliable. To better understand how reward models generalize, we craft 69 distribution shifts spanning 8 categories. We find that reward models do not learn to evaluate `instruction-following' by default and instead favor personas that resemble internet text. Techniques for interpreting reward models' internal representations achieve better generalization than standard fine-tuning, but still frequently fail to distinguish instruction-following from conflated behaviors. We consolidate the 15 most challenging distribution shifts into the GENaralization analogIES (GENIES) benchmark, which we hope will enable progress toward controlling reward model generalization. | 翻訳日:2023-11-15 16:34:28 公開日:2023-11-13 |
# コンビネーションの4つの問題 Four Related Combinatorial Problems ( http://arxiv.org/abs/2311.07716v1 ) ライセンス: Link先を確認 | Stan Gudder | (参考訳) この教育論文は量子測度理論の興味深い問題を解く。
量子測度 $\mu$ は通常の確率測度の一般化であるが、$\mu$ は通常の加法的条件を満たす必要はない。
代わりに$\mu$ は次数 2 の加法条件を満たす。
量子測度問題に加えて、3つの組合せ問題も提示する。
これらは(1)2項係数の和、(2)2項繰り返し関係問題、および(3)2項交叉ベクトル問題である。
これら3つの問題は共通解を持つという点で等価であることを示す。
そして、これが元の量子測度問題を解くことを示す。 This pedagogical article solves an interesting problem in quantum measure theory. Although a quantum measure $\mu$ is a generalization of an ordinary probability measure, $\mu$ need not satisfy the usual additivity condition. Instead, $\mu$ satisfies a grade-2 additivity condition. Besides the quantum measure problem, we present three additional combinatorial problems. These are (1)\enspace A sum of binomial coefficients problem;\enspace (2)\enspace A recurrence relation problem; and\enspace (3)\enspace An interated vector problem. We show that these three problems are equivalent in that they have a common solution. We then show that this solves the original quantum measure problem. | 翻訳日:2023-11-15 16:34:09 公開日:2023-11-13 |
# PolyIE: 高分子材料科学文献からの情報抽出のデータセット PolyIE: A Dataset of Information Extraction from Polymer Material Scientific Literature ( http://arxiv.org/abs/2311.07715v1 ) ライセンス: Link先を確認 | Jerry Junyang Cheung, Yuchen Zhuang, Yinghao Li, Pranav Shetty, Wantian Zhao, Sanjeev Grampurohit, Rampi Ramprasad, Chao Zhang | (参考訳) 学術文献から情報を自動的に抽出する科学情報抽出(sciie)が、これまで以上に重要になっている。
しかし, 高分子材料に対するSciIEデータセットは存在せず, 日常生活でユビキタスに使われている重要な材料群である。
このギャップを埋めるために,高分子材料のための新しいSciIEデータセットであるPOLYIEを紹介する。
polyieは、ドメインの専門家によるn-ary関係だけでなく、異なる名前付きエンティティ(すなわち、材料、特性、値、条件)でアノテートされた146の長大なポリマー学術論文から作成されている。
POLYIEは、エンティティの様々な語彙形式、エンティティ間のあいまいさ、変数長関係など、いくつかのユニークな課題を提示している。
本研究では, ポリエ上の固有実体抽出および関係抽出モデルの評価を行い, その強みと弱みを分析し, これらのモデルの難しさを浮き彫りにする。
我々の知る限りでは、PollyIEは高分子材料のSciIEベンチマークとしては初めてのものであり、この挑戦的な課題に関してコミュニティのさらなる研究努力に繋がることを期待しています。
私たちのコードとデータは、https://github.com/jerry3027/PolyIE.comで利用可能です。 Scientific information extraction (SciIE), which aims to automatically extract information from scientific literature, is becoming more important than ever. However, there are no existing SciIE datasets for polymer materials, which is an important class of materials used ubiquitously in our daily lives. To bridge this gap, we introduce POLYIE, a new SciIE dataset for polymer materials. POLYIE is curated from 146 full-length polymer scholarly articles, which are annotated with different named entities (i.e., materials, properties, values, conditions) as well as their N-ary relations by domain experts. POLYIE presents several unique challenges due to diverse lexical formats of entities, ambiguity between entities, and variable-length relations. We evaluate state-of-the-art named entity extraction and relation extraction models on POLYIE, analyze their strengths and weaknesses, and highlight some difficult cases for these models. To the best of our knowledge, POLYIE is the first SciIE benchmark for polymer materials, and we hope it will lead to more research efforts from the community on this challenging task. Our code and data are available on: https://github.com/jerry3027/PolyIE. | 翻訳日:2023-11-15 16:34:02 公開日:2023-11-13 |
# モノのインターネットを利用したスマートシャワーシステムのための低コストアーキテクチャ Low-Cost Architecture for an Advanced Smart Shower System Using Internet of Things Platform ( http://arxiv.org/abs/2311.07712v1 ) ライセンス: Link先を確認 | Shadeeb Hossain, Ahmed Abdelgawad | (参考訳) 水温上昇は様々な世界的な危機の中で重要な問題である。
本稿では,効率的な水管理に理想的な低コストでエネルギー効率の良いスマートシャワーシステムのアーキテクチャモデルを提案する。
このプロトタイプのセンサーは、周囲の温度と湿度をリアルタイムで記録することができ、予測値に依存するのではなく、利用者に最適な水温を循環させることができる。
シャワー周辺で偶然の落下を確実に予測できる3つのシナリオが議論されている。
モーションセンサー、音響センサー、ジェスチャーセンサーは、シャワーの損傷の予測を補完するために使用することができる。
IoT(Internet of Things)プラットフォームとの統合により、介護者は、特に高齢者の場合、シャワースペース内での被害が報告されているため、シャワースペース内での活動を監視することができる。
提案する概念実証プロトタイプはコスト効率が高く,安全性と利便性を優先して既存のシステムに組み込むことができる。
インテリジェントなシステムは、フロー温度を最適化して水を保存し、IoTプラットフォームは、安全性のリアルタイム監視を可能にする。 Wastage of water is a critical issue amongst the various global crises. This paper proposes an architecture model for a low-cost, energy efficient SMART Shower system that is ideal for efficient water management and be able to predict reliably any accidental fall in the shower space. The sensors in this prototype can document the surrounding temperature and humidity in real time and thereby circulate the ideal temperature of water for its patron, rather than its reliance on predictive values . Three different scenarios are discussed that can allow reliably predicting any accidental fall in the shower vicinity. Motion sensors, sound sensors and gesture sensors can be used to compliment prediction of possible injuries in the shower. The integration with the Internet of Things (IoT) platform will allow caretakers to monitor the activities in the shower space especially in the case of elderly individuals as there have been reported cases of casualties in the slippery shower space. The proposed proof-of-concept prototype is cost effective and can be incorporated into an existing system for the added precedence of safety and convenience. The intelligent system is conserving water by optimizing its flow temperature and the IoT platform allows real time monitoring for safety. | 翻訳日:2023-11-15 16:33:43 公開日:2023-11-13 |
# 病理組織学的癌検出 Histopathologic Cancer Detection ( http://arxiv.org/abs/2311.07711v1 ) ライセンス: Link先を確認 | Varan Singh Rohila, Neeraj Lalwani, Lochan Basyal | (参考訳) がん細胞の早期診断は、効果的な治療計画の作成と患者の健康と安全性のために必要である。
現在では、病理学者がヘマトキシリン・エオシン(HE)染色組織像の組織学的特徴と細胞学的特徴を半定量的に分析することによって決定する組織学的基準を用いていることが多い。
本研究は, HE-stained histopathological imageの基盤となる貴重な情報を効率的に活用するために, 癌予後の潜在的分類モデルに寄与する。
この研究はpatchcamelyonベンチマークデータセットを使用して、多層パーセプトロンと畳み込みモデルでそれらをトレーニングし、精度、リコール、f1スコア、精度、aucスコアの観点からモデルのパフォーマンスを観察する。
その結果,ベースライン畳み込みモデルはベースラインMLPモデルよりも優れていた。
また,データ拡張を伴うResNet50とInceptionNetモデルを導入し,ResNet50が最先端モデルに勝てることを示す。
さらに, 多数決, コンカニネーション・アンサンブルの評価を行い, 伝達学習とセグメンテーションによる特徴理解の今後の方向性について検討した。 Early diagnosis of the cancer cells is necessary for making an effective treatment plan and for the health and safety of a patient. Nowadays, doctors usually use a histological grade that pathologists determine by performing a semi-quantitative analysis of the histopathological and cytological features of hematoxylin-eosin (HE) stained histopathological images. This research contributes a potential classification model for cancer prognosis to efficiently utilize the valuable information underlying the HE-stained histopathological images. This work uses the PatchCamelyon benchmark datasets and trains them in a multi-layer perceptron and convolution model to observe the model's performance in terms of precision, Recall, F1 Score, Accuracy, and AUC Score. The evaluation result shows that the baseline convolution model outperforms the baseline MLP model. Also, this paper introduced ResNet50 and InceptionNet models with data augmentation, where ResNet50 is able to beat the state-of-the-art model. Furthermore, the majority vote and concatenation ensemble were evaluated and provided the future direction of using transfer learning and segmentation to understand the specific features. | 翻訳日:2023-11-15 16:33:25 公開日:2023-11-13 |
# 確率的車両経路問題に対する強化学習 Reinforcement Learning for Solving Stochastic Vehicle Routing Problem ( http://arxiv.org/abs/2311.07708v1 ) ライセンス: Link先を確認 | Zangir Iklassov, Ikboljon Sobirov, Ruben Solozabal, Martin Takac | (参考訳) 本研究では,不確実な条件下で車両経路を最適化するという課題を伴う確率的車両ルーティング問題(SVRP)の解決において,強化学習(RL)と機械学習(ML)技術の利用のギャップに対処する。
本稿では,svrpにおける確率性の鍵源を包括的に解決し,単純かつ効果的なアーキテクチャを持つrlエージェントとカスタマイズされたトレーニング手法を用いた,新しいエンドツーエンドフレームワークを提案する。
比較分析により,提案モデルが広く採用されているメタヒューリスティックよりも優れた性能を示し,旅行コストの3.43%削減を実現した。
さらに、モデルは多様なSVRP設定にまたがって堅牢性を示し、適応性と様々な環境で最適なルーティング戦略を学習する能力を強調している。
我々のフレームワークの公開実装は、SVRPのためのRLベースのソリューションの推進を目的とした将来の研究努力のための貴重なリソースとして役立ちます。 This study addresses a gap in the utilization of Reinforcement Learning (RL) and Machine Learning (ML) techniques in solving the Stochastic Vehicle Routing Problem (SVRP) that involves the challenging task of optimizing vehicle routes under uncertain conditions. We propose a novel end-to-end framework that comprehensively addresses the key sources of stochasticity in SVRP and utilizes an RL agent with a simple yet effective architecture and a tailored training method. Through comparative analysis, our proposed model demonstrates superior performance compared to a widely adopted state-of-the-art metaheuristic, achieving a significant 3.43% reduction in travel costs. Furthermore, the model exhibits robustness across diverse SVRP settings, highlighting its adaptability and ability to learn optimal routing strategies in varying environments. The publicly available implementation of our framework serves as a valuable resource for future research endeavors aimed at advancing RL-based solutions for SVRP. | 翻訳日:2023-11-15 16:33:06 公開日:2023-11-13 |
# 脳様神経適応を用いたロバストでスケーラブルな超次元計算 Robust and Scalable Hyperdimensional Computing With Brain-Like Neural Adaptations ( http://arxiv.org/abs/2311.07705v1 ) ライセンス: Link先を確認 | Junyao Wang, Mohammad Abdullah Al Faruque | (参考訳) IoT(Internet of Things)は、エッジベースの機械学習(ML)メソッドを使用して、ローカルに収集されたデータを分析する多くのアプリケーションを容易にしている。
残念なことに、一般的なMLアルゴリズムは、今日のIoTデバイスの能力を超えた、集中的な計算を必要とすることが多い。
脳にインスパイアされた超次元コンピューティング(HDC)がこの問題に対処するために導入された。
しかし、既存のHDCは静的エンコーダを使用しており、正確な精度を達成するには、非常に高次元と数百のトレーニングイテレーションが必要である。
これにより、IoTシステムにおけるHDCの応用を著しく阻害する、大きな効率損失が発生する。
既存のhdcのエンコーディングモジュールには,トレーニング中に学習した情報を活用する能力が欠けていることが主な原因であると考えられた。
対照的に、人間の脳のニューロンは常に動的に再生し、新しい情報を学ぶ際により有用な機能を提供する。
HDCの目標は、ランダムに生成されたベースハイパーベクターの高次元性を利用して、情報を神経活動のパターンとして表現することであるが、既存のHDCが脳神経再生と同様の振る舞いをサポートすることは依然として困難である。
本研究では,不好ましくない次元を識別し,再生成し,適切な精度と著しく低い次元を提供する動的hdc学習フレームワークを提案する。 The Internet of Things (IoT) has facilitated many applications utilizing edge-based machine learning (ML) methods to analyze locally collected data. Unfortunately, popular ML algorithms often require intensive computations beyond the capabilities of today's IoT devices. Brain-inspired hyperdimensional computing (HDC) has been introduced to address this issue. However, existing HDCs use static encoders, requiring extremely high dimensionality and hundreds of training iterations to achieve reasonable accuracy. This results in a huge efficiency loss, severely impeding the application of HDCs in IoT systems. We observed that a main cause is that the encoding module of existing HDCs lacks the capability to utilize and adapt to information learned during training. In contrast, neurons in human brains dynamically regenerate all the time and provide more useful functionalities when learning new information. While the goal of HDC is to exploit the high-dimensionality of randomly generated base hypervectors to represent the information as a pattern of neural activity, it remains challenging for existing HDCs to support a similar behavior as brain neural regeneration. In this work, we present dynamic HDC learning frameworks that identify and regenerate undesired dimensions to provide adequate accuracy with significantly lowered dimensionalities, thereby accelerating both the training and inference. | 翻訳日:2023-11-15 16:32:48 公開日:2023-11-13 |
# 自発コードスイッチト音声におけるエントレインメントの測定 Measuring Entrainment in Spontaneous Code-switched Speech ( http://arxiv.org/abs/2311.07703v1 ) ライセンス: Link先を確認 | Debasmita Bhattacharya and Siying Ding and Alayna Nguyen and Julia Hirschberg | (参考訳) 互いに訓練するインターロケーターは、知らない人よりも会話が成功することはよく知られている。
これまでの研究では、言語的特徴を単言語的ドメインと単言語的ドメインの両方で訓練することが示されている。
コードスイッチング通信に関する最近の研究は、コードスイッチング(CSW)の特定の側面に関する事前の証拠も示している。
しかし、このようなコード交換ドメインにおける学習の研究は極めて少なく、人間と機械の相互作用に制限されている。
私たちの研究は、以下の質問に答えて、人間同士の自発的な会話をコード交換した。
1)単言語環境における文字・音声の連関パターンは,コード切り換え設定に一般化するか?
2) 生成テキストにおけるコードスイッチングのパターンは自発的なコードスイッチング音声に一般化されるか?
両質問に対する肯定的回答の証拠は,コミュニケーション現象としてのエントレーニングの潜在的「普遍的」性質に重要な意味を持ち,包括的かつ対話的な音声技術への応用の可能性を見いだす。 It is well-known that interlocutors who entrain to one another have more successful conversations than those who do not. Previous research has shown that interlocutors entrain on linguistic features in both written and spoken monolingual domains. More recent work on code-switched communication has also shown preliminary evidence of entrainment on certain aspects of code-switching (CSW). However, such studies of entrainment in code-switched domains have been extremely few and restricted to human-machine textual interactions. Our work studies code-switched spontaneous speech between humans by answering the following questions: 1) Do patterns of written and spoken entrainment in monolingual settings generalize to code-switched settings? 2) Do patterns of entrainment on code-switching in generated text generalize to spontaneous code-switched speech? We find evidence of affirmative answers to both of these questions, with important implications for the potentially "universal" nature of entrainment as a communication phenomenon, and potential applications in inclusive and interactive speech technology. | 翻訳日:2023-11-15 16:32:26 公開日:2023-11-13 |
# AuthentiGPT:ブラックボックス言語モデルによる機械生成テキストの検出 AuthentiGPT: Detecting Machine-Generated Text via Black-Box Language Models Denoising ( http://arxiv.org/abs/2311.07700v1 ) ライセンス: Link先を確認 | Zhen Guo, Shangdi Yu | (参考訳) 大規模言語モデル(LLM)は、倫理的ジレンマを同時に装いながら巨大な機会を開放している。
主な懸念の1つは、人間の文章を忠実に模倣するテキストを作成する能力であり、学術的な不正行為、偽情報、詐欺などの潜在的な誤用につながる可能性がある。
この問題に対処するために,機械生成テキストと人文テキストを区別する効率的な分類器であるauthentigptを提案する。
人文テキストが機械生成テキストの配布外に存在するという仮定のもと、AuthentiGPTはブラックボックスのLCMを利用して人工的に付加されたノイズで入力テキストを識別し、意味的に原文と比較し、その内容が機械生成されているかどうかを決定する。
トレーニング可能なパラメータは1つだけで、AuthentiGPTは大規模なトレーニングデータセットの必要性を排除し、LCMの出力を透かし、ログライクな状態を計算する。
重要なことに、AuthentiGPTの検出機能は、任意の生成言語モデルに容易に適応できる。
ドメイン固有のデータセットの0.918 AUROCスコアで、AuthentiGPTは、他の商用アルゴリズムよりも有効であることを示し、学術的な設定で機械生成テキストを検出する可能性を強調している。 Large language models (LLMs) have opened up enormous opportunities while simultaneously posing ethical dilemmas. One of the major concerns is their ability to create text that closely mimics human writing, which can lead to potential misuse, such as academic misconduct, disinformation, and fraud. To address this problem, we present AuthentiGPT, an efficient classifier that distinguishes between machine-generated and human-written texts. Under the assumption that human-written text resides outside the distribution of machine-generated text, AuthentiGPT leverages a black-box LLM to denoise input text with artificially added noise, and then semantically compares the denoised text with the original to determine if the content is machine-generated. With only one trainable parameter, AuthentiGPT eliminates the need for a large training dataset, watermarking the LLM's output, or computing the log-likelihood. Importantly, the detection capability of AuthentiGPT can be easily adapted to any generative language model. With a 0.918 AUROC score on a domain-specific dataset, AuthentiGPT demonstrates its effectiveness over other commercial algorithms, highlighting its potential for detecting machine-generated text in academic settings. | 翻訳日:2023-11-15 16:32:10 公開日:2023-11-13 |
# 相対論的因果関係のモノガミー関係 Monogamy relations for relativistically causal correlations ( http://arxiv.org/abs/2311.07696v1 ) ライセンス: Link先を確認 | Mirjam Weilenmann | (参考訳) 非シグナリング条件は、任意の(量子)系が空間配置に課す最小限の要件を符号化し、特殊相対性理論と整合性を持たなければならない。
最近の研究は、2つの当事者が関与するシナリオにおいて、相対論的因果関係に適合する条件は、可能なすべての非シグナリング条件を満たす必要はなく、そのサブセットのみを満たす必要があると論じている。
ここで、この制約のサブセットのみを満たす相関関係は、空間的分離確率変数の効果の間の非常に非局所的な一夫一夫一婦関係を満たさなければならないことを示す。
これらの一夫一婦関係は、様々なシステム間の新しいエントロピー不等式の形をとり、それらを導出する一般的な方法を与える。
これらの一夫一婦制関係を用いて、相対論的因果関係に繋がる物理機構の以前の提案に反論し、そのような機構が超光信号に繋がることを示した。 Non-signalling conditions encode minimal requirements that any (quantum) systems put into spatial arrangements must satisfy in order to be consistent with special relativity. Recent works have argued that in scenarios involving more that two parties, conditions compatible with relativistic causality do not have to satisfy all possible non-signalling conditions but only a subset of them. Here we show that correlations satisfying only this subset of constraints have to satisfy highly non-local monogamy relations between the effects of space-like separated random variables. These monogamy relations take the form of new entropic inequalities between the various systems and we give a general method to derive them. Using these monogamy relations we refute previous suggestions for physical mechanisms that could lead to relativistically causal correlations, demonstrating that such mechanisms would lead to superluminal signalling. | 翻訳日:2023-11-15 16:31:47 公開日:2023-11-13 |
# 変分オートエンコーダにおける集合体後部マッチング Matching aggregate posteriors in the variational autoencoder ( http://arxiv.org/abs/2311.07693v1 ) ライセンス: Link先を確認 | Surojit Saha, Sarang Joshi, and Ross Whitaker | (参考訳) 変分オートエンコーダ(VAE)は、ログ境界データの変動下界を効率的に最適化し、強力な理論的基礎を持つ、よく研究され、深い潜伏変数モデル(DLVM)である。
しかしながら、VAEが集合後部と一致しないことが知られていることは、潜伏分布(すなわち、前者と一致しない)における \emph{pockets/holes} や、潜伏空間における情報の損失と関連する \emph{posterior collapse} をもたらすことが多い。
本稿では,VAEと関連する目的関数を再構成することにより,VAEにおけるこれらの欠点に対処する。
我々はカーネル密度推定(KDE)を用いて高次元の集合体後部をモデル化する。
提案手法は, 可変オートエンコーダ (AVAE) と命名され, VAEの理論的枠組みに基づいて構築されている。
複数のベンチマークデータセットに対する提案手法の実証評価は, 最先端(SOTA)手法と比較してAVAEの有効性を示す。 The variational autoencoder (VAE) is a well-studied, deep, latent-variable model (DLVM) that efficiently optimizes the variational lower bound of the log marginal data likelihood and has a strong theoretical foundation. However, the VAE's known failure to match the aggregate posterior often results in \emph{pockets/holes} in the latent distribution (i.e., a failure to match the prior) and/or \emph{posterior collapse}, which is associated with a loss of information in the latent space. This paper addresses these shortcomings in VAEs by reformulating the objective function associated with VAEs in order to match the aggregate/marginal posterior distribution to the prior. We use kernel density estimate (KDE) to model the aggregate posterior in high dimensions. The proposed method is named the \emph{aggregate variational autoencoder} (AVAE) and is built on the theoretical framework of the VAE. Empirical evaluation of the proposed method on multiple benchmark data sets demonstrates the effectiveness of the AVAE relative to state-of-the-art (SOTA) methods. | 翻訳日:2023-11-15 16:31:30 公開日:2023-11-13 |
# 大規模言語モデルの「驚くほど」応答の真理性について On The Truthfulness of 'Surprisingly Likely' Responses of Large Language Models ( http://arxiv.org/abs/2311.07692v1 ) ライセンス: Link先を確認 | Naman Goel | (参考訳) prelec (the bayesian truth serum) の独創的著作における驚くほどありそうな基準は、合理的なエージェントに報酬を与え、期待される情報獲得を w.r.t. の確率的信念で最大化することで、ゲーム理論的なマルチエージェント設定における真理性を保証する。
LLMの応答に対する類似基準の関連について検討する。
我々は、ある条件下では、驚くほどありそうな基準がllmで機能するならば、この基準の下で報酬を最大化する応答は、後続確率を最大化する応答よりも正確であるべきであると仮定する。
GPT-2 と LLaMA-2 は、TrathfulQA ベンチマークを含むベンチマークを用いて、精度を大幅に向上することを示した(例えば、TruthfulQA の24パーセントまでの改善と、質問のカテゴリごとの70パーセントまでの改善)。 The surprisingly likely criterion in the seminal work of Prelec (the Bayesian Truth Serum) guarantees truthfulness in a game-theoretic multi-agent setting, by rewarding rational agents to maximise the expected information gain with their answers w.r.t. their probabilistic beliefs. We investigate the relevance of a similar criterion for responses of LLMs. We hypothesize that if the surprisingly likely criterion works in LLMs, under certain conditions, the responses that maximize the reward under this criterion should be more accurate than the responses that only maximize the posterior probability. Using benchmarks including the TruthfulQA benchmark and using openly available LLMs: GPT-2 and LLaMA-2, we show that the method indeed improves the accuracy significantly (for example, upto 24 percentage points aggregate improvement on TruthfulQA and upto 70 percentage points improvement on individual categories of questions). | 翻訳日:2023-11-15 16:31:09 公開日:2023-11-13 |
# ランダム正則グラフ上の拡張波動関数の相関体積 Correlated volumes for extended wavefunctions on a random-regular graph ( http://arxiv.org/abs/2311.07690v1 ) ライセンス: Link先を確認 | Manuel Pino and Jose E. Roman | (参考訳) 我々は、分岐数$k=2.$ ゼロエネルギー固有ベクトルに付随するいくつかの q-モーメント$I_q$ を数値計算し、それに対応するフラクタル次元$N=4\times 10^6.$ の熱力学極限において、対応するフラクタル次元$D_q$ を、相関体積$N_q$ とともに抽出する。
障害の中間値$Wでは、エルゴディディティ$D_q=1$ for $q=1,2$と、アンダーソン転移 $\log(\log(N_q))\sim W に近づくと急速に増加する相関体積を得る。
次に、wowfunction $e^{<\log|\psi|^2>} の典型的な値に付随するボリューム $n_0$ の抽出に注目する。これは、中間障害における $n_1$ や $n_2.$ の値と同様の傾向である。
計算された相関ボリュームのいずれも、障害に分岐する傾向は見られず、特に指数$\nu=1/2$は存在しない。
金属の深部では、第1の相関体積$N_1\gg Nよりもシステムサイズへのクロスオーバーがはるかに小さい。
このクロスオーバーが行われると、最初のフラクタル次元 $d_1$ の微分が指数値 $\nu=1.$ で臨界に振る舞うスケーリングの証拠が得られる。 We analyze the ergodic properties of a metallic wavefunction for the Anderson model in a disordered random-regular graph with branching number $k=2.$ A few q-moments $I_q$ associated with the zero energy eigenvector are numerically computed up to sizes $N=4\times 10^6.$ We extract their corresponding fractal dimensions $D_q$ in the thermodynamic limit together with correlated volumes $N_q$ that control finite-size effects. At intermediate values of disorder $W,$ we obtain ergodicity $D_q=1$ for $q=1,2$ and correlation volumes that increase fast upon approaching the Anderson transition $\log(\log(N_q))\sim W.$ We then focus on the extraction of the volume $N_0$ associated with the typical value of the wavefunction $e^{<\log|\psi|^2>},$ which follows a similar tendency as the ones for $N_1$ or $N_2.$ Its value at intermediate disorders is close, but smaller, to the so-called ergodic volume previously found via the super-symmetric formalism and belief propagator algorithms. None of the computed correlated volumes shows a tendency to diverge up to disorders $W\approx 15$, specifically none with exponent $\nu=1/2$. Deeper in the metal, we characterize the crossover to system sizes much smaller than the first correlated volume $N_1\gg N.$ Once this crossover has taken place, we obtain evidence of a scaling in which the derivative of the first fractal dimension $D_1$ behaves critically with an exponent $\nu=1.$ | 翻訳日:2023-11-15 16:30:50 公開日:2023-11-13 |
# MART:マルチラウンド自動レッドチームによるLCMの安全性向上 MART: Improving LLM Safety with Multi-round Automatic Red-Teaming ( http://arxiv.org/abs/2311.07689v1 ) ライセンス: Link先を確認 | Suyu Ge, Chunting Zhou, Rui Hou, Madian Khabsa, Yi-Chia Wang, Qifan Wang, Jiawei Han, Yuning Mao | (参考訳) レッドチーム(Red-teaming)は、LLM(Large Language Models)において、潜在的な欠陥を特定するためにLLMを徹底的に評価し、責任と正確な応答で対処する、安全でない行動を緩和する一般的なプラクティスである。
有効ではあるが、手動の赤チーム化はコストがかかり、既存の自動赤チーム化は通常、対処せずに安全性のリスクを発見する。
本稿では,マルチラウンド自動レッドチーム(MART)方式を提案する。この方式は,自動対向的なプロンプト書き込みと安全な応答生成を両立させ,レッドチームのスケーラビリティと目標LLMの安全性を著しく向上させる。
具体的には、敵LLMとターゲットLLMが反復的に相互に相互作用し、敵LLMは、ターゲットLLMから安全でない応答を誘発する挑戦的なプロンプトを生成し、ターゲットLLMは、これらのプロンプトに対して安全に整合したデータで微調整される。
各ラウンドにおいて、敵LLMは更新された目標LLMに対してより良い攻撃を行う一方、目標LLMは安全性の微調整によって自身を改善する。
対向プロンプトベンチマークでは、安全性アライメントが制限されたllmの違反率は、4回のマートの後最大84.7%まで減少し、幅広い対向プロンプト書き込みでllmと同等の性能を達成している。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持している。 Red-teaming is a common practice for mitigating unsafe behaviors in Large Language Models (LLMs), which involves thoroughly assessing LLMs to identify potential flaws and addressing them with responsible and accurate responses. While effective, manual red-teaming is costly, and existing automatic red-teaming typically discovers safety risks without addressing them. In this paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which incorporates both automatic adversarial prompt writing and safe response generation, significantly increasing red-teaming scalability and the safety of the target LLM. Specifically, an adversarial LLM and a target LLM interplay with each other in an iterative manner, where the adversarial LLM aims to generate challenging prompts that elicit unsafe responses from the target LLM, while the target LLM is fine-tuned with safety aligned data on these adversarial prompts. In each round, the adversarial LLM crafts better attacks on the updated target LLM, while the target LLM also improves itself through safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART, achieving comparable performance to LLMs with extensive adversarial prompt writing. Notably, model helpfulness on non-adversarial prompts remains stable throughout iterations, indicating the target LLM maintains strong performance on instruction following. | 翻訳日:2023-11-15 16:30:15 公開日:2023-11-13 |
# 視覚課題に対するフェデレーションクラスインクリメンタルラーニングにおけるカタストロフィック・フォーミングの緩和のためのデータフリーアプローチ A Data-Free Approach to Mitigate Catastrophic Forgetting in Federated Class Incremental Learning for Vision Tasks ( http://arxiv.org/abs/2311.07784v1 ) ライセンス: Link先を確認 | Sara Babakniya, Zalan Fabian, Chaoyang He, Mahdi Soltanolkotabi, Salman Avestimehr | (参考訳) 深層学習モデルは、新しいデータでトレーニングされたときに、事前学習された情報を忘れることに苦しむことが多い。
この問題は、データが分散され、ユーザ毎に独立して変更できるフェデレーション学習(fl)において悪化する。
この破滅的な忘れを中央集権的に解決するために、多くの解決策が提案されている。
しかし、プライバシの懸念やリソースの制限など、FLに固有の複雑さがあるため、直接適用しない。
これらの課題を克服するために, 生成モデルを用いて過去の分布からサンプルを合成する「textbf{federated class incremental learning」の枠組みを提案する。
このデータは後にトレーニングデータとともに利用でき、破滅的な忘れを軽減できる。
プライバシを保護するため、生成モデルはクライアントからデータを要求することなく、各タスクの最後にデータフリーなメソッドを使用してサーバ上でトレーニングされる。
さらに、当社のソリューションでは、ユーザに古いデータやモデルを保存する必要はなく、いつでもトレーニングに参加/分離する自由が得られます。
さらに、フェデレートされた連続学習に適したImageNetデータセットの新たな再グループ化であるSuperImageNetを紹介する。
複数のデータセットに対する広範な実験により,既存のベースラインと比較して,大幅な改善が示された。 Deep learning models often suffer from forgetting previously learned information when trained on new data. This problem is exacerbated in federated learning (FL), where the data is distributed and can change independently for each user. Many solutions are proposed to resolve this catastrophic forgetting in a centralized setting. However, they do not apply directly to FL because of its unique complexities, such as privacy concerns and resource limitations. To overcome these challenges, this paper presents a framework for \textbf{federated class incremental learning} that utilizes a generative model to synthesize samples from past distributions. This data can be later exploited alongside the training data to mitigate catastrophic forgetting. To preserve privacy, the generative model is trained on the server using data-free methods at the end of each task without requesting data from clients. Moreover, our solution does not demand the users to store old data or models, which gives them the freedom to join/leave the training at any time. Additionally, we introduce SuperImageNet, a new regrouping of the ImageNet dataset specifically tailored for federated continual learning. We demonstrate significant improvements compared to existing baselines through extensive experiments on multiple datasets. | 翻訳日:2023-11-15 16:23:27 公開日:2023-11-13 |
# マルチモーダルビデオトランスフォーマー(一部)における視覚言語統合は脳と協調する Vision-Language Integration in Multimodal Video Transformers (Partially) Aligns with the Brain ( http://arxiv.org/abs/2311.07766v1 ) ライセンス: Link先を確認 | Dota Tianai Dong and Mariya Toneva | (参考訳) 複数のモダリティからの情報を統合することは、現実世界の理解と人工知能システムを接地するために必要な前提条件の1つだろう。
視覚、テキスト、音声から共同で学習するビデオトランスフォーマーの最近の進歩は、この目標に向けて幾らか進展してきたが、これらのモデルがモダリティからの情報を統合する程度はまだ不明である。
本研究では,脳内のマルチモーダル情報処理の神経科学的証拠を活用することで,事前学習型マルチモーダルビデオトランスフォーマーモデルを提案する。
人気テレビ番組を観ている参加者の脳記録を用いて、トレーニング済みマルチモーダルビデオトランスフォーマーにおけるマルチモーダル接続と相互作用がユニモーダル脳領域とマルチモーダル脳領域とのアライメントに及ぼす影響を解析した。
視覚が言語処理中にマスキング予測性能を高めることの証拠が得られ、モデル内のクロスモーダル表現が個々のモダリティに有効であることを示す。
しかし、共同マルチモーダルトランスフォーマー表現によって得られた脳関連情報の証拠は、個々のモダリティの全てによって捉えられたもの以上のものではない。
最後に、視覚言語推論を必要とするタスクを用いて、トレーニング済みの関節表現の脳のアライメントを改善することができることを示す。
全体として,マルチモーダルトランスフォーマーが視覚と言語を部分的に脳に関係のある方法で統合する能力について楽観的な見解を示すとともに,これらのモデルの脳アライメントの改善には新たなアプローチが必要かもしれないことを示す。 Integrating information from multiple modalities is arguably one of the essential prerequisites for grounding artificial intelligence systems with an understanding of the real world. Recent advances in video transformers that jointly learn from vision, text, and sound over time have made some progress toward this goal, but the degree to which these models integrate information from modalities still remains unclear. In this work, we present a promising approach for probing a pre-trained multimodal video transformer model by leveraging neuroscientific evidence of multimodal information processing in the brain. Using brain recordings of participants watching a popular TV show, we analyze the effects of multi-modal connections and interactions in a pre-trained multi-modal video transformer on the alignment with uni- and multi-modal brain regions. We find evidence that vision enhances masked prediction performance during language processing, providing support that cross-modal representations in models can benefit individual modalities. However, we don't find evidence of brain-relevant information captured by the joint multi-modal transformer representations beyond that captured by all of the individual modalities. We finally show that the brain alignment of the pre-trained joint representation can be improved by fine-tuning using a task that requires vision-language inferences. Overall, our results paint an optimistic picture of the ability of multi-modal transformers to integrate vision and language in partially brain-relevant ways but also show that improving the brain alignment of these models may require new approaches. | 翻訳日:2023-11-15 16:23:09 公開日:2023-11-13 |
# FedOpenHAR:センサに基づくヒューマンアクティビティ認識のためのフェデレーションマルチタスク変換学習 FedOpenHAR: Federated Multi-Task Transfer Learning for Sensor-Based Human Activity Recognition ( http://arxiv.org/abs/2311.07765v1 ) ライセンス: Link先を確認 | Egemen \.I\c{s}g\"uder and \"Ozlem Durmaz \.Incel | (参考訳) ウェアラブルやモバイルデバイスに統合されたモーションセンサーは、デバイスユーザに関する貴重な情報を提供する。
機械学習と最近では、センサーデータの特徴付けにディープラーニング技術が使われている。
主に、アクティビティの認識のような単一のタスクをターゲットとし、データはサーバーまたはクラウド環境で中央的に処理される。
しかし、同じセンサデータを複数のタスクに利用することができ、分散機械学習技術はセンタへのデータ送信を必要とせずに使用できる。
本稿では,センサを用いた人間行動認識とデバイス位置識別の両課題に対して,フェデレート・トランスファー・ラーニングをマルチタスク方式で検討する。
OpenHARフレームワークは10個の小さなデータセットを含むモデルをトレーニングするために使用される。
その目的は、異なるデータセットにおける両方のタスクに適用可能なモデルを得ることである。
DeepConvLSTMアーキテクチャを用いて、フラワーフェデレーション学習環境で複数の実験を行う。
結果は、異なるパラメータと制限の下で、連合バージョンと集中バージョンで示されます。
タスク固有でパーソナライズされたフェデレーションモデルを用いたトランスファーラーニングとトレーニングにより、各クライアントを個別に訓練し、完全集中型アプローチよりも高い精度で学習した。 Motion sensors integrated into wearable and mobile devices provide valuable information about the device users. Machine learning and, recently, deep learning techniques have been used to characterize sensor data. Mostly, a single task, such as recognition of activities, is targeted, and the data is processed centrally at a server or in a cloud environment. However, the same sensor data can be utilized for multiple tasks and distributed machine-learning techniques can be used without the requirement of the transmission of data to a centre. This paper explores Federated Transfer Learning in a Multi-Task manner for both sensor-based human activity recognition and device position identification tasks. The OpenHAR framework is used to train the models, which contains ten smaller datasets. The aim is to obtain model(s) applicable for both tasks in different datasets, which may include only some label types. Multiple experiments are carried in the Flower federated learning environment using the DeepConvLSTM architecture. Results are presented for federated and centralized versions under different parameters and restrictions. By utilizing transfer learning and training a task-specific and personalized federated model, we obtained a similar accuracy with training each client individually and higher accuracy than a fully centralized approach. | 翻訳日:2023-11-15 16:22:42 公開日:2023-11-13 |
# 重力アハロノフ-ボーム効果 Gravitational Aharonov-Bohm Effect ( http://arxiv.org/abs/2311.07764v1 ) ライセンス: Link先を確認 | RY Chiao, NA Inan, M Scheibner, J Sharping, DA Singleton, ME Tobar | (参考訳) 重力アハロノフ・ボーム効果について、重力体(例えば、地球を周回する衛星)の周りの自由落下に量子系を配置することで検討する。
この系は自由落下であるため、同値原理により、量子系は局所的に平坦で重力のない時空であり、重力場から遮蔽される。
少し楕円軌道の場合、重力ポテンシャルは時間とともに変化する。
これは、アハルノフ-ボーム効果のこのバージョンの署名であるサイドバンドを発達させる量子系のエネルギー準位に繋がる。
これは干渉縞のシフトによるアハラノフ・ボーム効果の通常のシグネチャとは対照的である。 We investigate the gravitational Aharonov-Bohm effect, by placing a quantum system in free-fall around a gravitating body {\it e.g.} a satellite orbiting the Earth. Since the system is in free-fall, by the equivalence principle, the quantum system is locally in flat, gravity-free space-time - it is screened from the gravitational field. For a slightly elliptical orbit, the gravitational potential will change with time. This leads to the energy levels of the quantum system developing side bands which is the signature for this version of the Aharonov-Bohm effect. This contrasts with the normal signature of the Aharonov-Bohm effect of shifting of interference fringes. | 翻訳日:2023-11-15 16:22:25 公開日:2023-11-13 |
# 忠実度指標における不一致問題 The Disagreement Problem in Faithfulness Metrics ( http://arxiv.org/abs/2311.07763v1 ) ライセンス: Link先を確認 | Brian Barr, Noah Fatsi, Leif Hancox-Li, Peter Richter, Daniel Proano, and Caleb Mok | (参考訳) 説明可能な人工知能(XAI)の分野は、ブラックボックス機械学習モデルがどのように機能するかを説明することである。
作業の多くは、あらゆるモデルアーキテクチャにポストホックな特徴を提供するという聖杯を中心にしている。
斬新な方法に関するイノベーションのペースは遅くなっているが、どのようにメソッドを選択するか、どのように目的に適合させるかという疑問は残る。
最近、XAIメソッドのベンチマークに関する取り組みが、その目的のためにメトリクスを提案している。しかし、多くの選択肢がある。この選択の報奨金は、エンドユーザにどのように進むべきかを、まだわからないままだ。この記事では、メトリクスと、表の分類問題に関するローカルな説明の忠実さを測定することに焦点を当て、現在のメトリクスが一致していないことを示し、ユーザが最も忠実な説明を選択する方法を知らないことを示す。 The field of explainable artificial intelligence (XAI) aims to explain how black-box machine learning models work. Much of the work centers around the holy grail of providing post-hoc feature attributions to any model architecture. While the pace of innovation around novel methods has slowed down, the question remains of how to choose a method, and how to make it fit for purpose. Recently, efforts around benchmarking XAI methods have suggested metrics for that purpose -- but there are many choices. That bounty of choice still leaves an end user unclear on how to proceed. This paper focuses on comparing metrics with the aim of measuring faithfulness of local explanations on tabular classification problems -- and shows that the current metrics don't agree; leaving users unsure how to choose the most faithful explanations. | 翻訳日:2023-11-15 16:22:16 公開日:2023-11-13 |
# 多変量ポアソン対数正規因子分析器のクラスタリング数データに対する有限混合 Finite Mixtures of Multivariate Poisson-Log Normal Factor Analyzers for Clustering Count Data ( http://arxiv.org/abs/2311.07762v1 ) ライセンス: Link先を確認 | Andrea Payne, Anjali Silva, Steven J. Rothstein, Paul D. McNicholas, Sanjeena Subedi | (参考訳) 多変量poisson-log正規因子分析器の混合は、共分散行列に制約を課すことで導入され、クラスタ化のための柔軟なモデルとなった。
特に、因子分析モデルの混合に基づく8つの調和混合モデルのクラスを導入する。
変分ガウス近似はパラメータ推定に使われ、情報基準はモデル選択に使用される。
提案モデルは,rnaシーケンシング研究から生じる離散データのクラスタリングの文脈で検討された。
実データとシミュレーションデータを用いて、モデルが好適なクラスタリング性能を示すことを示す。
この作業のためのgithub rパッケージは、https://github.com/anjalisilva/mixmplnfaで入手できる。 A mixture of multivariate Poisson-log normal factor analyzers is introduced by imposing constraints on the covariance matrix, which resulted in flexible models for clustering purposes. In particular, a class of eight parsimonious mixture models based on the mixtures of factor analyzers model are introduced. Variational Gaussian approximation is used for parameter estimation, and information criteria are used for model selection. The proposed models are explored in the context of clustering discrete data arising from RNA sequencing studies. Using real and simulated data, the models are shown to give favourable clustering performance. The GitHub R package for this work is available at https://github.com/anjalisilva/mixMPLNFA and is released under the open-source MIT license. | 翻訳日:2023-11-15 16:21:57 公開日:2023-11-13 |
# アモーダル光流れ Amodal Optical Flow ( http://arxiv.org/abs/2311.07761v1 ) ライセンス: Link先を確認 | Maximilian Luz, Rohit Mohan, Ahmed Rida Sekkat, Oliver Sawade, Elmar Matthes, Thomas Brox, Abhinav Valada | (参考訳) 光フロー推定は、透明またはオクルードされた物体の場合、非常に困難である。
そこで本研究では,光の流れと運動知覚を統合するアモーダル・オプティカル・フローを導入することで,課題をタスクレベルで解決する。
可視領域のみを表すのではなく、シーンの可視領域と隠蔽領域の両方を含む多層画素レベルの運動場としてアモーダル光フローを定義する。
この新しいタスクの研究を容易にするため、AmodalSynthDriveデータセットを拡張し、アモーダル光フロー推定のためのピクセルレベルラベルを含む。
解析可能な方法で性能を定量化するために,Amodal Flow Qualityメトリックとともに,いくつかの強いベースラインを示す。
さらに,この課題に対処するための最初のステップとして,新しいAmodalFlowNetを提案する。
AmodalFlowNetはトランスフォーマーベースのコストボリュームエンコーダとリカレントトランスフォーマーデコーダを組み合わせることで,階層的特徴伝播とアモーダルセマンティックグラウンドディングを容易にする。
広範に実験を行い,アモーダル光流の流動性を実証し,パンオプティカルトラッキングなどの下流タスクに有用性を示す。
データセット、コード、トレーニングされたモデルをhttp://amodal-flow.cs.uni-freiburg.deで公開しています。 Optical flow estimation is very challenging in situations with transparent or occluded objects. In this work, we address these challenges at the task level by introducing Amodal Optical Flow, which integrates optical flow with amodal perception. Instead of only representing the visible regions, we define amodal optical flow as a multi-layered pixel-level motion field that encompasses both visible and occluded regions of the scene. To facilitate research on this new task, we extend the AmodalSynthDrive dataset to include pixel-level labels for amodal optical flow estimation. We present several strong baselines, along with the Amodal Flow Quality metric to quantify the performance in an interpretable manner. Furthermore, we propose the novel AmodalFlowNet as an initial step toward addressing this task. AmodalFlowNet consists of a transformer-based cost-volume encoder paired with a recurrent transformer decoder which facilitates recurrent hierarchical feature propagation and amodal semantic grounding. We demonstrate the tractability of amodal optical flow in extensive experiments and show its utility for downstream tasks such as panoptic tracking. We make the dataset, code, and trained models publicly available at http://amodal-flow.cs.uni-freiburg.de. | 翻訳日:2023-11-15 16:21:44 公開日:2023-11-13 |
# 認知神経・シンボリックシステムを用いた高レベル機械推論 Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic Systems ( http://arxiv.org/abs/2311.07759v1 ) ライセンス: Link先を確認 | Alessandro Oltramari | (参考訳) ハイレベル推論は、経験を通じて得られた知識を一般化し、新しい状況において堅牢な行動を示す能力として定義することができる。
このような推論は、言語コミュニケーションから複雑な状況における意思決定に至るまで、幅広いタスクでシームレスに使用する人間の基本的なスキルである。
オブジェクトの日常的な世界とその相互作用を理解し、操作すること自体が表れるとき、私たちは常識や常識の推論について話します。
最先端のaiシステムはそのような能力を持っていない: 例えば、最近の大規模な言語モデルでは、人間との会話において顕著な流線型性を示すことで人気があるが、共通点の能力について調査した場合、それらは依然として簡単なミスを犯している。
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。 High-level reasoning can be defined as the capability to generalize over knowledge acquired via experience, and to exhibit robust behavior in novel situations. Such form of reasoning is a basic skill in humans, who seamlessly use it in a broad spectrum of tasks, from language communication to decision making in complex situations. When it manifests itself in understanding and manipulating the everyday world of objects and their interactions, we talk about common sense or commonsense reasoning. State-of-the-art AI systems don't possess such capability: for instance, Large Language Models have recently become popular by demonstrating remarkable fluency in conversing with humans, but they still make trivial mistakes when probed for commonsense competence; on a different level, performance degradation outside training data prevents self-driving vehicles to safely adapt to unseen scenarios, a serious and unsolved problem that limits the adoption of such technology. In this paper we propose to enable high-level reasoning in AI systems by integrating cognitive architectures with external neuro-symbolic components. We illustrate a hybrid framework centered on ACT-R and we discuss the role of generative models in recent and future applications. | 翻訳日:2023-11-15 16:21:15 公開日:2023-11-13 |
# Vlasov-Maxwell方程式を解くための量子テンソルネットワーク Quantized tensor networks for solving the Vlasov-Maxwell equations ( http://arxiv.org/abs/2311.07756v1 ) ライセンス: Link先を確認 | Erika Ye, Nuno Loureiro | (参考訳) ヴラソフ・マクスウェル方程式は衝突のないプラズマの「textit{ab-initio}」記述を提供するが、その解法は計算コストが高いため現実的ではないことが多い。
本研究では,量子テンソルネットワーク(QTN)を用いた半単純Vlasov-Maxwell解法を提案する。
このフレームワークは、高次元データセットの低ランク近似を効率的に表現し、操作することができる。
その結果、ソルバのコストはパラメータ$D$(いわゆる結合次元)で多項式的にスケールし、これはローランク近似に関連する誤差に直接関係する。
d$を増加させることで、低ランク近似なしで解法が得る力学への収束が保証される。
ここで考慮された2D3Vテスト問題に対して、合計2^{36}$グリッドポイントを用いたシミュレーションでは正確な計算に$D=2^{18}$が必要であり、期待された物理学を捉えるのに十分な$D=64$が必要であることが分かる。
さらに、dirac-frenkel変分原理に基づくqtn時間発展スキームを用いて、courant-friedrichs-lewy(cfl)制約により規定されるよりも大きな時間ステップを使うことができる。
このように、qtn形式は、コストを大幅に削減したvlasov-maxwell方程式を概ね解く有望な手段であるように見える。 While the Vlasov-Maxwell equations provide an \textit{ab-initio} description of collisionless plasmas, solving them is often impractical due to high computational costs. In this work, we implement a semi-implicit Vlasov-Maxwell solver utilizing the quantized tensor network (QTN) framework. This framework allows one to efficiently represent and manipulate low-rank approximations of high-dimensional data sets. As a result, the cost of the solver scales polynomially with parameter $D$ (the so-called bond dimension), which is directly related to the error associated with the low-rank approximation. By increasing $D$, convergence to the dynamics that the solver would obtain without any low-rank approximation is guaranteed. We find that for the 2D3V test problems considered here, a modest $D=64$ appears to be sufficient for capturing the expected physics, despite the simulations using a total of $2^{36}$ grid points and thus requiring $D=2^{18}$ for exact calculations. Additionally, we utilize a QTN time evolution scheme based on the Dirac-Frenkel variational principle, which allows us to use larger time steps than that prescribed by the Courant-Friedrichs-Lewy (CFL) constraint. As such, the QTN format appears to be a promising means of approximately solving the Vlasov-Maxwell equations with significantly reduced cost. | 翻訳日:2023-11-15 16:20:39 公開日:2023-11-13 |
# SynthEnsemble: マルチラベル胸部X線分類のためのCNN, 視覚変換器, ハイブリッドモデルの融合 SynthEnsemble: A Fusion of CNN, Vision Transformer, and Hybrid Models for Multi-Label Chest X-Ray Classification ( http://arxiv.org/abs/2311.07750v1 ) ライセンス: Link先を確認 | S.M. Nabil Ashraf, Md. Adyelullahil Mamun, Hasnat Md. Abdullah, Md. Golam Rabiul Alam | (参考訳) 胸部X線は胸部疾患の診断に広く用いられているが、これらの異常に関する詳細な情報がないため、早期発見や治療に欠かせない正確な自動診断システムの開発が困難である。
この課題に対処するため,異なる疾患に対応する胸部X線パターンの同定にディープラーニングを用いた。
各種cnn,トランスフォーマー,ハイブリッド(cnn+transformer)モデル,古典モデルを用いて"chestx-ray14"データセットの実験を行った。
最も優れた個人モデルはCoAtNetで、受信機の動作特性曲線(AUROC)の84.2%の領域を達成した。
重み付き平均アンサンブルを用いて、各モデルの重みが微分進化によって決定される全ての訓練モデルの予測を組み合わせることにより、AUROCを85.4%に改善し、この分野における他の最先端手法よりも優れていた。
胸部x線から胸部疾患の自動診断の精度を向上させるため,深層学習技術,特に深層学習の可能性が示唆された。 Chest X-rays are widely used to diagnose thoracic diseases, but the lack of detailed information about these abnormalities makes it challenging to develop accurate automated diagnosis systems, which is crucial for early detection and effective treatment. To address this challenge, we employed deep learning techniques to identify patterns in chest X-rays that correspond to different diseases. We conducted experiments on the "ChestX-ray14" dataset using various pre-trained CNNs, transformers, hybrid(CNN+Transformer) models and classical models. The best individual model was the CoAtNet, which achieved an area under the receiver operating characteristic curve (AUROC) of 84.2%. By combining the predictions of all trained models using a weighted average ensemble where the weight of each model was determined using differential evolution, we further improved the AUROC to 85.4%, outperforming other state-of-the-art methods in this field. Our findings demonstrate the potential of deep learning techniques, particularly ensemble deep learning, for improving the accuracy of automatic diagnosis of thoracic diseases from chest X-rays. | 翻訳日:2023-11-15 16:19:56 公開日:2023-11-13 |
# 確率的保証と実践による連続pomdp計画における複雑観測モデルの簡略化 Simplifying Complex Observation Models in Continuous POMDP Planning with Probabilistic Guarantees and Practice ( http://arxiv.org/abs/2311.07745v1 ) ライセンス: Link先を確認 | Idan Lev-Yehudi, Moran Barenboim, Vadim Indelman | (参考訳) カメラ画像のような高次元かつ連続的な観察で部分的に観測可能なマルコフ決定プロセス(POMDP)を解くことは、多くの実生活ロボットや計画問題に必要である。
近年の研究では、観測モデルとして機械学習確率モデルが提案されているが、オンライン展開には計算コストが大きすぎる。
我々は,ソリューションの品質に関する正式な保証を維持しつつ,簡易な観測モデルを計画に使用することがどのような意味を持つのかという問題に対処する。
我々の主な貢献は、単純化モデルの統計総変動距離に基づく新しい確率的境界である。
提案手法は,PMDP値w.r.t.オリジナルモデルと経験的計画値と簡易モデルとのバウンドを示し,近年の粒子信頼性MDP濃度バウンドの結果を一般化した。
私たちの計算はオフラインとオンラインの2つに分けることができ、計画中にコストのかかるモデルに全くアクセスすることなく正式な保証を得ることができます。
最後に,既存の連続オンラインpomdpソルバのルーチンにバウンドをどのように統合するかをシミュレーションで示す。 Solving partially observable Markov decision processes (POMDPs) with high dimensional and continuous observations, such as camera images, is required for many real life robotics and planning problems. Recent researches suggested machine learned probabilistic models as observation models, but their use is currently too computationally expensive for online deployment. We deal with the question of what would be the implication of using simplified observation models for planning, while retaining formal guarantees on the quality of the solution. Our main contribution is a novel probabilistic bound based on a statistical total variation distance of the simplified model. We show that it bounds the theoretical POMDP value w.r.t. original model, from the empirical planned value with the simplified model, by generalizing recent results of particle-belief MDP concentration bounds. Our calculations can be separated into offline and online parts, and we arrive at formal guarantees without having to access the costly model at all during planning, which is also a novel result. Finally, we demonstrate in simulation how to integrate the bound into the routine of an existing continuous online POMDP solver. | 翻訳日:2023-11-15 16:18:58 公開日:2023-11-13 |
# 不規則な臨床時系列に対する階層的パッチ適用による動的局所的注意 Dynamic Local Attention with Hierarchical Patching for Irregular Clinical Time Series ( http://arxiv.org/abs/2311.07744v1 ) ライセンス: Link先を確認 | Xingyu Chen and Xiaochen Zheng and Amina Mollaysa and Manuel Sch\"urch and Ahmed Allam and Michael Krauthammer | (参考訳) 不規則な多変量時系列データは、臨床および医療領域で広く使われている。
時間的にも機能的にも不規則な点が特徴で、機械学習手法の扱いが難しい。
そこで本研究では,(1)学習可能なクエリと特徴固有のローカルウィンドウを用いた動的ローカルアテンション機構であるDLAと,自己アテンション操作の計算を行うための2つのモジュールからなる新しいモデルアーキテクチャを提案する。
これにより、各ウィンドウ内の不規則な時間ステップの生入力を、異なる特徴のサンプリング率を考慮して調和した正規潜在空間表現に集約する。
2) DLAの出力をマルチスケールパッチで処理し, 下流タスクの様々なスケールの情報を活用する階層型MLPミキサー。
本手法は,最新の臨床模倣ivデータセットを含む3つの実世界のデータセットにおける最先端手法よりも優れている。 Irregular multivariate time series data is prevalent in the clinical and healthcare domains. It is characterized by time-wise and feature-wise irregularities, making it challenging for machine learning methods to work with. To solve this, we introduce a new model architecture composed of two modules: (1) DLA, a Dynamic Local Attention mechanism that uses learnable queries and feature-specific local windows when computing the self-attention operation. This results in aggregating irregular time steps raw input within each window to a harmonized regular latent space representation while taking into account the different features' sampling rates. (2) A hierarchical MLP mixer that processes the output of DLA through multi-scale patching to leverage information at various scales for the downstream tasks. Our approach outperforms state-of-the-art methods on three real-world datasets, including the latest clinical MIMIC IV dataset. | 翻訳日:2023-11-15 16:18:33 公開日:2023-11-13 |
# 多量子クリフォード・サイクロミック回路の精密合成 Exact synthesis of multiqubit Clifford-cyclotomic circuits ( http://arxiv.org/abs/2311.07741v1 ) ライセンス: Link先を確認 | Matthew Amy, Andrew N. Glaudell, Shaun Kelso, William Maxwell, Samuel S. Mendelson, Neil J. Ross | (参考訳) n\geq 8$ を 4 で割り切れる整数とする。
クリフォード・シクロトミックゲート集合 $\mathcal{G}_n$ は、クリフォードゲートを$z$-回転$T_n = \mathrm{diag}(1,\zeta_n)$で拡張することによって得られる普遍ゲート集合である。
ここでは、$n$ が 2 のパワーであるとき、マルチキュービットのユニタリ行列 $U$ が $\mathcal{G}_n$ 上の回路で正確に表現できることと、$U$ の成分が環 $\mathbb{Z}[1/2,\zeta_n]$ に属することを示す。
さらに、$\log(n)-2$ ancillasは常に$U$の回路を構築するのに十分であることを示す。
この結果は、先行研究を無限個のゲート集合の族に一般化し、クリフォード・サイクロトミック作用素と$\mathbb{z}[1/2,\zeta_n]$上の行列との対応が有限個の有限個の値を除いてすべて失敗するという単一量子ビットユニタリに適用される制限は、ancillasの使用によって克服できることを示した。 Let $n\geq 8$ be an integer divisible by 4. The Clifford-cyclotomic gate set $\mathcal{G}_n$ is the universal gate set obtained by extending the Clifford gates with the $z$-rotation $T_n = \mathrm{diag}(1,\zeta_n)$, where $\zeta_n$ is a primitive $n$-th root of unity. In this note, we show that, when $n$ is a power of 2, a multiqubit unitary matrix $U$ can be exactly represented by a circuit over $\mathcal{G}_n$ if and only if the entries of $U$ belong to the ring $\mathbb{Z}[1/2,\zeta_n]$. We moreover show that $\log(n)-2$ ancillas are always sufficient to construct a circuit for $U$. Our results generalize prior work to an infinite family of gate sets and show that the limitations that apply to single-qubit unitaries, for which the correspondence between Clifford-cyclotomic operators and matrices over $\mathbb{Z}[1/2,\zeta_n]$ fails for all but finitely many values of $n$, can be overcome through the use of ancillas. | 翻訳日:2023-11-15 16:18:10 公開日:2023-11-13 |
# 顔表現学習のための品質認識型プロトタイプメモリ Quality-Aware Prototype Memory for Face Representation Learning ( http://arxiv.org/abs/2311.07734v1 ) ライセンス: Link先を確認 | Evgeny Smirnov, Vasiliy Galyuk and Evgeny Lukyanets | (参考訳) プロトタイプメモリは、顔表現学習の強力なモデルである。
任意のサイズのデータセットを使って顔認識モデルのトレーニングを可能にし、プロトタイプ(分類重み)をオンザフライで生成し、効率的な利用方法を提供する。
プロトタイプメモリは多くの顔認識ベンチマークで強い結果を示した。
しかし, プロトタイプ生成アルゴリズムは, 画像中の低品質な顔や認識しにくい顔の場合に不完全に計算されたプロトタイプに問題があり, プロトタイプ生成のために選択される。
ミニバッチで提示された同じ人物の全ての画像は、同じ重さで使われ、その結果、平均されたプロトタイプは、そのような顔画像の不完全な埋め込みで汚染される可能性がある。
トレーニングシグナルを誤指示し、トレーニング済みの顔認識モデルの性能を損なう可能性がある。
本稿では,品質に配慮したプロトタイプ生成によるプロトタイプメモリの改良手法を提案する。
Quality-Aware Prototype Memoryは、プロトタイプ生成の過程で異なる品質の画像に異なる重みを使用する。
この改良により、プロトタイプは高品質の画像からより貴重な情報を得ることができ、低品質の画像は傷つけない。
品質評価と使用法を複数提案・比較し、異なる顔認識ベンチマークで広範な実験を行い、プロトタイプメモリの基本的なバージョンと比較して、提案モデルの利点を実証する。 Prototype Memory is a powerful model for face representation learning. It enables the training of face recognition models using datasets of any size, with on-the-fly generation of prototypes (classifier weights) and efficient ways of their utilization. Prototype Memory demonstrated strong results in many face recognition benchmarks. However, the algorithm of prototype generation, used in it, is prone to the problems of imperfectly calculated prototypes in case of low-quality or poorly recognizable faces in the images, selected for the prototype creation. All images of the same person, presented in the mini-batch, used with equal weights, and the resulting averaged prototype could be contaminated with imperfect embeddings of such face images. It can lead to misdirected training signals and impair the performance of the trained face recognition models. In this paper, we propose a simple and effective way to improve Prototype Memory with quality-aware prototype generation. Quality-Aware Prototype Memory uses different weights for images of different quality in the process of prototype generation. With this improvement, prototypes get more valuable information from high-quality images and less hurt by low-quality ones. We propose and compare several methods of quality estimation and usage, perform extensive experiments on the different face recognition benchmarks and demonstrate the advantages of the proposed model compared to the basic version of Prototype Memory. | 翻訳日:2023-11-15 16:17:38 公開日:2023-11-13 |
# 大気量子チャネルにおける時間相関 Time correlations in atmospheric quantum channels ( http://arxiv.org/abs/2311.07730v1 ) ライセンス: Link先を確認 | M. Klen, D. Vasylyev, W. Vogel, A. A. Semenov | (参考訳) リモートパーティ間の量子情報の効率的な転送は、大気チャネル上の量子通信にとって重要な課題である。
チャネル透過率のランダム変動は、その実践上の大きな障害要因である。
異なる時点におけるチャネル透過率の相関について検討し,2つの伝送プロトコルに着目した。
1つ目は、時間分離光パルス間の離散的および連続的可変な絡み合いの堅牢性に関連しており、ヒルベルト空間の有効次元を拡大する可能性を示している。
2つ目は、明るい古典的なパルスと続く量子光でテストすることで、高透過事象の予備選択に対処する。
以上の結果から,大気チャネル内の光量子状態の符号化・転送を行うための時間コヒーレンス資源の容量が高かった。 Efficient transfer of quantum information between remote parties is a crucial challenge for quantum communication over atmospheric channels. Random fluctuations of the channel transmittance are a major disturbing factor for its practical implementation. We study correlations between channel transmittances at different moments of time and focus on two transmission protocols. The first is related to the robustness of both discrete- and continuous-variable entanglement between time-separated light pulses, showing a possibility to enlarge the effective dimension of the Hilbert space. The second addresses a preselection of high-transmittance events by testing them with bright classical pulses followed by quantum light. Our results show a high capacity of the time-coherence resource for encoding and transferring quantum states of light in atmospheric channels. | 翻訳日:2023-11-15 16:17:17 公開日:2023-11-13 |
# 異なる点を持つインタラクティブな3次元医用画像分割のためのテスト時間変動の評価 Assessing Test-time Variability for Interactive 3D Medical Image Segmentation with Diverse Point Prompts ( http://arxiv.org/abs/2311.07806v1 ) ライセンス: Link先を確認 | Hao Li, Han Liu, Dewei Hu, Jiacheng Wang, Ipek Oguz | (参考訳) インタラクティブセグメンテーションモデルは、ユーザからのプロンプトを利用して堅牢なセグメンテーションを生成する。
この進歩はプロンプトエンジニアリングによって促進され、インタラクティブなプロンプトはテスト時に強力なプリエントとして機能する。
しかし、これは本質的に主観的で再現が難しいプロセスである。
医用画像におけるユーザの専門知識の多様性と本質的に曖昧な境界は、一貫性のないプロンプト選択をもたらし、セグメンテーション精度に影響を及ぼす可能性がある。
この問題は医療画像の分野ではまだ広く研究されていない。
本稿では,多様なポイントプロンプトを用いたインタラクティブな医用画像分割のためのテスト時間変動の評価を行う。
ある対象領域について、ポイントは境界、辺縁、中央の3つのサブリージョンに分類される。
本研究の目的は,(1)追加プロンプトの利点,(2)プロンプト配置の効果,(3)最適プロンプト選択の戦略の3つの考察に基づいて,テスト時間中に最適なプロンプト選択のための単純かつ効率的なアプローチを特定することである。
本研究は,大腸腫瘍の分節化に挑戦する公共医療セグメントデカトロンデータセットについて広範な実験を行った。
総合的な結果に支えられたテスト期間中の迅速選択のための最適戦略を提案する。
コードはhttps://github.com/MedICL-VU/variabilityで公開されている。 Interactive segmentation model leverages prompts from users to produce robust segmentation. This advancement is facilitated by prompt engineering, where interactive prompts serve as strong priors during test-time. However, this is an inherently subjective and hard-to-reproduce process. The variability in user expertise and inherently ambiguous boundaries in medical images can lead to inconsistent prompt selections, potentially affecting segmentation accuracy. This issue has not yet been extensively explored for medical imaging. In this paper, we assess the test-time variability for interactive medical image segmentation with diverse point prompts. For a given target region, the point is classified into three sub-regions: boundary, margin, and center. Our goal is to identify a straightforward and efficient approach for optimal prompt selection during test-time based on three considerations: (1) benefits of additional prompts, (2) effects of prompt placement, and (3) strategies for optimal prompt selection. We conduct extensive experiments on the public Medical Segmentation Decathlon dataset for challenging colon tumor segmentation task. We suggest an optimal strategy for prompt selection during test-time, supported by comprehensive results. The code is publicly available at https://github.com/MedICL-VU/variability | 翻訳日:2023-11-15 16:10:23 公開日:2023-11-13 |
# irumozhi: タミル語のdigolossiaの自動分類 IruMozhi: Automatically classifying diglossia in Tamil ( http://arxiv.org/abs/2311.07804v1 ) ライセンス: Link先を確認 | Kabilan Prasanna and Aryaman Arora | (参考訳) タミル語(タミルご、英語: tamil)は、南アジアのドラヴィダ語族の言語で、文学的タミル語(文学的タミル語、文学的・形式的コミュニケーション的)と話し言葉的タミル語(言語的・非公式的メディア的)の2つの非常に異なる日常的用法を持つ。
Spoken Tamilは、現代のNLPシステムではサポートされていない。
本稿では,Literary と Spoken Tamil の並列テキストの人間による注釈付きデータセット IruMozhi をリリースする。
テキストが属する種類を特定するタスクにおいて、分類器を訓練する。
これらのモデルを用いて、Spken Tamilにおける事前学習データの可用性を評価し、既存のラベル付きデータセットの構成を監査し、多様性に関する今後の研究を促進する。 Tamil, a Dravidian language of South Asia, is a highly diglossic language with two very different registers in everyday use: Literary Tamil (preferred in writing and formal communication) and Spoken Tamil (confined to speech and informal media). Spoken Tamil is under-supported in modern NLP systems. In this paper, we release IruMozhi, a human-annotated dataset of parallel text in Literary and Spoken Tamil. We train classifiers on the task of identifying which variety a text belongs to. We use these models to gauge the availability of pretraining data in Spoken Tamil, to audit the composition of existing labelled datasets for Tamil, and to encourage future work on the variety. | 翻訳日:2023-11-15 16:10:04 公開日:2023-11-13 |
# コンピュータ・バックワードの設計理論 Designing Theory of Computing Backwards ( http://arxiv.org/abs/2311.07803v1 ) ライセンス: Link先を確認 | Ryan E. Dougherty | (参考訳) あらゆる技術系コンピュータサイエンスコースの設計は、その文脈を機関のCSプログラムに含めなければならないが、学生にとって適切かつ適切な新しい素材も取り入れなければならない。
多くの機関では、学部のcsプログラム内のtoc(コンピューティング理論)コースはプログラムの終わり近くに置かれ、コースの前のセクションを構築するという非常に一般的な構造を持っている。
そのようなコースの背後にある中心的な疑問は、様々なタイプの計算モデルに対して「コンピュータの限界は何か」である。
しかし、‘コンピュータ’が何であるかという学生にとって直感的なことは、コースの最後にチューリングマシンが教えられることで、初期のモデルの動機付けが必要となる。
本ポスターは,「コンピュータにどのような制約を課して問題を扱いやすくできるか」という質問に対して,教育的モチベーションを伴い,効果的に『背後』を教えるtocコースの設計経験を盛り込んだものである。 The design of any technical Computer Science course must involve its context within the institution's CS program, but also incorporate any new material that is relevant and appropriately accessible to students. In many institutions, theory of computing (ToC) courses within undergraduate CS programs are often placed near the end of the program, and have a very common structure of building off previous sections of the course. The central question behind any such course is ``What are the limits of computers?'' for various types of computational models. However, what is often intuitive for students about what a ``computer'' is--a Turing machine--is taught at the end of the course, which necessitates motivation for earlier models. This poster contains our experiences in designing a ToC course that teaches the material effectively ``backwards,'' with pedagogic motivation of instead asking the question ``What suitable restrictions can we place on computers to make their problems tractable?'' We also give recommendations for future course design. | 翻訳日:2023-11-15 16:09:48 公開日:2023-11-13 |
# 等温化学気相浸透過程の確率論的物理積分ニューラル微分モデル Probabilistic Physics-integrated Neural Differentiable Modeling for Isothermal Chemical Vapor Infiltration Process ( http://arxiv.org/abs/2311.07798v1 ) ライセンス: Link先を確認 | Deepak Akhare, Zeping Chen, Richard Gulotty, Tengfei Luo, Jian-Xun Wang | (参考訳) 化学気相浸透(CVI)は、炭素-炭素および炭化炭素-ケイ素複合化合物の製造に広く用いられている製造技術である。
これらの材料は、特に航空宇宙産業や自動車産業において、強靭な強度と軽量な特性で評価されている。
CVI中の密度化過程は, これらの複合材料の最終性能, 品質, 整合性に重要な影響を及ぼす。
cviプロセスの実験的最適化は、長い実験時間と大きな最適化空間のために難しい。
これらの課題に対処するには、モデリング中心のアプローチを採用する。
等温CVI密度化プロセスの複雑さと限られた実験データにより,物理積分型ニューラル微分可能(PiNDiff)モデリングフレームワークを用いたデータ駆動予測モデルを開発した。
PiNDiff法には不確実な定量化機能が組み込まれており、モデルの信頼性と堅牢性を高めている。
合成および実世界の製造データを含む総合的な数値実験を通じて,CVIプロセスにおける密度化のモデル化能力を示す。
本研究は, CVI製造プロセスの理解, シミュレーション, 最適化を促進するためのツールとしてのPiNDiffフレームワークの可能性を明らかにする。 Chemical vapor infiltration (CVI) is a widely adopted manufacturing technique used in producing carbon-carbon and carbon-silicon carbide composites. These materials are especially valued in the aerospace and automotive industries for their robust strength and lightweight characteristics. The densification process during CVI critically influences the final performance, quality, and consistency of these composite materials. Experimentally optimizing the CVI processes is challenging due to long experimental time and large optimization space. To address these challenges, this work takes a modeling-centric approach. Due to the complexities and limited experimental data of the isothermal CVI densification process, we have developed a data-driven predictive model using the physics-integrated neural differentiable (PiNDiff) modeling framework. An uncertainty quantification feature has been embedded within the PiNDiff method, bolstering the model's reliability and robustness. Through comprehensive numerical experiments involving both synthetic and real-world manufacturing data, the proposed method showcases its capability in modeling densification during the CVI process. This research highlights the potential of the PiNDiff framework as an instrumental tool for advancing our understanding, simulation, and optimization of the CVI manufacturing process, particularly when faced with sparse data and an incomplete description of the underlying physics. | 翻訳日:2023-11-15 16:09:29 公開日:2023-11-13 |
# マーク付き時間点法による説明可能な歴史蒸留 Explainable History Distillation by Marked Temporal Point Process ( http://arxiv.org/abs/2311.07797v1 ) ライセンス: Link先を確認 | Sishun Liu, Ke Deng, Yan Wang, Xiuzhen Zhang | (参考訳) 研究者が一般的に信じられているブラックボックスを現実世界のタスク、特に高精細なタスクに導入する場合、機械学習モデルの説明責任は必須である。
本稿では,<acrfull{tpp} に基づいて,歴史から発生した事象の説明を自動的に生成する機械学習システムを構築した。
具体的には \acrfull{ehd} という新しいタスクを提案する。
このタスクでは、観測された履歴からできるだけ少ないイベントを蒸留するモデルが必要である。
対象は、左イベントに条件付けられた事象分布が、観測された未来を著しく悪化させることである。
そして、蒸留した出来事を将来の説明とみなす。
効率よく \acrshort{ehd} を解くために、タスクを \gls{01ip} に書き直し、 \acrfull{model} と呼ばれるモデルでプログラムの解を直接推定する。
この作業はタスクと既存の作業のギャップを埋めるものであり、環境に予め定義された修正を適用した後、事実と反現実の世界を区別するだけである。
RetweetとStackOverflowデータセットの実験結果から、 \acrshort{model} は他の \acrshort{ehd} ベースラインを著しく上回り、現実世界のプロセスを支える理論的根拠を明らかにすることができる。 Explainability of machine learning models is mandatory when researchers introduce these commonly believed black boxes to real-world tasks, especially high-stakes ones. In this paper, we build a machine learning system to automatically generate explanations of happened events from history by \gls{ca} based on the \acrfull{tpp}. Specifically, we propose a new task called \acrfull{ehd}. This task requires a model to distill as few events as possible from observed history. The target is that the event distribution conditioned on left events predicts the observed future noticeably worse. We then regard distilled events as the explanation for the future. To efficiently solve \acrshort{ehd}, we rewrite the task into a \gls{01ip} and directly estimate the solution to the program by a model called \acrfull{model}. This work fills the gap between our task and existing works, which only spot the difference between factual and counterfactual worlds after applying a predefined modification to the environment. Experiment results on Retweet and StackOverflow datasets prove that \acrshort{model} significantly outperforms other \acrshort{ehd} baselines and can reveal the rationale underpinning real-world processes. | 翻訳日:2023-11-15 16:09:08 公開日:2023-11-13 |
# 量子不特定性難読化の使い方 How to Use Quantum Indistinguishability Obfuscation ( http://arxiv.org/abs/2311.07794v1 ) ライセンス: Link先を確認 | Andrea Coladangelo and Sam Gunn | (参考訳) アーロンソンによって導入された量子コピー保護は、有意義に複製できない量子プログラム記述を与えることができる。
10年以上の研究にもかかわらず、コピー保護は非常に限られたプログラムでのみ可能であることが知られている。
最初のコントリビューションとして,すべてのプログラムの“最善の”コピー保護を実現する方法を示す。
我々は、古典プログラムの量子記述に対する難読化の概念である量子状態区別可能性難解化(qsiO)を導入することでこれを実現している。
プログラムにqsiOを適用すると、即座に最良のコピー保護が得られることを示す。
第2のコントリビューションは,単方向関数の注入を想定して,qsio がパンクタブルプログラムの大規模なファミリーに対して具体的かつ具体的なコピープロテクションであることを示すことです。
当社の証明における重要なツールは、結合型unclonable encryption(cue)と呼ばれる、新しいタイプのunclonable encryption(ue)です。
標準モデルでUEを構築することは依然として重要なオープンな問題であるが、一方の関数からcUEを構築することができる。
さらに UE の存在を仮定すると、qsiO がコピープロテクトであるような句読可能なプログラムのクラスをさらに拡張することができる。
最後に、効率的な量子オラクルに対してqsiOを構築する。 Quantum copy protection, introduced by Aaronson, enables giving out a quantum program-description that cannot be meaningfully duplicated. Despite over a decade of study, copy protection is only known to be possible for a very limited class of programs. As our first contribution, we show how to achieve "best-possible" copy protection for all programs. We do this by introducing quantum state indistinguishability obfuscation (qsiO), a notion of obfuscation for quantum descriptions of classical programs. We show that applying qsiO to a program immediately achieves best-possible copy protection. Our second contribution is to show that, assuming injective one-way functions exist, qsiO is concrete copy protection for a large family of puncturable programs -- significantly expanding the class of copy-protectable programs. A key tool in our proof is a new variant of unclonable encryption (UE) that we call coupled unclonable encryption (cUE). While constructing UE in the standard model remains an important open problem, we are able to build cUE from one-way functions. If we additionally assume the existence of UE, then we can further expand the class of puncturable programs for which qsiO is copy protection. Finally, we construct qsiO relative to an efficient quantum oracle. | 翻訳日:2023-11-15 16:08:43 公開日:2023-11-13 |
# 西洋、宗教、精神--大言語モデルにおける道徳的正当化の評価 Western, Religious or Spiritual: An Evaluation of Moral Justification in Large Language Models ( http://arxiv.org/abs/2311.07792v1 ) ライセンス: Link先を確認 | Eyup Engin Kucuk, Muhammed Yusuf Kocyigit | (参考訳) 様々なタスクにおけるLarge Language Models(LLMs)の成功は、これらのモデルをさまざまな視点から検証する必要のある私たちの生活に広く使われるようになる。
これらのモデルの人間的価値へのアライメントは、安全で責任のあるシステムを持つという信頼を確立する上で重要な関心事です。
本稿では,道徳的正当化の過程でLLMにどの価値観や原則が組み込まれているかを明らかにすることを目的とする。
この目的のために、西洋的伝統観(wt)、エイブラハム的伝統観(at)、スピリチュアリスト/神秘的伝統観(smt)の3つの異なる道徳的視点を考案した。
2つの異なる実験環境で、我々はモデルに、道徳的行動を提案する3つの原則と、これらのカテゴリーにおける行動の正当化を試みる場合の行動の道徳的許容性を評価することを依頼した。
実験の結果,LLMは他者よりも西洋の伝統観を好んでいることがわかった。
さらに、アブラハムの伝統に表される宗教的な価値観に対する過度な調整が存在する可能性があり、それが「宗教的な行動」として提示された場合、モデルが行動が不道徳であると認識できなくなる。
これらの結果は、今後の取り組みに注意を向けるために不可欠であると考えています。 The increasing success of Large Language Models (LLMs) in variety of tasks lead to their widespread use in our lives which necessitates the examination of these models from different perspectives. The alignment of these models to human values is an essential concern in order to establish trust that we have safe and responsible systems. In this paper, we aim to find out which values and principles are embedded in LLMs in the process of moral justification. For this purpose, we come up with three different moral perspective categories: Western tradition perspective (WT), Abrahamic tradition perspective (AT), and Spiritualist/Mystic tradition perspective (SMT). In two different experiment settings, we asked models to choose principles from the three for suggesting a moral action and evaluating the moral permissibility of an action if one tries to justify an action on these categories, respectively. Our experiments indicate that tested LLMs favors the Western tradition moral perspective over others. Additionally, we observe that there potentially exists an over-alignment towards religious values represented in the Abrahamic Tradition, which causes models to fail to recognize an action is immoral if it is presented as a "religious-action". We believe that these results are essential in order to direct our attention in future efforts. | 翻訳日:2023-11-15 16:08:22 公開日:2023-11-13 |
# ハミルトン・ヤコビPDEと時間依存ハミルトンを用いた連続科学機械学習 Leveraging Hamilton-Jacobi PDEs with time-dependent Hamiltonians for continual scientific machine learning ( http://arxiv.org/abs/2311.07790v1 ) ライセンス: Link先を確認 | Paula Chen, Tingwei Meng, Zongren Zou, J\'er\^ome Darbon, George Em Karniadakis | (参考訳) 科学機械学習(SciML)における2つの大きな課題に対処する。
ハミルトン・ヤコビ偏微分方程式(hj pde)に対する粘性解を表す一般化ホップ公式と、scimlから生じる最適化問題との新たな理論的関係を確立することにより、ある種の学習プロセスの解釈可能性を高める。
すなわち, 積分型損失を伴うある種の正規化学習問題を解くとき, 最適制御問題とその時間依存ハミルトニアンのhj pdeを実際に解くことを示す。
この接続により、学習したモデルに対する漸進的な更新を、関連するHJ PDEの進化と最適制御問題として解釈することができる。
その結果、既存のHJ PDEソルバと最適制御アルゴリズムを再利用して、破滅的な忘れを回避しつつ、継続的学習フレームワークと自然に一致するSciMLの新しい効率的なトレーニングアプローチを設計することができる。
この関係を最初に検討するため、線形回帰の特殊な事例を考察し、連続的な学習アプリケーションに役立つこれらの学習問題を解決するための新しいリカティベースの方法論を開発する。
私たちはまた、 riccatiベースのアプローチが提供できる潜在的な計算とメモリの利点を示す、対応する数値例も提供します。 We address two major challenges in scientific machine learning (SciML): interpretability and computational efficiency. We increase the interpretability of certain learning processes by establishing a new theoretical connection between optimization problems arising from SciML and a generalized Hopf formula, which represents the viscosity solution to a Hamilton-Jacobi partial differential equation (HJ PDE) with time-dependent Hamiltonian. Namely, we show that when we solve certain regularized learning problems with integral-type losses, we actually solve an optimal control problem and its associated HJ PDE with time-dependent Hamiltonian. This connection allows us to reinterpret incremental updates to learned models as the evolution of an associated HJ PDE and optimal control problem in time, where all of the previous information is intrinsically encoded in the solution to the HJ PDE. As a result, existing HJ PDE solvers and optimal control algorithms can be reused to design new efficient training approaches for SciML that naturally coincide with the continual learning framework, while avoiding catastrophic forgetting. As a first exploration of this connection, we consider the special case of linear regression and leverage our connection to develop a new Riccati-based methodology for solving these learning problems that is amenable to continual learning applications. We also provide some corresponding numerical examples that demonstrate the potential computational and memory advantages our Riccati-based approach can provide. | 翻訳日:2023-11-15 16:07:59 公開日:2023-11-13 |
# CSLP-AE:ゼロショット脳波信号変換のためのコントラスト型スプリットレイテンシ自動エンコーダフレームワーク CSLP-AE: A Contrastive Split-Latent Permutation Autoencoder Framework for Zero-Shot Electroencephalography Signal Conversion ( http://arxiv.org/abs/2311.07788v1 ) ライセンス: Link先を確認 | Anders Vestergaard N{\o}rskov, Alexander Neergaard Zahid and Morten M{\o}rup | (参考訳) eeg(electroencephalography)は、脳機能に関する洞察を提供する、非侵襲的神経画像技術である。
不幸なことに、脳波データは、一般的な信号抽出を妨げる被検者間で高いノイズと変動を示す。
したがって、脳波分析の重要な目的は、基礎となる神経活性化(コンテンツ)を抽出し、個々の主題変動(スタイル)を説明することである。
タスクと課題間で脳波信号を変換する能力には,内容やスタイルを考慮に入れた潜在表現の抽出が必要であると仮定した。
近年の音声変換技術の発展に触発されて,脳波変換を直接最適化するCSLP-AEフレームワークを提案する。
重要なことに、潜在表現は、対象(スタイル)とタスク(コンテンツ)を明示的に表現するために潜在分割を促進するために、対比学習を用いて誘導される。
CSLP-AEは従来の教師なし・教師なし(AE)・自己教師付き(コントラスト学習)の訓練と対比し,提案手法が主観的・課題の汎用的特徴を提供することを示す。
重要なことに、この手順は目に見えない被験者間のゼロショット変換を可能にする。
本研究は脳波の変換のみを考察するが,提案するCSLP-AEは,生体信号のモデリングと解析を目的とした,一般的な関心のコンテンツ(タスクアクティベーション)とスタイル(オブジェクトの変動)コンポーネントの信号変換と抽出のための一般的なフレームワークを提供する。 Electroencephalography (EEG) is a prominent non-invasive neuroimaging technique providing insights into brain function. Unfortunately, EEG data exhibit a high degree of noise and variability across subjects hampering generalizable signal extraction. Therefore, a key aim in EEG analysis is to extract the underlying neural activation (content) as well as to account for the individual subject variability (style). We hypothesize that the ability to convert EEG signals between tasks and subjects requires the extraction of latent representations accounting for content and style. Inspired by recent advancements in voice conversion technologies, we propose a novel contrastive split-latent permutation autoencoder (CSLP-AE) framework that directly optimizes for EEG conversion. Importantly, the latent representations are guided using contrastive learning to promote the latent splits to explicitly represent subject (style) and task (content). We contrast CSLP-AE to conventional supervised, unsupervised (AE), and self-supervised (contrastive learning) training and find that the proposed approach provides favorable generalizable characterizations of subject and task. Importantly, the procedure also enables zero-shot conversion between unseen subjects. While the present work only considers conversion of EEG, the proposed CSLP-AE provides a general framework for signal conversion and extraction of content (task activation) and style (subject variability) components of general interest for the modeling and analysis of biological signals. | 翻訳日:2023-11-15 16:07:33 公開日:2023-11-13 |
# スパイクニューラルネットワーク実現のためのハイブリッドシナプス構造 Hybrid Synaptic Structure for Spiking Neural Network Realization ( http://arxiv.org/abs/2311.07787v1 ) ライセンス: Link先を確認 | Sasan Razmkhah, Mustafa Altay Karamuftuoglu and Ali Bozbey | (参考訳) ニューラルネットワークとニューロモルフィックコンピューティングは、ディープラーニングと機械学習において重要な役割を果たす。
その散逸性の性質と固有の制限のため、従来の半導体ベースの回路は超高速で低消費電力のニューラルネットワークを実現する上で困難に直面している。
しかし、単一磁束量子(SFQ)回路のスパイク特性は、これらをスパイクニューラルネットワーク(SNN)の候補として位置づけている。
以前の研究では、従来の回路に比べて消費電力のほんの一部しか消費せず、数十ギガヘルツで動作可能なjj-soma設計を示しました[1]。
本稿では, JJ-Soma に対して正および負の重み付き入力を適用可能なコンパクトな SFQ ベースのシナプス設計を提案する。
RSFQシナプスを使用することで、完全なSNNを実現するための重要なステップである生物学的ニューロンの機能の複製が可能になる。
JJ-Synapseは超高周波数で動作でき、CMOSよりも消費電力が大幅に小さく、商用Nbプロセスで便利に製造できる。
さらに,ネットワークの柔軟性により,cryo-cmos回路を組み込んだ重み値調整による修正が可能となった。
我々の試みでは、クライオクーラーシステム内でjj-synapseの設計、製造、部分的にテストに成功しました。
JJ-Somaとの統合により、高速推論SNNの実現がさらに促進される。 Neural networks and neuromorphic computing play pivotal roles in deep learning and machine vision. Due to their dissipative nature and inherent limitations, traditional semiconductor-based circuits face challenges in realizing ultra-fast and low-power neural networks. However, the spiking behavior characteristic of single flux quantum (SFQ) circuits positions them as promising candidates for spiking neural networks (SNNs). Our previous work showcased a JJ-Soma design capable of operating at tens of gigahertz while consuming only a fraction of the power compared to traditional circuits, as documented in [1]. This paper introduces a compact SFQ-based synapse design that applies positive and negative weighted inputs to the JJ-Soma. Using an RSFQ synapse empowers us to replicate the functionality of a biological neuron, a crucial step in realizing a complete SNN. The JJ-Synapse can operate at ultra-high frequencies, exhibits orders of magnitude lower power consumption than CMOS counterparts, and can be conveniently fabricated using commercial Nb processes. Furthermore, the network's flexibility enables modifications by incorporating cryo-CMOS circuits for weight value adjustments. In our endeavor, we have successfully designed, fabricated, and partially tested the JJ-Synapse within our cryocooler system. Integration with the JJ-Soma further facilitates the realization of a high-speed inference SNN. | 翻訳日:2023-11-15 16:07:06 公開日:2023-11-13 |
# プルリクエストにおけるメンテナとコントリビュータの最初のレスポンスレイテンシの予測 Predicting the First Response Latency of Maintainers and Contributors in Pull Requests ( http://arxiv.org/abs/2311.07786v1 ) ライセンス: Link先を確認 | SayedHassan Khatoonabadi, Ahmad Abdellatif, Diego Elias Costa, Emad Shihab | (参考訳) プルリクエスト(PR)の成功は、レビュープロセス中のメンテナとコントリビュータの応答性に依存する。
期待された待ち時間を認識していることは、よりよいインタラクションと、メンテナとコントリビュータの両方に対する管理された期待につながります。
本稿では,PRの提出後の保守者の最初の応答遅延と,保守者から最初の応答遅延を受信したコントリビュータの最初の応答遅延を予測するための機械学習手法を提案する。
GitHub上で20の大規模で人気のあるオープンソースプロジェクトのデータセットをキュレートし、プロジェクト、コントリビュータ、PR、レビュープロセスを特徴付ける21の機能を抽出します。
これらの特徴を用いて、7種類の分類器を評価し、最高の性能モデルを特定する。
また,予測応答遅延に対する異なる特徴の重要性と影響を理解するために,置換特徴の重要性とSHAP分析を行った。
私たちのベストパフォーマンスモデルでは,auc-rocでは平均33%,メンテナでは58%,auc-rocでは42%,コントリビュータでは95%の改善を達成しています。
以上の結果から,週内に提出されたPRは平均以上のコミット数であり,簡潔な説明が得られた場合,メンテナからのファーストレスポンスがより高速になる可能性が示唆された。
同様に、メンテナからの最初のレスポンスレイテンシが低いPRは、今週初めにメンテナから最初のレスポンスを受け取り、平均的あるいはわずかに高い数のコミットを含むと、コントリビュータからより高速なファーストレスポンスを受け取る傾向にある。
さらに、プロジェクトの受け入れ率が高く、タイムリーなレスポンスの履歴を持つコントリビュータは、より高速なファーストレスポンスを取得し、提供できる可能性が高い。 The success of a Pull Request (PR) depends on the responsiveness of the maintainers and the contributor during the review process. Being aware of the expected waiting times can lead to better interactions and managed expectations for both the maintainers and the contributor. In this paper, we propose a machine-learning approach to predict the first response latency of the maintainers following the submission of a PR, and the first response latency of the contributor after receiving the first response from the maintainers. We curate a dataset of 20 large and popular open-source projects on GitHub and extract 21 features to characterize projects, contributors, PRs, and review processes. Using these features, we then evaluate seven types of classifiers to identify the best-performing models. We also perform permutation feature importance and SHAP analyses to understand the importance and impact of different features on the predicted response latencies. Our best-performing models achieve an average improvement of 33% in AUC-ROC and 58% in AUC-PR for maintainers, as well as 42% in AUC-ROC and 95% in AUC-PR for contributors compared to a no-skilled classifier across the projects. Our findings indicate that PRs submitted earlier in the week, containing an average or slightly above-average number of commits, and with concise descriptions are more likely to receive faster first responses from the maintainers. Similarly, PRs with a lower first response latency from maintainers, that received the first response of maintainers earlier in the week, and containing an average or slightly above-average number of commits tend to receive faster first responses from the contributors. Additionally, contributors with a higher acceptance rate and a history of timely responses in the project are likely to both obtain and provide faster first responses. | 翻訳日:2023-11-15 16:06:45 公開日:2023-11-13 |
# parrotが訓練した逆行例: 話者認識モデルに対するブラックボックス音声攻撃の実用性を推進する Parrot-Trained Adversarial Examples: Pushing the Practicality of Black-Box Audio Attacks against Speaker Recognition Models ( http://arxiv.org/abs/2311.07780v1 ) ライセンス: Link先を確認 | Rui Duan, Zhe Qu, Leah Ding, Yao Liu, Zhuo Lu | (参考訳) aes(audio adversarial examples)は、現実世界の話者認識システムに重大なセキュリティ上の課題をもたらした。
ほとんどのブラックボックス攻撃は、話者認識モデルからの特定の情報が必要である(例えば、調査を続け、類似度スコアの知識を必要とする)。
本研究の目的は、ターゲット話者認識モデルに関する攻撃者の知識を最小限に抑え、ブラックボックス攻撃の実用性を高めることである。
攻撃者が完全にゼロの知識を持って成功することは不可能であるが、攻撃者はターゲットスピーカーの短い(あるいは数秒)音声サンプルしか知らないと仮定する。
ターゲットモデルに関するさらなる知識を得るための調査がなければ、parrot trainingと呼ばれる新しいメカニズムを提案し、ターゲットモデルに対してaesを生成する。
近年の音声変換 (vc) の進歩に動機づけられ, 1つの短文知識を用いて,parrot speech という合成音声サンプルを生成することを提案する。
次に、これらのオウム音声サンプルを用いて攻撃者に対するオウム訓練(PT)代理モデルを訓練する。
本研究では,PTモデル(PT-AEs)上でのAEの生成方法について検討し,PT-AEsが人間の知覚的品質の高いブラックボックスターゲットモデルに高い伝達性で生成可能であることを確認した。
実世界の実験によると、PT-AEはデジタルラインシナリオのオープンソースモデルに対して45.8%から80.8%、Apple HomePod(Siri)、Amazon Echo、Google Homeなどのスマートデバイスに対して47.9%から58.3%の攻撃成功率を達成した。 Audio adversarial examples (AEs) have posed significant security challenges to real-world speaker recognition systems. Most black-box attacks still require certain information from the speaker recognition model to be effective (e.g., keeping probing and requiring the knowledge of similarity scores). This work aims to push the practicality of the black-box attacks by minimizing the attacker's knowledge about a target speaker recognition model. Although it is not feasible for an attacker to succeed with completely zero knowledge, we assume that the attacker only knows a short (or a few seconds) speech sample of a target speaker. Without any probing to gain further knowledge about the target model, we propose a new mechanism, called parrot training, to generate AEs against the target model. Motivated by recent advancements in voice conversion (VC), we propose to use the one short sentence knowledge to generate more synthetic speech samples that sound like the target speaker, called parrot speech. Then, we use these parrot speech samples to train a parrot-trained(PT) surrogate model for the attacker. Under a joint transferability and perception framework, we investigate different ways to generate AEs on the PT model (called PT-AEs) to ensure the PT-AEs can be generated with high transferability to a black-box target model with good human perceptual quality. Real-world experiments show that the resultant PT-AEs achieve the attack success rates of 45.8% - 80.8% against the open-source models in the digital-line scenario and 47.9% - 58.3% against smart devices, including Apple HomePod (Siri), Amazon Echo, and Google Home, in the over-the-air scenario. | 翻訳日:2023-11-15 16:06:14 公開日:2023-11-13 |
# コンテキスト内学習と勾配降下再訪 In-context Learning and Gradient Descent Revisited ( http://arxiv.org/abs/2311.07772v1 ) ライセンス: Link先を確認 | Tomer Bar Nathan, Gilad Deutch, Nadav Magar, Guy Dar | (参考訳) in-context learning (icl) は、数少ない学習タスクで印象的な結果を示したが、その基本的なメカニズムはまだ完全には理解されていない。
近年の研究では、iclは勾配降下(gd)に基づく最適化プロセスと考えられる。
これらの結果は主にICLの簡易な設定に焦点が当てられ、両者の類似性を予備評価するのみである。
本研究では, icl と gd による微調整の比較検討を行い, 等価なプロセスに従わなければならない icl の特性について検討する。
ICLと標準微調整における情報フローの大きな違いを強調した。
すなわち、ICLは各点で下位層からの情報のみに頼ることができ、微調整は深い層からの損失勾配に依存する。
この違いをレイヤ因果性(Layer Causality)と呼び、ファインタニングプロセスの層因果変異が、バニラファインタニングと同等のICLと整合し、関連するメトリクスのほとんどの場合においてさらに優れていることを示す。
私たちの知る限りでは、この違いを明示的に議論し、最小限の変更でこの問題に取り組むソリューションを提案するのはこれが初めてです。 In-context learning (ICL) has shown impressive results in few-shot learning tasks, yet its underlying mechanism is still not fully understood. Recent works suggest that ICL can be thought of as a gradient descent (GD) based optimization process. While promising, these results mainly focus on simplified settings of ICL and provide only a preliminary evaluation of the similarities between the two methods. In this work, we revisit the comparison between ICL and GD-based finetuning and study what properties of ICL an equivalent process must follow. We highlight a major difference in the flow of information between ICL and standard finetuning. Namely, ICL can only rely on information from lower layers at every point, while finetuning depends on loss gradients from deeper layers. We refer to this discrepancy as Layer Causality and show that a layer causal variant of the finetuning process aligns with ICL on par with vanilla finetuning and is even better in most cases across relevant metrics. To the best of our knowledge, this is the first work to discuss this discrepancy explicitly and suggest a solution that tackles this problem with minimal changes. | 翻訳日:2023-11-15 16:05:43 公開日:2023-11-13 |
# greekt5:ニュース要約のための一連のギリシアのシーケンスからシーケンスへのモデル GreekT5: A Series of Greek Sequence-to-Sequence Models for News Summarization ( http://arxiv.org/abs/2311.07767v1 ) ライセンス: Link先を確認 | Nikolaos Giarelis, Charalampos Mastrokostas, Nikos Karacapilidis | (参考訳) text summarization (ts) は自然言語処理 (nlp) のサブタスクで、1つまたは複数の文書の主要な概念とトピックをカバーする簡潔でコヒーレントな要約の自動定式化に関するものである。
ディープラーニングの最近の進歩は、古典的アプローチを上回る抽象的要約トランスフォーマーモデルの開発につながった。
いずれにせよ、この分野の研究は英語のような高資源言語に焦点を当てているが、低資源言語に対する対応する研究はまだ未開発である。
以上のことを考慮し,ギリシャのニュース記事に対して,一連の新しいtsモデルを提案する。
提案したモデルは、ギリシャの抽象ニュース要約における最先端のモデルであるギリシャ語BARTに対して、同じデータセットで徹底的に評価された。
評価結果から,提案したモデルのほとんどは,様々な評価指標において,ギリシャ語BARTを著しく上回っていることが明らかとなった。
我々は,本研究の再現性を高め,今後の研究を促進することを目的として,評価コードを公開する。 Text summarization (TS) is a natural language processing (NLP) subtask pertaining to the automatic formulation of a concise and coherent summary that covers the major concepts and topics from one or multiple documents. Recent advancements in deep learning have led to the development of abstractive summarization transformer-based models, which outperform classical approaches. In any case, research in this field focuses on high resource languages such as English, while the corresponding work for low resource languages is still underdeveloped. Taking the above into account, this paper proposes a series of novel TS models for Greek news articles. The proposed models were thoroughly evaluated on the same dataset against GreekBART, which is the state-of-the-art model in Greek abstractive news summarization. Our evaluation results reveal that most of the proposed models significantly outperform GreekBART on various evaluation metrics. We make our evaluation code public, aiming to increase the reproducibility of this work and facilitate future research in the field. | 翻訳日:2023-11-15 16:05:20 公開日:2023-11-13 |
# 文脈内学習が一般化するが、必ずしもロバストではない:構文のケース In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax ( http://arxiv.org/abs/2311.07811v1 ) ライセンス: Link先を確認 | Aaron Mueller, Albert Webson, Jackson Petty, Tal Linzen | (参考訳) インコンテキスト学習(ICL)は大規模言語モデル(LLM)を監視するための一般的な手法であり、入力コンテキストにおけるラベル付き例から、LLMは重み付けをせずにタスクを実行することを学習する。
ICLの頻度と実用性にもかかわらず、同じ分散例にのみ一般化する表面的ヒューリスティックスよりも、このような方法で教師付きモデルがタスクの基盤構造を表すかどうかをほとんど理解していない。
本研究では,言語理解に欠かせない構文に敏感なテストケースを用いて,ICLを用いたLLMのロバスト性について検討する。
実験は,入力の正確な構文解析が要求される2つの単純かつよく制御された構文変換タスクに基づいている。
さらに,このモデルには,タスクの実行方法を示す中間計算ステップのシーケンスが設けられているので,チェーン・オブ・ファシリテート・プロンプトを通じて,アウト・オブ・ディストリビューションの一般化を改善できるかどうかについても検討する。
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, この基本的言語現象について LM 間で大きなばらつきがみられ, モデルサイズよりも事前学習コーパスと監督方法の合成によってより説明される。
特に、コード上で事前訓練されたモデルがより一般化し、チェーン・オブ・シークレットのプロンプトによってより大きな利益をもたらすという証拠が見つかる。 In-context learning (ICL) is now a common method for supervising large language models (LLMs): given labeled examples in the input context, the LLM learns to perform the task without weight updates. Despite ICL's prevalence and utility, we understand little about whether models supervised in this manner represent the underlying structure of their tasks, rather than superficial heuristics that only generalize to identically distributed examples. In this study, we investigate the robustness of LLMs supervised via ICL using the test case of sensitivity to syntax, which is a prerequisite for robust language understanding. Our experiments are based on two simple and well-controlled syntactic transformations tasks, where correct out-of-distribution generalization requires an accurate syntactic analysis of the input. We further investigate whether out-of-distribution generalization can be improved via chain-of-thought prompting, where the model is provided with a sequence of intermediate computation steps that illustrate how the task ought to be performed. In experiments with models from the GPT, PaLM, and Llama 2 families, we find large variance across LMs on this fundamental linguistic phenomenon, and that the variance is explained more by the composition of the pre-training corpus and supervision methods than by model size. In particular, we find evidence that models pre-trained on code generalize better, and benefit to a greater extent from chain-of-thought prompting. | 翻訳日:2023-11-15 15:54:16 公開日:2023-11-13 |
# 数個の量子エミッタアンサンブルの非放射的構成:進化最適化アプローチ Non-radiative configurations of a few quantum emitters ensembles: evolutionary optimization approach ( http://arxiv.org/abs/2311.07809v1 ) ライセンス: Link先を確認 | Ilya Volkov, Stanislav Mitsai, Stepan Zhogolev, Danil Kornovan, Roman Savelev, and Mihail Petrov | (参考訳) 本研究では,最大放射寿命を持つ量子状態をサポートする小さな原子アンサンブルの最適配置を微分進化アルゴリズムを用いて同定する。
原子は主に、最小の原子間距離 $r_{min}$ に依存する特定の幾何学を持つ準正則構造で組み立てられる。
特定の測地線における放射損失の抑制を支配する明快な物理を同定した。
しかし,小さなアンサンブルの特定の構成は,大規模配列の知識に基づいて容易には予測できないことが明らかとなった。
特に、無限格子の連続体の束縛状態からそれらの性質を継承する状態は、広い範囲の $r_{min}$ の値において最も亜ラジアンであることが判明した。
また,小原子間距離の場合,変調原子間距離を持つ鎖は,アンサンブルの大きさで放射損失の指数関数的に減少することを示した。 In this work, we employ differential evolution algorithm to identify the optimal configurations of small atomic ensembles supporting quantum states with maximal radiative lifetime. We demonstrate that atoms mostly tend to assemble in quasi-regular structures with specific geometry strongly depending on the minimal interatomic distance $r_{min}$. We identified the clear underlying physics that governs the suppression of the radiative losses in particular geometries. However, we reveal that the specific configurations in small ensembles are not easily predictable based on the knowledge established for the arrays of large size. In particular, the states that inherit their properties from bound states in continuum in infinite lattices turn out to be the most subradiant in a wide range of $r_{min}$ values. We also show that for small interatomic distance the chains with modulated interatomic distances exhibit fast exponential decrease of the radiative losses with the size of the ensemble. | 翻訳日:2023-11-15 15:53:30 公開日:2023-11-13 |
# 最新のC++原則によるCS1コースの作成 Creation of a CS1 Course with Modern C++ Principles ( http://arxiv.org/abs/2311.07807v1 ) ライセンス: Link先を確認 | Ryan E. Dougherty | (参考訳) プログラミングのベストプラクティスはCS1コースで強調する必要がある。
c++言語は比較的古い言語だが、2011年から3年に1回ペースで、新しいバージョンで定期的に更新されている。
それぞれの新バージョンには、後方互換性のためにC++言語をより複雑にする重要な機能が含まれている。
このポスターにはcs1コースの設計の経験が含まれており、当初から'modern''バージョンの言語を組み込んだc++言語と、言語に関する最近のカンファレンスを使っている。
私たちの目標は、c++プログラマの間でよく見られる悪習を防ぐことです。 Best practices in programming need to be emphasized in a CS1 course as bad student habits persist if not reinforced well. The C++ programming language, although a relatively old language, has been regularly updated with new versions since 2011, on the pace of once every three years. Each new version contains important features that make the C++ language more complex for backwards compatibility, but often introduce new features to make common use cases simpler to implement. This poster contains experiences in designing a CS1 course that uses the C++ programming language that incorporates ``modern'' versions of the language from the start, as well as recent conferences about the language. Our goals were to prevent many common bad habits among C++ programmers. | 翻訳日:2023-11-15 15:52:28 公開日:2023-11-13 |
# 心臓科における深層学習 Deep Learning in Cardiology ( http://arxiv.org/abs/1902.11122v4 ) ライセンス: Link先を確認 | Paschalis Bizopoulos and Dimitrios Koutsouris | (参考訳) 医療分野は、医師が効率的に解読および使用できない大量のデータを作成している。
さらに、ルールベースのエキスパートシステムは、複雑な医療課題の解決やビッグデータによる洞察の創造に非効率である。
深層学習は、診断、予測、介入など幅広い医療問題において、より正確で効果的な技術として現れてきた。
ディープラーニングは、データを非線形に変換する層からなり、階層的関係と構造を明らかにする表現学習手法である。
本稿では, 構造化データ, 信号, 画像モダリティを用いた深層学習応用論文について検討する。
医学全般にも応用できる深層学習のメリットと限界について論じるとともに,臨床応用において最も有効な方法として,特定の方向を提案する。 The medical field is creating large amount of data that physicians are unable to decipher and use efficiently. Moreover, rule-based expert systems are inefficient in solving complicated medical tasks or for creating insights using big data. Deep learning has emerged as a more accurate and effective technology in a wide range of medical problems such as diagnosis, prediction and intervention. Deep learning is a representation learning method that consists of layers that transform the data non-linearly, thus, revealing hierarchical relationships and structures. In this review we survey deep learning application papers that use structured data, signal and imaging modalities from cardiology. We discuss the advantages and limitations of applying deep learning in cardiology that also apply in medicine in general, while proposing certain directions as the most viable for clinical use. | 翻訳日:2023-11-15 00:59:36 公開日:2023-11-13 |
# HyperMixer: トランスフォーマーに代わるMLPベースの低コスト HyperMixer: An MLP-based Low Cost Alternative to Transformers ( http://arxiv.org/abs/2203.03691v3 ) ライセンス: Link先を確認 | Florian Mai, Arnaud Pannatier, Fabio Fehr, Haolin Chen, Francois Marelli, Francois Fleuret, James Henderson | (参考訳) トランスフォーマーベースのアーキテクチャは自然言語理解のモデルであるが、入力長が2次に複雑であり、多くのトレーニングデータを必要としており、チューニングが難しいため、かなりのコストがかかる。
低コストを追求する上で,シンプルなMLPアーキテクチャについて検討する。
MLPMixerのような既存のアーキテクチャは、各機能に独立して適用される静的MLPを通じてトークンの混合を実現するが、自然言語理解に必要な帰納的バイアスから分離しすぎている。
本稿では,ハイパーネットを用いたトークン混合MLPを動的に生成する,シンプルな変種HyperMixerを提案する。
実験により、我々のモデルは代替のMLPモデルよりも優れた性能を示し、トランスフォーマーと同等の性能を示す。
トランスフォーマーとは対照的に、ハイパーミキサーは処理時間、トレーニングデータ、ハイパーパラメータチューニングといった面で、これらをかなり低いコストで達成する。 Transformer-based architectures are the model of choice for natural language understanding, but they come at a significant cost, as they have quadratic complexity in the input length, require a lot of training data, and can be difficult to tune. In the pursuit of lower costs, we investigate simple MLP-based architectures. We find that existing architectures such as MLPMixer, which achieves token mixing through a static MLP applied to each feature independently, are too detached from the inductive biases required for natural language understanding. In this paper, we propose a simple variant, HyperMixer, which forms the token mixing MLP dynamically using hypernetworks. Empirically, we demonstrate that our model performs better than alternative MLP-based models, and on par with Transformers. In contrast to Transformers, HyperMixer achieves these results at substantially lower costs in terms of processing time, training data, and hyperparameter tuning. | 翻訳日:2023-11-15 00:54:51 公開日:2023-11-13 |
# 共変量による動的価格設定について On Dynamic Pricing with Covariates ( http://arxiv.org/abs/2112.13254v3 ) ライセンス: Link先を確認 | Hanzhao Wang, Kalyan Talluri, Xiaocheng Li | (参考訳) 販売者は、商品の価格を時間的水平線上で動的に調整することができ、各期間$t$は、その価格と観測可能な共変数ベクトル$x_t\in\mathbb{R}^d$によって、未知の共係数の一般線形モデルにより、製品の需要を共同で決定する。
既存の文献の多くは、共変ベクトル $x_t$'s は独立かつ同一に分布していると仮定している(つまり、この仮定を緩和する数少ない論文は、モデル一般性を犠牲にするか、準最適後悔境界を与えるかのいずれかである)。
本稿では, UCBとトンプソンのサンプリングに基づく価格決定アルゴリズムが, 共変量$x_t$の統計構造を仮定することなく, $O(d\sqrt{T}\log T)$ regret upper boundを実現できることを示す。
私たちの後悔に対する上限は、対数的要因までの下位境界と一致します。
したがって私たちは
(i)低い後悔を得るためには、i.d.仮定は不要であり、
(ii) 後悔境界は、前の境界に存在する$x_t$'sの共分散行列の(逆)最小固有値とは独立である。
さらに,限定的かつ補充不能な在庫が存在する動的価格問題の制約された設定を考察し,共変量の時間分布シフトに関して,最良の達成可能なアルゴリズム性能を変動尺度に関連付ける理論的結果を開発した。
また,良好な後悔が達成できる条件について検討し,数値実験により提案アルゴリズムの性能を実証する。 We consider dynamic pricing with covariates under a generalized linear demand model: a seller can dynamically adjust the price of a product over a horizon of $T$ time periods, and at each time period $t$, the demand of the product is jointly determined by the price and an observable covariate vector $x_t\in\mathbb{R}^d$ through a generalized linear model with unknown co-efficients. Most of the existing literature assumes the covariate vectors $x_t$'s are independently and identically distributed (i.i.d.); the few papers that relax this assumption either sacrifice model generality or yield sub-optimal regret bounds. In this paper, we show that UCB and Thompson sampling-based pricing algorithms can achieve an $O(d\sqrt{T}\log T)$ regret upper bound without assuming any statistical structure on the covariates $x_t$. Our upper bound on the regret matches the lower bound up to logarithmic factors. We thus show that (i) the i.i.d. assumption is not necessary for obtaining low regret, and (ii) the regret bound can be independent of the (inverse) minimum eigenvalue of the covariance matrix of the $x_t$'s, a quantity present in previous bounds. Moreover, we consider a constrained setting of the dynamic pricing problem where there is a limited and unreplenishable inventory and we develop theoretical results that relate the best achievable algorithm performance to a variation measure with respect to the temporal distribution shift of the covariates. We also discuss conditions under which a better regret is achievable and demonstrate the proposed algorithms' performance with numerical experiments. | 翻訳日:2023-11-15 00:53:43 公開日:2023-11-13 |
# 雑音量子チャネルにおけるqudit状態 Qudit States in Noisy Quantum Channels ( http://arxiv.org/abs/2110.08829v2 ) ライセンス: Link先を確認 | Supriyo Dutta, Subhashish Banerjee, Monika Rani | (参考訳) 本研究では,qudit状態の系列上で,ノイズの多い量子チャネルを多数解析する。
検討したチャネルは、ディットフリップノイズ、位相フリップノイズ、ディットフェーズフリップノイズ、デポーラライズノイズ、非マルコフ振幅減衰チャンネル(ADC)、デフォーカスノイズ、デポーラライズノイズである。
雑音の影響を測定するために、原状態と最終状態の忠実性について研究する。
ノイズチャネルの作用によるコヒーレンスの変化についても解析的および数値的に検討した。
提案手法は,マルチキュービットハイパーグラフ状態に対する元のアプローチと明確な関係を持つため,有利である。 In this work, we analyze a number of noisy quantum channels on a family of qudit states. The channels studied are the dit-flip noise, phase flip noise, dit-phase flip noise, depolarizing noise, non-Markovian Amplitude Damping Channel (ADC), dephasing noise, and depolarization noise. To gauge the effect of noise, the fidelity between the original and the final states is studied. The change of coherence under the action of noisy channels is also studied, both analytically and numerically. Our approach is advantageous as it has an explicit relation to the original approach to the multi-qubit hypergraph states. | 翻訳日:2023-11-15 00:51:51 公開日:2023-11-13 |
# 開量子系に対する自己整合動的写像 Self-consistent dynamical maps for open quantum systems ( http://arxiv.org/abs/2107.05553v6 ) ライセンス: Link先を確認 | Orazio Scarlatella and Marco Schir\`o | (参考訳) いくつかのケースでは、開量子系はボルン-マルコフ近似に依存するマスター方程式を用いてうまく記述できるが、これらのアプローチを超えることがしばしば必要となる。
本研究では、開量子系に対するNAAとNAA-マルコフの動的写像を導入し、ボルン近似を非交差近似(NCA)と呼ばれる自己整合近似に置き換えるこれらのマスター方程式を超えた。
これらの写像は正式にはマスター方程式に似ているが、適度な余分な数値コストで環境の非摂動効果を捉えることができる。
それらの能力を示すために、オーミック環境とサブオーミック環境の両方においてゼロ温度のスピンボーソンモデルに適用し、その強結合挙動を定性的に捉えることができ、標準マスター方程式を超えて定量的に正しいことを示した。 In several cases, open quantum systems can be successfully described using master equations relying on Born-Markov approximations, but going beyond these approaches has become often necessary. In this work, we introduce the NCA and NCA-Markov dynamical maps for open quantum systems, which go beyond these master equations replacing the Born approximation with a self-consistent approximation, known as non-crossing approximation (NCA). These maps are formally similar to master equations, but allow to capture non-perturbative effects of the environment at a moderate extra numerical cost. To demonstrate their capabilities, we apply them to the spin-boson model at zero temperature for both a Ohmic and a sub-Ohmic environment, showing that they can both qualitatively capture its strong-coupling behaviour, and be quantitatively correct beyond standard master equations. | 翻訳日:2023-11-15 00:51:19 公開日:2023-11-13 |
# アンシラによる情報保護:原子空洞システムへの応用 Ancilla-Assisted Protection of Information: Application to Atom-Cavity Systems ( http://arxiv.org/abs/2106.04425v2 ) ライセンス: Link先を確認 | Rajeev Gangwar, Mohit Lal Bera, G. P. Teja, Sandeep K. Goyal, and Manabendra Nath Bera | (参考訳) 量子可能技術が直面する大きな障害の1つは、量子システムにおける非一貫性を引き起こす環境ノイズであり、それによって量子的な側面の多くを破壊し、システムが量子演算と処理を行う間にエラーを導入する。
環境効果を緩和するために多くの技術が発明され、これらの技術の多くは、その環境や量子タスクに特有のものである。
本稿では,アシラを用いて任意の環境を効果的に無ノイズまたは透明にするプロトコルを提案し,特に原子に格納された情報を保護するのに適している。
光子である ancilla は制限されているが、幅広いノイズの作用が許されている。
このプロトコルは、システムの情報をデコヒーレンスフリーのサブスペースに転送し、後にシステムに戻す。
これにより、量子情報の完全保護と原子系の絡み合いをデコヒーレンスから得ることができる。
本稿では,このプロトコルを光学キャビティ内の原子系に実装する実験手法を提案する。 One of the major obstacles faced by quantum-enabled technology is the environmental noise that causes decoherence in the quantum system, thereby destroying much of its quantum aspects and introducing errors while the system undergoes quantum operations and processing. A number of techniques have been invented to mitigate the environmental effects, and many of these techniques are specific to the environment and the quantum tasks at hand. Here, we propose a protocol that makes arbitrary environments effectively noise-free or transparent using an ancilla, which, in particular, is well suited to protect information stored in atoms. The ancilla, which is the photons, is allowed to undergo restricted but a wide class of noisy operations. The protocol transfers the information of the system onto the decoherence-free subspace and later retrieves it back to the system. Consequently, it enables full protection of quantum information and entanglement in the atomic system from decoherence. We propose experimental schemes to implement this protocol on atomic systems in an optical cavity. | 翻訳日:2023-11-15 00:50:39 公開日:2023-11-13 |
# CTスキャンによる肺・COVID-19病変の深層学習モデルの総合的比較 Comprehensive Comparison of Deep Learning Models for Lung and COVID-19 Lesion Segmentation in CT scans ( http://arxiv.org/abs/2009.06412v7 ) ライセンス: Link先を確認 | Paschalis Bizopoulos, Nicholas Vretos and Petros Daras | (参考訳) 近年,医学画像分割におけるdeep learning (dl) 法の利用が爆発的に増加している。
しかし、フィールドの信頼性は、精度/性能評価のための共通基準の欠如と、以前の研究が評価に異なるデータセットを使用しているという事実によって妨げられている。
本稿では,CT(Computerized Tomography)スキャンにおける肺のDLモデルとCOVID-19の病変セグメンテーションの広範な比較を行い,医療画像セグメンテーションモデルのベンチマークとして使用することができる。
4つのDLアーキテクチャ(Unet, Linknet, FPN, PSPNet)と25のランダム初期化および事前訓練エンコーダ(VGG, DenseNet, ResNet, ResNext, DPN, MobileNet, Xception, Inception-v4, EfficientNet)を組み合わせて200の試験モデルを構築する。
肺の分節, 病変の分節, 病変の分節の3つの実験を, オリジナルの肺マスクを用いて行った。
トレーニング/バリデーションには100個のCTスキャンイメージ(トレーニングには80、バリデーションには20、テストには9個のCTスキャンボリュームから829個のイメージで構成される公開データセットが使用される。
実験毎に最適なアーキテクチャエンコーダモデルと、実験、アーキテクチャ、エンコーダごとに平均dice結果を含む複数の調査結果が提供されている。
最後に、前処理ステップとして肺マスクを使用する場合や、事前訓練されたモデルを使用する場合の上限を定量化する。
3つの実験のためのソースコードと600の事前学習されたモデルを提供し、gpu能力のない実験セットアップの微調整に適している。 Recently there has been an explosion in the use of Deep Learning (DL) methods for medical image segmentation. However the field's reliability is hindered by the lack of a common base of reference for accuracy/performance evaluation and the fact that previous research uses different datasets for evaluation. In this paper, an extensive comparison of DL models for lung and COVID-19 lesion segmentation in Computerized Tomography (CT) scans is presented, which can also be used as a benchmark for testing medical image segmentation models. Four DL architectures (Unet, Linknet, FPN, PSPNet) are combined with 25 randomly initialized and pretrained encoders (variations of VGG, DenseNet, ResNet, ResNext, DPN, MobileNet, Xception, Inception-v4, EfficientNet), to construct 200 tested models. Three experimental setups are conducted for lung segmentation, lesion segmentation and lesion segmentation using the original lung masks. A public COVID-19 dataset with 100 CT scan images (80 for train, 20 for validation) is used for training/validation and a different public dataset consisting of 829 images from 9 CT scan volumes for testing. Multiple findings are provided including the best architecture-encoder models for each experiment as well as mean Dice results for each experiment, architecture and encoder independently. Finally, the upper bounds improvements when using lung masks as a preprocessing step or when using pretrained models are quantified. The source code and 600 pretrained models for the three experiments are provided, suitable for fine-tuning in experimental setups without GPU capabilities. | 翻訳日:2023-11-15 00:49:53 公開日:2023-11-13 |
# FACT:高次元ランダムフォレスト推論 FACT: High-Dimensional Random Forests Inference ( http://arxiv.org/abs/2207.01678v2 ) ライセンス: Link先を確認 | Chien-Ming Chi, Yingying Fan, Jinchi Lv | (参考訳) ランダム森林学習における個々の特徴の有用性の定量化は、その解釈可能性を大幅に向上させる。
既存の研究では、ランダム林に対する特徴重要度対策がバイアス問題に苦しんでいることが示されている。
さらに、これらの既存手法の大部分が網羅的なサイズと電力分析を欠いている。
本稿では,仮説テストを通じてこの問題にアプローチし,バイアス耐性特性を持つランダムフォレストモデルにおける特徴の意義を評価するための自己正規化特徴対応相関テスト(fact)の枠組みを提案する。
このような無作為な森林推定への取り組みは、高次元の無作為な森林の整合性に関する最近の発展によって促進されている。
依存する特徴を持つ比較的一般的な高次元非パラメトリックモデル設定の下で、FACTが制御されたI型誤差で理論的に正当化された特徴重要度テストを提供し、魅力的なパワー特性を享受できることを正式に証明する。
提案手法の理論的結果と有限サンプルの利点をいくつかのシミュレーション例と経済予測法を用いて示す。 Quantifying the usefulness of individual features in random forests learning can greatly enhance its interpretability. Existing studies have shown that some popularly used feature importance measures for random forests suffer from the bias issue. In addition, there lack comprehensive size and power analyses for most of these existing methods. In this paper, we approach the problem via hypothesis testing, and suggest a framework of the self-normalized feature-residual correlation test (FACT) for evaluating the significance of a given feature in the random forests model with bias-resistance property, where our null hypothesis concerns whether the feature is conditionally independent of the response given all other features. Such an endeavor on random forests inference is empowered by some recent developments on high-dimensional random forests consistency. Under a fairly general high-dimensional nonparametric model setting with dependent features, we formally establish that FACT can provide theoretically justified feature importance test with controlled type I error and enjoy appealing power property. The theoretical results and finite-sample advantages of the newly suggested method are illustrated with several simulation examples and an economic forecasting application. | 翻訳日:2023-11-14 23:10:10 公開日:2023-11-13 |
# 雑音データから非パラメトリック常微分方程式を学習する Learning nonparametric ordinary differential equations from noisy data ( http://arxiv.org/abs/2206.15215v3 ) ライセンス: Link先を確認 | Kamel Lahouel, Michael Wells, Victor Rielly, Ethan Lew, David Lovitz, and Bruno M. Jedynak | (参考訳) 雑音データから通常の微分方程式(ODE)ドットx = f(t,x)の非パラメトリックシステムを学ぶことは、新しい機械学習トピックである。
我々は、コーネルヒルベルト空間(RKHS)の再現理論を用いて、ODEの解が存在し、一意である f の候補を定義する。
学習fは、制約付き最適化問題をRKHSで解くことで構成される。
本稿では,Representer定理とオイラー近似を反復的に用いて数値解を与えるペナルティ法を提案する。
我々は、x とその推定器の間の L2 距離の一般化を証明し、最先端技術との比較実験を行う。 Learning nonparametric systems of Ordinary Differential Equations (ODEs) dot x = f(t,x) from noisy data is an emerging machine learning topic. We use the well-developed theory of Reproducing Kernel Hilbert Spaces (RKHS) to define candidates for f for which the solution of the ODE exists and is unique. Learning f consists of solving a constrained optimization problem in an RKHS. We propose a penalty method that iteratively uses the Representer theorem and Euler approximations to provide a numerical solution. We prove a generalization bound for the L2 distance between x and its estimator and provide experimental comparisons with the state-of-the-art. | 翻訳日:2023-11-14 23:09:51 公開日:2023-11-13 |
# RankSEG: セグメンテーションのための一貫性のあるランキングベースのフレームワーク RankSEG: A Consistent Ranking-based Framework for Segmentation ( http://arxiv.org/abs/2206.13086v3 ) ライセンス: Link先を確認 | Ben Dai and Chunlin Li | (参考訳) セグメンテーションはコンピュータビジョンと自然言語処理の基本的な分野として登場し、画像/テキストから興味のある領域を抽出するために全てのピクセル/フィーチャーにラベルを割り当てる。
セグメンテーションの性能を評価するために、Dice と IoU のメトリクスを用いて、地下の真実と予測セグメンテーションの重複度を測定する。
本稿では,ベイズ則やDice-IoU-キャリブレーションを含むDice/IoU指標に関するセグメンテーションの理論的基礎を確立する。
Dice/IoU測定値に関して,運用損失がほとんどである既存のしきい値ベースのフレームワークは一致していないことが証明された。
そこで我々は,この落とし穴に対処するために,ベイズ分割規則のプラグインルールに触発された,新しいランキングベースフレームワークrankdice/rankiouを提案する。
大規模かつ高次元のセグメンテーションにおいて提案するフレームワークを実装するために,GPU並列実行を用いた3つの数値アルゴリズムを開発した。
提案手法の統計的特性について検討する。
我々は,dice-/iou-calibratedであり,その過大なリスク境界と収束率も示している。
RankDice/mRankDiceの数値的効果は、様々なシミュレートされた例で示され、ファインアノテートされたCityScapes、Pascal VOC、Kvasir-SEGデータセットと最先端のディープラーニングアーキテクチャで示される。 Segmentation has emerged as a fundamental field of computer vision and natural language processing, which assigns a label to every pixel/feature to extract regions of interest from an image/text. To evaluate the performance of segmentation, the Dice and IoU metrics are used to measure the degree of overlap between the ground truth and the predicted segmentation. In this paper, we establish a theoretical foundation of segmentation with respect to the Dice/IoU metrics, including the Bayes rule and Dice-/IoU-calibration, analogous to classification-calibration or Fisher consistency in classification. We prove that the existing thresholding-based framework with most operating losses are not consistent with respect to the Dice/IoU metrics, and thus may lead to a suboptimal solution. To address this pitfall, we propose a novel consistent ranking-based framework, namely RankDice/RankIoU, inspired by plug-in rules of the Bayes segmentation rule. Three numerical algorithms with GPU parallel execution are developed to implement the proposed framework in large-scale and high-dimensional segmentation. We study statistical properties of the proposed framework. We show it is Dice-/IoU-calibrated, and its excess risk bounds and the rate of convergence are also provided. The numerical effectiveness of RankDice/mRankDice is demonstrated in various simulated examples and Fine-annotated CityScapes, Pascal VOC and Kvasir-SEG datasets with state-of-the-art deep learning architectures. | 翻訳日:2023-11-14 23:09:39 公開日:2023-11-13 |
# オブジェクトスキャンコンテキスト:3Dポイントクラウドマップ内の位置認識のためのオブジェクト中心空間記述子 Object Scan Context: Object-centric Spatial Descriptor for Place Recognition within 3D Point Cloud Map ( http://arxiv.org/abs/2206.03062v3 ) ライセンス: Link先を確認 | Haodong Yuan, Yudong Zhang, Shengyin Fan, Xue Li and Jian Wang | (参考訳) SLAMアルゴリズムと位置認識技術を統合することで、蓄積したエラーを軽減し、自身を再ローカライズすることが可能になる。
しかし、既存のポイントクラウドベースの位置認識の方法は、主にlidar中心のディスクリプタのマッチングに依存している。
これらの手法には2つの大きな欠点がある: 第一に、二つの点雲の間の距離が大きいときに位置認識を行うことができず、第二に、X方向とY方向のオフセットを考慮せずに回転角を計算できる。
これらの制約を克服するため,我々は,メインオブジェクトを中心に構築した新しいローカルディスクリプタを提案する。
幾何的手法を用いることで、相対的なポーズを正確に計算できる。
本手法が上記の限界を克服できることを示す理論的解析を行った。
さらに, KITTI Odometry と KITTI360 について広範な実験を行った。 The integration of a SLAM algorithm with place recognition technology empowers it with the ability to mitigate accumulated errors and to relocalize itself. However, existing methods for point cloud-based place recognition predominantly rely on the matching of descriptors, which are mostly lidar-centric. These methods suffer from two major drawbacks: first, they cannot perform place recognition when the distance between two point clouds is significant, and second, they can only calculate the rotation angle without considering the offset in the X and Y directions. To overcome these limitations, we propose a novel local descriptor that is constructed around the Main Object. By using a geometric method, we can accurately calculate the relative pose. We have provided a theoretical analysis to demonstrate that this method can overcome the aforementioned limitations. Furthermore, we conducted extensive experiments on KITTI Odometry and KITTI360, which indicate that our proposed method has significant advantages over state-of-the-art methods. | 翻訳日:2023-11-14 23:08:08 公開日:2023-11-13 |
# バイアス誘発測地:公正性を考慮した正確に解けるデータモデル Bias-inducing geometries: an exactly solvable data model with fairness implications ( http://arxiv.org/abs/2205.15935v3 ) ライセンス: Link先を確認 | Stefano Sarao Mannelli, Federica Gerace, Negar Rostamzadeh, Luca Saglietti | (参考訳) 機械学習(ML)は人間の偏見には耐えられないかもしれないが、その永続性には免疫がない。
マージナライゼーションと不公平なグループ表現は、しばしば訓練に使用されるデータの中でトレース可能であり、学習モデルによって反映または強化される。
本研究では,MLバイアスの出現におけるデータ幾何学の役割を明らかにすることを目的とした。
バイアス誘導因子のパラメトリック制御によりバイアス継承機構の広範囲な探索が可能となる,データ不均衡の正確な解法可能な高次元モデルを提案する。
統計物理学のツールを用いて,本フレームワークで訓練された学習モデルの典型的特性を解析的に解析し,公正性評価に一般的に使用される観測対象の正確な予測を求める。
データモデルの単純さにもかかわらず、実世界のデータセットで観察される典型的な不公平な振る舞いを追跡および解き放つ。
また、バイアス緩和戦略のクラスを詳細に分析する特徴付けも取得する。
まず,不公平度尺度を暗黙的に最小化し,既存の公正度基準の不適合性を定量化する基本的損失補償方式を検討する。
そこで本研究では,協調学習モデルの導入による,マッチング推論手法に基づく新たな緩和戦略を検討する。
この手法の理論的解析は、結合戦略がより優れた公正-正確トレードオフを達成できることを示している。 Machine learning (ML) may be oblivious to human bias but it is not immune to its perpetuation. Marginalisation and iniquitous group representation are often traceable in the very data used for training, and may be reflected or even enhanced by the learning models. In the present work, we aim at clarifying the role played by data geometry in the emergence of ML bias. We introduce an exactly solvable high-dimensional model of data imbalance, where parametric control over the many bias-inducing factors allows for an extensive exploration of the bias inheritance mechanism. Through the tools of statistical physics, we analytically characterise the typical properties of learning models trained in this synthetic framework and obtain exact predictions for the observables that are commonly employed for fairness assessment. Despite the simplicity of the data model, we retrace and unpack typical unfairness behaviour observed on real-world datasets. We also obtain a detailed analytical characterisation of a class of bias mitigation strategies. We first consider a basic loss-reweighing scheme, which allows for an implicit minimisation of different unfairness metrics, and quantify the incompatibilities between some existing fairness criteria. Then, we consider a novel mitigation strategy based on a matched inference approach, consisting in the introduction of coupled learning models. Our theoretical analysis of this approach shows that the coupled strategy can strike superior fairness-accuracy trade-offs. | 翻訳日:2023-11-14 23:07:33 公開日:2023-11-13 |
# Waldoを用いたシミュレーションに基づく推論:予測アルゴリズムの活用による信頼領域と逆問題に対する後部推定器 Simulator-Based Inference with Waldo: Confidence Regions by Leveraging Prediction Algorithms and Posterior Estimators for Inverse Problems ( http://arxiv.org/abs/2205.15680v4 ) ライセンス: Link先を確認 | Luca Masserano, Tommaso Dorigo, Rafael Izbicki, Mikael Kuusela, Ann B. Lee | (参考訳) ディープニューラルネットワーク(dnn)のような予測アルゴリズムは、多くのドメイン科学において、シミュレータベースのモデル、特に観測が画像や複雑な高次元データを含む設定で興味のある内部パラメータを直接推定するために使用される。
並行して、流れの正規化のような現代の神経密度推定器は、特にパラメーターと観測値の両方が高次元の場合、不確かさの定量化のためにますます普及している。
しかし、パラメータ推論は逆問題であり、予測タスクではない。そのため、オープンチャレンジは、(未知)パラメータ値が何であっても、大きなサンプル理論に頼らずに、データ生成プロセスの真のパラメータをカバーできる保証された確率で、条件付き有効で正確な信頼領域を構築することである。
多くのシミュレーターベース推論(SBI)法は、偏りや過度に自信の持たれたパラメータ領域を生成し、誤った不確実性推定をもたらす。
本稿では,現在SBIに広く採用されている予測アルゴリズムや後部推定器を活用することで,有限サンプル条件付き信頼領域を構築する手法であるWALDOを提案する。
ウォルドはよく知られたヴァルトテストの統計を再構成し、古典的ニーマンの仮説検定の反転に計算効率の高い回帰ベースの機械を用いる。
提案手法を最近の高エネルギー物理問題に適用し,DNNによる予測が予測バイアスによる推定を導いた。
また,本手法は流れの正規化によって計算された過度に自信の強い後方領域を補正する方法を示す。 Prediction algorithms, such as deep neural networks (DNNs), are used in many domain sciences to directly estimate internal parameters of interest in simulator-based models, especially in settings where the observations include images or complex high-dimensional data. In parallel, modern neural density estimators, such as normalizing flows, are becoming increasingly popular for uncertainty quantification, especially when both parameters and observations are high-dimensional. However, parameter inference is an inverse problem and not a prediction task; thus, an open challenge is to construct conditionally valid and precise confidence regions, with a guaranteed probability of covering the true parameters of the data-generating process, no matter what the (unknown) parameter values are, and without relying on large-sample theory. Many simulator-based inference (SBI) methods are indeed known to produce biased or overly confident parameter regions, yielding misleading uncertainty estimates. This paper presents WALDO, a novel method to construct confidence regions with finite-sample conditional validity by leveraging prediction algorithms or posterior estimators that are currently widely adopted in SBI. WALDO reframes the well-known Wald test statistic, and uses a computationally efficient regression-based machinery for classical Neyman inversion of hypothesis tests. We apply our method to a recent high-energy physics problem, where prediction with DNNs has previously led to estimates with prediction bias. We also illustrate how our approach can correct overly confident posterior regions computed with normalizing flows. | 翻訳日:2023-11-14 23:07:09 公開日:2023-11-13 |
# 冷間原子干渉計用高性能シリコンフォトニックシングルサイドバンド変調器 High-Performance Silicon Photonic Single-Sideband Modulators for Cold Atom Interferometry ( http://arxiv.org/abs/2204.12537v2 ) ライセンス: Link先を確認 | Ashok Kodigala, Michael Gehl, Gregory W. Hoth, Jongmin Lee, Christopher DeRose, Andrew Pomerene, Christina Dallo, Douglas Trotter, Andrew L. Starbuck, Grant Biedermann, Peter D. D. Schwindt, and Anthony L. Lentine | (参考訳) 光パルス原子干渉計(LPAI)内の最も複雑で困難なシステムは、時間とともに複数のレーザービームの周波数と強度を制御し、量子重力と慣性センサーを構成するレーザーシステムである。
LPAIレーザーシステムの主な機能は、低温原子の生成と状態選択検出を行い、光パルスシーケンスのためのコヒーレントな2光子過程を生成することである。
レーザーシステムと光システムの最も重要な機能をフォトニック集積回路(PIC)に組み込むことで、レーザーシステムの実質的な小型化と堅牢化を実現することができる。
本稿では、1560nm付近で動作するデュアルパラレルマッハ-ツェンダー変調器(DP-MZM)を用いた高性能シリコンフォトニックキャリア抑制シングルサイドバンド(CS-SSB)変調器PICについて述べる。
SSB変調器におけるチャネルの独立RF制御により、光学およびRF位相と振幅の両方の不均衡を広範囲に研究し、30dBキャリア抑制と6.846 dB (20.7 %)のピーク変換効率を持つ前例のない47.8 dBサイドバンド抑制に同時に到達することができる。
lpaiレーザーシステムにおいて、時間多重周波数シフトを有するシリコンフォトニックssb変調器を用いて、ルビジウム(英語版) (^{87}$rb) 原子系において、冷却原子の生成、状態選択検出、原子干渉計のフリンジの実現により重力加速度を推定する9.77 \pm 0.01 \,\rm{m/s^2}$, を実証する。 The most complicated and challenging system within a light-pulse atom interferometer (LPAI) is the laser system, which controls the frequencies and intensities of multiple laser beams over time to configure quantum gravity and inertial sensors. The main function of an LPAI laser system is to perform cold-atom generation and state-selective detection and to generate coherent two-photon process for the light-pulse sequence. Substantial miniaturization and ruggedization of the laser system can be achieved by bringing together most key functions of the laser and optical system onto a photonic integrated circuit (PIC). Here we demonstrate a high-performance silicon photonic carrier-suppressed single-sideband (CS-SSB) modulator PIC with dual-parallel Mach-Zehnder modulators (DP-MZMs) operating near 1560 nm, which can dynamically shift the frequency of the light for the desired function within the LPAI. Independent RF control of channels in SSB modulator enables the extensive study of imbalances in both the optical and RF phases and amplitudes to simultaneously reach 30 dB carrier suppression and unprecedented 47.8 dB sideband suppression with peak conversion efficiency of -6.846 dB (20.7 %). Using a silicon photonic SSB modulator with time-multiplexed frequency shifting in an LPAI laser system, we demonstrate cold-atom generation, state-selective detection, and the realization of atom interferometer fringes to estimate gravitational acceleration, $g \approx 9.77 \pm 0.01 \,\rm{m/s^2}$, in a Rubidium ($^{87}$Rb) atom system. | 翻訳日:2023-11-14 23:06:20 公開日:2023-11-13 |
# 情報スクランブルによる非安定化性の定量化 Quantifying non-stabilizerness via information scrambling ( http://arxiv.org/abs/2204.11236v4 ) ライセンス: Link先を確認 | Arash Ahmadi, Eliska Greplova | (参考訳) 量子技術の出現は、それらが提供する計算資源の理論的特徴に多くの注意を向けた。
量子資源を定量化する方法は、マジックモノトン(magic monotones)とスタビライザーエントロピー(stabler entropies)と呼ばれる関数のクラスを使用することである。
近年,情報スクランブル,マジックモノトーンマナ,2-レニ安定剤エントロピーの相互関係が確立された。
この接続はマジックモノトン計算を単純化するが、この方法のクラスはキュービットの数に関して指数スケーリングに苦しむ。
本研究では,マジックモノトンと2-renyi安定化子エントロピーを近似する時間外コリレータをサンプリングする方法を確立した。
量子ビット系と量子ビット系の異なる非安定化測度との関係を数値的に示し, 2-renyi安定化器エントロピーとの関係を解析的に示す。
さらに、局所ハミルトンの時間進化のためのマジックの単調な振る舞いを測定するためのプロトコルを前進し、シミュレートした。 The advent of quantum technologies brought forward much attention to the theoretical characterization of the computational resources they provide. A method to quantify quantum resources is to use a class of functions called magic monotones and stabilizer entropies, which are, however, notoriously hard and impractical to evaluate for large system sizes. In recent studies, a fundamental connection between information scrambling, the magic monotone mana and 2-Renyi stabilizer entropy was established. This connection simplified magic monotone calculation, but this class of methods still suffers from exponential scaling with respect to the number of qubits. In this work, we establish a way to sample an out-of-time-order correlator that approximates magic monotones and 2-Renyi stabilizer entropy. We numerically show the relation of these sampled correlators to different non-stabilizerness measures for both qubit and qutrit systems and provide an analytical relation to 2-Renyi stabilizer entropy. Furthermore, we put forward and simulate a protocol to measure the monotonic behaviour of magic for the time evolution of local Hamiltonians. | 翻訳日:2023-11-14 23:05:45 公開日:2023-11-13 |
# 表面増強ラマン散乱法によるプラズモニックナノ・ピクトキャビティの巨大光春効果 Giant optomechanical spring effect in plasmonic nano- and picocavities probed by surface-enhanced Raman scattering ( http://arxiv.org/abs/2204.09641v2 ) ライセンス: Link先を確認 | Lukas A. Jakob, William M. Deacon, Yuan Zhang, Bart de Nijs, Elena Pavlenko, Shu Hu, Cloudy Carnegie, Tomas Neuman, Ruben Esteban, Javier Aizpurua, Jeremy J. Baumberg | (参考訳) 分子振動は可視光に弱くのみ結合し、相互相互作用が小さいため、非線形光学では無視されることが多い。
ここでは、プラズモニックナノキャビティとピコキャビティによって提供される極端な閉じ込めが光機械的カップリングを十分に強化し、強いレーザー照明が分子結合を著しく軟化することを示す。
この光機械式ポンプ装置は、従来のキャビティよりも数百倍大きい光バネ効果から大きな振動周波数シフトに関連するラマン振動スペクトルの強い歪みを生み出す。
マルチモーダルナノキャビティ応答と近接場誘起フォノン相互作用を考慮した理論シミュレーションは、超高速レーザーパルスで照射されたナノ粒子-ミラー構造のラマンスペクトルに現れる実験的に観察された非線形挙動と一致している。
さらに, プラズモニックピコキャビティにより, 単一分子の光学ばね効果を連続照明で得ることができることを示す。
ナノキャビティで集合フォノンを駆動することで、可逆性結合の軟化や可逆性化学を制御することができる。 Molecular vibrations couple to visible light only weakly, have small mutual interactions, and hence are often ignored for non-linear optics. Here we show the extreme confinement provided by plasmonic nano- and pico-cavities can sufficiently enhance optomechanical coupling so that intense laser illumination drastically softens the molecular bonds. This optomechanical pumping regime produces strong distortions of the Raman vibrational spectrum related to giant vibrational frequency shifts from an optical spring effect which is hundred-fold larger than in traditional cavities. The theoretical simulations accounting for the multimodal nanocavity response and near-field-induced collective phonon interactions are consistent with the experimentally-observed non-linear behavior exhibited in the Raman spectra of nanoparticle-on-mirror constructs illuminated by ultrafast laser pulses. Further, we show indications that plasmonic picocavities allow us to access the optical spring effect in single molecules with continuous illumination. Driving the collective phonon in the nanocavity paves the way to control reversible bond softening, as well as irreversible chemistry. | 翻訳日:2023-11-14 23:05:22 公開日:2023-11-13 |
# 摂動交差を伴う量子アニールスペクトルに対するXX触媒の効果 Effects of XX-catalysts on quantum annealing spectra with perturbative crossings ( http://arxiv.org/abs/2203.06779v2 ) ライセンス: Link先を確認 | Natasha Feinstein, Louis Fry-Bouriaux, Sougato Bose, P. A. Warburton | (参考訳) 断熱量子アニーリングにおいて、与えられた基底状態の忠実度に達するために必要な実行時間は、アニーリングスペクトルの基底状態と第一励起状態との間の最小ギャップの大きさによって決定される。
一般に、回避されたレベル交差の存在は、アルゴリズムの効率と必要なqubitコヒーレンス時間の両方に影響を及ぼすシステムサイズによるアニーリング時間の指数関数的な増加を要求する。
より良好なギャップスケーリングを実現するために検討されている有望な道の1つは、触媒の形で非確率的なXXカップリングを導入することである。
ここでは、最適化問題の符号化の微妙な変化に対するXX触媒の効果の極端な感度を示す。
特に, 単一カップリングを一定強度で担持した触媒は, 回避レベル交差時のシステムサイズによるギャップ閉鎖を著しく低減できることがわかった。
しかし、同じ問題のわずかに異なるエンコーディングでは、これら同じ触媒がアニーリングスペクトルのギャップを閉じる結果となる。
これらの閉鎖ギャップの起源を理解するために,触媒の存在によって基底状態ベクトルの進化がどのように変化するかを検討し,基底状態ベクトルの負成分がギャップスペクトルの応答を理解する上で重要であることを発見した。
我々はまた、これらの閉ざされたギャップをダイアバティック量子アニーリングプロトコル(英語版)で利用し得る時と方法についても検討する - より高いエネルギーレベルへの遷移を利用してアルゴリズムの実行時間を短縮する、断熱量子アニーリングに代わる有望な方法である。 In adiabatic quantum annealing the required run-time to reach a given ground-state fidelity is dictated by the size of the minimum gap that appears between the ground and first excited state in the annealing spectrum. In general the presence of avoided level crossings demands an exponential increase in the annealing time with the system size which has consequences both for the efficiency of the algorithm and the required qubit coherence times. One promising avenue being explored to produce more favourable gap scaling is the introduction of non-stoquastic XX-couplings in the form of a catalyst - of particular interest are catalysts which utilise accessible information about the optimisation problem in their construction. Here we show extreme sensitivity of the effect of an XX-catalyst to subtle changes in the encoding of the optimisation problem. In particular, we observe that a targeted catalyst containing a single coupling at constant strength can significantly reduce the gap closing with system size at an avoided level crossing. For slightly different encodings of the same problems however, these same catalysts result in closing gaps in the annealing spectrum. To understand the origin of these closing gaps, we study how the evolution of the ground-state vector is altered by the presence of the catalyst and find that the negative components of the ground-state vector are key to understanding the response of the gap spectrum. We also consider how and when these closing gaps could be utilised in diabatic quantum annealing protocols - a promising alternative to adiabatic quantum annealing in which transitions to higher energy levels are exploited to reduce the run time of the algorithm. | 翻訳日:2023-11-14 23:04:39 公開日:2023-11-13 |
# scirepeval: 科学文書表現のためのマルチフォーマットベンチマーク SciRepEval: A Multi-Format Benchmark for Scientific Document Representations ( http://arxiv.org/abs/2211.13308v4 ) ライセンス: Link先を確認 | Amanpreet Singh, Mike D'Arcy, Arman Cohan, Doug Downey, Sergey Feldman | (参考訳) 科学的文書の学習表現は、さらに微調整することなく、下流タスクの貴重な入力機能として機能する。
しかし、これらの表現を評価するための既存のベンチマークは、関連するタスクの多様性を捉えていない。
そこで本研究では,科学文書表現の学習と評価のための最初の総合ベンチマークであるscirepevalを紹介する。
それは24の挑戦的で現実的なタスクを含み、そのうち8つは新しいもので、分類、回帰、ランキング、検索の4つの形式がある。
次に、このベンチマークを用いて、科学的文書表現モデルの一般化能力の研究と改善を行う。
SPECTERやSciNCLのような最先端のモデルがタスクフォーマットをまたいで一般化するのにいかに苦労しているかを示す。
しかし、ドキュメントごとに複数の埋め込みを学習する新しいアプローチは、それぞれ異なるフォーマットに合わせて、パフォーマンスを向上させることができる。
タスク形式固有の制御コードとアダプタを実験し、既存の単一埋め込み状態よりも2ポイント以上優れています。
SPECTER2と呼ばれる、コミュニティが利用して構築するためのマルチフォーマットモデル群をリリースする。 Learned representations of scientific documents can serve as valuable input features for downstream tasks without further fine-tuning. However, existing benchmarks for evaluating these representations fail to capture the diversity of relevant tasks. In response, we introduce SciRepEval, the first comprehensive benchmark for training and evaluating scientific document representations. It includes 24 challenging and realistic tasks, 8 of which are new, across four formats: classification, regression, ranking and search. We then use this benchmark to study and improve the generalization ability of scientific document representation models. We show how state-of-the-art models like SPECTER and SciNCL struggle to generalize across the task formats, and that simple multi-task training fails to improve them. However, a new approach that learns multiple embeddings per document, each tailored to a different format, can improve performance. We experiment with task-format-specific control codes and adapters and find they outperform the existing single-embedding state-of-the-art by over 2 points absolute. We release the resulting family of multi-format models, called SPECTER2, for the community to use and build on. | 翻訳日:2023-11-14 22:56:32 公開日:2023-11-13 |
# クロスタスク一般化のためのマルチヘッドアダプタルーティング Multi-Head Adapter Routing for Cross-Task Generalization ( http://arxiv.org/abs/2211.03831v3 ) ライセンス: Link先を確認 | Lucas Caccia, Edoardo Ponti, Zhan Su, Matheus Pereira, Nicolas Le Roux, Alessandro Sordoni | (参考訳) クロスタスク一般化のためのパラメータ効率細調整(PEFT)は、テストタスクに数発の適応をする前に、マルチタスクトレーニングセットの事前トレーニングアダプタで構成される。
Polytropon [Ponti et al., 2023] ($\texttt{Poly}$) は、事前トレーニングと少数ショット適応の両方の間、各タスクの(可変サイズの)アダプタサブセットを選択するルーティング関数とアダプタの在庫を共同で学習する。
本稿では,アダプタルーティングが成功に果たす役割について検討し,その成果に基づいて新しいバリエーションを設計する。
まず、よりきめ細かいルーティングがより表現力を与えるという直感に基づいて構築する。
そこで我々は,アダプタパラメータのサブセットと$\texttt{poly}$を同等のパラメータ予算で比較する$\texttt{mhr}$ (マルチヘッドルーティング)を提案する。
第二に、$\texttt{Poly}$/$\texttt{MHR}$パフォーマンスは、以前仮説されていたように、アダプタの再結合や局所的な適応を容易にするモジュラー帰納バイアスよりも、より優れたマルチタスク最適化の結果である。
実際、$\texttt{mhr}$はトレーニングタスク間の勾配アライメントが高いことが分かりました。
また,各下流タスクにおいて,事前学習したアダプタの平均を細調整してルーティングを破棄する$\texttt{MHR}$-$\mu$を提案する。
これにより、シングルアダプタファインチューニングの有効な方法として$\texttt{MHR}$-$\mu$が確立される。
また、マルチタスクトレーニングセットのいくつかの追加ステップで事前訓練されたアダプタの平均をトレーニングすることで、有効なゼロショット転送方法として$\texttt{MHR}$-$\mu$が使用できることを示す。 Parameter-efficient fine-tuning (PEFT) for cross-task generalization consists in pre-training adapters on a multi-task training set before few-shot adaptation to test tasks. Polytropon [Ponti et al., 2023] ($\texttt{Poly}$) jointly learns an inventory of adapters and a routing function that selects a (variable-size) subset of adapters for each task during both pre-training and few-shot adaptation. In this paper, we investigate the role that adapter routing plays in its success and design new variants based on our findings. First, we build on the intuition that finer-grained routing provides more expressivity. Hence, we propose $\texttt{MHR}$ (Multi-Head Routing) which combines subsets of adapter parameters and outperforms $\texttt{Poly}$ under a comparable parameter budget; by only fine-tuning the routing function and not the adapters ($\texttt{MHR}$-$z$) we achieve competitive performance with extreme parameter efficiency. Second, we find that $\texttt{Poly}$/$\texttt{MHR}$ performance is a result of better multi-task optimization, rather than modular inductive biases that facilitate adapter recombination and local adaptation, as previously hypothesized. In fact, we find that $\texttt{MHR}$ exhibits high gradient alignment between training tasks. We find that routing is most beneficial during multi-task pre-training rather than during few-shot adaptation and propose $\texttt{MHR}$-$\mu$, which discards routing and fine-tunes the average of the pre-trained adapters on each downstream tasks. This establishes $\texttt{MHR}$-$\mu$ as an effective method for single-adapter fine-tuning. We also show that $\texttt{MHR}$-$\mu$ can be used as an effective zero-shot transfer method by training the average of the pre-trained adapters for a few additional steps on the multi-task training set: this yields gains up to 3% on absolute accuracy w.r.t. the baselines. | 翻訳日:2023-11-14 22:56:15 公開日:2023-11-13 |
# 最適輸送によるインスタンス依存一般化境界 Instance-Dependent Generalization Bounds via Optimal Transport ( http://arxiv.org/abs/2211.01258v4 ) ライセンス: Link先を確認 | Songyan Hou, Parnian Kassraie, Anastasis Kratsios, Andreas Krause, Jonas Rothfuss | (参考訳) 既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要素を説明できない。
このような境界はしばしば全てのパラメータに対して均一に保持されるため、過度なパラメータ化に悩まされ、初期化と確率勾配の強い帰納バイアスを考慮できない。
代替案として,一般化問題の最適輸送解釈を提案する。
これにより、データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出することができる。
したがって、我々の境界はモデルのパラメータ化に依存せず、トレーニングサンプルの数がパラメータの数よりもはるかに小さい場合にうまく機能します。
小さな修正を加えれば、低次元多様体のデータに対する加速率と分布シフトの保証が得られる。
ニューラルネットワークの一般化境界を実験的に解析し,境界値が有意義であることを示し,訓練中の一般的な正規化手法の効果を捉えた。 Existing generalization bounds fail to explain crucial factors that drive the generalization of modern neural networks. Since such bounds often hold uniformly over all parameters, they suffer from over-parametrization and fail to account for the strong inductive bias of initialization and stochastic gradient descent. As an alternative, we propose a novel optimal transport interpretation of the generalization problem. This allows us to derive instance-dependent generalization bounds that depend on the local Lipschitz regularity of the learned prediction function in the data space. Therefore, our bounds are agnostic to the parametrization of the model and work well when the number of training samples is much smaller than the number of parameters. With small modifications, our approach yields accelerated rates for data on low-dimensional manifolds and guarantees under distribution shifts. We empirically analyze our generalization bounds for neural networks, showing that the bound values are meaningful and capture the effect of popular regularization methods during training. | 翻訳日:2023-11-14 22:55:36 公開日:2023-11-13 |
# 重み付き二元クロスエントロピーのためのvan rijsbergen氏の$f_{\beta}$メトリックの再構成 Reformulating van Rijsbergen's $F_{\beta}$ metric for weighted binary cross-entropy ( http://arxiv.org/abs/2210.16458v3 ) ライセンス: Link先を確認 | Satesh Ramdhani | (参考訳) 勾配に基づく損失関数からパフォーマンス指標を分離することは、必ずしも最適な結果を与えるとは限らないし、重要な集約情報を見逃すこともある。
本報告では,学習結果の報知のために,異なる損失関数とともに性能指標を組み込むことを検討した。
目標は、動的重み付けのためのこのパフォーマンスメトリックの統計的分布を仮定することで、モデルのパフォーマンスと解釈を導くことである。
van Rijsbergens $F_{\beta}$ metric -- 分類パフォーマンスを計測する一般的な選択肢である。
f_{\beta}$ の分布的仮定により、動的ペナルティ重みによる標準二項クロスエントロピーへの中間リンクを確立することができる。
まず、$F_{\beta}$メトリックは累積密度関数の証明を伴う統計分布の仮定を容易にするために再構成される。
これらの確率は膝曲線アルゴリズム内で最適な$\beta$または$\beta_{opt}$を求めるために用いられる。
この$\beta_{opt}$ は、重み付き二項クロスエントロピーの重みまたはペナルティとして使われる。
公開データとベンチマーク分析の実験は、一般的に、不均衡クラスと均衡クラスの両方のベースラインと比較して、より良く解釈可能な結果をもたらす。
例えば、既知のラベル付けエラーのあるIMDBテキストデータでは、F_1$スコアが14%上昇している。
また,本論文で導出するペナルティモデルファミリーと,最適化に用いるリコール中心パラメータや精度中心パラメータとの共通性も明らかにした。
この方法論の柔軟性は解釈を高めることができる。 The separation of performance metrics from gradient based loss functions may not always give optimal results and may miss vital aggregate information. This paper investigates incorporating a performance metric alongside differentiable loss functions to inform training outcomes. The goal is to guide model performance and interpretation by assuming statistical distributions on this performance metric for dynamic weighting. The focus is on van Rijsbergens $F_{\beta}$ metric -- a popular choice for gauging classification performance. Through distributional assumptions on the $F_{\beta}$, an intermediary link can be established to the standard binary cross-entropy via dynamic penalty weights. First, the $F_{\beta}$ metric is reformulated to facilitate assuming statistical distributions with accompanying proofs for the cumulative density function. These probabilities are used within a knee curve algorithm to find an optimal $\beta$ or $\beta_{opt}$. This $\beta_{opt}$ is used as a weight or penalty in the proposed weighted binary cross-entropy. Experimentation on publicly available data along with benchmark analysis mostly yields better and interpretable results as compared to the baseline for both imbalanced and balanced classes. For example, for the IMDB text data with known labeling errors, a 14% boost in $F_1$ score is shown. The results also reveal commonalities between the penalty model families derived in this paper and the suitability of recall-centric or precision-centric parameters used in the optimization. The flexibility of this methodology can enhance interpretation. | 翻訳日:2023-11-14 22:55:21 公開日:2023-11-13 |
# 対角線形ネットワークにおけるインクリメンタル学習 Incremental Learning in Diagonal Linear Networks ( http://arxiv.org/abs/2208.14673v2 ) ライセンス: Link先を確認 | Rapha\"el Berthier | (参考訳) 対角線ネットワーク(Diagonal linear network,DLN)は、人工知能ニューラルネットワークのおもちゃの単純化であり、疎い暗黙の正規化を誘導する線形回帰の二次的再パラメータ化から構成される。
本稿では,dlnの微小初期化限界における勾配流れの軌跡について述べる。
逐次的学習は, 座標を逐次活性化するのに対して, 反復的学習は, 活性座標のみをサポートするよう制約された損失の最小化要因であることを示す。
このことは, DLNの希薄な正則化が時間とともに減少することを示している。
この作業は、技術的な理由から、反相関的な特徴を持つ非パラメトリライズド・レジームに限定されている。 Diagonal linear networks (DLNs) are a toy simplification of artificial neural networks; they consist in a quadratic reparametrization of linear regression inducing a sparse implicit regularization. In this paper, we describe the trajectory of the gradient flow of DLNs in the limit of small initialization. We show that incremental learning is effectively performed in the limit: coordinates are successively activated, while the iterate is the minimizer of the loss constrained to have support on the active coordinates only. This shows that the sparse implicit regularization of DLNs decreases with time. This work is restricted to the underparametrized regime with anti-correlated features for technical reasons. | 翻訳日:2023-11-14 22:53:05 公開日:2023-11-13 |
# トレース距離推定のための高速量子アルゴリズム Fast Quantum Algorithms for Trace Distance Estimation ( http://arxiv.org/abs/2301.06783v3 ) ライセンス: Link先を確認 | Qisheng Wang, Zhicheng Zhang | (参考訳) 量子情報において、トレース距離は量子状態の区別可能性の基本的な計量である。
しかし、一般にトレース距離の値を推定する効果的な方法は知られていない。
本稿では,混合量子状態のランク$r$間の加算誤差$\varepsilon$内のトレース距離を推定する効率的な量子アルゴリズムを提案する。
具体的には、まず量子状態の浄化を準備する量子回路に$r \cdot \widetilde o(1/\varepsilon^2)$クエリを用いた量子アルゴリズムを提供する。
次に、この量子アルゴリズムを、量子状態認証に適用可能な量子状態のサンプルの$\widetilde o(r^2/\varepsilon^5)$を用いて別のアルゴリズムを得るように修正する。
これらのアルゴリズムは、量子状態の次元$N$とは独立なクエリ/サンプルの複素数を持ち、それらの時間複雑性は余分な$O(\log (N))$因子しか生じない。
さらに、低ランクトレース距離推定の決定バージョンは$\mathsf{bqp}$-completeであることが示される。 In quantum information, trace distance is a basic metric of distinguishability between quantum states. However, there is no known efficient approach to estimate the value of trace distance in general. In this paper, we propose efficient quantum algorithms for estimating the trace distance within additive error $\varepsilon$ between mixed quantum states of rank $r$. Specifically, we first provide a quantum algorithm using $r \cdot \widetilde O(1/\varepsilon^2)$ queries to the quantum circuits that prepare the purifications of quantum states. Then, we modify this quantum algorithm to obtain another algorithm using $\widetilde O(r^2/\varepsilon^5)$ samples of quantum states, which can be applied to quantum state certification. These algorithms have query/sample complexities that are independent of the dimension $N$ of quantum states, and their time complexities only incur an extra $O(\log (N))$ factor. In addition, we show that the decision version of low-rank trace distance estimation is $\mathsf{BQP}$-complete. | 翻訳日:2023-11-14 22:44:32 公開日:2023-11-13 |
# aiの運命:アルゴリズムによる排他性とアクセシビリティを目指して FATE in AI: Towards Algorithmic Inclusivity and Accessibility ( http://arxiv.org/abs/2301.01590v2 ) ライセンス: Link先を確認 | Isa Inuwa-Dutse | (参考訳) 人工知能(ai)は現代技術の最前線にあり、その影響は社会の多くの領域で感じられている。
AIにおけるアルゴリズム上の格差、公平性、説明責任、透明性、倫理(FATE)が実装されている。
しかし、これらの問題についての現在の議論は、地域知識、文化多元主義、グローバルフェアネスを排除し、経済発展途上国(MEDC)が中心となっている。
本研究は,aiが不足している南半球の地域において,運命に関連したデシデラタ,特に透明性と倫理について検討することで,このギャップに対処することを目的としている。
この目的を達成するためにユーザ調査(n=43)と参加セッション(n=30)を実施した。
その結果、AIモデルはバイアスを符号化し、ステレオタイプを増幅できることがわかった。
独占性を促進するために、責任あるai設計のための代表データを収集し、キュレーションするためのコミュニティ主導の戦略が提案されている。
これにより、影響を受けるコミュニティや個人がAIシステムの利用の増加を監視できるようになる。
さらに、AIが社会的価値とコンテキスト固有のFATEニーズに準拠することを保証するために、公開入力に基づくレコメンデーションが提供される。 Artificial Intelligence (AI) is at the forefront of modern technology, and its effects are felt in many areas of society. To prevent algorithmic disparities, fairness, accountability, transparency, and ethics (FATE) in AI are being implemented. However, the current discourse on these issues is largely dominated by more economically developed countries (MEDC), leaving out local knowledge, cultural pluralism, and global fairness. This study aims to address this gap by examining FATE-related desiderata, particularly transparency and ethics, in areas of the global South that are underserved by AI. A user study (n=43) and a participatory session (n=30) were conducted to achieve this goal. The results showed that AI models can encode bias and amplify stereotypes. To promote inclusivity, a community-led strategy is proposed to collect and curate representative data for responsible AI design. This will enable the affected community or individuals to monitor the increasing use of AI-powered systems. Additionally, recommendations based on public input are provided to ensure that AI adheres to social values and context-specific FATE needs. | 翻訳日:2023-11-14 22:43:43 公開日:2023-11-13 |
# 高速ノイズ動作を用いた高速繰り返し猫符号 High-performance repetition cat code using fast noisy operations ( http://arxiv.org/abs/2212.11927v3 ) ライセンス: Link先を確認 | Francois-Marie Le R\'egent, Camille Berdou, Zaki Leghtas, J\'er\'emie Guillaud and Mazyar Mirrahimi | (参考訳) 2光子駆動の散逸によって安定化されるボソニックキャットキュービットは、ビットフリップエラーの指数関数的な抑制と、この保護を保った広いゲートの恩恵を受ける。
これらの特性により、ハードウェア効率が高くフォールトトレラントな量子プロセッサのビルディングブロックが期待できる。
本稿では,高速だがノイズの多いCNOTゲートを用いた繰り返しキャットコードアーキテクチャの性能最適化手法を提案する。
この最適化は、ボソニックモードの内在的な単光子損失率と2光子損失率との比として与えられる物理量に対する高い閾値をもたらし、また、必要オーバーヘッドのしきい値以下の非常に興味深いスケーリングにより、期待される論理誤差率に達する。
キャット量子ビット演算の特定の誤差モデルに基づき、この最適化は高速パリティ測定を利用して、高速化された低忠実度CNOTゲートと高速アンシラパリティチェックキュービットを組み合わせる。
キャットキュービットCNOTゲートが制御(アンシラ)キュービットの主要成分を持つ高度非対称誤差モデルである1-と、高速動作によって誘導されるリークの有無でエラー訂正性能の堅牢性を示す2-である。
これらの性能を示すために,猫のクビット状態のリークを考慮した回路レベルの雑音下での繰り返しコードのサンプリング法を開発した。 Bosonic cat qubits stabilized by two-photon driven dissipation benefit from exponential suppression of bit-flip errors and an extensive set of gates preserving this protection. These properties make them promising building blocks of a hardware-efficient and fault-tolerant quantum processor. In this paper, we propose a performance optimization of the repetition cat code architecture using fast but noisy CNOT gates for stabilizer measurements. This optimization leads to high thresholds for the physical figure of merit, given as the ratio between intrinsic single-photon loss rate of the bosonic mode and the engineered two-photon loss rate, as well as a very interesting scaling below threshold of the required overhead, to reach an expected level of logical error rate. Relying on the specific error models for cat qubit operations, this optimization exploits fast parity measurements, using accelerated low-fidelity CNOT gates, combined with fast ancilla parity-check qubits. The significant enhancement in the performance is explained by: 1- the highly asymmetric error model of cat qubit CNOT gates with a major component on control (ancilla) qubits, and 2- the robustness of the error correction performance in presence of the leakage induced by fast operations. In order to demonstrate these performances, we develop a method to sample the repetition code under circuit-level noise that also takes into account cat qubit state leakage. | 翻訳日:2023-11-14 22:43:14 公開日:2023-11-13 |
# 変分量子固有解法に対するランダム化コンパイルとゼロノイズ外挿による相乗的量子誤差緩和 Synergetic quantum error mitigation by randomized compiling and zero-noise extrapolation for the variational quantum eigensolver ( http://arxiv.org/abs/2212.11198v3 ) ライセンス: Link先を確認 | Tomochika Kurita, Hammam Qassim, Masatoshi Ishii, Hirotaka Oshima, Shintaro Sato, Joseph Emerson | (参考訳) 本稿では,変分量子固有解法(VQE)アルゴリズムの量子誤差軽減戦略を提案する。
数値シミュレーションにより,vqeのコヒーレントノイズは,従来の緩和法では抑制しにくいような大きな誤差を生じさせる可能性があるが,提案手法では,これらの誤差を著しく低減できることがわかった。
提案手法は従来報告されていたランダム化コンパイル(RC)とゼロノイズ外挿(ZNE)の組み合わせである。
直感的には、ランダム化コンパイルは、回路内のコヒーレントエラーを確率的ポーリ誤差に変換し、コスト関数を評価する際にゼロノイズ限界への外挿を容易にする。
小分子に対するvqeの数値シミュレーションにより,提案手法は,様々な種類のコヒーレントノイズによるエネルギー誤差を最大2桁緩和できることを示した。 We propose a quantum error mitigation strategy for the variational quantum eigensolver (VQE) algorithm. We find, via numerical simulation, that very small amounts of coherent noise in VQE can cause substantially large errors that are difficult to suppress by conventional mitigation methods, and yet our proposed mitigation strategy is able to significantly reduce these errors. The proposed strategy is a combination of previously reported techniques, namely randomized compiling (RC) and zero-noise extrapolation (ZNE). Intuitively, randomized compiling turns coherent errors in the circuit into stochastic Pauli errors, which facilitates extrapolation to the zero-noise limit when evaluating the cost function. Our numerical simulation of VQE for small molecules shows that the proposed strategy can mitigate energy errors induced by various types of coherent noise by up to two orders of magnitude. | 翻訳日:2023-11-14 22:42:48 公開日:2023-11-13 |
# 安全性評価の批判的視点のための潜在グラフ表現 Latent Graph Representations for Critical View of Safety Assessment ( http://arxiv.org/abs/2212.04155v3 ) ライセンス: Link先を確認 | Aditya Murali, Deepak Alapatt, Pietro Mascagni, Armine Vardazaryan, Alain Garcia, Nariaki Okamoto, Didier Mutter, Nicolas Padoy | (参考訳) 腹腔鏡下胆嚢摘出術における安全性の批判的視点を評価するには, 重要な解剖学的構造を正確に同定し, 互いの幾何学的関係を推論し, 露出の質を決定する必要がある。
従来の作業では、セグメンテーションを中間ステップとして含み、予測セグメンテーションマスクを使用してCVSを予測することで、このタスクにアプローチしていた。
これらの手法は有効であるが、非常に高価な接地構文のセグメンテーションアノテーションに依存しており、予測されたセグメンテーションが間違っており、一般化が制限される。
そこで本研究では,まず,ゆがんだ潜在シーングラフを用いて手術画像を表現し,その表現をグラフニューラルネットワークを用いて処理するCVS予測手法を提案する。
私たちのグラフ表現は、意味情報(オブジェクトの位置、クラス情報、幾何学的関係)を明示的にエンコードし、解剖学による推論を改善します。
最後に、アノテーションコストに対処するため、細粒度オブジェクト境界を学習するために補助的な画像再構成目的を組み込んだボックスアノテーションのみを用いて、本手法を訓練することを提案する。
提案手法は,バウンディングボックスアノテーションでトレーニングした場合のベースラインメソッドよりも優れるだけでなく,セグメンテーションマスクでトレーニングした場合にも効果的にスケールできることを示す。 Assessing the critical view of safety in laparoscopic cholecystectomy requires accurate identification and localization of key anatomical structures, reasoning about their geometric relationships to one another, and determining the quality of their exposure. Prior works have approached this task by including semantic segmentation as an intermediate step, using predicted segmentation masks to then predict the CVS. While these methods are effective, they rely on extremely expensive ground-truth segmentation annotations and tend to fail when the predicted segmentation is incorrect, limiting generalization. In this work, we propose a method for CVS prediction wherein we first represent a surgical image using a disentangled latent scene graph, then process this representation using a graph neural network. Our graph representations explicitly encode semantic information - object location, class information, geometric relations - to improve anatomy-driven reasoning, as well as visual features to retain differentiability and thereby provide robustness to semantic errors. Finally, to address annotation cost, we propose to train our method using only bounding box annotations, incorporating an auxiliary image reconstruction objective to learn fine-grained object boundaries. We show that our method not only outperforms several baseline methods when trained with bounding box annotations, but also scales effectively when trained with segmentation masks, maintaining state-of-the-art performance. | 翻訳日:2023-11-14 22:40:38 公開日:2023-11-13 |
# 多目的強化学習における福祉と公正 Welfare and Fairness in Multi-objective Reinforcement Learning ( http://arxiv.org/abs/2212.01382v5 ) ライセンス: Link先を確認 | Zimeng Fan, Nianli Peng, Muhang Tian, and Brandon Fain | (参考訳) エージェントがベクトル値の報酬の多次元における高い報酬を同時に達成するポリシーを学習しなければならない、公平な多目的強化学習について検討する。
公平な資源配分の文献に動機づけられ, 長期累積報酬ベクトルの非線形公正福祉関数に対して, 期待される福祉最大化問題としてモデル化した。
そのような機能の典型例の1つはナッシュ社会福祉(英語版)(幾何学的平均)であり、その対数変換は比例フェアネス目的(英語版)(Proportional Fairness objective)とも呼ばれる。
その結果,ナッシュ社会福祉の最適最適化は,表例においても計算上難解であることがわかった。
それにもかかわらず、非線形スカラー化学習更新と非定常行動選択を組み合わせて非線形福祉機能を最適化するための効果的なポリシーを学習するQ-ラーニングの新しい適応を提供する。
提案手法は, 線形スカラー化, 最適線形スカラー化の混合, ナッシュ社会福祉目的のための定常的行動選択に基づく手法よりも優れていることを示す。 We study fair multi-objective reinforcement learning in which an agent must learn a policy that simultaneously achieves high reward on multiple dimensions of a vector-valued reward. Motivated by the fair resource allocation literature, we model this as an expected welfare maximization problem, for some nonlinear fair welfare function of the vector of long-term cumulative rewards. One canonical example of such a function is the Nash Social Welfare, or geometric mean, the log transform of which is also known as the Proportional Fairness objective. We show that even approximately optimal optimization of the expected Nash Social Welfare is computationally intractable even in the tabular case. Nevertheless, we provide a novel adaptation of Q-learning that combines nonlinear scalarized learning updates and non-stationary action selection to learn effective policies for optimizing nonlinear welfare functions. We show that our algorithm is provably convergent, and we demonstrate experimentally that our approach outperforms techniques based on linear scalarization, mixtures of optimal linear scalarizations, or stationary action selection for the Nash Social Welfare Objective. | 翻訳日:2023-11-14 22:40:11 公開日:2023-11-13 |
# 単極データからの高速非剛性放射場 Fast Non-Rigid Radiance Fields from Monocularized Data ( http://arxiv.org/abs/2212.01368v2 ) ライセンス: Link先を確認 | Moritz Kappel, Vladislav Golyanik, Susana Castillo, Christian Theobalt, Marcus Magnor | (参考訳) 動的シーンの再構築と新しいビュー合成が近年注目を集めている。
大規模マルチビューデータからの再構成には、膨大なメモリと計算要件が伴うため、最近のベンチマークデータセットは、複数の(仮想)カメラからサンプリングされたタイムスタンプ毎の単一の単眼ビューのコレクションを提供する。
この入力形式を、"単眼化"データと呼ぶ。
既存の研究は、合成セットアップと前方向きの現実世界のデータに対して印象的な結果を示しているが、しばしば新しいビューを生成するためのトレーニング速度と角度範囲に制限されている。
本稿では,これらの制約に対処し,不規則に変形するシーンを内向きに合成する新しい手法を提案する。
私たちのメソッドのコアは次のとおりです。
1) 学習・推論の促進のために空間的・時間的情報の処理を分離する効率的な変形モジュール
2) 高速ハッシュ符号化ニューラルラディアンス場としての正準シーンを表す静的モジュール。
既存の合成単色化データに加えて,大規模なマルチビューリグからサンプリングした新たな挑戦的データセットを用いて,実世界の内向きシーンのパフォーマンスを体系的に解析する。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
私たちのソースコードとデータは、プロジェクトページhttps://graphics.tu-bs.de/publications/kappel2022fastで閲覧できます。 The reconstruction and novel view synthesis of dynamic scenes recently gained increased attention. As reconstruction from large-scale multi-view data involves immense memory and computational requirements, recent benchmark datasets provide collections of single monocular views per timestamp sampled from multiple (virtual) cameras. We refer to this form of inputs as "monocularized" data. Existing work shows impressive results for synthetic setups and forward-facing real-world data, but is often limited in the training speed and angular range for generating novel views. This paper addresses these limitations and proposes a new method for full 360{\deg} inward-facing novel view synthesis of non-rigidly deforming scenes. At the core of our method are: 1) An efficient deformation module that decouples the processing of spatial and temporal information for accelerated training and inference; and 2) A static module representing the canonical scene as a fast hash-encoded neural radiance field. In addition to existing synthetic monocularized data, we systematically analyze the performance on real-world inward-facing scenes using a newly recorded challenging dataset sampled from a synchronized large-scale multi-view rig. In both cases, our method is significantly faster than previous methods, converging in less than 7 minutes and achieving real-time framerates at 1K resolution, while obtaining a higher visual accuracy for generated novel views. Our source code and data is available at our project page https://graphics.tu-bs.de/publications/kappel2022fast. | 翻訳日:2023-11-14 22:39:52 公開日:2023-11-13 |
# グレーエリアをナビゲートする:不確かさと過信表現が言語モデルに与える影響 Navigating the Grey Area: How Expressions of Uncertainty and Overconfidence Affect Language Models ( http://arxiv.org/abs/2302.13439v2 ) ライセンス: Link先を確認 | Kaitlyn Zhou, Dan Jurafsky, Tatsunori Hashimoto | (参考訳) 知識と事実を含む実世界のタスクに対するlmsの配置が増加すると、モデル認識論を理解することが重要になる。
ここでは, モデル認識学の側面について考察する: 確実性, 不確実性, あるいは「確か」, 「そう思う」, 「ウィキペディアがそう言っている」 がモデルにどのように影響するか, モデル失敗に寄与するか。
我々は認識マーカーの類型を発達させ,質問応答のためのプロンプトに50個のマーカーを注入する。
lmsはプロンプトの認識マーカーに対して高感度であり,アキュラシーは80%以上である。
意外なことに、高い確かさの表現は、低確かさの表現に比べて7%の精度が低下し、事実動詞はパフォーマンスを損なう一方、明らかな表現はパフォーマンスを損なう。
一般的な事前学習データセットの分析から,不確実性の指標は質問応答に関連し,確実性の指標は質問に関連していることが示された。
これらの関連性は、LMの挙動が、真にてんかんの不確実性を反映するのではなく、観察された言語の使用を模倣することに基づいていることを示唆している。 The increased deployment of LMs for real-world tasks involving knowledge and facts makes it important to understand model epistemology: what LMs think they know, and how their attitudes toward that knowledge are affected by language use in their inputs. Here, we study an aspect of model epistemology: how epistemic markers of certainty, uncertainty, or evidentiality like "I'm sure it's", "I think it's", or "Wikipedia says it's" affect models, and whether they contribute to model failures. We develop a typology of epistemic markers and inject 50 markers into prompts for question answering. We find that LMs are highly sensitive to epistemic markers in prompts, with accuracies varying more than 80%. Surprisingly, we find that expressions of high certainty result in a 7% decrease in accuracy as compared to low certainty expressions; similarly, factive verbs hurt performance, while evidentials benefit performance. Our analysis of a popular pretraining dataset shows that these markers of uncertainty are associated with answers on question-answering websites, while markers of certainty are associated with questions. These associations may suggest that the behavior of LMs is based on mimicking observed language use, rather than truly reflecting epistemic uncertainty. | 翻訳日:2023-11-14 22:31:52 公開日:2023-11-13 |
# 変調ニューラルネットワーク Modulated Neural ODEs ( http://arxiv.org/abs/2302.13262v3 ) ライセンス: Link先を確認 | Ilze Amanda Auzina, \c{C}a\u{g}atay Y{\i}ld{\i}z, Sara Magliacane, Matthias Bethge and Efstratios Gavves | (参考訳) 神経常微分方程式(ノード)は任意の軌道の非線形ダイナミクスを学ぶのに有用であることが証明されている。
しかし、現在のNODEメソッドは、初期状態値または自動回帰エンコーダ更新によってのみ、トラジェクトリ間のバリエーションをキャプチャする。
本研究では,動的状態と変動の基本的な静的要因を分離し,既存のNODE法を改善する新しいフレームワークであるModulated Neural ODEs(MoNODEs)を紹介する。
特に、データから学習した$\textit{time-invariant modulator variables}$を紹介します。
提案するフレームワークを4つの既存のNODEに組み込む。
振動系,ビデオおよび人間の歩行軌跡でMoNODEを試験し,各軌跡は軌道特異的な変調を有することを示した。
我々のフレームワークは、新しい動的パラメータ化に一般化し、極水平予測を行う既存のモデル能力を一貫して改善する。
さらに,提案する変調器変数が,$r^2$スコアで測定した真の未知の変動要因について有意であることを確認した。 Neural ordinary differential equations (NODEs) have been proven useful for learning non-linear dynamics of arbitrary trajectories. However, current NODE methods capture variations across trajectories only via the initial state value or by auto-regressive encoder updates. In this work, we introduce Modulated Neural ODEs (MoNODEs), a novel framework that sets apart dynamics states from underlying static factors of variation and improves the existing NODE methods. In particular, we introduce $\textit{time-invariant modulator variables}$ that are learned from the data. We incorporate our proposed framework into four existing NODE variants. We test MoNODE on oscillating systems, videos and human walking trajectories, where each trajectory has trajectory-specific modulation. Our framework consistently improves the existing model ability to generalize to new dynamic parameterizations and to perform far-horizon forecasting. In addition, we verify that the proposed modulator variables are informative of the true unknown factors of variation as measured by $R^2$ scores. | 翻訳日:2023-11-14 22:31:27 公開日:2023-11-13 |
# 混合半教師付き一般線形回帰と深層学習・補間への応用 Mixed Semi-Supervised Generalized-Linear-Regression with applications to Deep-Learning and Interpolators ( http://arxiv.org/abs/2302.09526v2 ) ライセンス: Link先を確認 | Oren Yuval, Saharon Rosset | (参考訳) 回帰タスクにおける教師あり学習の予測性能を向上させる半教師あり学習法(SSL)を設計するためにラベルなしデータを使用する手法を提案する。
主な考え方は、ラベルなしデータを統合するための異なるメカニズムを設計し、ラベルなしデータに与えられる重みを制御する混合パラメータ$\alpha$を含めることである。
一般化線形モデル (glm) と線形補間クラスに着目し, 異なる混合機構の特性を解析し, いずれの場合においても, 非ラベルデータと非ゼロ混合比 $\alpha>0$ を統合することは, 予測性能の観点から常に有益であることを示す。
さらに,ラベル付きおよびラベル付きデータを手元に使用しながら,混合sslが最高の予測性能を提供する場合の最適混合比$\alpha^*$を推定するための厳密なフレームワークを提供する。
提案手法の有効性は,理論解析を支援する方法として,多種多様な設定において,標準的な教師付きモデルと比較して大幅に改善されている。
また,実世界の回帰タスクにおいて,より複雑なモデル(ディープニューラルネットワークなど)を改善するための手法(いくつかの直感的な修正とともに)の適用性も実証した。 We present a methodology for using unlabeled data to design semi supervised learning (SSL) methods that improve the prediction performance of supervised learning for regression tasks. The main idea is to design different mechanisms for integrating the unlabeled data, and include in each of them a mixing parameter $\alpha$, controlling the weight given to the unlabeled data. Focusing on Generalized Linear Models (GLM) and linear interpolators classes of models, we analyze the characteristics of different mixing mechanisms, and prove that in all cases, it is invariably beneficial to integrate the unlabeled data with some nonzero mixing ratio $\alpha>0$, in terms of predictive performance. Moreover, we provide a rigorous framework to estimate the best mixing ratio $\alpha^*$ where mixed SSL delivers the best predictive performance, while using the labeled and unlabeled data on hand. The effectiveness of our methodology in delivering substantial improvement compared to the standard supervised models, in a variety of settings, is demonstrated empirically through extensive simulation, in a manner that supports the theoretical analysis. We also demonstrate the applicability of our methodology (with some intuitive modifications) to improve more complex models, such as deep neural networks, in real-world regression tasks. | 翻訳日:2023-11-14 22:30:35 公開日:2023-11-13 |
# InstructABSA:Aspect Based Sentiment Analysisのための指導学習 InstructABSA: Instruction Learning for Aspect Based Sentiment Analysis ( http://arxiv.org/abs/2302.08624v6 ) ライセンス: Link先を確認 | Kevin Scaria and Himanshu Gupta and Siddharth Goyal and Saurabh Arjun Sawant and Swaroop Mishra and Chitta Baral | (参考訳) InstructABSAは,Aspect-Based Sentiment Analysis(ABSA)サブタスクのための指導学習パラダイムである。
提案手法は,各トレーニングサンプルに対して正,負,中立の例を導入し,ABSAサブタスクのモデル(Tk-インストラクト)を指導し,大幅な性能向上をもたらす。
Sem Eval 2014 15 16データセットの実験結果から、InstructABSAは、ターム抽出(ATE)、センティメント分類(ATSC)、センティメントペア抽出(ASPE)サブタスクにおいて、以前の最先端(SOTA)アプローチよりも優れていることが示された。
特に、InstructABSAは、Rest14 ATEサブタスクの以前の最先端(SOTA)を5.69%、Rest15 ATSCサブタスクを9.59%、Lapt14 AOPEサブタスクを3.37%、より大きなモデルを7倍に上回っている。
また,AOOE,AOPE,AOSTEのサブタスクに対して,全てのサブタスクに対して強力な一般化能力を示す競争結果を得た。
サンプル効率を調べることで、他の命令チューニングアプローチと競合する結果を得るためには、わずか50%のトレーニングデータが必要であることが分かる。
最後に、指示の質を評価し、instructabsaのパフォーマンスが誤解を招く例を追加すると10%程度低下するのを観察します。 We introduce InstructABSA, an instruction learning paradigm for Aspect-Based Sentiment Analysis (ABSA) subtasks. Our method introduces positive, negative, and neutral examples to each training sample, and instruction tune the model (Tk-Instruct) for ABSA subtasks, yielding significant performance improvements. Experimental results on the Sem Eval 2014, 15, and 16 datasets demonstrate that InstructABSA outperforms the previous state-of-the-art (SOTA) approaches on Term Extraction (ATE), Sentiment Classification(ATSC) and Sentiment Pair Extraction (ASPE) subtasks. In particular, InstructABSA outperforms the previous state-of-the-art (SOTA) on the Rest14 ATE subtask by 5.69% points, the Rest15 ATSC subtask by 9.59% points, and the Lapt14 AOPE subtask by 3.37% points, surpassing 7x larger models. We also get competitive results on AOOE, AOPE, and AOSTE subtasks indicating strong generalization ability to all subtasks. Exploring sample efficiency reveals that just 50% train data is required to get competitive results with other instruction tuning approaches. Lastly, we assess the quality of instructions and observe that InstructABSA's performance experiences a decline of ~10% when adding misleading examples. | 翻訳日:2023-11-14 22:30:12 公開日:2023-11-13 |
# 実現可能性と部分被覆下におけるオフラインミニマックスソフトQ学習 Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage ( http://arxiv.org/abs/2302.02392v2 ) ライセンス: Link先を確認 | Masatoshi Uehara, Nathan Kallus, Jason D. Lee, Wen Sun | (参考訳) オフライン強化学習(RL)では、適切なポリシーを選択するのに十分なデータが十分であることを前提に、いくつかのカバレッジ、実現可能性、ベルマン完全性、および/またはハードマージン(ギャップ)を仮定して、調査する機会がない。
本研究では, 単一コンパレータポリシのみのカバレッジと, 単一ポリシのソフト(エントロピー規則化)Q-関数の実現可能性と, 特定のミニマックス最適化問題のサドル点として定義された関連関数について, PAC保証付きオフラインRLの値ベースアルゴリズムを提案する。
これにより、オフラインrlのより洗練されたlax条件が提供される。
さらに,ソフトマージン条件下でのバニラQ関数の類似結果を示す。
これらの保証を達成するために,新しいミニマックス学習アルゴリズムを用いて,l^2$-convergence 保証によりソフトq関数やバニラq関数を正確に推定する。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。 In offline reinforcement learning (RL) we have no opportunity to explore so we must make assumptions that the data is sufficient to guide picking a good policy, taking the form of assuming some coverage, realizability, Bellman completeness, and/or hard margin (gap). In this work we propose value-based algorithms for offline RL with PAC guarantees under just partial coverage, specifically, coverage of just a single comparator policy, and realizability of soft (entropy-regularized) Q-function of the single policy and a related function defined as a saddle point of certain minimax optimization problem. This offers refined and generally more lax conditions for offline RL. We further show an analogous result for vanilla Q-functions under a soft margin condition. To attain these guarantees, we leverage novel minimax learning algorithms to accurately estimate soft or vanilla Q-functions with $L^2$-convergence guarantees. Our algorithms' loss functions arise from casting the estimation problems as nonlinear convex optimization problems and Lagrangifying. | 翻訳日:2023-11-14 22:29:43 公開日:2023-11-13 |
# 組織的暗黒焦点における微粒子のトラップ Trapping microparticles in a structured dark focus ( http://arxiv.org/abs/2302.01953v2 ) ライセンス: Link先を確認 | F. Almeida, I. Sousa, O. Kremer, B. Pinheiro da Silva, D. S. Tasca, A. Z. Khoury, G. Tempor\~ao, and T. Guerreiro | (参考訳) 我々は,あらゆる方向の光で囲まれた暗焦点(いわゆる暗焦点トウィーザー)からなる構造光ビームにおいて,シリカマイクロスフィアの安定トラップと制御操作を実験的に実証した。
パワースペクトルとポテンシャル解析の結果は、ローレンツ・ミー数値シミュレーションに則って実験データから再構成されたトラップポテンシャルランドスペースの非調和性を示す。
浮遊光学および生体物理学におけるダークツイーザーの適用について論じる。 We experimentally demonstrate stable trapping and controlled manipulation of silica microspheres in a structured optical beam consisting of a dark focus surrounded by light in all directions - the so-called Dark Focus Tweezer. Results from power spectrum and potential analysis demonstrate the non-harmonicity of the trapping potential landspace, which is reconstructed from experimental data in agreement to Lorentz-Mie numerical simulations. Applications of the dark tweezer in levitated optomechanics and biophysics are discussed. | 翻訳日:2023-11-14 22:29:00 公開日:2023-11-13 |
# 心拍変動と呼吸速度を用いたドライバーストレス検出のための特徴選択法 A Feature Selection Method for Driver Stress Detection Using Heart Rate Variability and Breathing Rate ( http://arxiv.org/abs/2302.01602v2 ) ライセンス: Link先を確認 | Ashkan Parsi, David O'Callaghan, Joseph Lemley | (参考訳) ドライバーのストレスは、自動車事故や死亡の主な原因である。
さらに、持続的ストレスは健康上の問題であり、高血圧やその他の心血管系の疾患に寄与する。
ストレスは心拍数や呼吸速度に測定可能な影響を与え、ストレスレベルはそのような測定値から推測できる。
ガルバニック皮膚反応は、生理的および心理的ストレスおよび極端な感情によって引き起こされる呼吸を測定するための一般的なテストである。
本稿では, 真理応力レベルを推定するために, ガルバニック皮膚反応を用いる。
次に、最小冗長-最大相関法に基づく特徴選択法を、複数の心拍変動および呼吸速度指標に適用し、ストレス検出に使用する新規かつ最適な組み合わせを同定する。
これらの特徴とともに、ラジアル基底関数カーネルを用いたサポートベクターマシンアルゴリズムを用いて、ストレスを確実に予測した。
提案手法は,ターゲットデータセットにおいて高い精度を達成している。 Driver stress is a major cause of car accidents and death worldwide. Furthermore, persistent stress is a health problem, contributing to hypertension and other diseases of the cardiovascular system. Stress has a measurable impact on heart and breathing rates and stress levels can be inferred from such measurements. Galvanic skin response is a common test to measure the perspiration caused by both physiological and psychological stress, as well as extreme emotions. In this paper, galvanic skin response is used to estimate the ground truth stress levels. A feature selection technique based on the minimal redundancy-maximal relevance method is then applied to multiple heart rate variability and breathing rate metrics to identify a novel and optimal combination for use in detecting stress. The support vector machine algorithm with a radial basis function kernel was used along with these features to reliably predict stress. The proposed method has achieved a high level of accuracy on the target dataset. | 翻訳日:2023-11-14 22:28:53 公開日:2023-11-13 |
# シンボリック音楽のためのバイトペア符号化 Byte Pair Encoding for Symbolic Music ( http://arxiv.org/abs/2301.11975v3 ) ライセンス: Link先を確認 | Nathan Fradet, Nicolas Gutowski, Fabien Chhel, Jean-Pierre Briot | (参考訳) ディープラーニングで使用する場合、シンボリック・ミュージック・モダリティはしばしば言語モデルアーキテクチャと結合される。
そのためには、音楽はトークン化され、すなわち離散トークンの列に変換される必要がある。
これは、音楽が複数の属性を持つ同時音符の同時トラックで構成されているため、異なるアプローチで達成できる。
これまで、提案されたトークン化は、ノート属性と時間イベントを記述するトークンの小さな語彙に依存しており、かなり長いトークンシーケンスと、言語モデルの埋め込み空間の準最適利用をもたらす。
近年の研究では、埋め込みとトークンを組み合わせることで、全体のシーケンス長を削減する取り組みが行われている。
本稿では,自然言語に広く用いられている圧縮手法であるByte Pair Encodingが,語彙サイズを増大させながらシーケンス長を著しく減少させることを示す。
これにより、より表現力のあるトークンでそのようなモデルの埋め込み能力を活用でき、その結果、生成および分類タスクにおけるより良い結果とより高速な推論の両方が得られる。
ソースコードは、コンパニオンwebサイトとともにgithubで共有されている。
最後に、BPEはMidiTokに直接実装されており、読み手はこの方法の恩恵を受けやすい。 When used with deep learning, the symbolic music modality is often coupled with language model architectures. To do so, the music needs to be tokenized, i.e. converted into a sequence of discrete tokens. This can be achieved by different approaches, as music can be composed of simultaneous tracks, of simultaneous notes with several attributes. Until now, the proposed tokenizations rely on small vocabularies of tokens describing the note attributes and time events, resulting in fairly long token sequences, and a sub-optimal use of the embedding space of language models. Recent research has put efforts on reducing the overall sequence length by merging embeddings or combining tokens. In this paper, we show that Byte Pair Encoding, a compression technique widely used for natural language, significantly decreases the sequence length while increasing the vocabulary size. By doing so, we leverage the embedding capabilities of such models with more expressive tokens, resulting in both better results and faster inference in generation and classification tasks. The source code is shared on Github, along with a companion website. Finally, BPE is directly implemented in MidiTok, allowing the reader to easily benefit from this method. | 翻訳日:2023-11-14 22:28:03 公開日:2023-11-13 |
# 変圧器エンコーダの表現性に関するタイタ境界 Tighter Bounds on the Expressivity of Transformer Encoders ( http://arxiv.org/abs/2301.10743v3 ) ライセンス: Link先を確認 | David Chiang and Peter Cholak and Anand Pillay | (参考訳) より理解された形式システムの観点からニューラルネットワークを特徴付けることは、これらのネットワークのパワーと制限に対する新たな洞察をもたらす可能性がある。
変圧器の研究は現在も活発に行われている。
bhattamishraらはトランスフォーマーエンコーダがある種のカウンターマシンと同じくらい表現力があることを示したが、merrill と sabharwal は固定精度トランスフォーマーエンコーダは一様$tc^0$の言語のみを認識することを示した。
我々は,固定精度トランスコーダの上限とトランスコーダの下位境界を同時に計数する量化器を用いて,一階述語論理の変種を同定し,これらの結果の接続と強化を行う。
これにより、トランスフォーマーエンコーダが認識する言語の正確なキャラクタリゼーションに、これまでよりもずっと近いものになります。 Characterizing neural networks in terms of better-understood formal systems has the potential to yield new insights into the power and limitations of these networks. Doing so for transformers remains an active area of research. Bhattamishra and others have shown that transformer encoders are at least as expressive as a certain kind of counter machine, while Merrill and Sabharwal have shown that fixed-precision transformer encoders recognize only languages in uniform $TC^0$. We connect and strengthen these results by identifying a variant of first-order logic with counting quantifiers that is simultaneously an upper bound for fixed-precision transformer encoders and a lower bound for transformer encoders. This brings us much closer than before to an exact characterization of the languages that transformer encoders recognize. | 翻訳日:2023-11-14 22:27:38 公開日:2023-11-13 |
# LLMを利用した自動データ探索システムInsightPilotの実証 Demonstration of InsightPilot: An LLM-Empowered Automated Data Exploration System ( http://arxiv.org/abs/2304.00477v2 ) ライセンス: Link先を確認 | Pingchuan Ma, Rui Ding, Shuai Wang, Shi Han, Dongmei Zhang | (参考訳) データの理解と解釈をより効果的にするために、データの探索はデータ分析において不可欠です。
しかし、効果的なデータ探索を行うには、データセットの深い知識とデータ分析技術に関する専門知識が必要である。
どちらも慣れていないと、プロセスに時間がかかり、データアナリストにとって圧倒的な障害が生じる。
この問題に対処するため,我々は,データ探索プロセスの簡略化を目的としたllm(large language model)ベースの自動データ探索システムであるinsightpilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
そして、これらの分析意図を対応する意図的クエリ(IQueries)を発行して、有意義で一貫性のある探索シーケンスを生成する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣し、ユーザの探索プロセスを単純化します。
LLMを使用して、IQueriesを介して最先端のインサイトエンジンと反復的にコラボレーションすることで、InsightPilotは現実世界のデータセットの分析に有効であり、ユーザは自然言語の問い合わせを通じて貴重なインサイトを得ることができる。
insightpilotの有効性をケーススタディで示し、ユーザがデータセットから貴重な洞察を得るのにどのように役立つかを示します。 Exploring data is crucial in data analysis, as it helps users understand and interpret the data more effectively. However, performing effective data exploration requires in-depth knowledge of the dataset and expertise in data analysis techniques. Not being familiar with either can create obstacles that make the process time-consuming and overwhelming for data analysts. To address this issue, we introduce InsightPilot, an LLM (Large Language Model)-based, automated data exploration system designed to simplify the data exploration process. InsightPilot automatically selects appropriate analysis intents, such as understanding, summarizing, and explaining. Then, these analysis intents are concretized by issuing corresponding intentional queries (IQueries) to create a meaningful and coherent exploration sequence. In brief, an IQuery is an abstraction and automation of data analysis operations, which mimics the approach of data analysts and simplifies the exploration process for users. By employing an LLM to iteratively collaborate with a state-of-the-art insight engine via IQueries, InsightPilot is effective in analyzing real-world datasets, enabling users to gain valuable insights through natural language inquiries. We demonstrate the effectiveness of InsightPilot in a case study, showing how it can help users gain valuable insights from their datasets. | 翻訳日:2023-11-14 22:20:50 公開日:2023-11-13 |
# より大きなプローブが異なるストーリーを語る:文脈内学習による心理的データセットの拡張 Larger Probes Tell a Different Story: Extending Psycholinguistic Datasets Via In-Context Learning ( http://arxiv.org/abs/2303.16445v2 ) ライセンス: Link先を確認 | Namrata Shivagunde, Vladislav Lialin, and Anna Rumshisky | (参考訳) 言語モデル探索は、しばしばモデルの特定の機能をテストするために使用される。
しかし、そのような研究の結論は、調査ベンチマークが小さく統計力が欠如している場合に限定される可能性がある。
本稿では,ネゲーション(neg-1500-simp)と役割反転(role-1500)の新たな大規模データセットを提案する。
GPT3 を用いて既存の NEG-136 と ROLE-88 ベンチマークを劇的に拡張し,それぞれ 18 と 44 の文対から 750 にサイズを拡大した。
また、テンプレートベースの生成を用いて作成した拡張否定データセット(NEG-1500-SIMP-TEMP)の別のバージョンも作成する。
770対の文からなる。
拡張したデータセット上で22モデルを評価し,モデル性能が20~57%低下した。
BERT や ALBERT のようなモデルでは,より小さなテストセットにより,以前の結果が歪んだ可能性があることを示すため,高いレベルの否定感度が観察された。
最後に、GPT3はROLE-1500の全ての例を生成しているが、探索中に24.6%しか解けない。
データセットとコードは$\href{https://github.com/text-machine-lab/extending_psycholinguistic_dataset}{Github}$で入手できる。 Language model probing is often used to test specific capabilities of models. However, conclusions from such studies may be limited when the probing benchmarks are small and lack statistical power. In this work, we introduce new, larger datasets for negation (NEG-1500-SIMP) and role reversal (ROLE-1500) inspired by psycholinguistic studies. We dramatically extend existing NEG-136 and ROLE-88 benchmarks using GPT3, increasing their size from 18 and 44 sentence pairs to 750 each. We also create another version of extended negation dataset (NEG-1500-SIMP-TEMP), created using template-based generation. It consists of 770 sentence pairs. We evaluate 22 models on the extended datasets, seeing model performance dip 20-57% compared to the original smaller benchmarks. We observe high levels of negation sensitivity in models like BERT and ALBERT demonstrating that previous findings might have been skewed due to smaller test sets. Finally, we observe that while GPT3 has generated all the examples in ROLE-1500 is only able to solve 24.6% of them during probing. The datasets and code are available on $\href{https://github.com/text-machine-lab/extending_psycholinguistic_dataset}{Github}$. | 翻訳日:2023-11-14 22:20:02 公開日:2023-11-13 |
# 幅広から深部まで:パラメータ効率の知識グラフ埋め込みのための次元リフティングネットワーク From Wide to Deep: Dimension Lifting Network for Parameter-efficient Knowledge Graph Embedding ( http://arxiv.org/abs/2303.12816v3 ) ライセンス: Link先を確認 | Borui Cai, Yong Xiang, Longxiang Gao, Di Wu, He Zhang, Jiong Jin, Tom Luan | (参考訳) エンティティと関係をベクトル表現にマッピングする知識グラフ埋め込み(KGE)は下流アプリケーションに不可欠である。
従来のKGE法は知識グラフの複雑な構造を学ぶために高次元表現を必要とするが、大きすぎるモデルパラメータをもたらす。
近年の進歩は、低次元の実体表現によってパラメータを減らす一方で、縮小次元を補う技術(例えば、知識蒸留や再発明された表現形式)を開発している。
しかし、そのような演算は複雑な計算やモデル設計を導入しており、大きな知識グラフには役立たない。
従来のKGEモデルのパラメータ効率を改善するための簡単な戦略を探るため、より深いニューラルネットワークは、構成構造のためのより広いネットワークに匹敵する表現性を達成するために指数的に少ないパラメータを必要とする。
我々は、すべての実体表現を単層埋め込みネットワークとみなし、高次元の実体表現を採用する従来のKGE法は、埋め込みネットワークを等しく拡張して表現性を得る。
パラメータ効率を達成するために、我々はエンティティ表現のためのより深い埋め込みネットワーク、すなわち、狭いエンティティ埋め込み層と多層次元リフトネットワーク(LiftNet)を提案する。
3つの公開データセットの実験により、従来の4つのKGEメソッドと16次元表現を統合することで、512次元表現を採用したオリジナルのモデルと同等のリンク予測精度を実現し、68.4%から96.9%のパラメータを節約した。 Knowledge graph embedding (KGE) that maps entities and relations into vector representations is essential for downstream applications. Conventional KGE methods require high-dimensional representations to learn the complex structure of knowledge graph, but lead to oversized model parameters. Recent advances reduce parameters by low-dimensional entity representations, while developing techniques (e.g., knowledge distillation or reinvented representation forms) to compensate for reduced dimension. However, such operations introduce complicated computations and model designs that may not benefit large knowledge graphs. To seek a simple strategy to improve the parameter efficiency of conventional KGE models, we take inspiration from that deeper neural networks require exponentially fewer parameters to achieve expressiveness comparable to wider networks for compositional structures. We view all entity representations as a single-layer embedding network, and conventional KGE methods that adopt high-dimensional entity representations equal widening the embedding network to gain expressiveness. To achieve parameter efficiency, we instead propose a deeper embedding network for entity representations, i.e., a narrow entity embedding layer plus a multi-layer dimension lifting network (LiftNet). Experiments on three public datasets show that by integrating LiftNet, four conventional KGE methods with 16-dimensional representations achieve comparable link prediction accuracy as original models that adopt 512-dimensional representations, saving 68.4% to 96.9% parameters. | 翻訳日:2023-11-14 22:19:16 公開日:2023-11-13 |
# プロポフォール輸液制御のためのポリシー制約q学習を用いたパーソナライズ麻酔の実世界応用に向けて Towards Real-World Applications of Personalized Anesthesia Using Policy Constraint Q Learning for Propofol Infusion Control ( http://arxiv.org/abs/2303.10180v3 ) ライセンス: Link先を確認 | Xiuding Cai, Jiao Chen, Yaoyao Zhu, Beimin Wang, Yu Yao | (参考訳) 自動麻酔は、より正確でパーソナライズされた麻酔管理を可能にし、麻酔医を反復的な作業から解放し、患者の外科的治療の最も重要な側面に焦点を合わせることを約束する。
現在の研究は、エージェントが学習できるシミュレーション環境を作ることに重点を置いている。
これらのアプローチは良い実験結果を示したが、まだ臨床応用には程遠い。
本稿では,実際の臨床データセットにおける麻酔戦略の学習問題を解決するためのデータ駆動強化学習アルゴリズムであるポリシ制約q-learning(pcql)を提案する。
保守的なQ-Learningは、オフライン環境でのQ関数過大評価の問題を軽減するために最初に導入された。
エージェントトレーニングにポリシー制約項を追加し、エージェントと麻酔医のポリシー分布を一定に保つことで、エージェントの麻酔シナリオにおける安全な判断を確実にする。
PCQLの有効性は, 臨床麻酔データセットを用いた広範囲な実験により検証された。
以上の結果から,PCQLは麻酔科医の基準線量との良好な一致を維持しつつ,総線量が少なく,患者のバイタルサインに反応しやすく,ベースラインアプローチよりも高い利得が得られると予測された。
さらに, 麻酔科医の臨床的判断のほとんどをカバーすることが可能な薬剤の信頼区間について検討した。
最後に、モデル予測の寄与成分を分析し、モデルの透明性を高めるための解釈可能な手法SHAPを用いた。 Automated anesthesia promises to enable more precise and personalized anesthetic administration and free anesthesiologists from repetitive tasks, allowing them to focus on the most critical aspects of a patient's surgical care. Current research has typically focused on creating simulated environments from which agents can learn. These approaches have demonstrated good experimental results, but are still far from clinical application. In this paper, Policy Constraint Q-Learning (PCQL), a data-driven reinforcement learning algorithm for solving the problem of learning anesthesia strategies on real clinical datasets, is proposed. Conservative Q-Learning was first introduced to alleviate the problem of Q function overestimation in an offline context. A policy constraint term is added to agent training to keep the policy distribution of the agent and the anesthesiologist consistent to ensure safer decisions made by the agent in anesthesia scenarios. The effectiveness of PCQL was validated by extensive experiments on a real clinical anesthesia dataset. Experimental results show that PCQL is predicted to achieve higher gains than the baseline approach while maintaining good agreement with the reference dose given by the anesthesiologist, using less total dose, and being more responsive to the patient's vital signs. In addition, the confidence intervals of the agent were investigated, which were able to cover most of the clinical decisions of the anesthesiologist. Finally, an interpretable method, SHAP, was used to analyze the contributing components of the model predictions to increase the transparency of the model. | 翻訳日:2023-11-14 22:18:51 公開日:2023-11-13 |
# プラグ・アンド・プレイ準ニュートン法 Provably Convergent Plug-and-Play Quasi-Newton Methods ( http://arxiv.org/abs/2303.07271v4 ) ライセンス: Link先を確認 | Hong Ye Tan, Subhadip Mukherjee, Junqi Tang, Carola-Bibiane Sch\"onlieb | (参考訳) Plug-and-Play (PnP) は、ISTAやADMMなどの古典最適化アルゴリズムと逆問題やイメージングの応用を組み合わせた効率的な反復手法のクラスである。
確率的PnP法は、あるエネルギー関数の臨界点への固定点収束や収束のような収束を保証するPnP法のサブクラスである。
多くの既存の証明可能なPnP法は、それぞれ非拡張性や厳密な凸性など、デノイザ関数や忠実度関数に厳しい制限を課している。
本研究では,近位分母に基づく証明可能なpnpフレームワークに準ニュートンステップを組み込んだ新しいアルゴリズム手法を提案する。
弱凸関数の近位作用素としてデノイザを特徴付けることにより、提案した準ニュートンPnPアルゴリズムの固定点は弱凸関数の臨界点であることを示す。
画像劣化と超解像に関する数値実験により, 同様の再現性を有する他のPnP法と比較して, 2~8倍の収束性を示した。 Plug-and-Play (PnP) methods are a class of efficient iterative methods that aim to combine data fidelity terms and deep denoisers using classical optimization algorithms, such as ISTA or ADMM, with applications in inverse problems and imaging. Provable PnP methods are a subclass of PnP methods with convergence guarantees, such as fixed point convergence or convergence to critical points of some energy function. Many existing provable PnP methods impose heavy restrictions on the denoiser or fidelity function, such as non-expansiveness or strict convexity, respectively. In this work, we propose a novel algorithmic approach incorporating quasi-Newton steps into a provable PnP framework based on proximal denoisers, resulting in greatly accelerated convergence while retaining light assumptions on the denoiser. By characterizing the denoiser as the proximal operator of a weakly convex function, we show that the fixed points of the proposed quasi-Newton PnP algorithm are critical points of a weakly convex function. Numerical experiments on image deblurring and super-resolution demonstrate 2--8x faster convergence as compared to other provable PnP methods with similar reconstruction quality. | 翻訳日:2023-11-14 22:17:37 公開日:2023-11-13 |
# メタヒューリスティックアルゴリズムの自動設計:調査 Automated Design of Metaheuristic Algorithms: A Survey ( http://arxiv.org/abs/2303.06532v2 ) ライセンス: Link先を確認 | Qi Zhao, Qiqi Duan, Bai Yan, Shi Cheng, Yuhui Shi | (参考訳) メタヒューリスティクスは、その探索論理が利用可能な解表現、解の品質評価、局所性のある特定の問題に適用できるため、学界や実践において大きな成功を収めている。
対象問題を解決するためのメタヒューリスティックアルゴリズムを手動で設計することは、手間がかかり、エラーが発生し、専門知識が集中的に必要であるとして批判される。
これにより、メタヒューリスティックアルゴリズムの自動設計への関心が高まる。
潜在的な設計選択を完全に探究する計算能力があれば、自動設計は人間レベルの設計に到達し、さらには高性能なアルゴリズムをより広い範囲の研究者や実践者に届けることができるだろう。
本稿では,メタヒューリスティックアルゴリズムの自動設計について,設計空間,設計戦略,性能評価戦略,対象問題の共通点と代表的手法について調査を行い,その全体像について述べる。 Metaheuristics have gained great success in academia and practice because their search logic can be applied to any problem with available solution representation, solution quality evaluation, and certain notions of locality. Manually designing metaheuristic algorithms for solving a target problem is criticized for being laborious, error-prone, and requiring intensive specialized knowledge. This gives rise to increasing interest in automated design of metaheuristic algorithms. With computing power to fully explore potential design choices, the automated design could reach and even surpass human-level design and could make high-performance algorithms accessible to a much wider range of researchers and practitioners. This paper presents a broad picture of automated design of metaheuristic algorithms, by conducting a survey on the common grounds and representative techniques in terms of design space, design strategies, performance evaluation strategies, and target problems in this field. | 翻訳日:2023-11-14 22:17:14 公開日:2023-11-13 |
# 熱を使わずに迅速な情報消去を訓練する方法 How to train your demon to do fast information erasure without heat production ( http://arxiv.org/abs/2305.10607v2 ) ライセンス: Link先を確認 | Stephen Whitelam | (参考訳) メモリ消去やコスト削減、熱発生など、不可逆的な論理演算を実行する時間依存プロトコルは、コンピュータの効率に限界を置きます。
ここでは、物理メモリの原型的コンピュータモデルを用いて、作業の入力や熱の生成なしに、フィードバック制御プロトコルを学習し、高速なメモリ消去を行うことができることを示す。
これらのプロトコルはニューラルネット『デーモン』によって制定され、デーモンがメモリよりも熱を発生させるため、熱力学の第二法則に違反しない。
その結果、ある計算がエネルギー的に有利にレンダリングされ、補償された計算が別の場所で熱を発生させるという非局所的な熱交換の形式となり、これはコンピュータ内のエネルギーの流れを合理的に設計できる戦術である。 Time-dependent protocols that perform irreversible logical operations, such as memory erasure, cost work and produce heat, placing bounds on the efficiency of computers. Here we use a prototypical computer model of a physical memory to show that it is possible to learn feedback-control protocols to do fast memory erasure without input of work or production of heat. These protocols, which are enacted by a neural-network ``demon'', do not violate the second law of thermodynamics because the demon generates more heat than the memory absorbs. The result is a form of nonlocal heat exchange in which one computation is rendered energetically favorable while a compensating one produces heat elsewhere, a tactic that could be used to rationally design the flow of energy within a computer. | 翻訳日:2023-11-14 22:07:55 公開日:2023-11-13 |
# ランダムコンパイルによるクロストーク誤差の緩和:超伝導量子コンピュータ上でのBCSモデルのシミュレーション Mitigating crosstalk errors by randomized compiling: Simulation of the BCS model on a superconducting quantum computer ( http://arxiv.org/abs/2305.02345v2 ) ライセンス: Link先を確認 | Hugo Perrin, Thibault Scoquart, Alexander Shnirman, J\"org Schmalian and Kyrylo Snizhko | (参考訳) 我々は,IBMQ量子コンピュータにおける超伝導量子ビット(\texttt{ibm\_lagos} と \texttt{ibmq\_ehningen} )における,隣接する量子ビットの特殊処理を含むランダムコンパイル(RC)プロトコルの拡張と適用を行い,異常ゲートの印加によるクロストーク \new{effects を劇的に低減する。
CNOTの2量子ゲートに由来するクロストークエラーは、多くの量子コンピューティングプラットフォームにおけるエラーの重要な原因である。
IBMQマシンの場合、その大きさは \older{ular underestimated} \newest{often overlooked}\older{by the benchmark protocol by the maker} である。
このrcプロトコルはクロストークによるコヒーレントノイズを非分極ノイズチャネルに変換し,ノイズ推定回路などの確立されたエラー緩和スキームを用いて処理する。
超伝導に対するバルディーン・クーパー=シュリーファー(BCS)ハミルトニアン(英語版)の非平衡力学の量子シミュレーションに適用し、クーパー対の長距離相互作用により量子ハードウェア上でのシミュレーションが特に困難である。
135のcnotゲートでは、ロータライズやキュービットのデコヒーレンスとは対照的に、クロストークがエラーを支配するような方法で作業します。
隣り合う量子ビットの回転は、新しい量子ビットや回路を追加する必要なしにノイズ推定プロトコルを劇的に改善し、bcsモデルの定量的シミュレーションを可能にしている。 We develop and apply an extension of the randomized compiling (RC) protocol that includes \new{a special treatment of} neighboring qubits and dramatically reduces crosstalk \new{effects caused by the application of faulty gates on}\old{ between} superconducting qubits in IBMQ quantum computers (\texttt{ibm\_lagos} and \texttt{ibmq\_ehningen}). Crosstalk errors, stemming from CNOT two-qubit gates, are a crucial source of errors on numerous quantum computing platforms. For the IBMQ machines, their magnitude is \older{usually underestimated} \newest{often overlooked}\older{by the benchmark protocols provided by the manufacturer}. Our RC protocol turns coherent noise due to crosstalk into a depolarising noise channel that can then be treated using established error mitigation schemes, such as noise estimation circuits. We apply our approach to the quantum simulation of the non-equilibrium dynamics of the Bardeen-Cooper-Schrieffer (BCS) Hamiltonian for superconductivity, a particularly challenging model to simulate on quantum hardware because of the long-range interaction of Cooper pairs. With 135 CNOT gates, we work in a regime where crosstalk, as opposed to either trotterization or qubit decoherence, dominates the error. Our twirling of neighboring qubits is shown to dramatically improve the noise estimation protocol without the need to add new qubits or circuits and allows for a quantitative simulation of the BCS model. | 翻訳日:2023-11-14 22:06:05 公開日:2023-11-13 |
# 二次ガウス問題に対する厳密な情報理論一般化誤差 Exactly Tight Information-Theoretic Generalization Error Bound for the Quadratic Gaussian Problem ( http://arxiv.org/abs/2305.00876v2 ) ライセンス: Link先を確認 | Ruida Zhou, Chao Tian, Tie Liu | (参考訳) 我々は、正準二次ガウス問題に対して、厳密な(すなわち定数さえ一致する)新しい情報理論の一般化誤差を与える。
この設定では、既存の境界は順序的に緩く、機械学習の一般化動作を推論する情報理論境界の基本的な能力を懸念している。
提案する新しいバウンドは、buらによって提案された個別のサンプルベースアプローチを採用するが、いくつかの重要な新しい材料も備えている。
第一に、損失関数に測度の不等式の変化を適用するのではなく、一般化誤差関数自体に適用し、第二に境界を条件付きで導出し、最後に基準分布を導入する。
これらの成分の組み合わせは kl-divergence-based generalization error bound を生成する。
後者の2つの新しい成分は、境界を厳密に密接化させるのに役立つが、それらを取り除くことは境界を著しく低下させるものではなく、漸近的に密接な相互情報に基づく境界をもたらす。
さらにベクトルガウスの設定を考えると、提案された有界の直接適用が特別な場合を除いて厳密な有界に繋がらない。
その後、分解可能な損失関数に対して洗練された境界が提案され、ベクトル設定のタイトバウンドに繋がる。 We provide a new information-theoretic generalization error bound that is exactly tight (i.e., matching even the constant) for the canonical quadratic Gaussian (location) problem. Most existing bounds are order-wise loose in this setting, which has raised concerns about the fundamental capability of information-theoretic bounds in reasoning the generalization behavior for machine learning. The proposed new bound adopts the individual-sample-based approach proposed by Bu et al., but also has several key new ingredients. Firstly, instead of applying the change of measure inequality on the loss function, we apply it to the generalization error function itself; secondly, the bound is derived in a conditional manner; lastly, a reference distribution is introduced. The combination of these components produces a KL-divergence-based generalization error bound. We show that although the latter two new ingredients can help make the bound exactly tight, removing them does not significantly degrade the bound, leading to an asymptotically tight mutual-information-based bound. We further consider the vector Gaussian setting, where a direct application of the proposed bound again does not lead to tight bounds except in special cases. A refined bound is then proposed for decomposable loss functions, leading to a tight bound for the vector setting. | 翻訳日:2023-11-14 22:05:34 公開日:2023-11-13 |
# Kerr-nonlinearパラメトリックオシレータを用いた表現型量子監視機械学習 Expressive Quantum Supervised Machine Learning using Kerr-nonlinear Parametric Oscillators ( http://arxiv.org/abs/2305.00688v2 ) ライセンス: Link先を確認 | Yuichiro Mori, Kouhei Nakaji, Yuichiro Matsuzaki, Shiro Kawabata | (参考訳) 変分量子アルゴリズム(VQA)を用いた量子機械学習は、ノイズのある中間スケール量子(NISQ)時代の実用的なアルゴリズムとして積極的に研究されている。
近年の研究では、古典的データを量子回路に繰り返しエンコードするデータ再アップロードが、従来の量子コンピューティングアーキテクチャで表現力のある量子機械学習モデルを得るために必要であることが示されている。
しかし、データ再複製は大量の量子リソースを必要とする傾向があるため、表現力のある量子機械学習を効率的に実現するための代替戦略を見つける動機となる。
本稿では、kpos(kerr-nonlinear parametric oscillators)を用いた量子機械学習を、有望な量子計算デバイスとして提案する。
鍵となる考え方は、基底状態と第一励起状態だけでなく、より高い励起状態も使い、単一のKPOを持つ場合でも大きなヒルベルト空間を使うことができるということである。
数値シミュレーションにより,kpoの1つのモードのみを用いた方法の表現性は,従来の6量子ビット法よりもはるかに高いことがわかった。
この結果は,nisq時代の実用的応用に不可欠な,資源効率のよい量子機械学習への道を開くものである。 Quantum machine learning with variational quantum algorithms (VQA) has been actively investigated as a practical algorithm in the noisy intermediate-scale quantum (NISQ) era. Recent researches reveal that the data reuploading, which repeatedly encode classical data into quantum circuit, is necessary for obtaining the expressive quantum machine learning model in the conventional quantum computing architecture. However, the data reuploding tends to require large amount of quantum resources, which motivates us to find an alternative strategy for realizing the expressive quantum machine learning efficiently. In this paper, we propose quantum machine learning with Kerr-nonlinear Parametric Oscillators (KPOs), as another promising quantum computing device. The key idea is that we use not only the ground state and first excited state but also use higher excited states, which allows us to use a large Hilbert space even if we have a single KPO. Our numerical simulations show that the expressibility of our method with only one mode of the KPO is much higher than that of the conventional method with six qubits. Our results pave the way towards resource efficient quantum machine learning, which is essential for the practical applications in the NISQ era. | 翻訳日:2023-11-14 22:05:11 公開日:2023-11-13 |
# ChatGPTはバイアスを受けるべきか?
大規模言語モデルにおけるバイアスの課題とリスク Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language Models ( http://arxiv.org/abs/2304.03738v3 ) ライセンス: Link先を確認 | Emilio Ferrara | (参考訳) 生成言語モデルの能力が進歩を続けるにつれ、これらのモデルに内在するバイアスの影響は、研究者、実践者、そしてより広い大衆から注目を集めている。
本稿では,ChatGPTのような大規模言語モデルにおけるバイアスに関連する課題とリスクについて考察する。
バイアスの起源を,トレーニングデータ,モデル仕様,アルゴリズム制約,製品設計,政策決定の性質から考察する。
偏りのあるモデル出力の意図しない結果から生じる倫理的懸念について検討する。
さらに,バイアスを軽減する可能性,バイアスの回避可能性,仮想アシスタントやコンテンツ生成,チャットボットなど,さまざまなアプリケーションにこれらのモデルをデプロイすることの意味について分析する。
最後に、言語モデルにおけるバイアスを特定し、定量化し、緩和するための現在のアプローチをレビューし、より公平で透明で責任あるAIシステムを開発するための、多分野の協力的な取り組みの必要性を強調します。
この記事では、人工知能コミュニティ内の思慮深い対話を刺激し、研究者や開発者が生成言語モデルにおけるバイアスの役割と倫理的AIの追求を反映するよう促す。 As the capabilities of generative language models continue to advance, the implications of biases ingrained within these models have garnered increasing attention from researchers, practitioners, and the broader public. This article investigates the challenges and risks associated with biases in large-scale language models like ChatGPT. We discuss the origins of biases, stemming from, among others, the nature of training data, model specifications, algorithmic constraints, product design, and policy decisions. We explore the ethical concerns arising from the unintended consequences of biased model outputs. We further analyze the potential opportunities to mitigate biases, the inevitability of some biases, and the implications of deploying these models in various applications, such as virtual assistants, content generation, and chatbots. Finally, we review the current approaches to identify, quantify, and mitigate biases in language models, emphasizing the need for a multi-disciplinary, collaborative effort to develop more equitable, transparent, and responsible AI systems. This article aims to stimulate a thoughtful dialogue within the artificial intelligence community, encouraging researchers and developers to reflect on the role of biases in generative language models and the ongoing pursuit of ethical AI. | 翻訳日:2023-11-14 22:04:15 公開日:2023-11-13 |
# クラウドインシデントに対する大規模言語モデルによる自動根本原因解析 Automatic Root Cause Analysis via Large Language Models for Cloud Incidents ( http://arxiv.org/abs/2305.15778v4 ) ライセンス: Link先を確認 | Yinfang Chen, Huaibing Xie, Minghua Ma, Yu Kang, Xin Gao, Liu Shi, Yunjie Cao, Xuedong Gao, Hao Fan, Ming Wen, Jun Zeng, Supriyo Ghosh, Xuchao Zhang, Chaoyun Zhang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Tianyin Xu | (参考訳) クラウドサービスの信頼性と可用性を確保するには、クラウドインシデントに対する効率的な根本原因分析(RCA)が必要である。
ログやトレースなどのデータソースを手動で調査する従来のRCAメソッドは、しばしば手間がかかり、エラーが発生し、オンコールエンジニアにとって難しい。
本稿では,クラウドインシデントのRCAを自動化するための大規模言語モデルによって強化された,革新的なオンコールシステムであるRCACopilotを紹介する。
rcacopilotは、受信したインシデントをアラートタイプに基づいて対応するインシデントハンドラにマッチさせ、クリティカルなランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。
Microsoftから1年分のインシデントからなる実世界のデータセットを使用してRCACopilotを評価する。
評価の結果,RCACopilotの精度は0.766。
さらに、RCACopilotの診断情報収集コンポーネントは、4年以上にわたってMicrosoftで使用されてきた。 Ensuring the reliability and availability of cloud services necessitates efficient root cause analysis (RCA) for cloud incidents. Traditional RCA methods, which rely on manual investigations of data sources such as logs and traces, are often laborious, error-prone, and challenging for on-call engineers. In this paper, we introduce RCACopilot, an innovative on-call system empowered by the large language model for automating RCA of cloud incidents. RCACopilot matches incoming incidents to corresponding incident handlers based on their alert types, aggregates the critical runtime diagnostic information, predicts the incident's root cause category, and provides an explanatory narrative. We evaluate RCACopilot using a real-world dataset consisting of a year's worth of incidents from Microsoft. Our evaluation demonstrates that RCACopilot achieves RCA accuracy up to 0.766. Furthermore, the diagnostic information collection component of RCACopilot has been successfully in use at Microsoft for over four years. | 翻訳日:2023-11-14 21:55:39 公開日:2023-11-13 |
# ディープグラフニューラルネットワークのための可逆および不可逆ブラケットに基づくダイナミクス Reversible and irreversible bracket-based dynamics for deep graph neural networks ( http://arxiv.org/abs/2305.15616v2 ) ライセンス: Link先を確認 | Anthony Gruber, Kookjin Lee, Nathaniel Trask | (参考訳) 近年の研究では、物理にインスパイアされたアーキテクチャにより、過剰なスムーシングなしにディープグラフニューラルネットワーク(GNN)のトレーニングが可能になることが示されている。
しかし、これらの物理学の役割は明らかではなく、可逆現象(例えばハミルトニアン)と非可逆現象(例えば拡散現象)の両方が、ダイアメトリックな反対のメカニズムにもかかわらず同等の結果を生じさせ、数学理論からの経験的な離脱によってさらに複雑化する例がある。
この研究は、構造保存ブラケットに基づく動的システムに基づく、新しいGNNアーキテクチャのシリーズを提示する。
ここで採用されている理論的原理の枠組みは、現在のアーキテクチャにおける理論からの離脱を文脈化し、ネットワーク性能における可逆性と非可逆性の役割をよりよく解明する、本質的に説明可能な構成を可能にする。 Recent works have shown that physics-inspired architectures allow the training of deep graph neural networks (GNNs) without oversmoothing. The role of these physics is unclear, however, with successful examples of both reversible (e.g., Hamiltonian) and irreversible (e.g., diffusion) phenomena producing comparable results despite diametrically opposed mechanisms, and further complications arising due to empirical departures from mathematical theory. This work presents a series of novel GNN architectures based upon structure-preserving bracket-based dynamical systems, which are provably guaranteed to either conserve energy or generate positive dissipation with increasing depth. It is shown that the theoretically principled framework employed here allows for inherently explainable constructions, which contextualize departures from theory in current architectures and better elucidate the roles of reversibility and irreversibility in network performance. | 翻訳日:2023-11-14 21:55:23 公開日:2023-11-13 |
# Ghostbuster: 大きな言語モデルで書かれたテキストゴーストを検出する Ghostbuster: Detecting Text Ghostwritten by Large Language Models ( http://arxiv.org/abs/2305.15047v2 ) ライセンス: Link先を確認 | Vivek Verma, Eve Fleisig, Nicholas Tomlin, Dan Klein | (参考訳) 本稿では,AI生成テキストを検出する最先端システムであるGhostbusterを紹介する。
提案手法は,複数の弱い言語モデルに文書を渡し,それらの機能の組み合わせを構造化検索し,選択した機能について分類器を訓練することで,文書がai生成されているかどうかを推定する。
重要なのは、Ghostbusterはターゲットモデルからトークンの確率にアクセスする必要がないため、ブラックボックスモデルや未知のモデルバージョンによって生成されたテキストを検出するのに役立つ。
我々のモデルとともに、学生エッセイ、創造的執筆、ニュース記事の分野における検出ベンチマークとして、人間とAIが生成するテキストの3つの新しいデータセットをリリースする。
我々は、Ghostbusterを、新しいRoBERTaベースラインと同様に、TectGPTやGPTZeroなど、さまざまな既存の検出器と比較する。
ghostbusterは、既存の最良のモデルよりも5.9 f1高いドメイン間で評価すると、99.0 f1を達成する。
また、書き込みドメイン(+7.5 F1)、戦略(+2.1 F1)、言語モデル(+4.4 F1)にまたがる、これまでのすべてのアプローチよりも優れている。
また,様々な摂動攻撃やパラフレージング攻撃に対するシステムのロバスト性を分析し,非ネイティブ英語話者による文書による性能評価を行った。 We introduce Ghostbuster, a state-of-the-art system for detecting AI-generated text. Our method works by passing documents through a series of weaker language models, running a structured search over possible combinations of their features, and then training a classifier on the selected features to predict whether documents are AI-generated. Crucially, Ghostbuster does not require access to token probabilities from the target model, making it useful for detecting text generated by black-box models or unknown model versions. In conjunction with our model, we release three new datasets of human- and AI-generated text as detection benchmarks in the domains of student essays, creative writing, and news articles. We compare Ghostbuster to a variety of existing detectors, including DetectGPT and GPTZero, as well as a new RoBERTa baseline. Ghostbuster achieves 99.0 F1 when evaluated across domains, which is 5.9 F1 higher than the best preexisting model. It also outperforms all previous approaches in generalization across writing domains (+7.5 F1), prompting strategies (+2.1 F1), and language models (+4.4 F1). We also analyze the robustness of our system to a variety of perturbations and paraphrasing attacks and evaluate its performance on documents written by non-native English speakers. | 翻訳日:2023-11-14 21:55:05 公開日:2023-11-13 |
# 自然言語生成におけるアフリカ系アメリカ人言語バイアスの評価 Evaluation of African American Language Bias in Natural Language Generation ( http://arxiv.org/abs/2305.14291v2 ) ライセンス: Link先を確認 | Nicholas Deas and Jessi Grieser and Shana Kleiner and Desmond Patton and Elsbeth Turcan and Kathleen McKeown | (参考訳) llmがアフリカ系アメリカ人の言語(aal)をいかによく理解しているかを、アメリカの教室で教えられる「標準」な英語であるホワイト・メインストリーム・イングリッシュ(wme)のパフォーマンスと比較し、評価した。
モデルが与えられたWME(またはAAL)からAAL(またはWME)を生成し、マスク付きスパン予測(MSP)タスクを生成し、モデルが入力から削除されたフレーズを予測する。
1)2つの言語生成タスクにおける6つの事前学習された大規模言語モデルの評価,2)複数の文脈(ソーシャルメディア,ヒップホップ歌詞,フォーカスグループ,言語インタビュー)からのaalテキストの新しいデータセットとwmeの人間に注釈された対応語との比較,3)aal特徴の理解の欠如に対するバイアスとトレンドの識別を示唆するモデルパフォーマンスギャップの文書化,などである。 We evaluate how well LLMs understand African American Language (AAL) in comparison to their performance on White Mainstream English (WME), the encouraged "standard" form of English taught in American classrooms. We measure LLM performance using automatic metrics and human judgments for two tasks: a counterpart generation task, where a model generates AAL (or WME) given WME (or AAL), and a masked span prediction (MSP) task, where models predict a phrase that was removed from their input. Our contributions include: (1) evaluation of six pre-trained, large language models on the two language generation tasks; (2) a novel dataset of AAL text from multiple contexts (social media, hip-hop lyrics, focus groups, and linguistic interviews) with human-annotated counterparts in WME; and (3) documentation of model performance gaps that suggest bias and identification of trends in lack of understanding of AAL features. | 翻訳日:2023-11-14 21:54:17 公開日:2023-11-13 |
# 言語記述による目標駆動型説明可能なクラスタリング Goal-Driven Explainable Clustering via Language Descriptions ( http://arxiv.org/abs/2305.13749v2 ) ライセンス: Link先を確認 | Zihan Wang, Jingbo Shang, Ruiqi Zhong | (参考訳) 教師なしクラスタリングは大規模なコーパスの探索に広く用いられているが、既存の定式化ではユーザの目標やクラスタの意味の説明は考慮されていない。
目的と説明の両方を自由形式の言語記述として表現する,新たなタスク定式化 "Goal-Driven Clustering with Explanations" (GoalEx) を提案する。
For example, to categorize the errors made by a summarization system, the input to GoalEx is a corpus of annotator-written comments for system-generated summaries and a goal description "cluster the comments based on why the annotators think the summary is imperfect.''; the outputs are text clusters each with an explanation ("this cluster mentions that the summary misses important context information."), which relates to the goal and precisely explain which comments should (not) belong to a cluster. To tackle GoalEx, we prompt a language model with "[corpus subset] + [goal] + Brainstorm a list of explanations each representing a cluster.
そして、各サンプルがその説明に基づいてクラスタに属しているかどうかを分類し、最後に整数線形プログラミングを使用して、ほとんどのサンプルをカバーするために候補クラスタのサブセットを選択し、重複を最小限に抑える。
ラベルの有無にかかわらずコーパスの自動評価と人的評価の両面から,本手法は従来手法よりも正確で目標に関連のある説明を生成する。
データと実装はhttps://github.com/ZihanWangKi/GoalExで公開しています。 Unsupervised clustering is widely used to explore large corpora, but existing formulations neither consider the users' goals nor explain clusters' meanings. We propose a new task formulation, "Goal-Driven Clustering with Explanations" (GoalEx), which represents both the goal and the explanations as free-form language descriptions. For example, to categorize the errors made by a summarization system, the input to GoalEx is a corpus of annotator-written comments for system-generated summaries and a goal description "cluster the comments based on why the annotators think the summary is imperfect.''; the outputs are text clusters each with an explanation ("this cluster mentions that the summary misses important context information."), which relates to the goal and precisely explain which comments should (not) belong to a cluster. To tackle GoalEx, we prompt a language model with "[corpus subset] + [goal] + Brainstorm a list of explanations each representing a cluster."; then we classify whether each sample belongs to a cluster based on its explanation; finally, we use integer linear programming to select a subset of candidate clusters to cover most samples while minimizing overlaps. Under both automatic and human evaluation on corpora with or without labels, our method produces more accurate and goal-related explanations than prior methods. We release our data and implementation at https://github.com/ZihanWangKi/GoalEx. | 翻訳日:2023-11-14 21:53:32 公開日:2023-11-13 |
# 相互注意が十分でない:マルチモーダル影響認識のための動的階層型融合 Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition ( http://arxiv.org/abs/2305.13583v4 ) ライセンス: Link先を確認 | Yaoting Wang, Yuanchao Li, Paul Pu Liang, Louis-Philippe Morency, Peter Bell, Catherine Lai | (参考訳) 複数のモダリティを融合させることは、マルチモーダル情報処理に有効であることが証明されている。
しかし、モダリティ間の不整合性は、特に影響認識において、マルチモーダル融合の課題となる。
本研究では,まず,一方のモダリティにおける有意な情動情報が他方にどのように影響するかを解析し,相互モダリティの注意において,相互モダリティ間の違和感が潜在的に存在することを示す。
そこで本研究では, 動的モダリティゲーティングを用いた階層型クロスモーダルトランスフォーマー(HCT-DMG)を提案する。このモデルでは, トレーニングバッチ毎の一次モダリティを動的に選択し, 潜時空間の学習階層を利用して融合時間を短縮し, 不整合を緩和する。
CMU-MOSI, CMU-MOSEI, IEMOCAP(感覚と感情)とUR-FUNNY(ヒューム)とMUStaRD(サルカズム)の5つのベンチマークデータセットを用いた実験結果, 不調和が一般的である場合, 本手法の有効性を検証し, HCT-DMGが有用であることを示す。
1) 約0.8mのパラメータで従来のマルチモーダルモデルを上回る。
2)不整合が認識を難しくするハードサンプルを認識する。
3)過度な注意力で潜伏レベルの不整合を緩和する。 Fusing multiple modalities has proven effective for multimodal information processing. However, the incongruity between modalities poses a challenge for multimodal fusion, especially in affect recognition. In this study, we first analyze how the salient affective information in one modality can be affected by the other, and demonstrate that inter-modal incongruity exists latently in crossmodal attention. Based on this finding, we propose the Hierarchical Crossmodal Transformer with Dynamic Modality Gating (HCT-DMG), a lightweight incongruity-aware model, which dynamically chooses the primary modality in each training batch and reduces fusion times by leveraging the learned hierarchy in the latent space to alleviate incongruity. The experimental evaluation on five benchmark datasets: CMU-MOSI, CMU-MOSEI, and IEMOCAP (sentiment and emotion), where incongruity implicitly lies in hard samples, as well as UR-FUNNY (humour) and MUStaRD (sarcasm), where incongruity is common, verifies the efficacy of our approach, showing that HCT-DMG: 1) outperforms previous multimodal models with a reduced size of approximately 0.8M parameters; 2) recognizes hard samples where incongruity makes affect recognition difficult; 3) mitigates the incongruity at the latent level in crossmodal attention. | 翻訳日:2023-11-14 21:53:10 公開日:2023-11-13 |
# プレトレーナーのトレーニングデータガイド:データ年代, ドメイン被覆, 品質, 毒性の影響の測定 A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity ( http://arxiv.org/abs/2305.13169v2 ) ライセンス: Link先を確認 | Shayne Longpre, Gregory Yauney, Emily Reif, Katherine Lee, Adam Roberts, Barret Zoph, Denny Zhou, Jason Wei, Kevin Robinson, David Mimno, Daphne Ippolito | (参考訳) 事前訓練は、能力言語モデル(LM)を開発するための予備的かつ基本的なステップである。
それにもかかわらず、事前トレーニングされたデータ設計は、批判的に文書化され、経験的にサポートされていない直観によって導かれることが多い。
これに対処するために,28 1.5bパラメータのデコーダのみをプリトレーニングし,(1) 異なるタイミングでデータキュレートし,(2) 毒性と品質の異なるフィルタ,(3) 異なるドメイン組成でトレーニングを行った。
まず,データ年齢の事前学習の効果を定量化する。
評価データと事前学習データの間の時間的シフトは、微調整によって克服されない性能劣化につながる。
第2に、品質と毒性フィルターの効果を調査し、標準ベンチマークにおける性能と有害世代のリスクのトレードオフを示す。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
また, 異なる種類のフィルタリングの効果は, テキスト領域の特性から予測できないことがわかった。
最後に、本やwebのような異質なデータソースを含むことは広く有益であり、優先順位付けがより重要であることを実証的に検証する。
これらの結果は、テキストプリトレーニングに関する文書化されていない多くの直観を検証、定量化し、公開するための、最大の実験セットを構成する。 Pretraining is the preliminary and fundamental step in developing capable language models (LM). Despite this, pretraining data design is critically under-documented and often guided by empirically unsupported intuitions. To address this, we pretrain 28 1.5B parameter decoder-only models, training on data curated (1) at different times, (2) with varying toxicity and quality filters, and (3) with different domain compositions. First, we quantify the effect of pretraining data age. A temporal shift between evaluation data and pretraining data leads to performance degradation, which is not overcome by finetuning. Second, we explore the effect of quality and toxicity filters, showing a trade-off between performance on standard benchmarks and risk of toxic generations. Our findings indicate there does not exist a one-size-fits-all solution to filtering training data. We also find that the effects of different types of filtering are not predictable from text domain characteristics. Lastly, we empirically validate that the inclusion of heterogeneous data sources, like books and web, is broadly beneficial and warrants greater prioritization. These findings constitute the largest set of experiments to validate, quantify, and expose many undocumented intuitions about text pretraining, which we hope will help support more informed data-centric decisions in LM development. | 翻訳日:2023-11-14 21:52:15 公開日:2023-11-13 |
# 推薦説明可能性の可視化:調査と新たな展望 Visualization for Recommendation Explainability: A Survey and New Perspectives ( http://arxiv.org/abs/2305.11755v2 ) ライセンス: Link先を確認 | Mohamed Amine Chatti and Mouadh Guesmi and Arham Muslim | (参考訳) システム生成によるレコメンデーションの説明を提供することは、透明で信頼できるレコメンデーションシステムへの重要なステップである。
説明可能なレコメンデータシステムは、そのアウトプットに対する人間理解可能な根拠を提供する。
過去20年間、説明可能なレコメンデーションは、レコメンデーションシステム研究コミュニティで多くの注目を集めてきた。
本稿では,レコメンデーションシステムにおける視覚的説明研究の総合的なレビューを行う。
より具体的には,説明目標,説明スコープ,説明スタイル,説明形式という4次元に基づくレコメンダシステムにおける説明に関する文献を体系的に検討する。
可視化の重要性を認識し,説明の表示スタイルとして可視化を用いる説明的可視化の角度からレコメンダシステム文学にアプローチする。
その結果,レコメンダシステムにおける説明的ビジュアライゼーションの設計と,この分野における今後の作業の視点を特定するためのガイドラインの組を導出する。
本レビューの目的は,現在および将来のレコメンダシステムにおいて,視覚的に説明可能なレコメンデーション研究の可能性をより深く理解し,視覚的な説明の体系的設計を支援することである。 Providing system-generated explanations for recommendations represents an important step towards transparent and trustworthy recommender systems. Explainable recommender systems provide a human-understandable rationale for their outputs. Over the last two decades, explainable recommendation has attracted much attention in the recommender systems research community. This paper aims to provide a comprehensive review of research efforts on visual explanation in recommender systems. More concretely, we systematically review the literature on explanations in recommender systems based on four dimensions, namely explanation goal, explanation scope, explanation style, and explanation format. Recognizing the importance of visualization, we approach the recommender system literature from the angle of explanatory visualizations, that is using visualizations as a display style of explanation. As a result, we derive a set of guidelines that might be constructive for designing explanatory visualizations in recommender systems and identify perspectives for future work in this field. The aim of this review is to help recommendation researchers and practitioners better understand the potential of visually explainable recommendation research and to support them in the systematic design of visual explanations in current and future recommender systems. | 翻訳日:2023-11-14 21:50:42 公開日:2023-11-13 |
# 国家間における市民不安の相転移と時間的変化 Phase Transitions of Civil Unrest across Countries and Time ( http://arxiv.org/abs/2306.08698v3 ) ライセンス: Link先を確認 | Dan Braha | (参考訳) 組織のマクロなパターン間の急激なシフトを特徴とする相転移は、複雑なシステムにおいてユビキタスである。
物理科学や自然科学の研究は多いが、社会システムにおけるこの現象の実証的研究は比較的未発達である。
本研究の目的は,集団的市民不安のダイナミクスが,再帰的位相シフトの系列として,各フェーズが測定可能かつ識別可能な潜在性を有することを明らかにすることにある。
1946年から2017年までの170か国における市民不安の包括的データセットを用いて,市民不安のマクロレベルの統計モデルを導入し,その妥当性を評価する。
以上の結果から,マクロレベルの位相モデルは,世界各国の市民不安データの特徴を効果的に捉え,普遍的なメカニズムは市民不安のダイナミクスの特定の側面を裏付ける可能性がある。
また,国家の時間単位当たりの長期的不安を定量化するための尺度を導入し,特定の地域に集中して,市民的不安事象が地理的に集結する傾向があることを示す。
我々のアプローチは、市民の不安を超えた様々な集団の人間の現象の相転移を特定し測定する可能性があり、複雑な社会システムに対するより良い理解に寄与する。 Phase transitions, characterized by abrupt shifts between macroscopic patterns of organization, are ubiquitous in complex systems. Despite considerable research in the physical and natural sciences, the empirical study of this phenomenon in societal systems is relatively underdeveloped. The goal of this study is to explore whether the dynamics of collective civil unrest can be plausibly characterized as a sequence of recurrent phase shifts, with each phase having measurable and identifiable latent characteristics. Building on previous efforts to characterize civil unrest as a self-organized critical system, we introduce a macro-level statistical model of civil unrest and evaluate its plausibility using a comprehensive dataset of civil unrest events in 170 countries from 1946 to 2017. Our findings demonstrate that the macro-level phase model effectively captures the characteristics of civil unrest data from diverse countries globally and that universal mechanisms may underlie certain aspects of the dynamics of civil unrest. We also introduce a scale to quantify a country's long-term unrest per unit of time and show that civil unrest events tend to cluster geographically, with the magnitude of civil unrest concentrated in specific regions. Our approach has the potential to identify and measure phase transitions in various collective human phenomena beyond civil unrest, contributing to a better understanding of complex social systems. | 翻訳日:2023-11-14 21:43:24 公開日:2023-11-13 |
# AIによる意思決定のためのヒューマンアライズドキャリブレーション Human-Aligned Calibration for AI-Assisted Decision Making ( http://arxiv.org/abs/2306.00074v3 ) ライセンス: Link先を確認 | Nina L. Corvelo Benz and Manuel Gomez Rodriguez | (参考訳) バイナリ分類器を使用して意思決定支援を行う場合、通常はラベル予測と信頼値の両方を提供する。
次に、意思決定者は、信頼度値を使用して、予測をどれだけ信頼するかを判断する。
この文脈では、信頼度値は、予測されたラベルが基底真理ラベルと一致する確率の十分に校正された推定値に対応するべきであるとしばしば主張されている。
しかし、複数の実証的証拠は、意思決定者がこれらの信頼度値を用いて予測をいつ信頼するかを判断するのに難しいことを示唆している。
本稿では,まずその理由を理解し,より有用な信頼値の構築方法を検討することを目的とする。
我々はまず、広範囲のユーティリティ機能に対して、合理的な意思決定者が一般的に、上記の信頼度値を使って最適な決定方針を発見することができないデータ分布が存在することを論じる。
しかし, 意思決定者自身の予測に対する信頼度に関して, 信頼度値が自然な整合性を満たすならば, 常に, 意思決定者が予測に立たなければならない信頼度が信頼度に単調であり, 発見可能性の向上に寄与する最適決定方針が存在することを示す。
さらに, 意思決定者自身の予測に対する信頼度に対する多重化が, 調整の十分条件であることを示す。
分類器が実際の人間の専門家に意思決定支援を提供する4つのAI支援意思決定タスクの実験は、我々の理論的結果を検証するとともに、アライメントがより良い意思決定につながることを示唆している。 Whenever a binary classifier is used to provide decision support, it typically provides both a label prediction and a confidence value. Then, the decision maker is supposed to use the confidence value to calibrate how much to trust the prediction. In this context, it has been often argued that the confidence value should correspond to a well calibrated estimate of the probability that the predicted label matches the ground truth label. However, multiple lines of empirical evidence suggest that decision makers have difficulties at developing a good sense on when to trust a prediction using these confidence values. In this paper, our goal is first to understand why and then investigate how to construct more useful confidence values. We first argue that, for a broad class of utility functions, there exist data distributions for which a rational decision maker is, in general, unlikely to discover the optimal decision policy using the above confidence values -- an optimal decision maker would need to sometimes place more (less) trust on predictions with lower (higher) confidence values. However, we then show that, if the confidence values satisfy a natural alignment property with respect to the decision maker's confidence on her own predictions, there always exists an optimal decision policy under which the level of trust the decision maker would need to place on predictions is monotone on the confidence values, facilitating its discoverability. Further, we show that multicalibration with respect to the decision maker's confidence on her own predictions is a sufficient condition for alignment. Experiments on four different AI-assisted decision making tasks where a classifier provides decision support to real human experts validate our theoretical results and suggest that alignment may lead to better decisions. | 翻訳日:2023-11-14 21:42:41 公開日:2023-11-13 |
# ディープラーニングのためのソースコードデータ拡張に関する調査 Source Code Data Augmentation for Deep Learning: A Survey ( http://arxiv.org/abs/2305.19915v4 ) ライセンス: Link先を確認 | Terry Yue Zhuo, Zhou Yang, Zhensu Sun, Yufei Wang, Li Li, Xiaoning Du, Zhenchang Xing, David Lo | (参考訳) 多くの重要なソースコードタスクにおけるディープラーニングモデルの採用は、トレーニングデータを強化し、これらのモデルの様々な機能(堅牢性や一般化可能性など)を改善するためのデータ拡張(DA)技術の開発を動機付けている。
一連のdaメソッドが提案され、ソースコードモデル用に調整されているが、その効果と影響を理解するための包括的な調査と調査が欠けている。
本稿では,既存の文献を体系的にコンパイル・カプセル化し,その分野の包括的概要を提供するため,ソースコードのデータ拡張に関する包括的かつ統合的な調査を行うことで,このギャップを埋める。
まず、ソースコードにおけるデータ拡張の導入から始め、主要な代表的アプローチについて議論する。
次に、da品質を最適化するための一般的な戦略とテクニックを紹介します。
続いて、実世界のソースコードシナリオや下流タスクで有用な技術を評価する。
最後に,今後の研究の課題と可能性について概説する。
基本的に,既存の文献のコーパスを深層学習のためのソースコードDAでデミスティフィケーションし,この領域におけるさらなる探索を促進することを目的としている。
補完として、ソースコードモデリングのためのDAの更新最新文書のリストをホストする、継続的に更新されたGitHubリポジトリを、 \url{https://github.com/terryyz/DataAug4Code}で公開します。 The increasingly popular adoption of deep learning models in many critical source code tasks motivates the development of data augmentation (DA) techniques to enhance training data and improve various capabilities (e.g., robustness and generalizability) of these models. Although a series of DA methods have been proposed and tailored for source code models, there lacks a comprehensive survey and examination to understand their effectiveness and implications. This paper fills this gap by conducting a comprehensive and integrative survey of data augmentation for source code, wherein we systematically compile and encapsulate existing literature to provide a comprehensive overview of the field. We start with an introduction of data augmentation in source code and then provide a discussion on major representative approaches. Next, we highlight the general strategies and techniques to optimize the DA quality. Subsequently, we underscore techniques useful in real-world source code scenarios and downstream tasks. Finally, we outline the prevailing challenges and potential opportunities for future research. In essence, we aim to demystify the corpus of existing literature on source code DA for deep learning, and foster further exploration in this sphere. Complementing this, we present a continually updated GitHub repository that hosts a list of update-to-date papers on DA for source code modeling, accessible at \url{https://github.com/terryyz/DataAug4Code}. | 翻訳日:2023-11-14 21:42:12 公開日:2023-11-13 |
# 離散切断ウィグナー近似における集団放射相互作用 Collective Radiative Interactions in the Discrete Truncated Wigner Approximation ( http://arxiv.org/abs/2305.19829v3 ) ライセンス: Link先を確認 | Christopher D. Mink and Michael Fleischhauer | (参考訳) 光と物質の界面は、エキサイティングな多体物理学とフォトニック量子技術のためのプラットフォームとして機能する。
サブ波長間隔での原子配列の実験的実現により、スーパーラジアンスのような集団的な相互作用効果が大きな関心を集めている。
しかし、その分析と数値処理は非常に困難である。
ここでは、相互作用スピンのコヒーレントかつ散逸的多体ダイナミクスを、最低次量子揺らぎを考慮しながら記述できる、この問題に対する半古典的アプローチを展開する。
この目的のために、離散切断ウィグナー近似(離散切断ウィグナー近似、英: discrete truncated wigner approximation)は、もともとユニタリ結合スピンのために開発されたもので、切断された対応規則によって集団的、散逸的なスピン過程を含む。
これは原子アンサンブルの力学を半古典的で数値的に安価な確率微分方程式の集合にマッピングする。
提案手法をディック崩壊の場合の正確な結果でベンチマークし,良好な一致を示した。
小さな配列では、正確なシミュレーションと2次累積展開を比較し、早い段階でも中程度から強い運転でも良い一致を示します。
最後に,空間的に拡張された3次元コヒーレント駆動気体の放射特性を調べ,放射光のコヒーレンスを実験結果と比較する。 Interfaces of light and matter serve as a platform for exciting many-body physics and photonic quantum technologies. Due to the recent experimental realization of atomic arrays at sub-wavelength spacings, collective interaction effects such as superradiance have regained substantial interest. Their analytical and numerical treatment is however quite challenging. Here we develop a semiclassical approach to this problem that allows to describe the coherent and dissipative many-body dynamics of interacting spins while taking into account lowest-order quantum fluctuations. For this purpose we extend the discrete truncated Wigner approximation, originally developed for unitarily coupled spins, to include collective, dissipative spin processes by means of truncated correspondence rules. This maps the dynamics of the atomic ensemble onto a set of semiclassical, numerically inexpensive stochastic differential equations. We benchmark our method with exact results for the case of Dicke decay, which shows excellent agreement. For small arrays we compare to exact simulations and a second order cumulant expansion, again showing good agreement at early times and at moderate to strong driving. We conclude by studying the radiative properties of a spatially extended three-dimensional, coherently driven gas and compare the coherence of the emitted light to experimental results. | 翻訳日:2023-11-14 21:41:50 公開日:2023-11-13 |
# より大きく、より良く、より速く:人間レベルの効率のアタリ Bigger, Better, Faster: Human-level Atari with human-level efficiency ( http://arxiv.org/abs/2305.19452v3 ) ライセンス: Link先を確認 | Max Schwarzer, Johan Obando-Ceron, Aaron Courville, Marc Bellemare, Rishabh Agarwal, Pablo Samuel Castro | (参考訳) 我々は,Atari 100Kベンチマークで超人的性能を実現する,BBFと呼ばれる値ベースのRLエージェントを提案する。
BBFは、値推定に使用されるニューラルネットワークのスケーリングと、このスケーリングをサンプル効率のよい方法で実現するための多くの設計選択に依存している。
我々は、これらの設計選択を広範囲に分析し、将来の作業に対する洞察を提供する。
最終的に、ALEにおけるサンプル効率のよいRL研究のためのゴールポストの更新について議論する。
コードとデータはhttps://github.com/google-research/google-research/tree/master/bigger_better_fasterで公開しています。 We introduce a value-based RL agent, which we call BBF, that achieves super-human performance in the Atari 100K benchmark. BBF relies on scaling the neural networks used for value estimation, as well as a number of other design choices that enable this scaling in a sample-efficient manner. We conduct extensive analyses of these design choices and provide insights for future work. We end with a discussion about updating the goalposts for sample-efficient RL research on the ALE. We make our code and data publicly available at https://github.com/google-research/google-research/tree/master/bigger_better_faster. | 翻訳日:2023-11-14 21:41:27 公開日:2023-11-13 |
# 睡眠データ学習のための畳み込みモンジマッピング正規化 Convolutional Monge Mapping Normalization for learning on sleep data ( http://arxiv.org/abs/2305.18831v3 ) ライセンス: Link先を確認 | Th\'eo Gnassounou, R\'emi Flamary, Alexandre Gramfort | (参考訳) 信号や生体データ、特に脳波(EEG)に関する多くの機械学習応用において、大きな課題は、被験者、セッション、ハードウェアデバイス間でのデータのばらつきである。
本研究では,そのパワースペクトル密度(psd)をトレーニングデータから推定したwasserstein barycenterに適応させるために,信号をフィルタリングする畳み込みモンジマッピング正規化(cmmn)と呼ばれる新しい手法を提案する。
CMMNは、最適なトランスポートマッピングとバリセンタのための新しいクローズドフォームソリューションに依存し、予測モデルを再トレーニングすることなく、新しいデータへの個別のテスト時間適応を提供する。
睡眠脳波データに関する数値実験により、CMMNは、被験者、セッション、さらには異なるハードウェアで収集されたデータセット間の適応において、ニューラルネットワークアーキテクチャから大きく、一貫したパフォーマンス向上をもたらすことが示された。
特に、我々のパフォーマンス向上は、はるかに数値的なドメイン適応(DA)メソッドと同等であり、より良いパフォーマンスのためにそれらと併用することができる。 In many machine learning applications on signals and biomedical data, especially electroencephalogram (EEG), one major challenge is the variability of the data across subjects, sessions, and hardware devices. In this work, we propose a new method called Convolutional Monge Mapping Normalization (CMMN), which consists in filtering the signals in order to adapt their power spectrum density (PSD) to a Wasserstein barycenter estimated on training data. CMMN relies on novel closed-form solutions for optimal transport mappings and barycenters and provides individual test time adaptation to new data without needing to retrain a prediction model. Numerical experiments on sleep EEG data show that CMMN leads to significant and consistent performance gains independent from the neural network architecture when adapting between subjects, sessions, and even datasets collected with different hardware. Notably our performance gain is on par with much more numerically intensive Domain Adaptation (DA) methods and can be used in conjunction with those for even better performances. | 翻訳日:2023-11-14 21:41:17 公開日:2023-11-13 |
# GBG++: 分類のための高速で安定なグラニュラーボール生成方法 GBG++: A Fast and Stable Granular Ball Generation Method for Classification ( http://arxiv.org/abs/2305.18450v2 ) ライセンス: Link先を確認 | Qin Xie, Qinghua Zhang, Shuyin Xia, Fan Zhao, Chengying Wu, Guoyin Wang and Weiping Ding | (参考訳) 粒度ボールコンピューティング(gbc)は、効率的で堅牢でスケーラブルな学習手法として、粒度計算の一般的な研究テーマとなっている。
GBCには、グラニュラーボール生成(GBG)とグラニュラーボール(GB)に基づく多粒度学習という2つの段階がある。
しかしながら、既存のGBG法の安定性と効率は、$k$-meansや$k$-divisionに強く依存するため、さらに改善する必要がある。
さらに、GBベースの分類器は、GBの幾何学的特徴を一方的に考慮して分類規則を構築するが、GBの品質は無視される。
そこで本研究では,注意機構に基づいて,高速かつ安定したGBG(GBG++)手法を提案する。
具体的には,データ駆動中心から未分割サンプルまでの距離を,各GBをランダムに選択する代わりに分割し,データ駆動中心と全サンプル間の距離を算出する必要がある。
さらに,局所的な外れ値を特定するために,外れ値検出手法を導入する。
その結果,GBG++法は絶対安定でありながら,有効性,堅牢性,効率性を著しく向上させることができる。
第2に、GB内のサンプルサイズがGBの品質に与える影響を考慮すると、GBG++法に基づいて、改善されたGBベースの$k$-nearest neighborsアルゴリズム(GB$k$NN++)が提示され、クラス境界における誤分類を減らすことができる。
最後に,提案手法は,既存のGBベース分類器と古典的機械学習分類器を2,4ドルのベンチマークデータセットで比較した。 Granular ball computing (GBC), as an efficient, robust, and scalable learning method, has become a popular research topic of granular computing. GBC includes two stages: granular ball generation (GBG) and multi-granularity learning based on the granular ball (GB). However, the stability and efficiency of existing GBG methods need to be further improved due to their strong dependence on $k$-means or $k$-division. In addition, GB-based classifiers only unilaterally consider the GB's geometric characteristics to construct classification rules, but the GB's quality is ignored. Therefore, in this paper, based on the attention mechanism, a fast and stable GBG (GBG++) method is proposed first. Specifically, the proposed GBG++ method only needs to calculate the distances from the data-driven center to the undivided samples when splitting each GB instead of randomly selecting the center and calculating the distances between it and all samples. Moreover, an outlier detection method is introduced to identify local outliers. Consequently, the GBG++ method can significantly improve effectiveness, robustness, and efficiency while being absolutely stable. Second, considering the influence of the sample size within the GB on the GB's quality, based on the GBG++ method, an improved GB-based $k$-nearest neighbors algorithm (GB$k$NN++) is presented, which can reduce misclassification at the class boundary. Finally, the experimental results indicate that the proposed method outperforms several existing GB-based classifiers and classical machine learning classifiers on $24$ public benchmark datasets. | 翻訳日:2023-11-14 21:40:58 公開日:2023-11-13 |
# 葉・木判別のためのスパース不規則点雲のセマンティックセグメンテーション Semantic segmentation of sparse irregular point clouds for leaf/wood discrimination ( http://arxiv.org/abs/2305.16963v2 ) ライセンス: Link先を確認 | Yuchen Bai, Jean-Baptiste Durand, Florence Forbes, Gr\'egoire Vincent | (参考訳) LiDAR(Light Detection and Ranging)はバイオスフィアモニタリングに使用されるリモートセンシングツールボックスの不可欠な部分となっている。
特に、LiDARは、森林の葉面積を前例のない精度でマッピングする機会を提供する一方、葉面積は、植生と大気の間のガス交換モデルに影響を及ぼす重要な不確実性の源である。
無人航空機(UAV)は容易に動員でき、頻繁に再訪して気候変動に対する植生の反応を追跡することができる。
しかし、uavに搭載されたミニチュアセンサーは通常、限られた密度のポイント雲を提供するが、これは徐々に強い閉塞によってキャノピーの上部から下部への密度の強い低下によってさらに影響を受ける。
このような文脈において、木材点から葉点を区別することは、特に強いクラス不均衡と空間的に不規則なサンプリング強度のために大きな課題となる。
ここでは、(スペクトル情報を除く)点幾何学のみを利用するPointnet ++アーキテクチャに基づくニューラルネットワークモデルを紹介する。
そこで本研究では,局所的に重要な幾何学的情報を保存するための新しいサンプリング手法を提案する。
また,重度クラス不均衡に適応した損失関数を提案する。
我々のモデルは、UAVポイントクラウドにおける最先端の代替品よりも優れていることを示す。
今後の改良について,特に天蓋下から獲得したより濃密な点雲について論じる。 LiDAR (Light Detection and Ranging) has become an essential part of the remote sensing toolbox used for biosphere monitoring. In particular, LiDAR provides the opportunity to map forest leaf area with unprecedented accuracy, while leaf area has remained an important source of uncertainty affecting models of gas exchanges between the vegetation and the atmosphere. Unmanned Aerial Vehicles (UAV) are easy to mobilize and therefore allow frequent revisits to track the response of vegetation to climate change. However, miniature sensors embarked on UAVs usually provide point clouds of limited density, which are further affected by a strong decrease in density from top to bottom of the canopy due to progressively stronger occlusion. In such a context, discriminating leaf points from wood points presents a significant challenge due in particular to strong class imbalance and spatially irregular sampling intensity. Here we introduce a neural network model based on the Pointnet ++ architecture which makes use of point geometry only (excluding any spectral information). To cope with local data sparsity, we propose an innovative sampling scheme which strives to preserve local important geometric information. We also propose a loss function adapted to the severe class imbalance. We show that our model outperforms state-of-the-art alternatives on UAV point clouds. We discuss future possible improvements, particularly regarding much denser point clouds acquired from below the canopy. | 翻訳日:2023-11-14 21:38:20 公開日:2023-11-13 |
# リアルな空気質予測を解き放つ:purpleairsfデータセットの導入 Unleashing Realistic Air Quality Forecasting: Introducing the Ready-to-Use PurpleAirSF Dataset ( http://arxiv.org/abs/2306.13948v2 ) ライセンス: Link先を確認 | Jingwei Zuo, Wenbin Li, Michele Baldo and Hakim Hacid | (参考訳) 近年,機械学習やディープラーニングモデルの進歩により,データ駆動型モデルが中心となるなど,品質予測が注目されている。
しかし、研究者は複雑なデータ取得とオープンソースデータセットの欠如で課題に直面し、効率的なモデルの検証を妨げる。
本稿では,PurpleAirネットワークから収集した包括的でアクセスしやすいデータセットであるPurpleAirSFを紹介する。
このデータセットは、高時間分解能、様々な大気質対策、多様な地理的範囲で、新しい予測モデルの開発、大気汚染パターンの研究、健康と環境への影響の調査を目的とした研究者にとって有用なツールである。
本稿では、PurpleAirSFの構築に使用されるデータ収集および処理方法の詳細について述べる。
さらに,従来の時空間予測モデルと現代の時空間予測モデルの両方を用いて予備実験を行い,将来の大気質予測タスクのベンチマークを作成する。 Air quality forecasting has garnered significant attention recently, with data-driven models taking center stage due to advancements in machine learning and deep learning models. However, researchers face challenges with complex data acquisition and the lack of open-sourced datasets, hindering efficient model validation. This paper introduces PurpleAirSF, a comprehensive and easily accessible dataset collected from the PurpleAir network. With its high temporal resolution, various air quality measures, and diverse geographical coverage, this dataset serves as a useful tool for researchers aiming to develop novel forecasting models, study air pollution patterns, and investigate their impacts on health and the environment. We present a detailed account of the data collection and processing methods employed to build PurpleAirSF. Furthermore, we conduct preliminary experiments using both classic and modern spatio-temporal forecasting models, thereby establishing a benchmark for future air quality forecasting tasks. | 翻訳日:2023-11-14 21:29:16 公開日:2023-11-13 |
# CeBed: ディープデータ駆動OFDMチャネル推定のためのベンチマーク CeBed: A Benchmark for Deep Data-Driven OFDM Channel Estimation ( http://arxiv.org/abs/2306.13761v2 ) ライセンス: Link先を確認 | Amal Feriani, Di Wu, Steve Liu, Greg Dudek | (参考訳) 深層学習は、チャネル推定を含む無線通信の問題で広く使われている。
データ駆動型アプローチはいくつか存在するが、実験条件の不一致と標準的な実験設計の欠如により、公平かつ現実的な比較は困難である。
さらに、データ駆動アプローチのパフォーマンスはしばしば経験的分析に基づいて比較される。
再現性と標準化された評価ツール(例えばデータセットやコードベース)の可用性の欠如は、チャネル推定や無線通信全般のためのデータ駆動手法の開発と進歩を妨げる。
本稿では,複数のデータ駆動ofdmチャネル推定手法を統合するベンチマークを構築するためのイニシアティブを提案する。
具体的には,様々なシステムモデルと伝播条件をカバーする異なるデータセットを含むcebed(チャネル推定のためのテストベッド)と,10の深層ベースラインおよび従来型ベースラインの実装を提案する。
このベンチマークでは、データ駆動モデルのロバスト性、パイロットの数と配置、受信アンテナの数など、さまざまな実用的側面を考察している。
この研究は、研究者がデータ駆動チャネル推定アルゴリズムを評価し設計するのに役立つ包括的で統一されたフレームワークを提供する。 Deep learning has been extensively used in wireless communication problems, including channel estimation. Although several data-driven approaches exist, a fair and realistic comparison between them is difficult due to inconsistencies in the experimental conditions and the lack of a standardized experimental design. In addition, the performance of data-driven approaches is often compared based on empirical analysis. The lack of reproducibility and availability of standardized evaluation tools (e.g., datasets, codebases) hinder the development and progress of data-driven methods for channel estimation and wireless communication in general. In this work, we introduce an initiative to build benchmarks that unify several data-driven OFDM channel estimation approaches. Specifically, we present CeBed (a testbed for channel estimation) including different datasets covering various systems models and propagation conditions along with the implementation of ten deep and traditional baselines. This benchmark considers different practical aspects such as the robustness of the data-driven models, the number and the arrangement of pilots, and the number of receive antennas. This work offers a comprehensive and unified framework to help researchers evaluate and design data-driven channel estimation algorithms. | 翻訳日:2023-11-14 21:29:03 公開日:2023-11-13 |
# 高精度・高加速度MRIのための拡張複合CNNの符号化 Encoding Enhanced Complex CNN for Accurate and Highly Accelerated MRI ( http://arxiv.org/abs/2306.11977v2 ) ライセンス: Link先を確認 | Zimeng Li, Sa Xiao, Cheng Wang, Haidong Li, Xiuchao Zhao, Caohui Duan, Qian Zhou, Qiuchen Rao, Yuan Fang, Junshuai Xie, Lei Shi, Fumin Guo, Chaohui Ye, Xin Zhou | (参考訳) 超偏極希ガスを用いた磁気共鳴イメージング(MRI)は、ヒトの肺の構造と機能を可視化する手段を提供するが、長期間のイメージングは幅広い研究と臨床応用を制限する。
深層学習は、アンダーサンプルデータからイメージを再構成することで、MRIを加速させる大きな可能性を示している。
しかし、既存のディープニューラルネットワーク(CNN)は、k空間サンプリングの性質やk空間学習効率の制限、画像再構成品質を考慮せずに、k空間データに直接二乗畳み込みを適用する。
本研究では,高アンサンプ型肺MRI再構成のためのエンコードエンハンスメント(EN2)複合体CNNを提案する。
EN2は、k空間サンプリングのメカニズムに似た周波数または位相エンコード方向の畳み込みを用いて、k空間の行または列内の符号化相関と整合性の利用を最大化する。
また、複素k空間データからリッチ表現を学ぶために複素畳み込みを用いる。
さらに,機能強化型モジュール化ユニットを開発し,再構築性能をさらに向上する。
実験により,6次元アンダーサンプドk空間データから過分極19Xeおよび1H肺MRIを正確に再構成し,フルサンプリング画像と比較して肺機能測定を最小限のバイアスで行うことができた。
以上の結果から, 提案手法は, 研究および臨床肺疾患患者の医療において, 肺MRIの高速化に有効であることが示唆された。 Magnetic resonance imaging (MRI) using hyperpolarized noble gases provides a way to visualize the structure and function of human lung, but the long imaging time limits its broad research and clinical applications. Deep learning has demonstrated great potential for accelerating MRI by reconstructing images from undersampled data. However, most existing deep conventional neural networks (CNN) directly apply square convolution to k-space data without considering the inherent properties of k-space sampling, limiting k-space learning efficiency and image reconstruction quality. In this work, we propose an encoding enhanced (EN2) complex CNN for highly undersampled pulmonary MRI reconstruction. EN2 employs convolution along either the frequency or phase-encoding direction, resembling the mechanisms of k-space sampling, to maximize the utilization of the encoding correlation and integrity within a row or column of k-space. We also employ complex convolution to learn rich representations from the complex k-space data. In addition, we develop a feature-strengthened modularized unit to further boost the reconstruction performance. Experiments demonstrate that our approach can accurately reconstruct hyperpolarized 129Xe and 1H lung MRI from 6-fold undersampled k-space data and provide lung function measurements with minimal biases compared with fully-sampled image. These results demonstrate the effectiveness of the proposed algorithmic components and indicate that the proposed approach could be used for accelerated pulmonary MRI in research and clinical lung disease patient care. | 翻訳日:2023-11-14 21:28:46 公開日:2023-11-13 |
# LLMよりも優れた生成を学ぶ Learning to Generate Better Than Your LLM ( http://arxiv.org/abs/2306.11816v2 ) ライセンス: Link先を確認 | Jonathan D. Chang, Kiante Brantley, Rajkumar Ramamurthy, Dipendra Misra, Wen Sun | (参考訳) 強化学習(Reinforcement Learning, RL)は、テキスト生成のための微調整大型言語モデル(LLM)の強力なパラダイムとして登場した。
特に、ChatGPT や GPT-4 のような最近の LLM は、RL を微調整した後に、ユーザと流動的な会話を行うことができる。
テキスト生成の鍵となる特性を活かして,PPO(Proximal Policy Optimization)のような汎用アルゴリズム以外のRLアルゴリズムについて検討する。
特に、動的ブラックボックスガイドLLMと対話できるようにRLアルゴリズムを拡張し、LLM微細チューニングのためのRLアルゴリズムのスイートであるRLGFを提案する。
我々は、LLMがLLMと相互作用し、報酬を最大化する2つの方法を提供する。
ガイドllmはrl最適化手順で追加の開始状態となるテキストを生成することができる。
ガイドLLMは、最適化中のLSMが生成した部分文の完了にも使用することができ、ガイドLLMを専門家として扱い、最終的には模倣し、超える。
我々は,imdb positive sentiment, commongen, tl;dr 要約タスクを用いて実験を行った。
我々のRLアルゴリズムは、教師付き学習(SL)とRLベースラインPPOよりも高い性能を示し、ガイドLLMとの相互作用の利点を示す。
CommonGen と TL;DR では、SL ベースラインを上回るだけでなく、最適化された指標を超えて、さまざまな指標で PPO を改善しています。
私たちのコードはhttps://github.com/Cornell-RL/tril.orgにある。 Reinforcement learning (RL) has emerged as a powerful paradigm for fine-tuning Large Language Models (LLMs) for text generation. In particular, recent LLMs such as ChatGPT and GPT-4 can engage in fluent conversations with users after finetuning with RL. Capitalizing on key properties of text generation, we seek to investigate RL algorithms beyond general purpose algorithms like Proximal Policy Optimization (PPO). In particular, we extend RL algorithms to allow them to interact with a dynamic black-box guide LLM and propose RL with guided feedback (RLGF), a suite of RL algorithms for LLM fine-tuning. We provide two ways for the guide LLM to interact with the LLM to be optimized for maximizing rewards. The guide LLM can generate text which serves as additional starting states for the RL optimization procedure. The guide LLM can also be used to complete the partial sentences generated by the LLM that is being optimized, treating the guide LLM as an expert to imitate and surpass eventually. We experiment on the IMDB positive sentiment, CommonGen, and TL;DR summarization tasks. We show that our RL algorithms achieve higher performance than supervised learning (SL) and the RL baseline PPO, demonstrating the benefit of interaction with the guide LLM. On both CommonGen and TL;DR, we not only outperform our SL baselines but also improve upon PPO across a variety of metrics beyond the one we optimized for. Our code can be found at https://github.com/Cornell-RL/tril. | 翻訳日:2023-11-14 21:28:21 公開日:2023-11-13 |
# 音楽駆動導体運動生成のためのタンピング拡散モデル Taming Diffusion Models for Music-driven Conducting Motion Generation ( http://arxiv.org/abs/2306.10065v2 ) ライセンス: Link先を確認 | Zhuoran Zhao, Jinbin Bai, Delong Chen, Debang Wang, Yubo Pan | (参考訳) 与えられた交響曲から管弦楽指揮者の動作を生成することは、モデルが意味音楽の特徴を学習し、実際の指揮動作の基盤となる分布を捉える必要があるため、難しい課題である。
この課題にGAN(Generative Adversarial Networks)を適用したが、トレーニング安定性と出力品質の両面で最近その優位性を示した有望な拡散モデルは、この文脈では利用されていない。
本稿では,2段階学習フレームワークに拡散モデルを統合する新しいddimに基づく音楽駆動導体運動生成手法である拡散導体について述べる。
さらに,特徴のロバスト性を向上させるためのランダムマスキング戦略を提案し,幾何学的損失関数を用いて追加の正則化と運動の多様性を高める。
また,Frechet Gesture Distance (FGD) や Beat Consistency Score (BC) など,より包括的な動作評価のための新しい指標も設計した。
実験の結果,本モデルの利点が示された。 Generating the motion of orchestral conductors from a given piece of symphony music is a challenging task since it requires a model to learn semantic music features and capture the underlying distribution of real conducting motion. Prior works have applied Generative Adversarial Networks (GAN) to this task, but the promising diffusion model, which recently showed its advantages in terms of both training stability and output quality, has not been exploited in this context. This paper presents Diffusion-Conductor, a novel DDIM-based approach for music-driven conducting motion generation, which integrates the diffusion model to a two-stage learning framework. We further propose a random masking strategy to improve the feature robustness, and use a pair of geometric loss functions to impose additional regularizations and increase motion diversity. We also design several novel metrics, including Frechet Gesture Distance (FGD) and Beat Consistency Score (BC) for a more comprehensive evaluation of the generated motion. Experimental results demonstrate the advantages of our model. | 翻訳日:2023-11-14 21:27:57 公開日:2023-11-13 |
# 周波数変調の異なる量子高調波発振器のスクイーズ等価性 Squeezing equivalence of quantum harmonic oscillators under different frequency modulations ( http://arxiv.org/abs/2306.05577v2 ) ライセンス: Link先を確認 | Stanley S. Coelho, Lucas Queiroz, Danilo T. Alves | (参考訳) Janszky と Adam [Phys] による論文。
A {\displaystyle A} 46}, 6091 (1992)] および Chen \textit{et al.
である。
Rev. Lett.
bf 104}, 063002 (2010)] は、以下のクラスに属する同値を求めることができる作品の例である: 異なる時間依存周波数変調を受ける量子調和振動子(英語版)(quantum harmonic oscillators) 一定の時間間隔$\tau$の間は、全く同じ終端ヌルスクイージングパラメータ(英語版)(r_f=0$)を示す。
本稿では、最後のスクイーズパラメータが非null(r_f\geq0$)となるような、より一般的なスクイーズ等価性について論じる。
周波数変調の形式を制御することに関心があるが、$r_f$ と $\tau$ の値を自由に保っておくと、これは一般にこれらの値を見つけるために数値計算を要求する(この手順の特別な場合、ヤンスキーとアダムズが発見した同値性は回復する)。
一方、これらの周波数の形式を事前に制御しているのではなく、r_f$ と $\tau$(エネルギーの最小化のようないくつかの制約も含む)である場合、これらの周波数に対する分析的な解が等値(特にこの手順のケースは、chen \textit{et al によってなされた断熱性への近道の問題に適用される。
}).
このように、ここで議論されるより一般的なクレージング等価性は、例えば、絞り込み状態の生成や断熱への近道の取得など、文学における最近の重要かつ重要な話題と結びついている。 The papers by Janszky and Adam [Phys. Rev. A {\bf 46}, 6091 (1992)] and Chen \textit{et al.} [Phys. Rev. Lett. {\bf 104}, 063002 (2010)] are examples of works where one can find equivalences belonging to the following class: quantum harmonic oscillators subjected to different time-dependent frequency modulations, during a certain time interval $\tau$, exhibit exactly the same final null squeezing parameter ($r_f=0$). In the present paper, we discuss a more general class of squeezing equivalence, where the final squeezing parameter can be non-null ($r_f\geq0$). We show that when the interest is in controlling the forms of the frequency modulations, but keeping free the values of $r_f$ and $\tau$, this in general demands numerical calculations to find these values leading to squeezing equivalences (a particular case of this procedure recovers the equivalence found by Jansky and Adams). On the other hand, when the interest is not in previously controlling the form of these frequencies, but rather $r_f$ and $\tau$ (and also some constraints, such as minimization of energy), one can have analytical solutions for these frequencies leading to squeezing equivalences (particular cases of this procedure are usually applied in problems of shortcuts to adiabaticity, as done by Chen \textit{et al.}). In this way, this more general squeezing equivalence discussed here is connected to recent and important topics in the literature as, for instance, generation of squeezed states and the obtaining of shortcuts to adiabaticity. | 翻訳日:2023-11-14 21:26:13 公開日:2023-11-13 |
# 表面から見る:試料効率の良いオフラインRLの基礎対称性の爆発 Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL ( http://arxiv.org/abs/2306.04220v6 ) ライセンス: Link先を確認 | Peng Cheng, Xianyuan Zhan, Zhihao Wu, Wenjia Zhang, Shoucheng Song, Han Wang, Youfang Lin, Li Jiang | (参考訳) オフライン強化学習(rl)は、事前収集されたデータセットから環境と対話することなくポリシーを学習することで、現実世界のタスクに魅力的なアプローチを提供する。
しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。
現実世界のデータ収集は、しばしば高価で制御不能であり、小規模で狭い範囲のデータセットにつながり、オフラインrlの実用的なデプロイに重大な課題をもたらす。
本稿では,システムダイナミクスの基本的な対称性を活用することで,小規模データセット下でのオフラインrl性能が大幅に向上することを示す。
具体的には,tdm(time-reversal symmetry)強制動力学モデル(t-symmetry enforced dynamics model, tdm)を提案する。
TDMは、小さなデータセットに対する良好な表現と、T対称性の遵守に基づくOODサンプルに対する新しい信頼性尺度の両方を提供する。
これらは、保守的なポリシー制約の少ない新しいオフラインRLアルゴリズム(TSRL)の構築や、信頼性の高い遅延空間データ拡張手順に容易に使用できる。
広範な実験に基づいて、TSRLは、原サンプルの1%に満たない小さなベンチマークデータセットで優れたパフォーマンスを達成し、データ効率と一般化性の観点から最近のオフラインRLアルゴリズムを著しく上回っている。 Offline reinforcement learning (RL) offers an appealing approach to real-world tasks by learning policies from pre-collected datasets without interacting with the environment. However, the performance of existing offline RL algorithms heavily depends on the scale and state-action space coverage of datasets. Real-world data collection is often expensive and uncontrollable, leading to small and narrowly covered datasets and posing significant challenges for practical deployments of offline RL. In this paper, we provide a new insight that leveraging the fundamental symmetry of system dynamics can substantially enhance offline RL performance under small datasets. Specifically, we propose a Time-reversal symmetry (T-symmetry) enforced Dynamics Model (TDM), which establishes consistency between a pair of forward and reverse latent dynamics. TDM provides both well-behaved representations for small datasets and a new reliability measure for OOD samples based on compliance with the T-symmetry. These can be readily used to construct a new offline RL algorithm (TSRL) with less conservative policy constraints and a reliable latent space data augmentation procedure. Based on extensive experiments, we find TSRL achieves great performance on small benchmark datasets with as few as 1% of the original samples, which significantly outperforms the recent offline RL algorithms in terms of data efficiency and generalizability.Code is available at: https://github.com/pcheng2/TSRL | 翻訳日:2023-11-14 21:25:26 公開日:2023-11-13 |
# 構造線形およびカーネル支援ベクトルマシンのための高速アルゴリズム Faster Algorithms for Structured Linear and Kernel Support Vector Machines ( http://arxiv.org/abs/2307.07735v2 ) ライセンス: Link先を確認 | Yuzhou Gu, Zhao Song, Lichen Zhang | (参考訳) 擬似プログラミングは凸プログラミングにおけるユビキタスなプロトタイプである。
グラフと機械学習の問題に対する多くの組合せ最適化は二次プログラミングとして定式化することができる。
線形およびカーネルSVMは、ディープラーニング時代以前の過去30年間、機械学習で最も人気のあるモデルである。
一般に、二次プログラムは$\theta(n^2)$の入力サイズを持ち、ここで$n$は変数の数である。
強い指数時間仮説(\textsf{seth}$)を仮定すると、o(n^{2-o(1)})$アルゴリズムは存在しないことが知られている(backurs, indyk, and schmidt, nips'17)。
しかし、svmのような問題は通常、入力サイズがかなり小さい: 1 には $n$ データポイントが与えられ、それぞれ $d$、$d \ll n$ が与えられる。
さらに、SVMは$O(1)$の線形制約を持つ変種である。
これは、プログラムが特定の基盤構造を示す場合、より高速なアルゴリズムが実現可能であることを示唆している。
本研究では,二次対象が木幅が小さい場合,あるいは低ランク因子化を許容する場合に,二次プログラムを解くための最初の近似時間アルゴリズムを設計し,線形制約の数を小さくする。
Consequently, we obtain a variety of results for SVMs: * For linear SVM, where the quadratic constraint matrix has treewidth $\tau$, we can solve the corresponding program in time $\widetilde O(n\tau^{(\omega+1)/2}\log(1/\epsilon))$; * For linear SVM, where the quadratic constraint matrix admits a low-rank factorization of rank-$k$, we can solve the corresponding program in time $\widetilde O(nk^{(\omega+1)/2}\log(1/\epsilon))$; * For Gaussian kernel SVM, where the data dimension $d = \Theta(\log n)$ and the squared dataset radius is small, we can solve it in time $O(n^{1+o(1)}\log(1/\epsilon))$.
また、二乗データセット半径が大きい場合、$\omega(n^{2-o(1)})$時間が必要であることも証明する。 Quadratic programming is a ubiquitous prototype in convex programming. Many combinatorial optimizations on graphs and machine learning problems can be formulated as quadratic programming; for example, Support Vector Machines (SVMs). Linear and kernel SVMs have been among the most popular models in machine learning over the past three decades, prior to the deep learning era. Generally, a quadratic program has an input size of $\Theta(n^2)$, where $n$ is the number of variables. Assuming the Strong Exponential Time Hypothesis ($\textsf{SETH}$), it is known that no $O(n^{2-o(1)})$ algorithm exists (Backurs, Indyk, and Schmidt, NIPS'17). However, problems such as SVMs usually feature much smaller input sizes: one is given $n$ data points, each of dimension $d$, with $d \ll n$. Furthermore, SVMs are variants with only $O(1)$ linear constraints. This suggests that faster algorithms are feasible, provided the program exhibits certain underlying structures. In this work, we design the first nearly-linear time algorithm for solving quadratic programs whenever the quadratic objective has small treewidth or admits a low-rank factorization, and the number of linear constraints is small. Consequently, we obtain a variety of results for SVMs: * For linear SVM, where the quadratic constraint matrix has treewidth $\tau$, we can solve the corresponding program in time $\widetilde O(n\tau^{(\omega+1)/2}\log(1/\epsilon))$; * For linear SVM, where the quadratic constraint matrix admits a low-rank factorization of rank-$k$, we can solve the corresponding program in time $\widetilde O(nk^{(\omega+1)/2}\log(1/\epsilon))$; * For Gaussian kernel SVM, where the data dimension $d = \Theta(\log n)$ and the squared dataset radius is small, we can solve it in time $O(n^{1+o(1)}\log(1/\epsilon))$. We also prove that when the squared dataset radius is large, then $\Omega(n^{2-o(1)})$ time is required. | 翻訳日:2023-11-14 21:18:25 公開日:2023-11-13 |
# no train no gain: トランスフォーマーベースの言語モデルのための効率的なトレーニングアルゴリズムの再検討 No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models ( http://arxiv.org/abs/2307.06440v3 ) ライセンス: Link先を確認 | Jean Kaddour, Oscar Key, Piotr Nawrot, Pasquale Minervini, Matt J. Kusner | (参考訳) トランスフォーマーベースの言語モデルのトレーニングに必要な計算量は近年急増している。
この傾向は、トレーニング、バリデーション、下流のパフォーマンスを標準トレーニングよりも高速に向上するために設計された効率的なトレーニングアルゴリズムの研究を動機付けている。
本研究では,動的アーキテクチャ (レイヤスタック,レイヤドロップ),バッチ選択 (選択バックプロップ,rho損失),効率的な最適化 (lion,sophia) という3つのカテゴリを再検討する。
このような手法を用いて, BERT と T5 を固定計算予算で事前学習すると, トレーニング, 検証, ダウンストリームのゲインが, 完全に遅延した学習率のベースラインに比べて消失することがわかった。
我々は,すべての計算時間を参照システム時間と呼ぶ参照マシンにマッピングすることにより,任意のマシン上での計算を可能にする評価プロトコルを定義する。
我々は提案するプロトコルの限界について議論し、効率的なトレーニング手順における厳密な研究を促進するためにコードをリリースした。 The computation necessary for training Transformer-based language models has skyrocketed in recent years. This trend has motivated research on efficient training algorithms designed to improve training, validation, and downstream performance faster than standard training. In this work, we revisit three categories of such algorithms: dynamic architectures (layer stacking, layer dropping), batch selection (selective backprop, RHO loss), and efficient optimizers (Lion, Sophia). When pre-training BERT and T5 with a fixed computation budget using such methods, we find that their training, validation, and downstream gains vanish compared to a baseline with a fully-decayed learning rate. We define an evaluation protocol that enables computation to be done on arbitrary machines by mapping all computation time to a reference machine which we call reference system time. We discuss the limitations of our proposed protocol and release our code to encourage rigorous research in efficient training procedures: https://github.com/JeanKaddour/NoTrainNoGain. | 翻訳日:2023-11-14 21:17:36 公開日:2023-11-13 |
# RLTF: ユニットテストフィードバックによる強化学習 RLTF: Reinforcement Learning from Unit Test Feedback ( http://arxiv.org/abs/2307.04349v2 ) ライセンス: Link先を確認 | Jiate Liu, Yiqin Zhu, Kaiwen Xiao, Qiang Fu, Xiao Han, Wei Yang, Deheng Ye | (参考訳) プログラム合成の目標は、与えられた記述に基づいて実行可能なコードを生成することである。
近年,コードのための大規模言語モデル(LLM)の性能向上のため,強化学習(RL)を用いた研究が増えている。
しかしながら、現在の代表的作業は、オフラインフレームワークのみに依存し、新しいサンプルスペースの探索を制限するか、コード内の特定のエラー位置を考慮せずに、単体テスト信号の利用に不足する。
これらの問題に対処するために、コードLLMの精製に多粒性の単体テストフィードバックを持つ新しいオンラインRLフレームワークであるReinforcement Learning from Unit Test Feedback(RLTF)を提案する。
提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
RLTFはAPPSとMBPPベンチマークで最先端のパフォーマンスを達成する。
私たちのコードは、https://github.com/Zyq-scut/RLTF.comで利用可能です。 The goal of program synthesis, or code generation, is to generate executable code based on given descriptions. Recently, there has been an increasing number of studies employing reinforcement learning (RL) to improve the performance of large language models (LLMs) for code. However, current representative works either rely solely on offline frameworks, limiting the exploration of new sample spaces, or fall short in the utilization of unit test signals, not accounting for specific error locations within the code. To address these issues, we propose RLTF, i.e., Reinforcement Learning from Unit Test Feedback, a novel online RL framework with unit test feedback of multi-granularity for refining code LLMs. Our approach generates data in real-time during training and simultaneously utilizes fine-grained feedback signals to guide the model towards producing higher-quality code. Extensive experiments show that RLTF achieves state-of-the-art performance on the APPS and the MBPP benchmarks. Our code is available at: https://github.com/Zyq-scut/RLTF. | 翻訳日:2023-11-14 21:17:17 公開日:2023-11-13 |
# 深い)学習に基づくマッチングアルゴリズムのためのベンチマークデータセットの批判的再評価 A Critical Re-evaluation of Benchmark Datasets for (Deep) Learning-Based Matching Algorithms ( http://arxiv.org/abs/2307.01231v2 ) ライセンス: Link先を確認 | George Papadakis, Nishadi Kirielle, Peter Christen, Themis Palpanas | (参考訳) エンティティ解決(ER)は、1つまたは複数のデータベースで同じエンティティを参照するレコードを識別するプロセスである。
近年、マッチングフェーズにおける機械学習とディープラーニングの手法に重点が置かれ、er課題に取り組むために多くの技術が開発されている。
しかし、学習に基づくマッチングアルゴリズムの実験的評価で一般的に用いられるベンチマークデータセットの品質は、文献では検討されていない。
このギャップを補うために,13の確立したデータセットの難易度と妥当性を評価するための4つの異なるアプローチを提案する。新しい線形性尺度と既存の複雑性尺度を含む2つの理論的アプローチと,最良の非線形と線形マッチングの違いと,最高の学習ベースのマッチングと完璧なオラクルの違いという,2つの実践的アプローチを提案する。
分析の結果、一般的なデータセットのほとんどが、かなり簡単に分類できることがわかった。
その結果、学習に基づくマッチングアルゴリズムを適切に評価するには適していない。
この問題に対処するため,ベンチマークデータセットを出力する新しい手法を提案する。
4つの新しいマッチングタスクを作成して実践し、これらの新しいベンチマークがより困難であり、それゆえこの分野のさらなる進歩に適していることを検証します。 Entity resolution (ER) is the process of identifying records that refer to the same entities within one or across multiple databases. Numerous techniques have been developed to tackle ER challenges over the years, with recent emphasis placed on machine and deep learning methods for the matching phase. However, the quality of the benchmark datasets typically used in the experimental evaluations of learning-based matching algorithms has not been examined in the literature. To cover this gap, we propose four different approaches to assessing the difficulty and appropriateness of 13 established datasets: two theoretical approaches, which involve new measures of linearity and existing measures of complexity, and two practical approaches: the difference between the best non-linear and linear matchers, as well as the difference between the best learning-based matcher and the perfect oracle. Our analysis demonstrates that most of the popular datasets pose rather easy classification tasks. As a result, they are not suitable for properly evaluating learning-based matching algorithms. To address this issue, we propose a new methodology for yielding benchmark datasets. We put it into practice by creating four new matching tasks, and we verify that these new benchmarks are more challenging and therefore more suitable for further advancements in the field. | 翻訳日:2023-11-14 21:14:59 公開日:2023-11-13 |
# ハニカム格子上の強結合2+1d su(2)格子ゲージ理論の量子シミュレーションのための単純ハミルトン Simple Hamiltonian for Quantum Simulation of Strongly Coupled 2+1D SU(2) Lattice Gauge Theory on a Honeycomb Lattice ( http://arxiv.org/abs/2307.00045v2 ) ライセンス: Link先を確認 | Berndt M\"uller and Xiaojun Yao | (参考訳) 電場表現が$j_{\rm max}=\frac{1}{2}$で切り離されたハニカム格子上の2+1$次元 SU(2)格子ゲージ理論の物理的状態を記述する単純なスピンハミルトンが見つかる。
単純なスピンハミルトニアンは、ガウスの法則は完全に統合されているにもかかわらず、パウリ行列の局所積のみを含む。 We find a simple spin Hamiltonian to describe physical states of $2+1$ dimensional SU(2) lattice gauge theory on a honeycomb lattice with a truncation of the electric field representation at $j_{\rm max}=\frac{1}{2}$. The simple spin Hamiltonian only contains local products of Pauli matrices, even though Gauss's law has been completely integrated out. | 翻訳日:2023-11-14 21:14:21 公開日:2023-11-13 |
# milli Flow:人間のモーションセンシングのためのミリ波レーダ点雲のシーンフロー推定 milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing ( http://arxiv.org/abs/2306.17010v3 ) ライセンス: Link先を確認 | Fangqiang Ding, Zhen Luo, Peijun Zhao, Chris Xiaoxuan Lu | (参考訳) ユビキタスコンピューティングの時代に近づいているヒューマンモーションセンシングは、意思決定、ユーザインタラクション、パーソナライズサービスといったスマートシステムにおいて重要な役割を果たす。
人間の追跡、ポーズ推定、ジェスチャー認識、行動認識に関する大規模な研究が行われ、従来の方法では主にカメラに基づく。
しかし、カメラの侵入性は、スマートホームアプリケーションでの使用を制限する。
これに対処するため、mmwaveレーダーはプライバシーに優しい機能のために人気を集めている。
本研究では,mmWave 点雲の相補的な動き情報として,シーンフロー推定のための新しい深層学習手法 MilliFlow を提案する。
実験の結果,平均3dエンドポイント誤差が4.6cmで,本手法の優れた性能を示すことができた。
さらに,シーンフロー情報を組み込むことにより,人間の行動認識,解析,身体部位追跡の大幅な改善を実現する。
この分野のさらなる研究を促進するため、受け入れ時にオープンアクセスするためのコードベースとデータセットを提供します。 Approaching the era of ubiquitous computing, human motion sensing plays a crucial role in smart systems for decision making, user interaction, and personalized services. Extensive research has been conducted on human tracking, pose estimation, gesture recognition, and activity recognition, which are predominantly based on cameras in traditional methods. However, the intrusive nature of cameras limits their use in smart home applications. To address this, mmWave radars have gained popularity due to their privacy-friendly features. In this work, we propose milliFlow, a novel deep learning method for scene flow estimation as a complementary motion information for mmWave point cloud, serving as an intermediate level of features and directly benefiting downstream human motion sensing tasks. Experimental results demonstrate the superior performance of our method with an average 3D endpoint error of 4.6cm, significantly surpassing the competing approaches. Furthermore, by incorporating scene flow information, we achieve remarkable improvements in human activity recognition, human parsing, and human body part tracking. To foster further research in this area, we will provide our codebase and dataset for open access upon acceptance. | 翻訳日:2023-11-14 21:14:02 公開日:2023-11-13 |
# Rydberg-atom 電子計の標準量子限界へのアプローチ Approaching the standard quantum limit of a Rydberg-atom microwave electrometer ( http://arxiv.org/abs/2307.15617v3 ) ライセンス: Link先を確認 | Hai-Tao Tu, Kai-Yu Liao, Guo-Dong He, Yi-Fei Zhu, Si-Yuan Qiu, Hao Jiang, Wei Huang, Wu Bian, Hui Yan, Shi-Liang Zhu | (参考訳) 極端限界に近づく固有の不確実性を持つマイクロ波電磁計の開発は、基本的および技術的に重要な意味を持つ。
近年、ライドバーグ・エレクトロメーターは、非常に感度が高く、小型で幅広い波長性のため、かなりの注目を集めている。
この特定の量子センサーは、低エントロピーレーザービームを使用して原子内部状態の乱れを検知し、古典的な熱雑音を回避している。
しかし、原子の熱運動のため、先進的なrydberg-atom電子電計は標準の量子限界を3桁以上も超えている。
本研究では、約5.2e5レーザー冷却原子を有する光学媒体を用いてヘテロダイン検出を行う。
様々なノイズを緩和し、リドベルク電気計のパラメータを戦略的に最適化することにより、100Hzの繰り返し速度で10.0 nV/cm/Hz^1/2の電場感度を達成し、標準量子限界の2.6倍、最小検出可能磁場の540 pV/cmに達する。
また,ノイズ機構の詳細な解析を行い,Rydberg-atom センサの性能向上のための最適パラメータを決定する。
我々の研究は、rydberg電計の固有容量と限界について洞察を与え、多くの応用において弱いマイクロ波信号の検出に優れた感度を提供する。 The development of a microwave electrometer with inherent uncertainty approaching its ultimate limit carries both fundamental and technological significance. Recently, the Rydberg electrometer has garnered considerable attention due to its exceptional sensitivity, small-size, and broad tunability. This specific quantum sensor utilizes low-entropy laser beams to detect disturbances in atomic internal states, thereby circumventing the intrinsic thermal noise encountered by its classical counterparts. However, due to the thermal motion of atoms, the advanced Rydberg-atom microwave electrometer falls considerably short of the standard quantum limit by over three orders of magnitude. In this study, we utilize an optically thin medium with approximately 5.2e5 laser-cooled atoms to implement heterodyne detection. By mitigating a variety of noises and strategically optimizing the parameters of the Rydberg electrometer, our study achieves an electric-field sensitivity of 10.0 nV/cm/Hz^1/2 at a 100 Hz repetition rate, reaching a factor of 2.6 above the standard quantum limit and a minimum detectable field of 540 pV/cm. We also provide an in-depth analysis of noise mechanisms and determine optimal parameters to bolster the performance of Rydberg-atom sensors. Our work provides insights into the inherent capacities and limitations of Rydberg electrometers, while offering superior sensitivity for detecting weak microwave signals in numerous applications. | 翻訳日:2023-11-14 21:05:47 公開日:2023-11-13 |
# autoalign: 大規模言語モデルによる完全自動的かつ効果的な知識グラフアライメント AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Language Models ( http://arxiv.org/abs/2307.11772v3 ) ライセンス: Link先を確認 | Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng, Jianzhong Qi | (参考訳) 知識グラフ(KG)間のエンティティアライメントのタスクは、同じエンティティを表す2つの異なるKGからすべてのエンティティを識別することを目的としている。
多くの機械学習に基づく手法が提案されている。
しかし、私たちの知る限りでは、既存の手法はすべて手作りのシードアライメントを必要とします。
本稿では,手作業によるシードアライメントを必要としないAutoAlignという,最初の完全自動アライメント手法を提案する。
具体的には、述語埋め込みのために、AutoAlignは2つのKGにわたる述語間の類似性を自動キャプチャするために、大きな言語モデルの助けを借りて述語-近性グラフを構築する。
エンティティ埋め込みでは、autoalignはまずtranseを使って各 kg のエンティティ埋め込みを独立に計算し、2つの kg のエンティティ埋め込みをその属性に基づいてエンティティ間の類似性を計算することによって同じベクトル空間にシフトする。
これにより、手動でシードアライメントを作成することなく、述語アライメントとエンティティアライメントの両方を行うことができる。
AutoAlignは完全に自動化されているだけでなく、非常に効果的だ。
実世界のkgsを用いた実験により、オートアランシングは最先端の手法に比べてエンティティアライメントの性能が大幅に向上することが示された。 The task of entity alignment between knowledge graphs (KGs) aims to identify every pair of entities from two different KGs that represent the same entity. Many machine learning-based methods have been proposed for this task. However, to our best knowledge, existing methods all require manually crafted seed alignments, which are expensive to obtain. In this paper, we propose the first fully automatic alignment method named AutoAlign, which does not require any manually crafted seed alignments. Specifically, for predicate embeddings, AutoAlign constructs a predicate-proximity-graph with the help of large language models to automatically capture the similarity between predicates across two KGs. For entity embeddings, AutoAlign first computes the entity embeddings of each KG independently using TransE, and then shifts the two KGs' entity embeddings into the same vector space by computing the similarity between entities based on their attributes. Thus, both predicate alignment and entity alignment can be done without manually crafted seed alignments. AutoAlign is not only fully automatic, but also highly effective. Experiments using real-world KGs show that AutoAlign improves the performance of entity alignment significantly compared to state-of-the-art methods. | 翻訳日:2023-11-14 21:03:53 公開日:2023-11-13 |
# PATROL: モデル反転攻撃に対する協調推論のためのプライバシ指向プルーニング PATROL: Privacy-Oriented Pruning for Collaborative Inference Against Model Inversion Attacks ( http://arxiv.org/abs/2307.10981v2 ) ライセンス: Link先を確認 | Shiwei Ding, Lan Zhang, Miao Pan, Xiaoyong Yuan | (参考訳) 協調推論(collaborative inference)は、最先端のディープニューラルネットワーク(dnn)を使用してリソース制約のあるエッジデバイスによる推論を可能にする、有望なソリューションである。
協調推論では、エッジデバイスはまず入力を部分dnnにローカルに供給し、その後中間結果をクラウドにアップロードして推論を完了させる。
しかし、近年の研究では、モデル反転攻撃(MIA)は中間結果から入力データを再構築し、協調推論に深刻なプライバシー上の懸念を呈している。
既存の摂動と暗号技術は、正確な推論を行いながらMIAに対する防御において非効率で信頼性が低い。
本稿では,プライバシ,効率性,協調推論の有用性のバランスをとるために,プライバシ指向のプルーニングを開発する。
PATROLは、DNNの後のレイヤがタスク固有の機能を抽出できるという事実を活用する。
協調推論のための限られたローカルリソースを前提として、PATROLは、推論のためのタスク固有の機能を強制し、プライバシ保護のためのタスク非関連だがセンシティブな機能を減らすために、プルーニング技術に基づいて、エッジにより多くのレイヤをデプロイする。
プライバシ指向のプルーニングを実現するために、parioはリプシッツ正則化と、miasの安定性を低下させることによる再構成エラーの増加と、敵のトレーニングによる目標推論モデルの拡張という2つの重要な構成要素を導入している。
実世界の協調推論タスクである車両再識別において,MIAに対するPATROLの優れた性能を示す。 Collaborative inference has been a promising solution to enable resource-constrained edge devices to perform inference using state-of-the-art deep neural networks (DNNs). In collaborative inference, the edge device first feeds the input to a partial DNN locally and then uploads the intermediate result to the cloud to complete the inference. However, recent research indicates model inversion attacks (MIAs) can reconstruct input data from intermediate results, posing serious privacy concerns for collaborative inference. Existing perturbation and cryptography techniques are inefficient and unreliable in defending against MIAs while performing accurate inference. This paper provides a viable solution, named PATROL, which develops privacy-oriented pruning to balance privacy, efficiency, and utility of collaborative inference. PATROL takes advantage of the fact that later layers in a DNN can extract more task-specific features. Given limited local resources for collaborative inference, PATROL intends to deploy more layers at the edge based on pruning techniques to enforce task-specific features for inference and reduce task-irrelevant but sensitive features for privacy preservation. To achieve privacy-oriented pruning, PATROL introduces two key components: Lipschitz regularization and adversarial reconstruction training, which increase the reconstruction errors by reducing the stability of MIAs and enhance the target inference model by adversarial training, respectively. On a real-world collaborative inference task, vehicle re-identification, we demonstrate the superior performance of PATROL in terms of against MIAs. | 翻訳日:2023-11-14 21:02:40 公開日:2023-11-13 |
# 人間と物体の相互作用検出のためのoccluded外挿によるマイニング条件部意味論 Mining Conditional Part Semantics with Occluded Extrapolation for Human-Object Interaction Detection ( http://arxiv.org/abs/2307.10499v2 ) ライセンス: Link先を確認 | Guangzhi Wang, Yangyang Guo, Mohan Kankanhalli | (参考訳) ヒューマン・オブジェクト間インタラクション検出は、人間中心のシーン理解において重要な側面であり、様々な領域で重要な応用がある。
この分野の最近の進歩にもかかわらず、微妙で詳細な相互作用の認識は依然として困難である。
既存の手法では、難易度を和らげるために人間関係の手がかりを使おうとするが、外部のアノテーションや知識に重きを置き、現実のシナリオで実用性を制限する。
本稿では,この問題を解決するための新しい部分意味ネットワーク(psn)を提案する。
PSNのコアは条件付き部分注意(Conditional Part Attention, CPA)メカニズムであり、人間の特徴をキーと値として取り、オブジェクト特徴をクロスアテンションメカニズムでの計算のクエリとして使用する。
このようにして、我々のモデルは、関係するオブジェクトに条件付けされた最も情報性の高い人間の部分に自動的に焦点を当てることを学び、相互作用認識のためのより意味的に意味のある特徴を生成する。
さらに,Occluded Part Extrapolation (OPE) 戦略を提案する。
V-COCOデータセットやHICO-DETデータセットに対して,外部データや追加アノテーションを使わずに,従来手法よりも常に優れています。
追加のアブレーション研究により,提案手法の各成分の有効性が検証された。 Human-Object Interaction Detection is a crucial aspect of human-centric scene understanding, with important applications in various domains. Despite recent progress in this field, recognizing subtle and detailed interactions remains challenging. Existing methods try to use human-related clues to alleviate the difficulty, but rely heavily on external annotations or knowledge, limiting their practical applicability in real-world scenarios. In this work, we propose a novel Part Semantic Network (PSN) to solve this problem. The core of PSN is a Conditional Part Attention (CPA) mechanism, where human features are taken as keys and values, and the object feature is used as query for the computation in a cross-attention mechanism. In this way, our model learns to automatically focus on the most informative human parts conditioned on the involved object, generating more semantically meaningful features for interaction recognition. Additionally, we propose an Occluded Part Extrapolation (OPE) strategy to facilitate interaction recognition under occluded scenarios, which teaches the model to extrapolate detailed features from partially occluded ones. Our method consistently outperforms prior approaches on the V-COCO and HICO-DET datasets, without external data or extra annotations. Additional ablation studies validate the effectiveness of each component of our proposed method. | 翻訳日:2023-11-14 21:02:10 公開日:2023-11-13 |
# 世界規模の生物多様性評価への一歩:BIOSCAN-1M昆虫データセット A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect Dataset ( http://arxiv.org/abs/2307.10455v3 ) ライセンス: Link先を確認 | Zahra Gharaee, ZeMing Gong, Nicholas Pellegrino, Iuliia Zarubiieva, Joakim Bruslund Haurum, Scott C. Lowe, Jaclyn T.A. McKeown, Chris C.Y. Ho, Joschka McLeod, Yi-Yun C Wei, Jireh Agda, Sujeevan Ratnasingham, Dirk Steinke, Angel X. Chang, Graham W. Taylor, Paul Fieguth | (参考訳) そこで本研究では,昆虫の生物多様性のカタログ化を目的として,昆虫画像の大規模データセットBIOSCAN-Insect Datasetを提案する。
各レコードは、専門家によって分類され、種分類のための遺伝子ベースのプロキシである生のヌクレオチドバーコード配列や割り当てられたバーコードインデックス番号を含む関連する遺伝情報も持っている。
本稿では,画像に基づく分類学的評価が可能なコンピュータビジョンモデルのトレーニングを主目的とする,百万画像データセットを提案する。
データセット固有の生物学的性質に基づいて、特徴的な長い尾を持つクラスバランス分布を示す。
さらに分類学的なラベリングは階層的な分類スキームであり、低いレベルで非常にきめ細かい分類問題を引き起こす。
機械学習コミュニティにおける生物多様性研究への関心の高まりに加え、画像に基づく分類器の作成の進展は、すべてのBIOSCAN研究の最終的な目標である、グローバルな生物多様性に関する総合的な調査の基盤を築き上げることになる。
本稿では,データセットを紹介し,ベースライン分類器の実装と解析を通じて分類タスクを検討する。 In an effort to catalog insect biodiversity, we propose a new large dataset of hand-labelled insect images, the BIOSCAN-Insect Dataset. Each record is taxonomically classified by an expert, and also has associated genetic information including raw nucleotide barcode sequences and assigned barcode index numbers, which are genetically-based proxies for species classification. This paper presents a curated million-image dataset, primarily to train computer-vision models capable of providing image-based taxonomic assessment, however, the dataset also presents compelling characteristics, the study of which would be of interest to the broader machine learning community. Driven by the biological nature inherent to the dataset, a characteristic long-tailed class-imbalance distribution is exhibited. Furthermore, taxonomic labelling is a hierarchical classification scheme, presenting a highly fine-grained classification problem at lower levels. Beyond spurring interest in biodiversity research within the machine learning community, progress on creating an image-based taxonomic classifier will also further the ultimate goal of all BIOSCAN research: to lay the foundation for a comprehensive survey of global biodiversity. This paper introduces the dataset and explores the classification task through the implementation and analysis of a baseline classifier. | 翻訳日:2023-11-14 21:01:45 公開日:2023-11-13 |
# FedBug:フェデレーションラーニングのためのボトムアップな段階的凍結フレームワーク FedBug: A Bottom-Up Gradual Unfreezing Framework for Federated Learning ( http://arxiv.org/abs/2307.10317v2 ) ライセンス: Link先を確認 | Chia-Hsiang Kao, Yu-Chiang Frank Wang | (参考訳) federated learning(fl)は、データプライバシを損なうことなく、複数のクライアントが共有モデルにコントリビュートできる、コラボレーティブなトレーニングフレームワークを提供する。
ローカルデータセットの異種性のため、更新されたクライアントモデルは、クライアントドリフト問題として知られる、相互に過剰に適合し、分岐する可能性がある。
本稿では,FedBug (Federated Learning with Bottom-Up Gradual Unfreezing)を提案する。
fedbugは、クライアント間のアライメントの参照ポイントとして、グローバルラウンド毎にサーバが配布するクライアントモデルパラメータを適応的に活用する。
具体的には、クライアント側では、FedBugはモデル全体を凍結してから始まり、徐々にレイヤを、入力層から出力層へと凍結させます。
このボトムアップアプローチにより、モデルは新しく解凍した層を訓練してデータを潜在空間に投影することができる。
我々はFedBugを新しいパラメータ化FLセットアップで理論的に解析し、FedAvgよりも優れた収束率を示す。
さまざまなデータセット、トレーニング条件、ネットワークアーキテクチャにまたがる包括的な実験を通じて、FedBugの有効性を検証する。
提案するコントリビューションには,新たなFLフレームワーク,理論解析,実証検証などが含まれ,FedBugの幅広い可能性と適用性を示す。 Federated Learning (FL) offers a collaborative training framework, allowing multiple clients to contribute to a shared model without compromising data privacy. Due to the heterogeneous nature of local datasets, updated client models may overfit and diverge from one another, commonly known as the problem of client drift. In this paper, we propose FedBug (Federated Learning with Bottom-Up Gradual Unfreezing), a novel FL framework designed to effectively mitigate client drift. FedBug adaptively leverages the client model parameters, distributed by the server at each global round, as the reference points for cross-client alignment. Specifically, on the client side, FedBug begins by freezing the entire model, then gradually unfreezes the layers, from the input layer to the output layer. This bottom-up approach allows models to train the newly thawed layers to project data into a latent space, wherein the separating hyperplanes remain consistent across all clients. We theoretically analyze FedBug in a novel over-parameterization FL setup, revealing its superior convergence rate compared to FedAvg. Through comprehensive experiments, spanning various datasets, training conditions, and network architectures, we validate the efficacy of FedBug. Our contributions encompass a novel FL framework, theoretical analysis, and empirical validation, demonstrating the wide potential and applicability of FedBug. | 翻訳日:2023-11-14 21:01:23 公開日:2023-11-13 |
# 線形モード接続性を超えて行く:階層的線形特徴接続性 Going Beyond Linear Mode Connectivity: The Layerwise Linear Feature Connectivity ( http://arxiv.org/abs/2307.08286v2 ) ライセンス: Link先を確認 | Zhanpeng Zhou, Yongyi Yang, Xiaojiang Yang, Junchi Yan, Wei Hu | (参考訳) 最近の研究は、十分に理解されておらず、非常に複雑な損失の風景とトレーニングのダイナミクスにもかかわらず、ニューラルネットワークトレーニングにおいて興味深い経験的現象を数多く明らかにしている。
これらの現象の1つであるリニアモード接続(lmc)は、パラメータ空間内の線形経路によって異なる解が接続できるという興味深い観察により、ほぼ安定なトレーニングとテスト損失を維持しながら、かなりの注目を集めている。
本研究では,異なるネットワーク内の各層の特徴マップが線形連結であることを示す,リニア接続のより強固な概念であるレイヤワイズリニア特徴接続(llfc)を導入する。
LLFCの総合的な実証的証拠として,2つの訓練されたネットワークがLCCを満たす場合(生成法と置換法のいずれか)に,LLFCをほぼすべての層で満たすことを示す。
さらに, LLFCに寄与する要因を深く掘り下げ, 発芽と置換のアプローチに関する新たな知見を明らかにした。
LLFCの超越についての研究は,特徴学習の視点を取り入れることでLCCの理解を深める。 Recent work has revealed many intriguing empirical phenomena in neural network training, despite the poorly understood and highly complex loss landscapes and training dynamics. One of these phenomena, Linear Mode Connectivity (LMC), has gained considerable attention due to the intriguing observation that different solutions can be connected by a linear path in the parameter space while maintaining near-constant training and test losses. In this work, we introduce a stronger notion of linear connectivity, Layerwise Linear Feature Connectivity (LLFC), which says that the feature maps of every layer in different trained networks are also linearly connected. We provide comprehensive empirical evidence for LLFC across a wide range of settings, demonstrating that whenever two trained networks satisfy LMC (via either spawning or permutation methods), they also satisfy LLFC in nearly all the layers. Furthermore, we delve deeper into the underlying factors contributing to LLFC, which reveal new insights into the spawning and permutation approaches. The study of LLFC transcends and advances our understanding of LMC by adopting a feature-learning perspective. | 翻訳日:2023-11-14 21:00:32 公開日:2023-11-13 |
# アクティベーションの追加: 最適化なしのステアリング言語モデル Activation Addition: Steering Language Models Without Optimization ( http://arxiv.org/abs/2308.10248v3 ) ライセンス: Link先を確認 | Alexander Matt Turner, Lisa Thiergart, David Udell, Gavin Leech, Ulisse Mini, Monte MacDiarmid | (参考訳) 大きな言語モデルの振舞いを確実に制御することは、差し迫ったオープン問題である。
既存の方法には、教師付き微調整、人間フィードバックからの強化学習、迅速なエンジニアリング、ガイド付きデコードなどがある。
モデル動作を予測可能に変更するために、推論時にアクティベーションを変更する。
我々は自然言語によって暗黙的に指定される「ステアリングベクトル」でフォワードパスをバイアスする。
私たちのアクティベーション付加(actadd)メソッドは、代わりに、プロンプトのペアから生じるアクティベーションの違いを取り込んで、それらを計算します。
我々は OpenWebText と ConceptNet 上の GPT-2 上の ActAdd を実証し、Llama-13B と GPT-J-6B への影響を再現する。
提案手法は,高レベルな出力特性を推論時間で制御し,オフターゲットトピックのパフォーマンスを保存する。
このメソッドは、ユーザによる自然言語仕様を可能にする微調整やrlhfよりも計算と実装の労力がはるかに少なく、オーバーヘッドはモデルサイズに合わせて自然にスケールする。 Reliably controlling the behavior of large language models is a pressing open problem. Existing methods include supervised finetuning, reinforcement learning from human feedback, prompt engineering and guided decoding. We instead investigate activation engineering: modifying activations at inference-time to predictably alter model behavior. We bias the forward pass with a 'steering vector' implicitly specified through natural language. Past work learned these steering vectors; our Activation Addition (ActAdd) method instead computes them by taking the activation differences which result from pairs of prompts. We demonstrate ActAdd on GPT-2 on OpenWebText and ConceptNet, and replicate the effect on Llama-13B and GPT-J-6B. Our approach yields inference-time control over high-level properties of output & preserves performance on off-target topics. The method requires far less compute and implementation effort than finetuning and RLHF, allows for natural language specification by users, and its overhead scales naturally with model size. | 翻訳日:2023-11-14 20:52:41 公開日:2023-11-13 |
# AESEを用いたレーザー非接触イオンエンタングルゲート:スピンモーションエンタングルメントの断熱的除去 Laser-free trapped ion entangling gates with AESE: Adiabatic Elimination of Spin-motion Entanglement ( http://arxiv.org/abs/2308.05865v2 ) ライセンス: Link先を確認 | R. Tyler Sutherland and M. Foss-Feig | (参考訳) 本稿では, レーザーフリー2量子位相ゲートによる2つのイオン間の高忠実な絡み合いの生成について論じる。
このスキームは、ゲートのデチューニングに対して、スピン依存力のオン・オフを緩やかに促進することで動作し、スピン運動の絡み合い(aese)を断定的に排除する。
AESEで実行されるゲートは、制御フィールドの変形を特に調整することなく、複数のモードでスピンモーションの絡み合いを同時に解消できることを示す。
これは、最適化された制御シーケンスを設計するのではなく、一定のパラメトリック限界で制御フィールドを操作することでスピン運動の絡み合いが抑制されるためである。
また,電子的または強磁性磁場勾配を用いた物理実装についても論じる。
後者では,磁場非感応状態からゲートモード周波数に比例して緩やかに磁界感応状態へシェルビングすることで,そのスピン依存力を円滑にオンにすることで,システム「AESE」を実現する方法を示す。
Rabi や adiabatic rapid passage transition でこれを行う方法を示す。
最後に, AESEを用いたゲーティングにより, 共通の運動脱コヒーレンス源に対するゲートの感度が著しく低下し, ドップラー温度での高忠実度ゲートの実行が容易になることを示す。 We discuss a laser-free, two-qubit geometric phase gate technique for generating high-fidelity entanglement between two trapped ions. The scheme works by ramping the spin-dependent force on and off slowly relative to the gate detunings, which adiabatically eliminates the spin-motion entanglement (AESE). We show how gates performed with AESE can eliminate spin-motion entanglement with multiple modes simultaneously, without having to specifically tune the control field detunings. This is because the spin-motion entanglement is suppressed by operating the control fields in a certain parametric limit, rather than by engineering an optimized control sequence. We also discuss physical implementations that use either electronic or ferromagnetic magnetic field gradients. In the latter, we show how to ``AESE" the system by smoothly turning on the \textit{effective} spin-dependent force by shelving from a magnetic field insensitive state to a magnetic field sensitive state slowly relative to the gate mode frequencies. We show how to do this with a Rabi or adiabatic rapid passage transition. Finally, we show how gating with AESE significantly decreases the gate's sensitivity to common sources of motional decoherence, making it easier to perform high-fidelity gates at Doppler temperatures. | 翻訳日:2023-11-14 20:51:29 公開日:2023-11-13 |
# 環状トラップにおけるポラリトン超流動の量子ビットアナログ Qubit Analog with Polariton Superfluid in an Annular Trap ( http://arxiv.org/abs/2308.05555v2 ) ライセンス: Link先を確認 | J. Barrat, A. F. Tzortzakakis, M. Niu, X. Zhou, G.G. Paschos, D. Petrosyan, P.G. Savvidis | (参考訳) 半導体エキシトンポラリトンを用いた量子ビットアナログの実験と評価について報告する。
本システムでは、エキシトン-ポラリトン凝縮体を、ポラリトン超流動のエネルギー縮退循環電流を支える環状トラップ内に空間パターンのポンプレーザーで閉じ込める。
時間的干渉測定を用いて,レーザー印加電位から弾性散乱を伴い,一対の偏光子対流超流動渦状態間のコヒーレント振動を観測した。
クビット基底状態は、直交双曲空間波動関数を形成する2つの渦状態の対称的および反対称的重ね合わせに対応する。
ポテンシャルをエンジニアリングすることで、2つの循環電流状態間の結合とコヒーレント振動を調整し、キュービット基底状態のエネルギーを制御し、キュービットを所望の状態に初期化する。
理論的二状態モデルによりシステムの力学を正確に再現し、偏光量子ビットを完全に制御し、そのような量子ビット間の制御可能な相互作用を実現し、量子ゲートと標準量子ビットの量子計算に類似したアルゴリズムを実装する。 We report on the experimental realization and characterization of a qubit analog with semiconductor exciton-polaritons. In our system, a condensate of exciton-polaritons is confined by a spatially-patterned pump laser in an annular trap that supports energy-degenerate circulating currents of the polariton superfluid. Using temporal interference measurements, we observe coherent oscillations between a pair of counter-circulating superfluid vortex states of the polaritons coupled by elastic scattering off the laser-imprinted potential. The qubit basis states correspond to the symmetric and antisymmetric superpositions of the two vortex states forming orthogonal double-lobe spatial wavefunctions. By engineering the potential, we tune the coupling and coherent oscillations between the two circulating current states, control the energies of the qubit basis states, and initialize the qubit in the desired state. The dynamics of the system is accurately reproduced by our theoretical two-state model, and we discuss potential avenues to achieve complete control over our polaritonic qubits and realize controllable interactions between such qubits to implement quantum gates and algorithms analogous to quantum computation with standard qubits. | 翻訳日:2023-11-14 20:51:02 公開日:2023-11-13 |
# 電気市場における価格対応型ディープラーニング Price-Aware Deep Learning for Electricity Markets ( http://arxiv.org/abs/2308.01436v2 ) ライセンス: Link先を確認 | Vladimir Dvorkin and Ferdinando Fioretto | (参考訳) ディープラーニングは徐々に運用計画に浸透するが、その固有の予測エラーは電力価格に大きな影響を及ぼす可能性がある。
本稿では, 電力価格の予測誤差が電気価格にどのように伝播するかを考察し, 集電系統における価格誤差と空間格差を明らかにする。
公平性を向上させるため,深層学習層としての電力市場浄化最適化を提案する。
このレイヤを差別化することで、予測エラーと価格エラーのバランスをとることができる。
この層は暗黙的にフェアネスを最適化し、システム全体の価格誤差の空間分布を制御する。
我々は、風力予測と短期電力市場クリアリングの段階において、価格を意識したディープラーニングを披露する。 While deep learning gradually penetrates operational planning, its inherent prediction errors may significantly affect electricity prices. This letter examines how prediction errors propagate into electricity prices, revealing notable pricing errors and their spatial disparity in congested power systems. To improve fairness, we propose to embed electricity market-clearing optimization as a deep learning layer. Differentiating through this layer allows for balancing between prediction and pricing errors, as oppose to minimizing prediction errors alone. This layer implicitly optimizes fairness and controls the spatial distribution of price errors across the system. We showcase the price-aware deep learning in the nexus of wind power forecasting and short-term electricity market clearing. | 翻訳日:2023-11-14 20:50:03 公開日:2023-11-13 |
# 生成言語モデルを用いたニューラルマシン翻訳のためのデータ拡張 Data Augmentation for Neural Machine Translation using Generative Language Model ( http://arxiv.org/abs/2307.16833v2 ) ライセンス: Link先を確認 | Seokjin Oh, Su Ah Lee and Woohwan Jung | (参考訳) モデルアーキテクチャの急速な成長にもかかわらず、大きな並列コーパスの不足はニューラルマシン翻訳の主要なボトルネックである。
データ拡張(Data augmentation)は、新しいデータを集める代わりに合成データを生成することによって、データハングリーモデルの性能を向上させる技術である。
chatgptのような大規模言語モデルを活用したプロンプトベースのデータ拡張手法について検討する。
合成並列コーパスを作成するために,異なるプロンプトを用いて3つの手法を比較する。
生成した合成データの多様性を測定するために2つの評価指標を用いる。
このアプローチは、バックトランスレーションのような他の拡張メソッドで必須となる、さらなるモデルトレーニングコストを必要としない。
提案手法では, ベースラインを0.68 bleuスコアで改善する。 Despite the rapid growth in model architecture, the scarcity of large parallel corpora remains the main bottleneck in Neural Machine Translation. Data augmentation is a technique that enhances the performance of data-hungry models by generating synthetic data instead of collecting new ones. We explore prompt-based data augmentation approaches that leverage large-scale language models such as ChatGPT. To create a synthetic parallel corpus, we compare 3 methods using different prompts. We employ two assessment metrics to measure the diversity of the generated synthetic data. This approach requires no further model training cost, which is mandatory in other augmentation methods like back-translation. The proposed method improves the unaugmented baseline by 0.68 BLEU score. | 翻訳日:2023-11-14 20:49:24 公開日:2023-11-13 |
# echoes beyond points:マルチモダリティ融合における生のレーダーデータのパワーを解き放つ Echoes Beyond Points: Unleashing the Power of Raw Radar Data in Multi-modality Fusion ( http://arxiv.org/abs/2307.16532v2 ) ライセンス: Link先を確認 | Yang Liu, Feng Wang, Naiyan Wang, Zhaoxiang Zhang | (参考訳) Radarは、低コストで悪天候に適応できるため、自動運転システムではユビキタスである。
それでも、レーダー検出性能は、点雲が狭く、方位や高度の解像度が低いため正確ではないため、通常劣っている。
さらに、点雲生成アルゴリズムは、深層融合の使用に最適な偽ターゲットを減らすために、既に弱い信号を落としている。
本稿では,既存のレーダ信号処理パイプラインをスキップし,レーダ生データを他のセンサに組み込む,エコーフュージョンという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
提案手法は,レーダエコーからのリッチ・ロスレス距離と速度手がかりと画像からのリッチ・セマンティック手がかりの両方を利用して,RADIalデータセット上の既存手法を全て越え,LiDARの性能にアプローチすることができる。
コードはhttps://github.com/tusen-ai/EchoFusion.comでリリースされる。 Radar is ubiquitous in autonomous driving systems due to its low cost and good adaptability to bad weather. Nevertheless, the radar detection performance is usually inferior because its point cloud is sparse and not accurate due to the poor azimuth and elevation resolution. Moreover, point cloud generation algorithms already drop weak signals to reduce the false targets which may be suboptimal for the use of deep fusion. In this paper, we propose a novel method named EchoFusion to skip the existing radar signal processing pipeline and then incorporate the radar raw data with other sensors. Specifically, we first generate the Bird's Eye View (BEV) queries and then take corresponding spectrum features from radar to fuse with other sensors. By this approach, our method could utilize both rich and lossless distance and speed clues from radar echoes and rich semantic clues from images, making our method surpass all existing methods on the RADIal dataset, and approach the performance of LiDAR. The code will be released on https://github.com/tusen-ai/EchoFusion. | 翻訳日:2023-11-14 20:49:12 公開日:2023-11-13 |
# odtlearn: 予測と処方のための最適決定木を学ぶためのパッケージ ODTlearn: A Package for Learning Optimal Decision Trees for Prediction and Prescription ( http://arxiv.org/abs/2307.15691v2 ) ライセンス: Link先を確認 | Patrick Vossler, Sina Aghaei, Nathan Justin, Nathanael Jo, Andr\'es G\'omez, Phebe Vayanos | (参考訳) odtlearnはオープンソースのpythonパッケージで、aghaei et al.(2019)で提案されているmixed-integer optimization(mio)フレームワークといくつかの拡張に基づいて、高度な予測および規範タスクのための最適な決定木を学ぶ方法を提供する。
現在のバージョンでは、最適分類木、最適フェア分類木、分布シフトに頑健な最適分類木、観測データから最適規範木を学ぶための実装を提供している。
我々は,新しい最適決定木問題クラス,再構成戦略,解法アルゴリズムの導入により,メンテナンスや拡張が容易になるようにパッケージを設計した。
この目的のために、パッケージはオブジェクト指向の設計原則に従い、商用(Gurobi)とオープンソース(COIN-ORブランチとカット)の2つをサポートする。
パッケージドキュメンテーションと広範なユーザーガイドはhttps://d3m-research-group.github.io/odtlearn/にある。
さらに、ユーザはパッケージのソースコードを閲覧し、https://github.com/d3m-research-group/odtlearn.comを訪問することで機能要求やバグレポートを送信できる。 ODTLearn is an open-source Python package that provides methods for learning optimal decision trees for high-stakes predictive and prescriptive tasks based on the mixed-integer optimization (MIO) framework proposed in Aghaei et al. (2019) and several of its extensions. The current version of the package provides implementations for learning optimal classification trees, optimal fair classification trees, optimal classification trees robust to distribution shifts, and optimal prescriptive trees from observational data. We have designed the package to be easy to maintain and extend as new optimal decision tree problem classes, reformulation strategies, and solution algorithms are introduced. To this end, the package follows object-oriented design principles and supports both commercial (Gurobi) and open source (COIN-OR branch and cut) solvers. The package documentation and an extensive user guide can be found at https://d3m-research-group.github.io/odtlearn/. Additionally, users can view the package source code and submit feature requests and bug reports by visiting https://github.com/D3M-Research-Group/odtlearn. | 翻訳日:2023-11-14 20:48:38 公開日:2023-11-13 |
# SpikingNeRF:バイオインスパイアされたニューラルネットワークを現実世界で見る SpikingNeRF: Making Bio-inspired Neural Networks See through the Real World ( http://arxiv.org/abs/2309.10987v3 ) ライセンス: Link先を確認 | Xingting Yao, Qinghao Hu, Tielong Liu, Zitao Mo, Zeyu Zhu, Zhengyang Zhuge, Jian Cheng | (参考訳) スパイキングニューラルネットワーク(SNN)は、その有望なエネルギー効率を活用し、生物学的に妥当な知性としてその可能性を活用するために、数多くのタスクに取り組んできた。
一方、Neural Radiance Fields(NeRF)は、大量のエネルギーを消費する高品質な3Dシーンをレンダリングするが、バイオインスパイアされたアプローチで省エネソリューションを掘り下げる作業はほとんどない。
本稿では,放射光線をsnnの時間次元と整合させ,snnを放射場の再構成に自然に適応させるspikingnerfを提案する。
したがって、計算はスパイクベースで乗算のない方法に変わり、エネルギー消費を減少させる。
SpikingNeRFでは、光線上の各サンプリング点が特定の時間ステップに一致し、ボクセルグリッドも維持されるハイブリッドな方法で表現される。
ボクセルグリッドに基づいて、よりよいトレーニングと推論のためにマスキングするかどうかのサンプルポイントが決定される。
しかし、この操作には不規則な時間的長さも伴う。
本稿では,正則テンソルのような正則時間長を維持するためにマスキング試料に取り組むための時間的パディング戦略と,ハードウェアフレンドリーな計算のための密度の高いデータ構造を形成する時間的凝縮戦略を提案する。
各種データセットに対する大規模な実験により,本手法は平均70.79%のエネルギー消費を削減し,ANNベースラインと同等の合成品質が得られることが示された。 Spiking neural networks (SNNs) have been thriving on numerous tasks to leverage their promising energy efficiency and exploit their potentialities as biologically plausible intelligence. Meanwhile, the Neural Radiance Fields (NeRF) render high-quality 3D scenes with massive energy consumption, but few works delve into the energy-saving solution with a bio-inspired approach. In this paper, we propose SpikingNeRF, which aligns the radiance ray with the temporal dimension of SNN, to naturally accommodate the SNN to the reconstruction of Radiance Fields. Thus, the computation turns into a spike-based, multiplication-free manner, reducing the energy consumption. In SpikingNeRF, each sampled point on the ray is matched onto a particular time step, and represented in a hybrid manner where the voxel grids are maintained as well. Based on the voxel grids, sampled points are determined whether to be masked for better training and inference. However, this operation also incurs irregular temporal length. We propose the temporal padding strategy to tackle the masked samples to maintain regular temporal length, i.e., regular tensors, and the temporal condensing strategy to form a denser data structure for hardware-friendly computation. Extensive experiments on various datasets demonstrate that our method reduces the 70.79% energy consumption on average and obtains comparable synthesis quality with the ANN baseline. | 翻訳日:2023-11-14 20:41:30 公開日:2023-11-13 |
# アノテーションの少ないグループロバスト性のためのラストレイヤリトレーニングに向けて Towards Last-layer Retraining for Group Robustness with Fewer Annotations ( http://arxiv.org/abs/2309.08534v2 ) ライセンス: Link先を確認 | Tyler LaBonte, Vidya Muthukumar, Abhishek Kumar | (参考訳) ニューラルネットワークの経験的リスク最小化(ERM)は、急激な相関と少数集団の一般化の低さに過度に依存する傾向がある。
最近のdeep feature reweighting(dfr)テクニックは、単純なラストレイヤリトレーニングによって最先端のグループロバスト性を実現しているが、グループバランスのリウェイトデータセットを構築するには、ホールドアウトグループとクラスアノテーションが必要である。
本研究では,この非現実的要件を検証し,グループアノテーション(モデル選択以外のもの)や少数のクラスアノテーションを使わずに,最終層再学習が驚くほど効果的であることを示す。
まず,ラスト層リトレーニングによって,再重み付けデータセットが最悪のグループデータの割合が少ない場合にも,最悪のグループ精度が大幅に向上することを示す。
これは、トレーニングデータのサブセットを保持して最後のレイヤを再トレーニングする"フリーランチ"を意味し、追加のデータやアノテーションなしでデータセット全体のEMMを大幅に上回る。
グループロバスト性をさらに向上するために,不一致や誤分類を用いてデータセットの再重み付けを行う,選択的ラストレイヤーファインチューニング(self)と呼ばれる軽量な手法を導入する。
我々の経験的および理論的結果は、モデル不一致が最悪のグループデータを増幅する最初の証拠を示し、SELFはグループアノテーションなしで、グループアノテーションの3%以下で、視覚と言語タスクの4つの確立されたベンチマークでDFRにほぼ一致する。
私たちのコードはhttps://github.com/tmlabonte/last-layer-retrainingで利用可能です。 Empirical risk minimization (ERM) of neural networks is prone to over-reliance on spurious correlations and poor generalization on minority groups. The recent deep feature reweighting (DFR) technique achieves state-of-the-art group robustness via simple last-layer retraining, but it requires held-out group and class annotations to construct a group-balanced reweighting dataset. In this work, we examine this impractical requirement and find that last-layer retraining can be surprisingly effective with no group annotations (other than for model selection) and only a handful of class annotations. We first show that last-layer retraining can greatly improve worst-group accuracy even when the reweighting dataset has only a small proportion of worst-group data. This implies a "free lunch" where holding out a subset of training data to retrain the last layer can substantially outperform ERM on the entire dataset with no additional data or annotations. To further improve group robustness, we introduce a lightweight method called selective last-layer finetuning (SELF), which constructs the reweighting dataset using misclassifications or disagreements. Our empirical and theoretical results present the first evidence that model disagreement upsamples worst-group data, enabling SELF to nearly match DFR on four well-established benchmarks across vision and language tasks with no group annotations and less than 3% of the held-out class annotations. Our code is available at https://github.com/tmlabonte/last-layer-retraining. | 翻訳日:2023-11-14 20:40:28 公開日:2023-11-13 |
# SAM3D: ボリューム医療画像におけるセグメンテーションモデル SAM3D: Segment Anything Model in Volumetric Medical Images ( http://arxiv.org/abs/2309.03493v2 ) ライセンス: Link先を確認 | Nhat-Tan Bui and Dinh-Hieu Hoang and Minh-Triet Tran and Gianfranco Doretto and Donald Adjeroh and Brijesh Patel and Arabinda Choudhary and Ngan Le | (参考訳) 画像セグメンテーションは医用画像解析において重要な要素であり、正確な診断のための重要な情報の抽出を支援する。
深層学習の出現により、画像の自動分割手法が隆盛し、医療画像の処理において異常な熟練度を示している。
Segment Anything Model (SAM) による動機付け - 2次元の自然画像のセグメンテーションにおける顕著な精度と堅牢な一般化能力で有名な基礎モデルである。
我々のSAM3Dモデルは、ボリュームを個別に2次元スライスに変換することでボリュームデータを分割する現在のSAMベース手法とは異なり、統一的なアプローチで全3次元ボリューム画像を処理する。
複数の医用画像データセットを用いて大規模な実験を行い, パラメータの面では極めて効率的でありながら, 従来の3次元医用セグメンテーションの手法と比較して, ネットワークが競争力を発揮することを示した。
コードとチェックポイントはhttps://github.com/UARK-AICV/SAM3Dで入手できる。 Image segmentation remains a pivotal component in medical image analysis, aiding in the extraction of critical information for precise diagnostic practices. With the advent of deep learning, automated image segmentation methods have risen to prominence, showcasing exceptional proficiency in processing medical imagery. Motivated by the Segment Anything Model (SAM)-a foundational model renowned for its remarkable precision and robust generalization capabilities in segmenting 2D natural images-we introduce SAM3D, an innovative adaptation tailored for 3D volumetric medical image analysis. Unlike current SAM-based methods that segment volumetric data by converting the volume into separate 2D slices for individual analysis, our SAM3D model processes the entire 3D volume image in a unified approach. Extensive experiments are conducted on multiple medical image datasets to demonstrate that our network attains competitive results compared with other state-of-the-art methods in 3D medical segmentation tasks while being significantly efficient in terms of parameters. Code and checkpoints are available at https://github.com/UARK-AICV/SAM3D. | 翻訳日:2023-11-14 20:39:59 公開日:2023-11-13 |
# slime: 私のようなセグメント SLiMe: Segment Like Me ( http://arxiv.org/abs/2309.03179v3 ) ライセンス: Link先を確認 | Aliasghar Khani, Saeid Asgari Taghanaki, Aditya Sanghi, Ali Mahdavi Amiri, Ghassan Hamarneh | (参考訳) 画像編集、画像対応、および3d形状生成を含む様々な下流タスクのために、stable diffusion (sd) のような大きな視覚言語モデルを使用して大きな進歩を遂げた。
これらの進歩に触発されて、SLiMeを提案することで1つの注釈付きサンプルを用いて、任意の粒度で画像のセグメンテーションにこれらの広範囲な視覚言語モデルを活用することを検討する。
SLiMeはこの問題を最適化タスクとして捉えている。
具体的には,1枚のトレーニング画像とそのセグメンテーションマスクから,SD前の「重み付き累積自己注意マップ」を含む注意マップを抽出する。
そして、抽出した注目マップを用いて、安定拡散のテキスト埋め込みを最適化し、トレーニング画像からそれぞれ1つのセグメント化された領域について学習する。
これらの学習された埋め込みはアテンションマップのセグメンテーション領域を強調し、それによってセグメンテーションマップを導出することができる。
これにより、SLiMeはトレーニングイメージ内のセグメント化された領域の粒度の推論中に、たった1つの例を使って、現実世界の画像をセグメント化できる。
さらに、利用可能な追加のトレーニングデータ、すなわち数ショットを活用することで、SLiMeのパフォーマンスが向上する。
各種設計因子について知識に富んだ実験を行い,スライムは他のワンショットおよびマイナショットセグメンテーション法よりも優れていることを示した。 Significant strides have been made using large vision-language models, like Stable Diffusion (SD), for a variety of downstream tasks, including image editing, image correspondence, and 3D shape generation. Inspired by these advancements, we explore leveraging these extensive vision-language models for segmenting images at any desired granularity using as few as one annotated sample by proposing SLiMe. SLiMe frames this problem as an optimization task. Specifically, given a single training image and its segmentation mask, we first extract attention maps, including our novel "weighted accumulated self-attention map" from the SD prior. Then, using the extracted attention maps, the text embeddings of Stable Diffusion are optimized such that, each of them, learn about a single segmented region from the training image. These learned embeddings then highlight the segmented region in the attention maps, which in turn can then be used to derive the segmentation map. This enables SLiMe to segment any real-world image during inference with the granularity of the segmented region in the training image, using just one example. Moreover, leveraging additional training data when available, i.e. few-shot, improves the performance of SLiMe. We carried out a knowledge-rich set of experiments examining various design factors and showed that SLiMe outperforms other existing one-shot and few-shot segmentation methods. | 翻訳日:2023-11-14 20:39:26 公開日:2023-11-13 |
# 電子光学フォトニック集積回路の基本電荷ノイズ Fundamental charge noise in electro-optic photonic integrated circuits ( http://arxiv.org/abs/2308.15404v2 ) ライセンス: Link先を確認 | Junyin Zhang, Zihan Li, Johann Riemensberger, Grigory Lihachev, Guanhao Huang, Tobias J. Kippenberg | (参考訳) 熱力学的測定ノイズを理解することは、電荷キャリアのブラウン運動が限界を呈するマスファブリケート半導体センサからの熱的および光学的精度測定において重要なものであり、屈折率と長さ変動への温度変動の伝達による熱屈折性および熱弾性ノイズによって制限される原子時計の光学的基準空洞や重力波検出までである。
本研究では,最近出現した電気光学フォトニック集積回路において,不意に帯電したキャリア密度のゆらぎが新たなノイズ過程を引き起こすことを見出した。
ニオブ酸リチウムとタンタル酸リチウムのマイクロ共振体は、そのノイズ特性に予期せぬスケール(すなわち1/f^{1.2}$)を示し、定評ある熱屈折率ノイズ理論とは大きく異なる。
このノイズは熱力学的電荷ノイズと整合しており、電気光学材料の強いポッケルス効果によって伝達される電場ゆらぎをもたらす。
この結果から,ポッケルス集積フォトニクスの基本的限界として,超高速波長可変・低雑音レーザー,ポッケルスソリトンマイクロコム,量子トランスダクション,シャープ光,エンタングル光対生成など,古典的・量子的デバイスの性能限界を決定する上で重要な電気的ジョンソン・ニキストノイズが得られた。
同様に、この観測は、異常な精度でメソスコピック電荷変動を探査する光学的方法を提供する。 Understanding thermodynamical measurement noise is of central importance for electrical and optical precision measurements from mass-fabricated semiconductor sensors, where the Brownian motion of charge carriers poses limits, to optical reference cavities for atomic clocks or gravitational wave detection, which are limited by thermorefractive and thermoelastic noise due to the transduction of temperature fluctuations to the refractive index and length fluctuations. Here, we discover that unexpectedly charge carrier density fluctuations give rise to a novel noise process in recently emerged electro-optic photonic integrated circuits. We show that Lithium Niobate and Lithium Tantalate photonic integrated microresonators exhibit an unexpected Flicker type (i.e. $1/f^{1.2}$) scaling in their noise properties, significantly deviating from the well-established thermorefractive noise theory. We show that this noise is consistent with thermodynamical charge noise, which leads to electrical field fluctuations that are transduced via the strong Pockels effects of electro-optic materials. Our results establish electrical Johnson-Nyquist noise as the fundamental limitation for Pockels integrated photonics, crucial for determining performance limits for both classical and quantum devices, ranging from ultra-fast tunable and low-noise lasers, Pockels soliton microcombs, to quantum transduction, squeezed light or entangled photon-pair generation. Equally, this observation offers optical methods to probe mesoscopic charge fluctuations with exceptional precision. | 翻訳日:2023-11-14 20:38:06 公開日:2023-11-13 |
# ダイナミックコントラスト強調心臓MRIデータセットのループ解析を可能にするための時間的不確かさの同定 Temporal Uncertainty Localization to Enable Human-in-the-loop Analysis of Dynamic Contrast-enhanced Cardiac MRI Datasets ( http://arxiv.org/abs/2308.13488v2 ) ライセンス: Link先を確認 | Dilek M. Yalcinkaya, Khalid Youssef, Bobak Heydari, Orlando Simonetti, Rohan Dharmakumar, Subha Raman, Behzad Sharif | (参考訳) Dynamic contrast-enhanced (DCE) heart magnetic resonance imaging (CMRI) は、心筋血流(灌流)異常の診断に広く用いられているモダリティである。
典型的なDCE-CMRIスキャンでは、心筋灌流の時間分解画像が様々なコントラストの "wash in/out" フェーズで取得される。
DCE画像シリーズの各タイムフレームにおける心筋輪郭のマニュアルセグメンテーションは、特に非剛性運動補正が失敗したり、利用できない場合、面倒で時間を要する。
ディープニューラルネットワーク(DNN)は、DCE-CMRIデータセットを分析することを約束している一方で、失敗したセグメンテーションを確実に検出する"動的品質制御"(dQC)技術は欠如している。
本稿では,DNNをベースとしたDCE-CMRIデータセットのセグメント化のためのDQCツールとして,提案手法を外部データセット上で検証し,セグメンテーション結果を改善するためのヒューマン・イン・ザ・ループ・フレームワークを確立することにより,新しい時空不確実性指標を提案する。
提案手法では,dQCツールが検出した最も不確実なセグメンテーションの上位10%を,ヒトの専門家に紹介した。
このアプローチにより、Diceスコア(p<0.001)が大幅に増加し、セグメンテーションが失敗した画像数(16.2%から11.3%)が顕著に減少する一方、人間の参照に対して同じセグメンテーションをランダムに選択するというアプローチは大きな改善は得られなかった。
提案したdQCフレームワークは,低品質なセグメンテーションを正確に識別する可能性があり,動的CMRIデータセットの臨床的解釈と報告のために,DCE-CMRIの効率的なDNN解析を可能にする可能性が示唆された。 Dynamic contrast-enhanced (DCE) cardiac magnetic resonance imaging (CMRI) is a widely used modality for diagnosing myocardial blood flow (perfusion) abnormalities. During a typical free-breathing DCE-CMRI scan, close to 300 time-resolved images of myocardial perfusion are acquired at various contrast "wash in/out" phases. Manual segmentation of myocardial contours in each time-frame of a DCE image series can be tedious and time-consuming, particularly when non-rigid motion correction has failed or is unavailable. While deep neural networks (DNNs) have shown promise for analyzing DCE-CMRI datasets, a "dynamic quality control" (dQC) technique for reliably detecting failed segmentations is lacking. Here we propose a new space-time uncertainty metric as a dQC tool for DNN-based segmentation of free-breathing DCE-CMRI datasets by validating the proposed metric on an external dataset and establishing a human-in-the-loop framework to improve the segmentation results. In the proposed approach, we referred the top 10% most uncertain segmentations as detected by our dQC tool to the human expert for refinement. This approach resulted in a significant increase in the Dice score (p<0.001) and a notable decrease in the number of images with failed segmentation (16.2% to 11.3%) whereas the alternative approach of randomly selecting the same number of segmentations for human referral did not achieve any significant improvement. Our results suggest that the proposed dQC framework has the potential to accurately identify poor-quality segmentations and may enable efficient DNN-based analysis of DCE-CMRI in a human-in-the-loop pipeline for clinical interpretation and reporting of dynamic CMRI datasets. | 翻訳日:2023-11-14 20:37:19 公開日:2023-11-13 |
# 転送学習を用いた光行列乗算モデルにおけるデータ不足の解消 Addressing Data Scarcity in Optical Matrix Multiplier Modeling Using Transfer Learning ( http://arxiv.org/abs/2308.11630v2 ) ライセンス: Link先を確認 | Ali Cem, Ognjen Jovanovic, Siqi Yan, Yunhong Ding, Darko Zibar, and Francesco Da Ros | (参考訳) 我々は、Mach-Zehnder干渉計メッシュを用いた光行列乗算器のためのニューラルネットワーク(NN)モデルを訓練する際に、転送学習を用いて実験データ不足に対処し、実験的に評価する。
提案手法は,不正確な解析モデルから生成された合成データと実験データとの微調整を用いた事前学習を行う。
本手法は, 学習データに制限がある場合, 解析モデルやスタンドアロンNNモデルと比較して, モデリング誤差が大幅に低減されることを示す。
正規化手法とアンサンブル平均化を利用して、3x3フォトニックチップで実装された行列重みに対する1dBのルート平均二乗誤差を、利用可能なデータの25%しか利用せずに達成する。 We present and experimentally evaluate using transfer learning to address experimental data scarcity when training neural network (NN) models for Mach-Zehnder interferometer mesh-based optical matrix multipliers. Our approach involves pre-training the model using synthetic data generated from a less accurate analytical model and fine-tuning with experimental data. Our investigation demonstrates that this method yields significant reductions in modeling errors compared to using an analytical model, or a standalone NN model when training data is limited. Utilizing regularization techniques and ensemble averaging, we achieve < 1 dB root-mean-square error on the matrix weights implemented by a 3x3 photonic chip while using only 25% of the available data. | 翻訳日:2023-11-14 20:36:25 公開日:2023-11-13 |
# データパラメータ領域上の結合群不変関数はユニバーサルニューラルネットワークを誘導する Joint Group Invariant Functions on Data-Parameter Domain Induce Universal Neural Networks ( http://arxiv.org/abs/2310.03530v2 ) ライセンス: Link先を確認 | Sho Sonoda, Hideyuki Ishi, Isao Ishikawa, Masahiro Ikeda | (参考訳) 入力データの対称性と幾何学は、ニューラルネットワーク内の内部データ表現にエンコードされると考えられているが、特定のエンコーディング規則は、あまり研究されていない。
本研究では,データパラメータ領域上の結合群不変関数から一般化ニューラルネットワークとその右逆演算子であるリッジレット変換を誘導する系統的手法を提案する。
リッジレット変換は逆であるため、(1)対象関数を表すためにネットワークのパラメータの配置を記述することができ、(2)符号化規則として理解され、(2)ネットワークの普遍性を意味する。
群表現理論に基づいて、スカーの補題を、元のリッジレット変換、形式的深層ネットワーク、二重声変換など、幅広い種類のネットワークをカバーする統一的な方法で用いることにより、普遍性の新たな簡単な証明を示す。
従来の普遍性定理は関数解析に基づいて証明されたため、この研究は近似理論の群論的な側面に光を当て、幾何学的深層学習と抽象調和解析を結びつける。 The symmetry and geometry of input data are considered to be encoded in the internal data representation inside the neural network, but the specific encoding rule has been less investigated. In this study, we present a systematic method to induce a generalized neural network and its right inverse operator, called the ridgelet transform, from a joint group invariant function on the data-parameter domain. Since the ridgelet transform is an inverse, (1) it can describe the arrangement of parameters for the network to represent a target function, which is understood as the encoding rule, and (2) it implies the universality of the network. Based on the group representation theory, we present a new simple proof of the universality by using Schur's lemma in a unified manner covering a wide class of networks, for example, the original ridgelet transform, formal deep networks, and the dual voice transform. Since traditional universality theorems were demonstrated based on functional analysis, this study sheds light on the group theoretic aspect of the approximation theory, connecting geometric deep learning to abstract harmonic analysis. | 翻訳日:2023-11-14 20:27:36 公開日:2023-11-13 |
# ディープリッジレット変換:koopman演算子による音声による形式的ディープネットワークの普遍性証明 Deep Ridgelet Transform: Voice with Koopman Operator Proves Universality of Formal Deep Networks ( http://arxiv.org/abs/2310.03529v2 ) ライセンス: Link先を確認 | Sho Sonoda, Yuka Hashimoto, Isao Ishikawa, Masahiro Ikeda | (参考訳) データドメイン上のグループアクションを持つディープニューラルネットワーク(DNN)内の隠れ層を特定し、グループアクションの線形表現であるクープマン演算子に対する二重音声変換として形式的なディープネットワークを定式化する。
群論的議論、特にシューアの補題を用いて、dnnの普遍性の簡単な証明を示す。 We identify hidden layers inside a deep neural network (DNN) with group actions on the data domain, and formulate a formal deep network as a dual voice transform with respect to the Koopman operator, a linear representation of the group action. Based on the group theoretic arguments, particularly by using Schur's lemma, we show a simple proof of the universality of DNNs. | 翻訳日:2023-11-14 20:27:17 公開日:2023-11-13 |
# インターネットアクセスにおける年齢関連パターンの探索:ニュージーランドのサーベイデータの二次分析から Exploring age-related patterns in internet access: Insights from a secondary analysis of New Zealand survey data ( http://arxiv.org/abs/2310.03252v2 ) ライセンス: Link先を確認 | Edgar Pacheco | (参考訳) 約30年前、インターネットが商業化され始めたとき、メディアへのアクセスは研究と議論のトピックとなった。
このような年齢の重要な予測要因に関する最新の証拠は、インターネットの絶え間なく変化する性質と、それにアクセスすることに伴う課題のために重要である。
本稿では,ニュージーランドのインターネットアクセスの動向と年齢との関連について概観することを目的とする。
調査対象は、成人1,001人を対象にした大規模オンラインパネル調査である。
独立性のチ二乗検定とクレイマーのVが分析に用いられた。
この研究は、デジタル分割を理解するための新しい証拠を提供する。
具体的には、インターネット接続の質の格差が増大していることが分かる。
ファイバーは家庭で最も一般的なブロードバンド接続のタイプだが、高齢者はそれを利用せず、より遅い接続タイプである無線ブロードバンドを使う傾向が強い。
さらに、すべての年齢層でかなりの数の人々がインターネット上で好意的な意見を持っている。
興味深いことに、これは高齢者に普及したが、オンライン上の個人情報のセキュリティに関する懸念が高まっている。
この結果の意義について考察し,今後の研究の方向性について述べる。 About thirty years ago, when the Internet started to be commercialised, access to the medium became a topic of research and debate. Up-to-date evidence about key predictors, such age, is crucial because of the Internet's ever-changing nature and the challenges associated with gaining access to it. This paper aims to give an overview of New Zealand's Internet access trends and how they relate to age. It is based on secondary analysis of data from a larger online panel survey with 1,001 adult respondents. The Chi-square test of independence and Cramer's V were used in the analysis. The study provides new evidence to understand the digital divide. Specifically, it uncovers a growing disparity in the quality of Internet connectivity. Even though fibre is the most common type of broadband connection at home, older adults are less likely to have it and more likely to use wireless broadband, which is a slower connection type. Additionally, a sizable majority of people in all age categories have favourable opinions on the Internet. Interestingly, this was more prevalent among older people, although they report an increased concern about the security of their personal information online. The implications of the results are discussed and some directions for future research are proposed. | 翻訳日:2023-11-14 20:27:08 公開日:2023-11-13 |
# ポイントPEFT:3次元事前学習モデルのためのパラメータ効率の良いファインチューニング Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models ( http://arxiv.org/abs/2310.03059v2 ) ライセンス: Link先を確認 | Ivan Tang, Ray Zhang, Zoey Guo | (参考訳) 事前訓練された大規模モデルの人気は、言語、ビジョン、マルチモダリティといった様々な分野の下流タスクに革命をもたらした。
下流タスクの適応コストを最小限に抑えるために,言語および2次元画像事前訓練モデルに対して,パラメータ効率の良い細調整(PEFT)技術が多数提案されている。
しかし,3次元事前学習モデルのPEFT法はまだ未検討である。
この目的のために,最小限の学習パラメータを持つポイントクラウド事前学習モデルに適用するための新しいフレームワークであるPoint-PEFTを紹介する。
具体的には、事前トレーニングされた3dモデルでは、ほとんどのパラメータを凍結し、新たに追加されたpeftモジュールを、ポイント優先プロンプトとジオメトリ対応アダプタで構成される下流タスクでのみチューニングします。
Point-prior Promptは学習可能なプロンプトトークンの集合を採用し、ドメイン固有の知識を持つメモリバンクの構築を提案し、パラメータフリーの注意を使ってプロンプトトークンを強化する。
Geometry-Aware Adapterは、空間近傍の点雲の特徴を集約し、局所的な相互作用を通じてきめ細かい幾何学的情報をキャプチャすることを目的としている。
広範な実験により,ダウンストリームタスクの完全な微調整よりも優れた性能を実現することができたが,トレーニング可能なパラメータは5%に過ぎず,その効率と効果を示すことができた。
コードはhttps://github.com/Even-JK/PEFT-3Dで公開される。 The popularity of pre-trained large models has revolutionized downstream tasks across diverse fields, such as language, vision, and multi-modality. To minimize the adaption cost for downstream tasks, many Parameter-Efficient Fine-Tuning (PEFT) techniques are proposed for language and 2D image pre-trained models. However, the specialized PEFT method for 3D pre-trained models is still under-explored. To this end, we introduce Point-PEFT, a novel framework for adapting point cloud pre-trained models with minimal learnable parameters. Specifically, for a pre-trained 3D model, we freeze most of its parameters, and only tune the newly added PEFT modules on downstream tasks, which consist of a Point-prior Prompt and a Geometry-aware Adapter. The Point-prior Prompt adopts a set of learnable prompt tokens, for which we propose to construct a memory bank with domain-specific knowledge, and utilize a parameter-free attention to enhance the prompt tokens. The Geometry-aware Adapter aims to aggregate point cloud features within spatial neighborhoods to capture fine-grained geometric information through local interactions. Extensive experiments indicate that our Point-PEFT can achieve better performance than the full fine-tuning on various downstream tasks, while using only 5% of the trainable parameters, demonstrating the efficiency and effectiveness of our approach. Code will be released at https://github.com/Even-JK/PEFT-3D. | 翻訳日:2023-11-14 20:26:29 公開日:2023-11-13 |
# タスク一貫性スコア識別特徴分布モデリングによる連続行動評価 Continual Action Assessment via Task-Consistent Score-Discriminative Feature Distribution Modeling ( http://arxiv.org/abs/2309.17105v2 ) ライセンス: Link先を確認 | Yuan-Ming Li, Ling-An Zeng, Jing-Ke Meng and Wei-Shi Zheng | (参考訳) アクション品質アセスメント(AQA)は、アクションがどれだけうまく実行されるかに答えようとするタスクである。
AQAの既存の研究は、すべてのトレーニングデータが一度にトレーニングのために見えるが、新しい技術行動を評価するための継続的な学習はできないと仮定している。
本研究では,AQA(Continual-AQA)の継続学習問題に対処し,AQAタスクを忘れずに逐次学習するよう統一モデルに促す。
連続AQAのモデル化の考え方は,タスクや動作の種類に関わらず,潜在特徴がスコアラベルと強い相関関係を示すタスク一貫性のあるスコア識別特徴分布を逐次学習することである。
この観点から、継続AQAにおける忘れを2つの側面から緩和することを目指している。
まず,新しいデータと過去のデータの特徴を識別的分布に融合させるため,メモリサイズが制限された前のタスクからのデータを保存・再利用する新しい特徴スコア相関認識リハーサルを提案する。
第二に、行動一般グラフ(Action General-Specific Graph)は、行動一般および行動特化知識を学習・分離し、タスク一貫性のスコア識別特徴をよりよく抽出できるようにする。
提案するコンポーネントの貢献度を評価するために,広範な実験を行った。
既存の連続学習手法との比較により,提案手法の有効性と汎用性が検証された。 Action Quality Assessment (AQA) is a task that tries to answer how well an action is carried out. While remarkable progress has been achieved, existing works on AQA assume that all the training data are visible for training in one time, but do not enable continual learning on assessing new technical actions. In this work, we address such a Continual Learning problem in AQA (Continual-AQA), which urges a unified model to learn AQA tasks sequentially without forgetting. Our idea for modeling Continual-AQA is to sequentially learn a task-consistent score-discriminative feature distribution, in which the latent features express a strong correlation with the score labels regardless of the task or action types. From this perspective, we aim to mitigate the forgetting in Continual-AQA from two aspects. Firstly, to fuse the features of new and previous data into a score-discriminative distribution, a novel Feature-Score Correlation-Aware Rehearsal is proposed to store and reuse data from previous tasks with limited memory size. Secondly, an Action General-Specific Graph is developed to learn and decouple the action-general and action-specific knowledge so that the task-consistent score-discriminative features can be better extracted across various tasks. Extensive experiments are conducted to evaluate the contributions of proposed components. The comparisons with the existing continual learning methods additionally verify the effectiveness and versatility of our approach. | 翻訳日:2023-11-14 20:25:27 公開日:2023-11-13 |
# 深部条件生成時系列モデルを用いたパーソナライズされたインスリン治療戦略の作成 Generating Personalized Insulin Treatments Strategies with Deep Conditional Generative Time Series Models ( http://arxiv.org/abs/2309.16521v2 ) ライセンス: Link先を確認 | Manuel Sch\"urch, Xiang Li, Ahmed Allam, Giulia Rathmes, Amina Mollaysa, Claudia Cavelti-Weder, Michael Krauthammer | (参考訳) 本稿では,深層生成時系列モデルと決定理論を組み合わせてパーソナライズされた治療戦略を生成する新しい枠組みを提案する。
歴史的な患者の軌跡データを利用して、深部生成時系列モデルを通じて、現実的なパーソナライズされた治療と将来の成果の軌跡を共同学習する。
特に, 個別化患者履歴に合わせた新しい多変量治療戦略を創出し, 条件付き期待効用最大化に基づく最適予測結果に向けて訓練することを可能にする。
入院糖尿病患者に対して、パーソナライズされたインスリン治療戦略と血糖予測を生成し、パーソナライズされた治療戦略を作成するためのアプローチの可能性を示す。
キーワード:深部生成モデル、確率的意思決定支援、パーソナライズされた治療生成、インスリンおよび血糖予測 We propose a novel framework that combines deep generative time series models with decision theory for generating personalized treatment strategies. It leverages historical patient trajectory data to jointly learn the generation of realistic personalized treatment and future outcome trajectories through deep generative time series models. In particular, our framework enables the generation of novel multivariate treatment strategies tailored to the personalized patient history and trained for optimal expected future outcomes based on conditional expected utility maximization. We demonstrate our framework by generating personalized insulin treatment strategies and blood glucose predictions for hospitalized diabetes patients, showcasing the potential of our approach for generating improved personalized treatment strategies. Keywords: deep generative model, probabilistic decision support, personalized treatment generation, insulin and blood glucose prediction | 翻訳日:2023-11-14 20:25:00 公開日:2023-11-13 |
# データセット拡散: ピクセルレベルセマンティックセグメンテーションのための拡散に基づく合成データセット生成 Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation ( http://arxiv.org/abs/2309.14303v4 ) ライセンス: Link先を確認 | Quang Nguyen, Truong Vu, Anh Tran, Khoi Nguyen | (参考訳) 深部視覚モデルのトレーニングデータの準備は、労働集約的な作業です。
これに対処するために、生成モデルが合成データを生成する効果的なソリューションとして登場した。
現在の生成モデルは画像レベルのカテゴリラベルを生成する一方で、テキストから画像への生成モデル安定拡散(sd)を用いた画素レベルの意味セグメンテーションラベルを生成する新しい手法を提案する。
テキストプロンプト,クロスアテンション,SDの自己アテンションを利用して,クラスプロンプト付加,クラスプロンプト横断アテンション,自己アテンション指数の3つの新しい手法を導入する。
これらの手法により合成画像に対応するセグメンテーションマップを生成することができる。
これらのマップはセマンティクスセグメンタをトレーニングするための擬似ラベルとして機能する。
擬似ラベルの不完全性を考慮し,不確実領域をセグメンテーションに組み込むことで,これらの領域の損失を無視することができる。
PASCAL VOC と MSCOCO の2つのデータセットで評価を行い,本手法は並列処理を著しく上回っている。
ベンチマークとコードはhttps://github.com/VinAIResearch/Dataset-Diffusionで公開される予定です。 Preparing training data for deep vision models is a labor-intensive task. To address this, generative models have emerged as an effective solution for generating synthetic data. While current generative models produce image-level category labels, we propose a novel method for generating pixel-level semantic segmentation labels using the text-to-image generative model Stable Diffusion (SD). By utilizing the text prompts, cross-attention, and self-attention of SD, we introduce three new techniques: class-prompt appending, class-prompt cross-attention, and self-attention exponentiation. These techniques enable us to generate segmentation maps corresponding to synthetic images. These maps serve as pseudo-labels for training semantic segmenters, eliminating the need for labor-intensive pixel-wise annotation. To account for the imperfections in our pseudo-labels, we incorporate uncertainty regions into the segmentation, allowing us to disregard loss from those regions. We conduct evaluations on two datasets, PASCAL VOC and MSCOCO, and our approach significantly outperforms concurrent work. Our benchmarks and code will be released at https://github.com/VinAIResearch/Dataset-Diffusion | 翻訳日:2023-11-14 20:24:36 公開日:2023-11-13 |
# 時系列電子健康記録(STEER)による患者静的情報の学習と分離 Learning and DiSentangling Patient Static Information from Time-series Electronic HEalth Record (STEER) ( http://arxiv.org/abs/2309.11373v2 ) ライセンス: Link先を確認 | Wei Liao, Joel Voldman | (参考訳) 医療のための機械学習の最近の研究は、患者のプライバシーとアルゴリズムの公正性に関する懸念を提起している。
例えば、以前の研究では、人種情報を明示的に含まない医療データから患者自己申告人種を予測できることが示されている。
しかし、データ識別の程度は不明であり、そのような情報に最小限の影響を受けているモデルを開発する方法がない。
そこで我々は,患者の静的情報を予測するための時系列電子健康記録データの有用性を体系的に検討した。
その結果, 生の時系列データだけでなく, 機械学習モデルから学習した表現から, 生体性に0.851, 二項化に0.869, 自己報告に0.810の領域で, 様々な静的情報を予測できることがわかった。
このような高い予測性能は、幅広い複合性要因に拡張することができ、モデルが異なるタスクのためにトレーニングされた場合でも、異なるコホートを使用して、異なるモデルアーキテクチャとデータベースを使用して存在します。
これらの知見が生み出すプライバシーと公平性を考えると、私たちは時系列データから患者に敏感な属性を分離する構造化潜在空間を学ぶ変分オートエンコーダベースのアプローチを開発します。
本研究は,患者の静的情報を時系列電子健康記録から符号化する機械学習モデルの能力を徹底的に検討し,下流業務における患者に敏感な属性情報を保護するための一般的なアプローチを提案する。 Recent work in machine learning for healthcare has raised concerns about patient privacy and algorithmic fairness. For example, previous work has shown that patient self-reported race can be predicted from medical data that does not explicitly contain racial information. However, the extent of data identification is unknown, and we lack ways to develop models whose outcomes are minimally affected by such information. Here we systematically investigated the ability of time-series electronic health record data to predict patient static information. We found that not only the raw time-series data, but also learned representations from machine learning models, can be trained to predict a variety of static information with area under the receiver operating characteristic curve as high as 0.851 for biological sex, 0.869 for binarized age and 0.810 for self-reported race. Such high predictive performance can be extended to a wide range of comorbidity factors and exists even when the model was trained for different tasks, using different cohorts, using different model architectures and databases. Given the privacy and fairness concerns these findings pose, we develop a variational autoencoder-based approach that learns a structured latent space to disentangle patient-sensitive attributes from time-series data. Our work thoroughly investigates the ability of machine learning models to encode patient static information from time-series electronic health records and introduces a general approach to protect patient-sensitive attribute information for downstream tasks. | 翻訳日:2023-11-14 20:24:12 公開日:2023-11-13 |
# 自動スコーリングのための微調整ChatGPT Fine-tuning ChatGPT for Automatic Scoring ( http://arxiv.org/abs/2310.10072v2 ) ライセンス: Link先を確認 | Ehsan Latif and Xiaoming Zhai | (参考訳) 本研究は,理科教育における事例評価タスクを用いて,構築された回答を自動的に評価するための微調整ChatGPT (GPT-3.5) の可能性を明らかにする。
OpenAIの生成モデルであるGPT-3.5の最近の研究は、高い精度と人間的な応答で自然言語を予測する上で、その優位性を証明した。
GPT-3.5は、雑誌やウィキペディアなどの膨大なオンライン言語教材で訓練されているため、学生がトレーニングされた資料とは異なる言語を使用するため、事前学習されたGPT-3.5を直接使用する以上のことが自動スコアリングに必要である。
これらは、特定のタスクのためにデータを微調整したドメイン固有モデルが、モデルパフォーマンスを向上させることを意味する。
本研究では,中高生の回答とエキスパートスコアの多様なデータセットを用いた6つの評価課題について,gpt-3.5を微調整した。
6つのタスクは、2つのマルチラベルと4つのマルチクラスアセスメントタスクで構成される。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
その結果、bertに対する科学的な質問と回答から構築されたドメイン内トレーニングコーパスは平均精度が0.838, sd = 0.069であった。
GPT-3.5は6つのタスクにおいて、自動スコアの精度(平均=9.15、SD=0.042)が顕著な平均値(9.1%)を示し、p =0.001 < 0.05である。
具体的には、マルチラベルタスク(5ラベルのitem 1、10ラベルのitem 2)において、gpt-3.5は全ラベルのbertよりもスコアリング精度が著しく向上し、第2の項目は7.1%増加した。
GPT-3.5の4種類の項目の平均得点率はBERTに比べて10.6%増加した。
本研究は,高精細なGPT-3.5の学習におけるドメイン固有データの自動評価における有効性を確認した。
パブリック利用とコミュニティエンゲージメントのための微調整されたモデルをリリースしました。 This study highlights the potential of fine-tuned ChatGPT (GPT-3.5) for automatically scoring student written constructed responses using example assessment tasks in science education. Recent studies on OpenAI's generative model GPT-3.5 proved its superiority in predicting the natural language with high accuracy and human-like responses. GPT-3.5 has been trained over enormous online language materials such as journals and Wikipedia; therefore, more than direct usage of pre-trained GPT-3.5 is required for automatic scoring as students utilize a different language than trained material. These imply that a domain-specific model, fine-tuned over data for specific tasks, can enhance model performance. In this study, we fine-tuned GPT-3.5 on six assessment tasks with a diverse dataset of middle-school and high-school student responses and expert scoring. The six tasks comprise two multi-label and four multi-class assessment tasks. We compare the performance of fine-tuned GPT-3.5 with the fine-tuned state-of-the-art Google's generated language model, BERT. The results show that in-domain training corpora constructed from science questions and responses for BERT achieved average accuracy = 0.838, SD = 0.069. GPT-3.5 shows a remarkable average increase (9.1%) in automatic scoring accuracy (mean = 9.15, SD = 0.042) for the six tasks, p =0.001 < 0.05. Specifically, for multi-label tasks (item 1 with 5 labels; item 2 with 10 labels), GPT-3.5 achieved significantly higher scoring accuracy than BERT across all the labels, with the second item achieving a 7.1% increase. The average scoring increase for the four multi-class items for GPT-3.5 was 10.6% compared to BERT. Our study confirmed the effectiveness of fine-tuned GPT-3.5 for automatic scoring of student responses on domain-specific data in education with high accuracy. We have released fine-tuned models for public use and community engagement. | 翻訳日:2023-11-14 20:15:19 公開日:2023-11-13 |
# 時間的行動検出のための境界離散化と信頼性分類網 Boundary Discretization and Reliable Classification Network for Temporal Action Detection ( http://arxiv.org/abs/2310.06403v3 ) ライセンス: Link先を確認 | Zhenying Fang | (参考訳) テンポラルアクション検出は、アクションカテゴリを認識し、未トリミングビデオにおける各アクションインスタンスの開始と終了時間を決定することを目的としている。
混合手法は、単純にアンカーベースとアンカーフリーのアプローチをマージすることで、顕著な性能を達成した。
しかし,(1)ブルートフォースマージと手作りアンカーの設計は,混合手法の性能と実用性に影響を及ぼす。
2) 行動カテゴリー予測における多数の偽陽性は検出性能にさらに影響を及ぼす。
本稿では,境界離散化と信頼性分類モジュールを導入して,上記の問題に対処する新しい境界離散化・信頼性分類ネットワークを提案する。
具体的には、境界離散化モジュール(BDM)は、従来の混合法で必要とされる手作りアンカーの設計を避けるために、境界離散化の形でアンカーベースおよびアンカーフリーアプローチをエレガントにマージする。
さらに、信頼性分類モジュール(RCM)は、信頼性のあるアクションカテゴリを予測し、アクションカテゴリ予測における偽陽性を減らす。
異なるベンチマークで行った実験により,提案手法は最先端の手法と比較して良好な性能を示した。
例えば、BDRC-NetはTHUMOS'14で平均68.6%のmAPに達し、前年より1.5%上回った。
コードはhttps://github.com/zhenyingfang/BDRC-Netで公開される。 Temporal action detection aims to recognize the action category and determine the starting and ending time of each action instance in untrimmed videos. The mixed methods have achieved remarkable performance by simply merging anchor-based and anchor-free approaches. However, there are still two crucial issues in the mixed framework: (1) Brute-force merging and handcrafted anchors design affect the performance and practical application of the mixed methods. (2) A large number of false positives in action category predictions further impact the detection performance. In this paper, we propose a novel Boundary Discretization and Reliable Classification Network (BDRC-Net) that addresses the above issues by introducing boundary discretization and reliable classification modules. Specifically, the boundary discretization module (BDM) elegantly merges anchor-based and anchor-free approaches in the form of boundary discretization, avoiding the handcrafted anchors design required by traditional mixed methods. Furthermore, the reliable classification module (RCM) predicts reliable action categories to reduce false positives in action category predictions. Extensive experiments conducted on different benchmarks demonstrate that our proposed method achieves favorable performance compared with the state-of-the-art. For example, BDRC-Net hits an average mAP of 68.6% on THUMOS'14, outperforming the previous best by 1.5%. The code will be released at https://github.com/zhenyingfang/BDRC-Net. | 翻訳日:2023-11-14 20:13:05 公開日:2023-11-13 |
# IPDreamer:画像プロンプトによる外観制御可能な3Dオブジェクト生成 IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts ( http://arxiv.org/abs/2310.05375v2 ) ライセンス: Link先を確認 | Bohan Zeng, Shanglin Li, Yutang Feng, Hong Li, Sicheng Gao, Jiaming Liu, Huaxia Li, Xu Tang, Jianzhuang Liu, Baochang Zhang | (参考訳) 近年のテキスト・ツー・3D生成の進歩は目覚ましいもので、DreamFusionは大規模なテキスト・ツー・イメージ拡散モデルを利用して3D生成を監督する。
これらの方法は、ProlificDreamerによって提案された変分点蒸留を含むもので、詳細かつ光現実的なテクスチャメッシュの合成を可能にする。
しかし、これらの手法によって生成された3Dオブジェクトの出現はランダムで制御不能であり、外観制御可能な3Dオブジェクトを達成する上での課題である。
この課題に対処するために、画像プロンプトを組み込んだ新しいアプローチであるIDDreamerを導入し、3Dオブジェクト生成のための具体的で包括的な外観情報を提供する。
IPDreamerはテキストと画像のプロンプトの両方に整合した高品質な3Dオブジェクトを効果的に生成し、外観制御可能な3Dオブジェクト生成に期待できる能力を示した。 Recent advances in text-to-3D generation have been remarkable, with methods such as DreamFusion leveraging large-scale text-to-image diffusion-based models to supervise 3D generation. These methods, including the variational score distillation proposed by ProlificDreamer, enable the synthesis of detailed and photorealistic textured meshes. However, the appearance of 3D objects generated by these methods is often random and uncontrollable, posing a challenge in achieving appearance-controllable 3D objects. To address this challenge, we introduce IPDreamer, a novel approach that incorporates image prompts to provide specific and comprehensive appearance information for 3D object generation. Our results demonstrate that IPDreamer effectively generates high-quality 3D objects that are consistent with both the provided text and image prompts, demonstrating its promising capability in appearance-controllable 3D object generation. | 翻訳日:2023-11-14 20:12:42 公開日:2023-11-13 |
# タスク適応型トークン化:メンタルヘルスおよびそれ以上における長期テキスト生成効率の向上 Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy in Mental Health and Beyond ( http://arxiv.org/abs/2310.05317v5 ) ライセンス: Link先を確認 | Siyang Liu, Naihao Deng, Sahand Sabour, Yilin Jia, Minlie Huang, Rada Mihalcea | (参考訳) 本稿では,ダウンストリームタスクの仕様に生成パイプラインを適用する方法としてタスク適応トークン化を提案し,メンタルヘルスにおける長期的生成の促進を図る。
認知科学の知見に触発されて、タスク適応型トークンーザは複数の結果から可変セグメンテーションをサンプリングし、タスク固有データに基づいてサンプリング確率を最適化した。
本稿では,専門用語構築のための戦略と,事前学習したモデルのトークン化ステップへのタスク固有のトークンの統合を可能にする語彙統合プロトコルを提案する。
中国語と英語の心理学的質問応答タスクに関する広範な実験を通して、我々のタスク適応型トークン化アプローチは、最大60%のトークンを使用しながら、生成性能を大幅に改善することを発見した。
予備実験は、非常に大きな言語モデルでトークン化アプローチを使用する場合に有望な結果を示す。 We propose task-adaptive tokenization as a way to adapt the generation pipeline to the specifics of a downstream task and enhance long-form generation in mental health. Inspired by insights from cognitive science, our task-adaptive tokenizer samples variable segmentations from multiple outcomes, with sampling probabilities optimized based on task-specific data. We introduce a strategy for building a specialized vocabulary and introduce a vocabulary merging protocol that allows for the integration of task-specific tokens into the pre-trained model's tokenization step. Through extensive experiments on psychological question-answering tasks in both Chinese and English, we find that our task-adaptive tokenization approach brings a significant improvement in generation performance while using up to 60% fewer tokens. Preliminary experiments point to promising results when using our tokenization approach with very large language models. | 翻訳日:2023-11-14 20:12:25 公開日:2023-11-13 |
# 逆関係理解におけるLLMの有効性の検討 An Investigation of LLMs' Inefficacy in Understanding Converse Relations ( http://arxiv.org/abs/2310.05163v3 ) ライセンス: Link先を確認 | Chengwen Qi, Bowen Li, Binyuan Hui, Bailin Wang, Jinyang Li, Jinwang Wu, Yuanjun Laili | (参考訳) 大規模言語モデル(llm)は、構造的データ・ツー・テキストや意味解析など、多くの形式言語指向タスクで顕著な成功を収めている。
しかし、現在のベンチマークは主にLLMの事前学習データのデータ分布に従っている。
したがって、LLMが形式言語の構造化意味論を本当に理解しているという自然な疑問が生じる。
本稿では,この問題を特殊ケース,逆二項関係で検討する。
一般的な知識グラフ補完データセットから抽出された17の関係と1240のトリプルを含む逆関係に着目した新しいベンチマークであるConvReを紹介する。
re2text と text2re の2つのタスクを特徴としており、llms が関連テキストとのマッチングを決定する能力を評価するために、マルチチョイス質問応答として定式化されている。
評価プロトコルについては,異なるプロンプト方法とは別に,テストテキストとサンプルテキストの変種についても紹介する。
我々は3つのLLMファミリーで実験を行い、様々なスケーリング傾向を観察した。
この結果から,LLMは学習時間を短縮し,提案したベンチマークの課題に直面していることが示唆された。 Large Language Models (LLMs) have achieved remarkable success in many formal language oriented tasks, such as structural data-to-text and semantic parsing. However current benchmarks mostly follow the data distribution of the pre-training data of LLMs. Therefore, a natural question rises that do LLMs really understand the structured semantics of formal languages. In this paper, we investigate this problem on a special case, converse binary relation. We introduce a new benchmark ConvRe focusing on converse relations, which contains 17 relations and 1240 triples extracted from popular knowledge graph completion datasets. Our ConvRE features two tasks, Re2Text and Text2Re, which are formulated as multi-choice question answering to evaluate LLMs' ability to determine the matching between relations and associated text. For the evaluation protocol, apart from different prompting methods, we further introduce variants to the test text and few-shot example text. We conduct experiments on three popular LLM families and have observed various scaling trends. The results suggest that LLMs often resort to shortcut learning and still face challenges on our proposed benchmark. | 翻訳日:2023-11-14 20:12:08 公開日:2023-11-13 |
# 異なるネットワーク曲げで生成モデルをハックする Hacking Generative Models with Differentiable Network Bending ( http://arxiv.org/abs/2310.04816v2 ) ライセンス: Link先を確認 | Giacomo Aldegheri, Alina Rogalska, Ahmed Youssef, Eugenia Iofinova | (参考訳) 本研究では,生成モデルの「ハッキング」を行い,その出力を元のトレーニング分布から新たな目標へと押し下げる手法を提案する。
モデルの中間層の間に小さなトレーニング可能なモジュールを注入し、少量のイテレーションのためにトレーニングし、残りのネットワークを凍結させます。
得られた出力画像は、芸術的な目的のために活用できるオリジナルと新しい目的の間の緊張によって与えられる不気味な品質を示す。 In this work, we propose a method to 'hack' generative models, pushing their outputs away from the original training distribution towards a new objective. We inject a small-scale trainable module between the intermediate layers of the model and train it for a low number of iterations, keeping the rest of the network frozen. The resulting output images display an uncanny quality, given by the tension between the original and new objectives that can be exploited for artistic purposes. | 翻訳日:2023-11-14 20:11:48 公開日:2023-11-13 |
# フェアネスと説明可能性の相互作用について On the Interplay between Fairness and Explainability ( http://arxiv.org/abs/2310.16607v2 ) ライセンス: Link先を確認 | Stephanie Brandl, Emanuele Bugliarello, Ilias Chalkidis | (参考訳) 信頼性が高く信頼性の高いNLPアプリケーションを構築するためには、モデルをさまざまな層で公平かつ説明可能なものにする必要がある。
通常、これら2つの目的(公平性と説明可能性)は、相互に最適化され/または独立して検討される。
代わりに、我々は、今後の信頼できるNLPシステムは両方を考えるべきだと論じている。
本研究では,それらが相互にどのように影響するかを理解するための最初の研究を行う。
その逆も。
そこで本研究では,英語の多クラステキスト分類データセットであるbiosとecthrについて,それぞれ性別と国籍の情報を提供する実験を行った。
いくつかの方法を用いた事前学習言語モデルを微調整する。
(i)公平性を改善することを目的としたバイアス緩和
(ii)合理的な説明をすることを目的とした合理性抽出。
バイアス緩和アルゴリズムは必ずしもより公平なモデルにつながるとは限らない。
さらに,経験的公平性と説明可能性の直交性を見いだす。 In order to build reliable and trustworthy NLP applications, models need to be both fair across different demographics and explainable. Usually these two objectives, fairness and explainability, are optimized and/or examined independently of each other. Instead, we argue that forthcoming, trustworthy NLP systems should consider both. In this work, we perform a first study to understand how they influence each other: do fair(er) models rely on more plausible rationales? and vice versa. To this end, we conduct experiments on two English multi-class text classification datasets, BIOS and ECtHR, that provide information on gender and nationality, respectively, as well as human-annotated rationales. We fine-tune pre-trained language models with several methods for (i) bias mitigation, which aims to improve fairness; (ii) rationale extraction, which aims to produce plausible explanations. We find that bias mitigation algorithms do not always lead to fairer models. Moreover, we discover that empirical fairness and explainability are orthogonal. | 翻訳日:2023-11-14 20:03:50 公開日:2023-11-13 |
# TATA: Topic-Agnostic および Topic-Aware 埋め込みによるスタンス検出 TATA: Stance Detection via Topic-Agnostic and Topic-Aware Embeddings ( http://arxiv.org/abs/2310.14450v2 ) ライセンス: Link先を確認 | Hans W. A. Hanley, Zakir Durumeric | (参考訳) スタンス検出はインターネット上で異なる態度や信念を理解する上で重要である。
しかし、ある話題に対する節のスタンスがその話題に大きく依存していることを考えると、目に見えないトピックを一般化するスタンス検出モデルの構築は困難である。
本研究は,トピック認識/TAGとトピック認識/TAW埋め込みを下流姿勢検出に用いるために,コントラスト学習と,さまざまなトピックをカバーする未ラベルのニュース記事データセットを使用することを提案する。
これらの埋め込みをフルTATAモデルに組み合わせることで、いくつかのパブリックスタンス検出データセット(Zero-shot VASTデータセットの0.771$F_1$-score)で最先端のパフォーマンスを実現しています。
コードとデータはhttps://github.com/hanshanley/tataでリリースします。 Stance detection is important for understanding different attitudes and beliefs on the Internet. However, given that a passage's stance toward a given topic is often highly dependent on that topic, building a stance detection model that generalizes to unseen topics is difficult. In this work, we propose using contrastive learning as well as an unlabeled dataset of news articles that cover a variety of different topics to train topic-agnostic/TAG and topic-aware/TAW embeddings for use in downstream stance detection. Combining these embeddings in our full TATA model, we achieve state-of-the-art performance across several public stance detection datasets (0.771 $F_1$-score on the Zero-shot VAST dataset). We release our code and data at https://github.com/hanshanley/tata. | 翻訳日:2023-11-14 20:02:44 公開日:2023-11-13 |
# ChaosからClarityへ: クレーム正規化からFact-Checkingの強化 From Chaos to Clarity: Claim Normalization to Empower Fact-Checking ( http://arxiv.org/abs/2310.14338v2 ) ライセンス: Link先を確認 | Megha Sundriyal, Tanmoy Chakraborty, Preslav Nakov | (参考訳) ソーシャルメディアの普及に伴い、ユーザーは多くの誤解を招く主張にさらされている。
しかし、これらの投稿に内在する広汎なノイズは、検証を必要とする正確かつ顕著な主張を特定する上での課題となっている。
このような投稿から重要な主張を抽出するのは大変で時間がかかりますが、未熟な問題です。
ここではこのギャップを埋めることを目指しています。
我々は,複雑で騒々しいソーシャルメディア投稿を,より単純で理解しやすい形式に分解することを目的とした新しいタスク,Claum Normalization(ClaumNorm)を紹介した。
我々は,人間の推論過程を模倣し,思考の連鎖とクレームのチェック価値を推定し,複雑なクレームを理解するための先駆的手法であるcacnを提案する。
さらに,大規模言語モデルの文脈内学習能力を活用して指導を行い,クレーム正規化を改善する。
提案モデルの有効性を評価するために,ソーシャルメディア投稿の6kインスタンスをそれぞれ正規化したクレームと合わせて,包括的実世界のデータセットである clan を丁寧にコンパイルする。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
最後に、厳密なエラー解析により、CACNの機能と落とし穴を検証する。 With the rise of social media, users are exposed to many misleading claims. However, the pervasive noise inherent in these posts presents a challenge in identifying precise and prominent claims that require verification. Extracting the important claims from such posts is arduous and time-consuming, yet it is an underexplored problem. Here, we aim to bridge this gap. We introduce a novel task, Claim Normalization (aka ClaimNorm), which aims to decompose complex and noisy social media posts into more straightforward and understandable forms, termed normalized claims. We propose CACN, a pioneering approach that leverages chain-of-thought and claim check-worthiness estimation, mimicking human reasoning processes, to comprehend intricate claims. Moreover, we capitalize on the in-context learning capabilities of large language models to provide guidance and to improve claim normalization. To evaluate the effectiveness of our proposed model, we meticulously compile a comprehensive real-world dataset, CLAN, comprising more than 6k instances of social media posts alongside their respective normalized claims. Our experiments demonstrate that CACN outperforms several baselines across various evaluation measures. Finally, our rigorous error analysis validates CACN's capabilities and pitfalls. | 翻訳日:2023-11-14 20:02:29 公開日:2023-11-13 |
# 言語モデルアンアライメント:隠れたハームとバイアスを抽出するパラメトリックなレッドチーム Language Model Unalignment: Parametric Red-Teaming to Expose Hidden Harms and Biases ( http://arxiv.org/abs/2310.14303v2 ) ライセンス: Link先を確認 | Rishabh Bhardwaj, Soujanya Poria | (参考訳) red-teamingは大規模言語モデル(llm)の有害性を評価する手段として広く採用されている。
これは、モデルの安全動作をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
既存の手法は主に、敵対的プロンプト、低リソースプロンプト、文脈化されたプロンプトといった入力テキストベースのレッドチームに基づいており、安全な振る舞いを回避している。
ガードレールを通過させることで、安全訓練によって新たに導入された未処理または未処理のモデルに隠された有害な情報やバイアスが明らかになる。
しかし、攻撃成功率の低さと特定のモデルへの適用性から、プロンプトベースの攻撃はそのような診断を提供しない。
本稿では,LLMの安全性研究,すなわちUnalignmentによるパラメトリックレッドチームについて,新たな視点を示す。
単に(指示)モデルパラメータをチューニングして、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
最大100のサンプルを使用したアンアライメントは、一般的にCHATGPTと呼ばれるものから、2つのセーフティベンチマークデータセットで有害なクエリに対して88%の成功率で応答する時点まで、大幅にバイパスすることができる。
VICUNA-7BやLAMA-2-CHAT 7Bや13Bといったオープンソースのモデルでは、攻撃成功率は91%以上である。
バイアス評価では、unalignmentは、モデルの応答が強くバイアスされ、時間の64%が意見を呈するchatgptやllama- 2-chatのような安全アライメントモデルに固有のバイアスを露呈する。 Red-teaming has been a widely adopted way to evaluate the harmfulness of Large Language Models (LLMs). It aims to jailbreak a model's safety behavior to make it act as a helpful agent disregarding the harmfulness of the query. Existing methods are primarily based on input text-based red-teaming such as adversarial prompts, low-resource prompts, or contextualized prompts to condition the model in a way to bypass its safe behavior. Bypassing the guardrails uncovers hidden harmful information and biases in the model that are left untreated or newly introduced by its safety training. However, prompt-based attacks fail to provide such a diagnosis owing to their low attack success rate, and applicability to specific models. In this paper, we present a new perspective on LLM safety research i.e., parametric red-teaming through Unalignment. It simply (instruction) tunes the model parameters to break model guardrails that are not deeply rooted in the model's behavior. Unalignment using as few as 100 examples can significantly bypass commonly referred to as CHATGPT, to the point where it responds with an 88% success rate to harmful queries on two safety benchmark datasets. On open-source models such as VICUNA-7B and LLAMA-2-CHAT 7B AND 13B, it shows an attack success rate of more than 91%. On bias evaluations, Unalignment exposes inherent biases in safety-aligned models such as CHATGPT and LLAMA- 2-CHAT where the model's responses are strongly biased and opinionated 64% of the time. | 翻訳日:2023-11-14 20:01:40 公開日:2023-11-13 |
# 対話における推論のためのコントラスト学習 Contrastive Learning for Inference in Dialogue ( http://arxiv.org/abs/2310.12467v2 ) ライセンス: Link先を確認 | Etsuko Ishii, Yan Xu, Bryan Wilie, Ziwei Ji, Holy Lovenia, Willy Chung, Pascale Fung | (参考訳) 推論,特に帰納的プロセスから派生したものは,話者が暗黙的にあるいは明示的に伝達する情報を補完する上で,会話において重要な要素である。
近年の大規模言語モデルは推論タスクの顕著な進歩を示しているが、帰納的推論におけるそれらの性能は、すべての情報が文脈に存在するわけではない。
本稿では,帰納的推論と帰納的推論を区別する意味情報ギャップによって定義される課題難易度に基づいて,モデルの振る舞いを分析する(Johnson-Laird,1988,1993)。
分析の結果,対話コンテキストと所望の推論の相違が帰納的推論プロセスに重大な課題をもたらすことが明らかとなった。
この情報ギャップを軽減するために, 負のサンプルを給餌することで, 対照的な学習手法を検討する。
我々の実験は、モデルが何が間違っているのかを理解し、推論世代を改善するのに役立つことを示唆している。 Inference, especially those derived from inductive processes, is a crucial component in our conversation to complement the information implicitly or explicitly conveyed by a speaker. While recent large language models show remarkable advances in inference tasks, their performance in inductive reasoning, where not all information is present in the context, is far behind deductive reasoning. In this paper, we analyze the behavior of the models based on the task difficulty defined by the semantic information gap -- which distinguishes inductive and deductive reasoning (Johnson-Laird, 1988, 1993). Our analysis reveals that the disparity in information between dialogue contexts and desired inferences poses a significant challenge to the inductive inference process. To mitigate this information gap, we investigate a contrastive learning approach by feeding negative samples. Our experiments suggest negative samples help models understand what is wrong and improve their inference generations. | 翻訳日:2023-11-14 20:00:26 公開日:2023-11-13 |
# 粗粒度データセットの活用による低リソースきめ細粒度エンティティ認識の実現 Enhancing Low-resource Fine-grained Named Entity Recognition by Leveraging Coarse-grained Datasets ( http://arxiv.org/abs/2310.11715v2 ) ライセンス: Link先を確認 | Su Ah Lee, Seokjin Oh and Woohwan Jung | (参考訳) 名前付きエンティティ認識(NER)は、特に粒度の細かいNERシナリオにおいて、ラベル付きデータの不十分な問題にしばしば悩まされる。
k$-shotの学習テクニックは適用可能だが、アノテーション数が数十のラベルを超えると、そのパフォーマンスは飽和する傾向がある。
この問題を解決するために、多数のアノテーションを提供する既存の粗粒度データセットを利用する。
この問題を解決するための直接的なアプローチは、表現学習に粗い粒度データを用いる事前調整である。
しかし、粗粒状エンティティと粗粒状エンティティの関係を直接利用することはできないが、粗粒状エンティティタイプは粗粒状エンティティタイプのサブカテゴリである可能性が高い。
階層構造を明示的に活用するためにF2Cマッピング行列を用いた粒度NERモデルを提案する。
さらに,性能劣化を回避するために,粒度が粗いエンティティと不一致なエンティティを除去する不整合フィルタリング手法を提案する。
提案手法は,少量の微粒なアノテーションを扱う場合,K$-shot学習法と教師あり学習法の両方より優れていることを示す。 Named Entity Recognition (NER) frequently suffers from the problem of insufficient labeled data, particularly in fine-grained NER scenarios. Although $K$-shot learning techniques can be applied, their performance tends to saturate when the number of annotations exceeds several tens of labels. To overcome this problem, we utilize existing coarse-grained datasets that offer a large number of annotations. A straightforward approach to address this problem is pre-finetuning, which employs coarse-grained data for representation learning. However, it cannot directly utilize the relationships between fine-grained and coarse-grained entities, although a fine-grained entity type is likely to be a subcategory of a coarse-grained entity type. We propose a fine-grained NER model with a Fine-to-Coarse(F2C) mapping matrix to leverage the hierarchical structure explicitly. In addition, we present an inconsistency filtering method to eliminate coarse-grained entities that are inconsistent with fine-grained entity types to avoid performance degradation. Our experimental results show that our method outperforms both $K$-shot learning and supervised learning methods when dealing with a small number of fine-grained annotations. | 翻訳日:2023-11-14 19:59:15 公開日:2023-11-13 |
# MNN: 自己指導型学習のための近親者の混在 MNN: Mixed Nearest-Neighbors for Self-Supervised Learning ( http://arxiv.org/abs/2311.00562v2 ) ライセンス: Link先を確認 | Xianzhong Long, Chen Peng, Yun Li | (参考訳) 対照的に自己教師付き学習では、正のサンプルは、通常同じ画像から引き出されるが、異なる拡張ビューで引き出されるため、比較的限られた正のサンプル源となる。
この問題を軽減する効果的な方法は、サンプル間の関係を組み込むことである。
しかし、偽の隣人の問題(すなわち、正のサンプルと同じカテゴリに属しない隣人の問題)は客観的であるが、監督情報のない隣人のサンプルの問い合わせによってしばしば見過ごされる課題である。
本稿では,MNN(Mixed Nearest-Neighbors for Self-Supervised Learning)と呼ばれる,シンプルな自己教師型学習フレームワークを提案する。
MNNは、直感的な重み付け手法と画像混合操作により、サンプルのセマンティクスに対する近隣サンプルの影響を最適化する。
その結果、MNNは4つのベンチマークデータセットに対して、例外的な一般化性能とトレーニング効率を示した。 In contrastive self-supervised learning, positive samples are typically drawn from the same image but in different augmented views, resulting in a relatively limited source of positive samples. An effective way to alleviate this problem is to incorporate the relationship between samples, which involves including the top-K nearest neighbors of positive samples. However, the problem of false neighbors (i.e., neighbors that do not belong to the same category as the positive sample) is an objective but often overlooked challenge due to the query of neighbor samples without supervision information. In this paper, we present a simple self-supervised learning framework called Mixed Nearest-Neighbors for Self-Supervised Learning (MNN). MNN optimizes the influence of neighbor samples on the semantics of positive samples through an intuitive weighting approach and image mixture operations. The results demonstrate that MNN exhibits exceptional generalization performance and training efficiency on four benchmark datasets. | 翻訳日:2023-11-14 19:51:00 公開日:2023-11-13 |
# MetisFL: スケーラブルで効率的なフェデレーション学習ワークフローのための恥ずかしいほど並列化されたコントローラ MetisFL: An Embarrassingly Parallelized Controller for Scalable & Efficient Federated Learning Workflows ( http://arxiv.org/abs/2311.00334v2 ) ライセンス: Link先を確認 | Dimitris Stripelis, Chrysovalantis Anastasiou, Patrick Toral, Armaghan Asghar, Jose Luis Ambite | (参考訳) FL(Federated Learning)システムは通常、フェデレーションコントローラと学習者という2つのコア処理エンティティで構成される。
コントローラは、学習者と学習者間のflワークフローの実行を管理し、プライベートデータセット上の連合モデルのトレーニングと評価を行う。
flワークフローの実行中、flシステムは、参加する学習者の計算リソースやデータの制御を行なわない。
それでも、モデル集約、タスクのディスパッチ、スケジューリングなど、他のオペレーションにも責任がある。
これらの計算量の多い操作は一般にフェデレーションコントローラによって処理される必要がある。
flワークフローの開発を容易にするために、多くのflシステムが最近提案されているが、これらのシステムのほとんどはコントローラのスケーラビリティを見落としている。
このニーズに応えるために,フェデレーションコントローラが第一級市民であるMetisFLと呼ばれる新しいFLシステムを設計・開発した。
metisflは、フェデレーションコントローラが行うすべての操作を再設計し、大規模なflワークフローのトレーニングを加速する。
metisflを最先端のflシステムと定量的に比較することにより,モデルサイズやフェデレーションサイトの増加とともに,幅広いflワークフローにまたがって,metisflが10倍のウォールクロック時間実行促進につながることを実証した。 A Federated Learning (FL) system typically consists of two core processing entities: the federation controller and the learners. The controller is responsible for managing the execution of FL workflows across learners and the learners for training and evaluating federated models over their private datasets. While executing an FL workflow, the FL system has no control over the computational resources or data of the participating learners. Still, it is responsible for other operations, such as model aggregation, task dispatching, and scheduling. These computationally heavy operations generally need to be handled by the federation controller. Even though many FL systems have been recently proposed to facilitate the development of FL workflows, most of these systems overlook the scalability of the controller. To meet this need, we designed and developed a novel FL system called MetisFL, where the federation controller is the first-class citizen. MetisFL re-engineers all the operations conducted by the federation controller to accelerate the training of large-scale FL workflows. By quantitatively comparing MetisFL against other state-of-the-art FL systems, we empirically demonstrate that MetisFL leads to a 10-fold wall-clock time execution boost across a wide range of challenging FL workflows with increasing model sizes and federation sites. | 翻訳日:2023-11-14 19:50:41 公開日:2023-11-13 |
# 雑音推定復号に基づく効率的な絡み合い浄化 Efficient entanglement purification based on noise guessing decoding ( http://arxiv.org/abs/2310.19914v2 ) ライセンス: Link先を確認 | Andr\'e Roque, Diogo Cruz, Francisco A. Monteiro, Bruno C. Coutinho | (参考訳) 本稿では,従来の誤り訂正符号に対して最近考案されたランダムな付加雑音復号法(GRAND)に基づいて,ハッシュ処理と推定に基づく新しい二部絡み除去プロトコルを提案する。
我々のプロトコルは、既存のハッシュプロトコルに対して大きな利点を提供し、浄化のためにキュービットを少なくし、高い忠実性を実現し、計算コストを削減してより良い利得を提供する。
我々は,この発見を裏付ける数値的,半解析的な結果を示し,bennet 等のハッシュプロトコルと詳細な比較を行った。
その先駆的な仕事は性能限界を考案したが、実装のための明確な構成は提供しなかった。
本研究は, そのギャップを埋め, 明示的で効率的な浄化法を提供する。
提案手法は,16組の小さなアンサンブルであっても,ベルペアあたり10%のノイズを持つ状態を浄化できることを実証する。
本研究は,ノイズを伴う実用的な設定に対処するプロトコルの計測に基づく実装について検討する。
本研究は, 実現可能な計算コストを持つハッシュ法を用いて, 実用的で効率的な絡み合い浄化への道を開く。
従来のハッシュプロトコルと比較すると,提案手法は,初期リソース数を100倍小さくすることで,所望の忠実性を実現することができる。
そのため,提案手法は資源が限られ,計算オーバーヘッドが比較的少ない将来の量子ネットワークに適していると考えられる。 In this paper, we propose a novel bipartite entanglement purification protocol built upon hashing and upon the guessing random additive noise decoding (GRAND) approach recently devised for classical error correction codes. Our protocol offers substantial advantages over existing hashing protocols, requiring fewer qubits for purification, achieving higher fidelities, and delivering better yields with reduced computational costs. We provide numerical and semi-analytical results to corroborate our findings and provide a detailed comparison with the hashing protocol of Bennet et al. Although that pioneering work devised performance bounds, it did not offer an explicit construction for implementation. The present work fills that gap, offering both an explicit and more efficient purification method. We demonstrate that our protocol is capable of purifying states with noise on the order of 10% per Bell pair even with a small ensemble of 16 pairs. The work explores a measurement-based implementation of the protocol to address practical setups with noise. This work opens the path to practical and efficient entanglement purification using hashing-based methods with feasible computational costs. Compared to the original hashing protocol, the proposed method can achieve some desired fidelity with a number of initial resources up to one hundred times smaller. Therefore, the proposed method seems well-fit for future quantum networks with a limited number of resources and entails a relatively low computational overhead. | 翻訳日:2023-11-14 19:49:59 公開日:2023-11-13 |
# 事前学習型言語モデルをニューラルネットワーク翻訳に統合する Integrating Pre-trained Language Model into Neural Machine Translation ( http://arxiv.org/abs/2310.19680v2 ) ライセンス: Link先を確認 | Soon-Jae Hwang, Chang-Sung Jeong | (参考訳) ニューラルネットワーク翻訳(NMT)は、広範囲の研究・開発を通じて自然言語処理において重要な技術となっている。
しかし、高品質なバイリンガル言語ペアデータの不足は、NMTの性能向上に依然として大きな課題をもたらしている。
近年,この問題を解決するために,事前学習言語モデル(PLM)の文脈情報の利用を検討している。
しかし, PLM モデルと NMT モデルの不整合性の問題は未解決のままである。
本研究では PLM 統合 NMT (PiNMT) モデルを提案する。
PiNMTモデルは、3つの重要なコンポーネント、PLM Multi Layer Converter、Embedding Fusion、Cosine Alignmentで構成され、それぞれがNMTに効果的なPLM情報を提供する上で重要な役割を果たす。
さらに,本論文では,個別学習率と2段階学習という2つのトレーニング戦略についても紹介する。
提案したPiNMTモデルとトレーニング戦略を実装することで,IWSLT'14 En$\leftrightarrow$Deデータセット上で最先端のパフォーマンスを実現した。
本研究の結果は,非互換性を克服し,性能を向上させるため,PLMとNMTを効率的に統合する新たなアプローチを示すものである。 Neural Machine Translation (NMT) has become a significant technology in natural language processing through extensive research and development. However, the deficiency of high-quality bilingual language pair data still poses a major challenge to improving NMT performance. Recent studies are exploring the use of contextual information from pre-trained language model (PLM) to address this problem. Yet, the issue of incompatibility between PLM and NMT model remains unresolved. This study proposes a PLM-integrated NMT (PiNMT) model to overcome the identified problems. The PiNMT model consists of three critical components, PLM Multi Layer Converter, Embedding Fusion, and Cosine Alignment, each playing a vital role in providing effective PLM information to NMT. Furthermore, two training strategies, Separate Learning Rates and Dual Step Training, are also introduced in this paper. By implementing the proposed PiNMT model and training strategy, we achieved state-of-the-art performance on the IWSLT'14 En$\leftrightarrow$De dataset. This study's outcomes are noteworthy as they demonstrate a novel approach for efficiently integrating PLM with NMT to overcome incompatibility and enhance performance. | 翻訳日:2023-11-14 19:49:38 公開日:2023-11-13 |
# MILL: ゼロショットクエリ拡張のための大規模言語モデルによる相互検証 MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion ( http://arxiv.org/abs/2310.19056v2 ) ライセンス: Link先を確認 | Pengyue Jia, Yiding Liu, Xiangyu Zhao, Xiaopeng Li, Changying Hao, Shuaiqiang Wang, Dawei Yin | (参考訳) クエリ拡張は、多くの検索システムにおいて、追加のクエリ用語でユーザの情報ニーズをより良く表現するための一般的なテクニックである。
このタスクの既存の研究は通常、検索または生成されたコンテキスト文書でクエリを拡張することを提案する。
しかし、どちらの方法にも明確な制限がある。
検索に基づく手法では、元のクエリで検索した文書は、検索意図を明らかにするのに十分ではないかもしれない。
ジェネレーションベースでは、コーパス固有のラベル付きデータがないため、既存のモデルは特定のコーパス上でトレーニングやアライメントがほとんどできない。
本稿では,前述した制限を緩和するクエリ拡張のための,新しい大規模言語モデル(llm)ベースの相互検証フレームワークを提案する。
具体的には、LLMに符号化されたコンテキスト知識を効果的に活用し、複数の視点からサブクエリと対応するドキュメントを生成するクエリクエリ文書生成パイプラインを設計する。
次に,生成文書と検索文書の両方に対して相互検証手法を適用した。
1)検索された文書は、生成された文書の外部の文脈知識でフィルタリングされ、
2) 得られた文書のコーパス固有の知識で生成された文書をフィルタリングする。
提案手法により,検索された文書と生成した文書が相互に補完され,より優れたクエリ拡張が達成される。
本稿では,TREC-DL-2020,TREC-COVID,MSMARCOの3つの情報検索データセットについて広範な実験を行った。
その結果,本手法は他のベースラインよりも優れていた。 Query expansion is a commonly-used technique in many search systems to better represent users' information needs with additional query terms. Existing studies for this task usually propose to expand a query with retrieved or generated contextual documents. However, both types of methods have clear limitations. For retrieval-based methods, the documents retrieved with the original query might not be accurate enough to reveal the search intent, especially when the query is brief or ambiguous. For generation-based methods, existing models can hardly be trained or aligned on a particular corpus, due to the lack of corpus-specific labeled data. In this paper, we propose a novel Large Language Model (LLM) based mutual verification framework for query expansion, which alleviates the aforementioned limitations. Specifically, we first design a query-query-document generation pipeline, which can effectively leverage the contextual knowledge encoded in LLMs to generate sub-queries and corresponding documents from multiple perspectives. Next, we employ a mutual verification method for both generated and retrieved contextual documents, where 1) retrieved documents are filtered with the external contextual knowledge in generated documents, and 2) generated documents are filtered with the corpus-specific knowledge in retrieved documents. Overall, the proposed method allows retrieved and generated documents to complement each other to finalize a better query expansion. We conduct extensive experiments on three information retrieval datasets, i.e., TREC-DL-2020, TREC-COVID, and MSMARCO. The results demonstrate that our method outperforms other baselines significantly. | 翻訳日:2023-11-14 19:48:54 公開日:2023-11-13 |
# 直交基底とスペクトル変換を用いたベクトル埋め込みによる高速機械学習法 Fast Machine Learning Method with Vector Embedding on Orthonormal Basis and Spectral Transform ( http://arxiv.org/abs/2310.18424v2 ) ライセンス: Link先を確認 | Louis Yu Lu | (参考訳) 本稿では,オーソノーマル基底上のベクトル埋め込み(VEOB)とスペクトル変換(ST)の2つの手法を利用する,新しい高速機械学習手法を提案する。
VEOBは元のデータをベクトル埋め込みに変換し、座標を正規直交基底に投影する。
特異値分解(singular value decomposition:svd)技術はベクトル基底と射影座標の計算に用いられ、埋め込み空間における距離測定の強化と、最大特異値に関連する投影ベクトルの保存によるデータ圧縮の促進に寄与する。
一方、STはベクトルデータの列をスペクトル空間に変換する。
Discrete Cosine Transform (DCT)を適用し、最も重要なコンポーネントを選択することで、長いベクトルシーケンスの処理を効率化する。
本稿では,ユリア語でベクトルデータベースを用いて実装された単語埋め込み,テキストチャンク埋め込み,画像埋め込みの例を示す。
また,この手法を用いた教師なし学習と教師なし学習と,大規模データ量を扱う戦略についても検討した。 This paper presents a novel fast machine learning method that leverages two techniques: Vector Embedding on Orthonormal Basis (VEOB) and Spectral Transform (ST). The VEOB converts the original data encoding into a vector embedding with coordinates projected onto orthonormal bases. The Singular Value Decomposition (SVD) technique is used to calculate the vector basis and projection coordinates, leading to an enhanced distance measurement in the embedding space and facilitating data compression by preserving the projection vectors associated with the largest singular values. On the other hand, ST transforms sequence of vector data into spectral space. By applying the Discrete Cosine Transform (DCT) and selecting the most significant components, it streamlines the handling of lengthy vector sequences. The paper provides examples of word embedding, text chunk embedding, and image embedding, implemented in Julia language with a vector database. It also investigates unsupervised learning and supervised learning using this method, along with strategies for handling large data volumes. | 翻訳日:2023-11-14 19:48:16 公開日:2023-11-13 |
# StyleBART: 教師なしストリスティック見出し生成のためのスタイルアダプタ付きプレトレーニングモデル StyleBART: Decorate Pretrained Model with Style Adapters for Unsupervised Stylistic Headline Generation ( http://arxiv.org/abs/2310.17743v2 ) ライセンス: Link先を確認 | Hanqing Wang, Yajing Luo, Boya Xiong, Guanhua Chen, Yun Chen | (参考訳) スタイル的見出し生成(sylistic headline generation)とは、記事の内容を要約するだけでなく、ユーザを惹きつける所望のスタイルを反映する見出しを生成するタスクである。
スタイル固有の記事-見出しペアは少ないため、以前の研究では、標準的な見出し生成データセットとモノスタイルコーパスによる教師なしアプローチに重点を置いていた。
本稿では,この行に従って,スタイル的見出し生成のための教師なしアプローチであるstylebartを提案する。
提案手法は,事前学習したBARTモデルを,異なるスタイルに責任を持つアダプタでデコレーションし,単にアダプタを切り替えることで,多様なスタイルで見出しを生成する。
以前の作業とは異なり、StyleBARTはスタイル学習と見出し生成のタスクを分離し、推論中にベースモデルとスタイルアダプタを自由に組み合わせることを可能にする。
さらに,スタイルアダプタを強化するための逆パラフレージングタスクも提案する。
大規模自動評価と人的評価により、StyleBARTは教師なしのスタイルの見出し生成タスクにおいて新しい最先端のパフォーマンスを実現し、望ましいスタイルで高品質な見出しを生成する。 Stylistic headline generation is the task to generate a headline that not only summarizes the content of an article, but also reflects a desired style that attracts users. As style-specific article-headline pairs are scarce, previous researches focus on unsupervised approaches with a standard headline generation dataset and mono-style corpora. In this work, we follow this line and propose StyleBART, an unsupervised approach for stylistic headline generation. Our method decorates the pretrained BART model with adapters that are responsible for different styles and allows the generation of headlines with diverse styles by simply switching the adapters. Different from previous works, StyleBART separates the task of style learning and headline generation, making it possible to freely combine the base model and the style adapters during inference. We further propose an inverse paraphrasing task to enhance the style adapters. Extensive automatic and human evaluations show that StyleBART achieves new state-of-the-art performance in the unsupervised stylistic headline generation task, producing high-quality headlines with the desired style. | 翻訳日:2023-11-14 19:47:03 公開日:2023-11-13 |
# ChaTA:オープンソースLLMを用いた知的質問応答アシスタントを目指して ChaTA: Towards an Intelligent Question-Answer Teaching Assistant using Open-Source LLMs ( http://arxiv.org/abs/2311.02775v2 ) ライセンス: Link先を確認 | Yann Hicke, Anmol Agarwal, Qianou Ma, Paul Denny | (参考訳) オンラインqaプラットフォームにおける何千もの学生の質問に対して,学期ごとにかなりの人的コストがかかります。
スケーラブルでインテリジェントな質問応答(QA)の課題に対処するため,LLaMA-2ファミリからのオープンソースのLarge Language Models(LLM)を活用して,データのプライバシを確保する革新的なソリューションを提案する。
本手法は,検索拡張生成(rag),教師付き微調整(sft),直接選好最適化(dpo)を用いた人間選好データからの学習といった拡張手法を組み合わせたものである。
1万対のQAペアと1500対の選好データからなるCSコースからPazzaデータセットを広範囲に実験することにより、回答の品質が30%向上し、RAGは特に影響のある追加であることを示す。
我々の貢献には、教育用QAのための新しいアーキテクチャの開発、人間の評価とLLMベースのメトリクスの両方を利用したLLMパフォーマンスの広範な評価、教育データ処理の課題と今後の方向性に関する洞察が含まれる。
この研究は、オンラインQAプラットフォームでコースをカスタマイズ可能なインテリジェントQAアシスタントCHATAの開発の道を開く。 Responding to the thousands of student questions on online QA platforms each semester has a considerable human cost, particularly in computing courses with rapidly growing enrollments. To address the challenges of scalable and intelligent question-answering (QA), we introduce an innovative solution that leverages open-source Large Language Models (LLMs) from the LLaMA-2 family to ensure data privacy. Our approach combines augmentation techniques such as retrieval augmented generation (RAG), supervised fine-tuning (SFT), and learning from human preferences data using Direct Preference Optimization (DPO). Through extensive experimentation on a Piazza dataset from an introductory CS course, comprising 10,000 QA pairs and 1,500 pairs of preference data, we demonstrate a significant 30% improvement in the quality of answers, with RAG being a particularly impactful addition. Our contributions include the development of a novel architecture for educational QA, extensive evaluations of LLM performance utilizing both human assessments and LLM-based metrics, and insights into the challenges and future directions of educational data processing. This work paves the way for the development of CHATA, an intelligent QA assistant customizable for courses with an online QA platform | 翻訳日:2023-11-14 19:39:20 公開日:2023-11-13 |
# ホークス条件付き待ち行列の定常解析とオンライン学習 Steady-State Analysis and Online Learning for Queues with Hawkes Arrivals ( http://arxiv.org/abs/2311.02577v2 ) ライセンス: Link先を確認 | Xinyun Chen and Guiyu Hong | (参考訳) 我々は,ホークス到着によるシングルサーバキューの長時間動作と一般サービス分布および関連する最適化問題について検討する。
本稿では, 新たな結合技術を用いて, 作業負荷および多忙なプロセスの定常分布に対する有限モーメント境界を確立する。
さらに,これらの待ち行列プロセスが定常分布に指数関数的に収束することを示すことができる。
これらの理論的な結果に基づいて,ホークスキューの最適スタッフング問題をデータ駆動方式で解く効率的な数値アルゴリズムを開発した。
従来のGI/GI/1モデルと比較して,特に重交通系では,ホークスキューの人員配置が著しく異なることが示唆された。 We investigate the long-run behavior of single-server queues with Hawkes arrivals and general service distributions and related optimization problems. In detail, utilizing novel coupling techniques, we establish finite moment bounds for the stationary distribution of the workload and busy period processes. In addition, we are able to show that, those queueing processes converge exponentially fast to their stationary distribution. Based on these theoretic results, we develop an efficient numerical algorithm to solve the optimal staffing problem for the Hawkes queues in a data-driven manner. Numerical results indicate a sharp difference in staffing for Hawkes queues, compared to the classic GI/GI/1 model, especially in the heavy-traffic regime. | 翻訳日:2023-11-14 19:38:44 公開日:2023-11-13 |
# 画像の超解像度$-$ a non-denoising modelでdtls(domain transfer in latent space)が勝利 Domain Transfer in Latent Space (DTLS) Wins on Image Super-Resolution $-$ a Non-Denoising Model ( http://arxiv.org/abs/2311.02358v2 ) ライセンス: Link先を確認 | Chun-Chuen Hui, Wan-Chi Siu, Ngai-Fong Law | (参考訳) 大規模な画像スーパーレゾリューションはコンピュータビジョンの課題であり、例えばforscale x16スーパーレゾリューションのような高度に劣化した画像には膨大な情報が欠落している。
拡散モデルは近年、超高分解能な応用において成功しており、ガウスノイズは潜在光写実空間を形成する手段として使われ、潜光写実空間と潜光写実空間の間のリンクとして機能する。
拡散モデルを成功させるガウス雑音の統計のマッピングには、かなり洗練された数学的導出がある。
本稿では,ガウス雑音を回避しつつ,画像の高分解能化に拡散モデルの基本構造を応用した簡易な手法を提案する。
基本的には,統計的性質の違いを学習し,適度な品質の結果として段階的な補間を容易にする,隣接領域間のドメイン転送を行うdnnを提案する。
入力LR画像を参照してドメイン転送を条件付けすることにより、さらなる品質向上を実現する。
実験結果から,本手法は最先端の大規模超解像モデルだけでなく,画像超解像に対する現在の拡散モデルよりも優れていた。
このアプローチは、画像の啓蒙、塗装、装飾など、他のイメージ・ツー・イメージタスクに容易に拡張できる。 Large scale image super-resolution is a challenging computer vision task, since vast information is missing in a highly degraded image, say for example forscale x16 super-resolution. Diffusion models are used successfully in recent years in extreme super-resolution applications, in which Gaussian noise is used as a means to form a latent photo-realistic space, and acts as a link between the space of latent vectors and the latent photo-realistic space. There are quite a few sophisticated mathematical derivations on mapping the statistics of Gaussian noises making Diffusion Models successful. In this paper we propose a simple approach which gets away from using Gaussian noise but adopts some basic structures of diffusion models for efficient image super-resolution. Essentially, we propose a DNN to perform domain transfer between neighbor domains, which can learn the differences in statistical properties to facilitate gradual interpolation with results of reasonable quality. Further quality improvement is achieved by conditioning the domain transfer with reference to the input LR image. Experimental results show that our method outperforms not only state-of-the-art large scale super resolution models, but also the current diffusion models for image super-resolution. The approach can readily be extended to other image-to-image tasks, such as image enlightening, inpainting, denoising, etc. | 翻訳日:2023-11-14 19:38:32 公開日:2023-11-13 |
# 政策優先による任意の競争力強化学習 Anytime-Competitive Reinforcement Learning with Policy Prior ( http://arxiv.org/abs/2311.01568v2 ) ライセンス: Link先を確認 | Jianyi Yang, Pengfei Li, Tongxin Li, Adam Wierman, Shaolei Ren | (参考訳) 本稿では,A-CMDP(Anytime-Competitive Markov Decision Process)の問題について検討する。
既存のCMDP(Constrained Markov Decision Processs)の作業は、期待されるコストをランダムなダイナミクスに制限しながら、期待される報酬を最適化することを目的としているが、特定のエピソードのコストは不満足に高い。
対照的に、A-CMDPの目標は、期待される報酬を最適化し、前回のポリシーに対して各エピソードのラウンドのバウンドコストを保証することである。
我々は,anytime-competitive reinforcement learning (acrl) と呼ばれる新しいアルゴリズムを提案する。
後悔の分析は、ポリシーが常に競争上の制約の下で達成可能な最適報酬に漸近的に一致することを示している。
炭素インテリジェントコンピューティングの適用実験は、ACRLの報酬性能とコスト制約保証を検証する。 This paper studies the problem of Anytime-Competitive Markov Decision Process (A-CMDP). Existing works on Constrained Markov Decision Processes (CMDPs) aim to optimize the expected reward while constraining the expected cost over random dynamics, but the cost in a specific episode can still be unsatisfactorily high. In contrast, the goal of A-CMDP is to optimize the expected reward while guaranteeing a bounded cost in each round of any episode against a policy prior. We propose a new algorithm, called Anytime-Competitive Reinforcement Learning (ACRL), which provably guarantees the anytime cost constraints. The regret analysis shows the policy asymptotically matches the optimal reward achievable under the anytime competitive constraints. Experiments on the application of carbon-intelligent computing verify the reward performance and cost constraint guarantee of ACRL. | 翻訳日:2023-11-14 19:37:40 公開日:2023-11-13 |
# Divergent Token Metrics: LLMコンポーネントを起点とする劣化の測定と量子化の最適化 Divergent Token Metrics: Measuring degradation to prune away LLM components -- and optimize quantization ( http://arxiv.org/abs/2311.01544v2 ) ライセンス: Link先を確認 | Bj\"orn Deiseroth, Max Meuer, Nikolas Gritsch, Constantin Eichenberg, Patrick Schramowski, Matthias A{\ss}enmacher, Kristian Kersting | (参考訳) 大きな言語モデル(LLM)は、その印象的な能力で自然言語処理を再構築した。
しかし、その規模は増え続けており、効果的デプロイとLLM圧縮の必要性への懸念が高まった。
本研究では, テキスト生成品質を正確に反映できない従来の難易度や精度の限界に対処する, 圧縮LDMの新たな評価手法であるDTMを紹介した。
DTMは、モデルの圧縮の微妙さ、すなわちコンポーネントの影響を個別に評価する際の深い洞察を可能にするトークンの発散に焦点を当てている。
モデルスペーシフィケーションにFDTM(First Divergent Token metric)を用いることで、すべての注意要素の4分の1がLlama-2モデルファミリで90%を超え、SOTA性能を維持していることが明らかになった。
量子化のためにFDTMは、パラメータの80%以上を特別な外れ値管理なしでint8に変換することを示唆している。
これらの評価は、パラメータの適切な圧縮を選択する必要があることを示し、FDTMはそれらの標準指標を識別し、結果が劣化することを示す。 Large Language Models (LLMs) have reshaped natural language processing with their impressive capabilities. Their ever-increasing size, however, raised concerns about their effective deployment and the need for LLM compressions. This study introduces the Divergent Token metrics (DTMs), a novel approach for assessing compressed LLMs, addressing the limitations of traditional perplexity or accuracy measures that fail to accurately reflect text generation quality. DTMs focus on token divergence, that allow deeper insights into the subtleties of model compression, i.p. when evaluating component's impacts individually. Utilizing the First Divergent Token metric (FDTM) in model sparsification reveals that a quarter of all attention components can be pruned beyond 90% on the Llama-2 model family, still keeping SOTA performance. For quantization FDTM suggests that over 80% of parameters can naively be transformed to int8 without special outlier management. These evaluations indicate the necessity of choosing appropriate compressions for parameters individually-and that FDTM can identify those-while standard metrics result in deteriorated outcomes. | 翻訳日:2023-11-14 19:37:25 公開日:2023-11-13 |
# robogen: 生成シミュレーションによるロボットの自動学習のための無限データを解き放つ RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation ( http://arxiv.org/abs/2311.01455v2 ) ライセンス: Link先を確認 | Yufei Wang, Zhou Xian, Feng Chen, Tsun-Hsuan Wang, Yian Wang, Zackory Erickson, David Held, Chuang Gan | (参考訳) 生成型ロボットエージェントであるRoboGenは、生成型シミュレーションにより、さまざまなロボットスキルを大規模に学習する。
RoboGenは、基礎と生成モデルの最新の進歩を活用している。
これらのモデルを直接使用したり、低レベルのアクションを生成する代わりに、我々は、これらのモデルを使用して、多種多様なタスク、シーン、トレーニングの監督を自動的に生成し、人間の監督を最小限に抑えてロボットスキル学習をスケールアップする生成スキームを提唱する。
提案手法は,ロボットエージェントに自己誘導型提案-生成-学習サイクルを付与する。エージェントはまず,開発する興味深いタスクとスキルを提案し,それに対応するシミュレーション環境を生成する。
その後、提案するハイレベルタスクをサブタスクに分解し、最適な学習アプローチ(強化学習、モーションプランニング、軌道最適化)を選択し、必要なトレーニング監督を生成し、そのスキルを取得するためのポリシーを学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
当社の完全な生成パイプラインは繰り返しクエリされ、さまざまなタスクや環境に関連するスキルデモンストレーションの無限のストリームを生成します。 We present RoboGen, a generative robotic agent that automatically learns diverse robotic skills at scale via generative simulation. RoboGen leverages the latest advancements in foundation and generative models. Instead of directly using or adapting these models to produce policies or low-level actions, we advocate for a generative scheme, which uses these models to automatically generate diversified tasks, scenes, and training supervisions, thereby scaling up robotic skill learning with minimal human supervision. Our approach equips a robotic agent with a self-guided propose-generate-learn cycle: the agent first proposes interesting tasks and skills to develop, and then generates corresponding simulation environments by populating pertinent objects and assets with proper spatial configurations. Afterwards, the agent decomposes the proposed high-level task into sub-tasks, selects the optimal learning approach (reinforcement learning, motion planning, or trajectory optimization), generates required training supervision, and then learns policies to acquire the proposed skill. Our work attempts to extract the extensive and versatile knowledge embedded in large-scale models and transfer them to the field of robotics. Our fully generative pipeline can be queried repeatedly, producing an endless stream of skill demonstrations associated with diverse tasks and environments. | 翻訳日:2023-11-14 19:37:03 公開日:2023-11-13 |
# 欠陥薬の認識論理のための単純モデル Simplicial Models for the Epistemic Logic of Faulty Agents ( http://arxiv.org/abs/2311.01351v2 ) ライセンス: Link先を確認 | Eric Goubault, Roman Kniazev, Jeremy Ledent, Sergio Rajsbaum | (参考訳) 近年、いくつかの著者がsimplicial complexと呼ばれる高次元構造に基づく認識論理のモデルであるsimplicial modelを調査している。
元々の定式化では、単純モデルは常に純粋であると仮定され、つまりすべての世界は同じ次元を持つ。
これはクリプケモデルに基づく認識論理の標準s5n意味論と等価である。
モデルが純粋であるべきだという仮定を取り除き、通常のクリプケ意味論を越え、世界に参加するエージェントの数が異なる認識論的論理を研究することができる。
このアプローチは多くの論文で開発されており、フォールトトレラントな分散コンピューティングではシステム実行中にプロセスがクラッシュする可能性がある。
不純な単純化モデルの定義における微妙な設計の選択は、結果の論理の異なる公理をもたらす可能性がある。
本稿では,これらの設計選択を体系的に分類し,対応する論理を公理化する。
プロセスがクラッシュする可能性のある同期システムの分散コンピューティングの例を例に説明する。 In recent years, several authors have been investigating simplicial models, a model of epistemic logic based on higher-dimensional structures called simplicial complexes. In the original formulation, simplicial models were always assumed to be pure, meaning that all worlds have the same dimension. This is equivalent to the standard S5n semantics of epistemic logic, based on Kripke models. By removing the assumption that models must be pure, we can go beyond the usual Kripke semantics and study epistemic logics where the number of agents participating in a world can vary. This approach has been developed in a number of papers, with applications in fault-tolerant distributed computing where processes may crash during the execution of a system. A difficulty that arises is that subtle design choices in the definition of impure simplicial models can result in different axioms of the resulting logic. In this paper, we classify those design choices systematically, and axiomatize the corresponding logics. We illustrate them via distributed computing examples of synchronous systems where processes may crash. | 翻訳日:2023-11-14 19:36:40 公開日:2023-11-13 |
# COPAL-ID: インドネシアの言語と地域文化とニュアンス COPAL-ID: Indonesian Language Reasoning with Local Culture and Nuances ( http://arxiv.org/abs/2311.01012v2 ) ライセンス: Link先を確認 | Haryo Akbarianto Wibowo, Erland Hilman Fuadi, Made Nindyatama Nityasya, Radityo Eko Prasojo, Alham Fikri Aji | (参考訳) インドネシア語共通感覚推論データセットであるCOPAL-IDを公開している。
以前のインドネシアのCOPAデータセット(XCOPA-ID)とは異なり、COPAL-IDはインドネシアの地域的・文化的ニュアンスを取り入れており、インドネシアの文化圏における日々の因果関係のより自然な描写を提供する。
XCOPA-IDはXCOPA-IDとは違って、スクラッチからネイティブに書かれており、難解なフレーズがない。
さらに,標準インドネシア語とジャカルタインドネシア語の両方において,日常会話で一般的に使用される方言であるcopal-idを提示する。
COPAL-IDは、既存のオープンソースでクローズドな多言語言語モデルにとって大きな課題となる。
以上の結果から,現在最も優れたオープンソース多言語モデルでさえ,copal-idの65.47%の精度を達成するのに苦労していることが示唆された(79.40%)。
GPT-4の素晴らしいスコアにもかかわらず、XCOPA-IDスコアと同等のパフォーマンス低下を被り、それでも人間のパフォーマンスに欠ける。
これは、これらの言語モデルは、インドネシアの地元のニュアンスを理解する上で、まだ遅れていることを示している。 We present publicly available COPAL-ID, a novel Indonesian language common sense reasoning dataset. Unlike the previous Indonesian COPA dataset (XCOPA-ID), COPAL-ID incorporates Indonesian local and cultural nuances, and therefore, provides a more natural portrayal of day-to-day causal reasoning within the Indonesian cultural sphere. Professionally written by natives from scratch, COPAL-ID is more fluent and free from awkward phrases, unlike the translated XCOPA-ID. In addition, we present COPAL-ID in both standard Indonesian and in Jakartan Indonesian--a dialect commonly used in daily conversation. COPAL-ID poses a greater challenge for existing open-sourced and closed state-of-the-art multilingual language models, yet is trivially easy for humans. Our findings suggest that even the current best open-source, multilingual model struggles to perform well, achieving 65.47% accuracy on COPAL-ID, significantly lower than on the culturally-devoid XCOPA-ID (79.40%). Despite GPT-4's impressive score, it suffers the same performance degradation compared to its XCOPA-ID score, and it still falls short of human performance. This shows that these language models are still way behind in comprehending the local nuances of Indonesian. | 翻訳日:2023-11-14 19:35:24 公開日:2023-11-13 |
# DualTalker: 音声駆動型3次元顔アニメーションのためのクロスモーダルデュアルラーニングアプローチ DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D Facial Animation ( http://arxiv.org/abs/2311.04766v2 ) ライセンス: Link先を確認 | Guinan Su, Yanwu Yang, Zhifeng Li | (参考訳) 近年、特に仮想現実、ゲーム、ビデオ会議などのアプリケーションにおいて、音声駆動の3d顔アニメーションが注目されている。
しかし、表情の複雑で微妙なダイナミクスを正確にモデル化することは依然として困難である。
既存の研究のほとんどは、顔アニメーションタスクを単一の回帰問題として捉えており、音声信号と3d顔アニメーション間の内在的モーダル関係を捉えて、それらの内在的一貫性を見落としていないことが多い。
さらに、3d-audio-visualデータセットの可用性が限られているため、小規模サンプルで学習するアプローチは汎用性が低く、パフォーマンスが低下する。
本稿では,データ利用効率の向上とクロスモーダル依存性の関連を目的とした,クロスモーダルなデュアルラーニングフレームワークであるdualtalkerを提案する。
このフレームワークは、プライマリタスク(オーディオ駆動顔アニメーション)とそのデュアルタスク(リップ読み取り)と共同でトレーニングされ、共通のオーディオ/モーションエンコーダコンポーネントを共有する。
我々の共同トレーニングフレームワークは,両タスクの情報を活用し,顔の動きと音声の相補的関係を明確化し,パフォーマンスを向上させることによって,より効率的なデータ利用を促進する。
さらに,交叉交叉相補表現の基盤となる潜在的オーバースムーシングを軽減するために補助交叉一貫性損失を導入し,微妙な表情ダイナミクスのマッピングを強化した。
VOCAおよびBIWIデータセットを用いた広汎な実験と知覚的ユーザスタディにより,本手法が定性的かつ定量的に現在の最先端手法よりも優れていることを示す。
コードとビデオのデモをhttps://github.com/sabrina-su/iadf.gitで公開しました。 In recent years, audio-driven 3D facial animation has gained significant attention, particularly in applications such as virtual reality, gaming, and video conferencing. However, accurately modeling the intricate and subtle dynamics of facial expressions remains a challenge. Most existing studies approach the facial animation task as a single regression problem, which often fail to capture the intrinsic inter-modal relationship between speech signals and 3D facial animation and overlook their inherent consistency. Moreover, due to the limited availability of 3D-audio-visual datasets, approaches learning with small-size samples have poor generalizability that decreases the performance. To address these issues, in this study, we propose a cross-modal dual-learning framework, termed DualTalker, aiming at improving data usage efficiency as well as relating cross-modal dependencies. The framework is trained jointly with the primary task (audio-driven facial animation) and its dual task (lip reading) and shares common audio/motion encoder components. Our joint training framework facilitates more efficient data usage by leveraging information from both tasks and explicitly capitalizing on the complementary relationship between facial motion and audio to improve performance. Furthermore, we introduce an auxiliary cross-modal consistency loss to mitigate the potential over-smoothing underlying the cross-modal complementary representations, enhancing the mapping of subtle facial expression dynamics. Through extensive experiments and a perceptual user study conducted on the VOCA and BIWI datasets, we demonstrate that our approach outperforms current state-of-the-art methods both qualitatively and quantitatively. We have made our code and video demonstrations available at https://github.com/sabrina-su/iadf.git. | 翻訳日:2023-11-14 19:26:07 公開日:2023-11-13 |
# 拡散生成画像における弱教師付きディープフェイク局在 Weakly-supervised deepfake localization in diffusion-generated images ( http://arxiv.org/abs/2311.04584v2 ) ライセンス: Link先を確認 | Dragos Tantaru and Elisabeta Oneata and Dan Oneata | (参考訳) ノイズ拡散モデルの顕著な生成能力は、インターネット上で毎日見られる画像の真正性に関する新たな懸念を引き起こした。
しかし、既存のディープフェイク検出モデルの大部分は、従来の生成的アプローチ(例えばgan)に対してテストされ、通常は画像毎に「フェイク」または「リアル」ラベルのみを提供する。
より有益な出力は、入力のどの領域が操作されたかを示すローカライズマップで画像ごとのラベルを拡大することだと考えています。
そこで我々は,この課題を弱教師付きローカライズ問題とみなし,Xception ネットワークを共通バックボーンアーキテクチャとして用いて,等価な足場上で比較した手法の3つの主要なカテゴリ(説明,局所スコア,注意)を同定する。
本研究は,設計空間をパラメータ化するすべての主要な要素の注意深い分析を提供する。操作済み画像の作成に使用されるメソッドの選択,監督の種類,データセット,ジェネレータである。
提案手法は,データセットやジェネレータの観点からのミスマッチよりも,より緩い監督に対する感度が低く,最も優れた検出手法(局所スコアに基づく)が実現可能であることを示す。 The remarkable generative capabilities of denoising diffusion models have raised new concerns regarding the authenticity of the images we see every day on the Internet. However, the vast majority of existing deepfake detection models are tested against previous generative approaches (e.g. GAN) and usually provide only a "fake" or "real" label per image. We believe a more informative output would be to augment the per-image label with a localization map indicating which regions of the input have been manipulated. To this end, we frame this task as a weakly-supervised localization problem and identify three main categories of methods (based on either explanations, local scores or attention), which we compare on an equal footing by using the Xception network as the common backbone architecture. We provide a careful analysis of all the main factors that parameterize the design space: choice of method, type of supervision, dataset and generator used in the creation of manipulated images; our study is enabled by constructing datasets in which only one of the components is varied. Our results show that weakly-supervised localization is attainable, with the best performing detection method (based on local scores) being less sensitive to the looser supervision than to the mismatch in terms of dataset or generator. | 翻訳日:2023-11-14 19:25:20 公開日:2023-11-13 |
# AIによるAltermagnetic Materialsの発見 AI-accelerated Discovery of Altermagnetic Materials ( http://arxiv.org/abs/2311.04418v2 ) ライセンス: Link先を確認 | Ze-Feng Gao, Shuai Qu, Bocheng Zeng, Yang Liu, Ji-Rong Wen, Hao Sun, Peng-Jie Guo and Zhong-Yi Lu | (参考訳) 新たな磁気相であるオルテルマグネティズムは、強磁性と反強磁性とを区別して理論的に提案され、実験的に検証されている。
強磁性体は多くの異種な物理的性質を持つことが知られているが、既知の強磁性体(例えば14の確認材料)の可用性は非常に限られているため、そのような性質の研究を妨げている。
したがって、強磁性材料の発見は、強磁性の包括的理解に不可欠であり、ストレージデバイスや高感度センサといった次世代情報技術の新たな応用を促進する。
本稿では, 対称性解析, グラフニューラルネットワーク事前学習, 最適輸送理論, 第一原理電子構造計算を統一したai検索エンジンを用いて, 金属, 半導体, 絶縁体を覆う25種類の新しい強磁性材料について報告する。
広い範囲の電子構造特性は、新たに発見された強磁性材料、例えば異常ホール効果、異常カー効果、位相的性質に様々な新しい物性が現れることを示している。
注目すべきは、初めて8個のi波反磁性材料を発見したことだ。
全体として、ai検索エンジンは人間のエキスパートよりもはるかに優れた性能を発揮し、ユニークな特性を持つ新しい代替磁性材料セットを提案し、標的特性を持つ材料の発見を加速する可能性を概説している。 Altermagnetism, a new magnetic phase, has been theoretically proposed and experimentally verified to be distinct from ferromagnetism and antiferromagnetism. Although altermagnets have been found to possess many exotic physical properties, the very limited availability of known altermagnetic materials (e.g., 14 confirmed materials) hinders the study of such properties. Hence, discovering more types of altermagnetic materials is crucial for a comprehensive understanding of altermagnetism and thus facilitating new applications in the next-generation information technologies, e.g., storage devices and high-sensitivity sensors. Here, we report 25 new altermagnetic materials that cover metals, semiconductors, and insulators, discovered by an AI search engine unifying symmetry analysis, graph neural network pre-training, optimal transport theory, and first-principles electronic structure calculation. The wide range of electronic structural characteristics reveals that various novel physical properties manifest in these newly discovered altermagnetic materials, e.g., anomalous Hall effect, anomalous Kerr effect, and topological property. Noteworthy, we discovered 8 i-wave altermagnetic materials for the first time. Overall, the AI search engine performs much better than human experts and suggests a set of new altermagnetic materials with unique properties, outlining its potential for accelerated discovery of the materials with targeting properties. | 翻訳日:2023-11-14 19:24:58 公開日:2023-11-13 |
# シリコンフォトニクス集積受信機を用いた連続可変量子鍵分布の実証実験 Experimental demonstration of Continuous-Variable Quantum Key Distribution with a silicon photonics integrated receiver ( http://arxiv.org/abs/2311.03978v2 ) ライセンス: Link先を確認 | Yoann Pi\'etri, Luis Trigo Vidarte, Matteo Schiavon, Laurent Vivien, Philippe Grangier, Amine Rhouni, Eleni Diamanti | (参考訳) 量子鍵分散(QKD)は、秘密鍵交換のための情報理論セキュリティを提供する量子暗号分野における顕著な応用である。
フォトニック集積回路(PIC)におけるQKDシステムの実装は、そのようなシステムのサイズとコストを削減し、実用的なインフラへの展開を容易にする。
この目的のために、連続可変(CV)QKDシステムは単光子検出器を必要としないため、特に適している。
ここでは、平衡検出が可能なシリコンPICに基づくCV-QKD受信機を提案する。
高変調と秘密鍵レートが可能な特別に設計されたデータ処理を備えた周波数多重パイロットスキームを用いて、実験室のqkd設定でその性能を特徴付ける。
得られた余剰ノイズ値は、それぞれ10kmと23kmのエミュレート距離で2.4Mbit/sと220kbit/sの漸近秘密鍵レートと互換性がある。
これらの結果から,高速・首都圏間セキュア通信に適した完全統合デバイスへのこの技術の適用可能性を示す。 Quantum Key Distribution (QKD) is a prominent application in the field of quantum cryptography providing information-theoretic security for secret key exchange. The implementation of QKD systems on photonic integrated circuits (PICs) can reduce the size and cost of such systems and facilitate their deployment in practical infrastructures. To this end, continuous-variable (CV) QKD systems are particularly well-suited as they do not require single-photon detectors, whose integration is presently challenging. Here we present a CV-QKD receiver based on a silicon PIC capable of performing balanced detection. We characterize its performance in a laboratory QKD setup using a frequency multiplexed pilot scheme with specifically designed data processing allowing for high modulation and secret key rates. The obtained excess noise values are compatible with asymptotic secret key rates of 2.4 Mbit/s and 220 kbit/s at an emulated distance of 10 km and 23 km, respectively. These results demonstrate the potential of this technology towards fully integrated devices suitable for high-speed, metropolitan-distance secure communication. | 翻訳日:2023-11-14 19:23:49 公開日:2023-11-13 |
# Edge2Node: ノード分類へのエッジ予測の削減 Edge2Node: Reducing Edge Prediction to Node Classification ( http://arxiv.org/abs/2311.02921v2 ) ライセンス: Link先を確認 | Zahed Rahmati, Ali Rahmati, Dariush Kazemi | (参考訳) ノード分類におけるグラフニューラルネットワークモデルの成功にもかかわらず、エッジ予測(グラフ内のノード間の欠落や潜在的なリンクを予測するタスク)は、これらのモデルにとって難しい問題である。
エッジ予測の一般的なアプローチは、まず2つのノードの埋め込みを取得し、2つのノード間のエッジの存在を予測するために、事前に定義されたスコアリング関数を使用する。
本稿では,スコアリング機能を必要とせず,各エッジへの埋め込みを直接得るedge2node (e2n) と呼ばれる新しい手法を提案する。
これを実現するために,エッジ予測タスクに与えられたグラフgに基づいて新しいグラフhを作成し,gのエッジ予測タスクをh上のノード分類タスクに還元する。
我々のE2N法は, ogbl-ppa, ogbl-collab, ogbl-ddiデータセットのリーダーボード上で, それぞれ25.89%, 24.19%, 0.34%改善した。 Despite the success of graph neural network models in node classification, edge prediction (the task of predicting missing or potential links between nodes in a graph) remains a challenging problem for these models. A common approach for edge prediction is to first obtain the embeddings of two nodes, and then a predefined scoring function is used to predict the existence of an edge between the two nodes. In this paper, we introduce a new approach called Edge2Node (E2N) which directly obtains an embedding for each edge, without the need for a scoring function. To do this, we create a new graph H based on the graph G given for the edge prediction task, and then reduce the edge prediction task on G to a node classification task on H. Our E2N method can be easily applied to any edge prediction task with superior performance and lower computational costs. Our E2N method beats the best-known methods on the leaderboards for ogbl-ppa, ogbl-collab, and ogbl-ddi datasets by 25.89%, 24.19%, and 0.34% improvements, respectively. | 翻訳日:2023-11-14 19:23:08 公開日:2023-11-13 |
# ウィスパーで教える:音声埋め込みを用いた音声転写解析のための大規模言語モデルの構築 Teach me with a Whisper: Enhancing Large Language Models for Analyzing Spoken Transcripts using Speech Embeddings ( http://arxiv.org/abs/2311.07014v1 ) ライセンス: Link先を確認 | Fatema Hasan, Yulong Li, James Foulds, Shimei Pan, Bishwaranjan Bhattacharjee | (参考訳) 音声データは、話者のトーン、感情、意図を理解するための重要な手がかりを持つ豊富な音響的・パラ言語的な情報を持っているが、BERTのような伝統的な大言語モデルは、この情報を組み込んでいない。
音声や視覚情報やテキストを活用したマルチモーダル言語モデルへの関心が高まっている。
しかし、現在のマルチモーダル言語モデルは、推論/テスト時にテキストとオーディオ/視覚データストリームの両方を必要とする。
本研究では,予測時間に音声ストリームを必要とせず,音声言語音声データを利用した言語モデルの訓練手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
そこでは,事前学習した音声埋め込み(OpenAI Whisper)教師モデルから音響およびパラ言語情報を伝達し,音声テキストデータセット上で学習者の言語モデルを訓練する。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善を実現する。 Speech data has rich acoustic and paralinguistic information with important cues for understanding a speaker's tone, emotion, and intent, yet traditional large language models such as BERT do not incorporate this information. There has been an increased interest in multi-modal language models leveraging audio and/or visual information and text. However, current multi-modal language models require both text and audio/visual data streams during inference/test time. In this work, we propose a methodology for training language models leveraging spoken language audio data but without requiring the audio stream during prediction time. This leads to an improved language model for analyzing spoken transcripts while avoiding an audio processing overhead at test time. We achieve this via an audio-language knowledge distillation framework, where we transfer acoustic and paralinguistic information from a pre-trained speech embedding (OpenAI Whisper) teacher model to help train a student language model on an audio-text dataset. In our experiments, the student model achieves consistent improvement over traditional language models on tasks analyzing spoken transcripts. | 翻訳日:2023-11-14 16:06:45 公開日:2023-11-13 |
# 現状レビューと合成:デジタルツイン技術を用いた予測保守の標準化のための要求ベースロードマップ State-of-the-Art Review and Synthesis: A Requirement-based Roadmap for Standardized Predictive Maintenance Automation Using Digital Twin Technologies ( http://arxiv.org/abs/2311.06993v1 ) ライセンス: Link先を確認 | Sizhe Ma, Katherine A. Flanigan, Mario Berg\'es | (参考訳) 近年のデジタル技術は予測保守(PMx)を普及させ、効率の向上、自動化、正確性、コスト削減、保守の独立性を提供する。
しかし、データ駆動手法のサンプル非効率性、物理学に基づく手法の複雑さ、知識に基づく手法の限定的な一般化可能性や拡張性など、多くの制限に直面し続けている。
本稿では,これらの課題に対処するためにDigital Twins(DT)を活用し,大規模なPMxの自動化を実現することを提案する。
DTにはこのような変革的なポテンシャルがあると主張する一方で、標準化された方法でこれらのギャップを埋めるために必要な成熟度レベルには達していません。
このような進化の標準的な定義がなければ、この変換は開発の基礎となる強固な基盤を欠いている。
本稿では、DT技術を用いた標準化PMx自動化をサポートする要求ベースのロードマップを提供する。
2つの主要な段階からなる体系的なアプローチを示す。
まず,pmxにおける情報要件(irs)と機能要件(frs)を体系的に識別する。
PMx DTのバックボーンを形成するためにIRとFRを定義し,使用するアプローチは,ソフトウェア産業における製品開発など,他の分野における青写真として成功するIRとFRのトラックレコードによって支持されます。
第2に、これらのIRとFRが現在DT内で使用されている方法を決定するために、フィールドにまたがる詳細な文献レビューを実施し、要件ベースのPMx DTの進展と成熟を支援するために、さらなる研究が保証されている特定の領域を指し示す。 Recent digital advances have popularized predictive maintenance (PMx), offering enhanced efficiency, automation, accuracy, cost savings, and independence in maintenance. Yet, it continues to face numerous limitations such as poor explainability, sample inefficiency of data-driven methods, complexity of physics-based methods, and limited generalizability and scalability of knowledge-based methods. This paper proposes leveraging Digital Twins (DTs) to address these challenges and enable automated PMx adoption at larger scales. While we argue that DTs have this transformative potential, they have not yet reached the level of maturity needed to bridge these gaps in a standardized way. Without a standard definition for such evolution, this transformation lacks a solid foundation upon which to base its development. This paper provides a requirement-based roadmap supporting standardized PMx automation using DT technologies. A systematic approach comprising two primary stages is presented. First, we methodically identify the Informational Requirements (IRs) and Functional Requirements (FRs) for PMx, which serve as a foundation from which any unified framework must emerge. Our approach to defining and using IRs and FRs to form the backbone of any PMx DT is supported by the track record of IRs and FRs being successfully used as blueprints in other areas, such as for product development within the software industry. Second, we conduct a thorough literature review spanning fields to determine the ways in which these IRs and FRs are currently being used within DTs, enabling us to point to the specific areas where further research is warranted to support the progress and maturation of requirement-based PMx DTs. | 翻訳日:2023-11-14 16:06:28 公開日:2023-11-13 |
# オープンボキャブラリビデオ異常検出 Open-Vocabulary Video Anomaly Detection ( http://arxiv.org/abs/2311.07042v1 ) ライセンス: Link先を確認 | Peng Wu, Xuerong Zhou, Guansong Pang, Yujia Sun, Jing Liu, Peng Wang, Yanning Zhang | (参考訳) ビデオフレームが正常であるか異常であるかを判別するためにビデオレベルラベルを活用することで,監視の弱いビデオ異常検出(vad)が著しく向上した。
しかしながら、現在のアプローチは本質的にクローズドセットの設定に限られており、トレーニング中に見つからないテストデータに異常なカテゴリが存在する場合、オープンワールドアプリケーションで苦労する可能性がある。
いくつかの最近の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオを見れば、目に見えない異常を検出することを目的としている。
しかし、このような設定は、より情報のあるビデオ監視システムを構築するのに欠かせないにもかかわらず、フレーム異常スコアの予測、特定のカテゴリの異常を認識する能力を持たないことに焦点を当てている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
そこで本研究では,OVVADを相互補完的な2つのタスク – クラス非依存検出とクラス固有分類 – に分解し,両タスクを協調的に最適化するモデルを提案する。
特に,検出タスクに大言語モデルから意味知識を導入するための意味知識注入モジュールを考案し,分類タスクのための大視野生成モデルの助けを借りて疑似未知覚映像を生成する新しい異常合成モジュールを設計した。
これらの意味的知識と合成異常は、様々な目に見えない異常の検出と分類における我々のモデルの能力を大幅に拡張する。
広範に使用されている3つのベンチマーク実験により,OVVADタスクの最先端性能が得られた。 Video anomaly detection (VAD) with weak supervision has achieved remarkable performance in utilizing video-level labels to discriminate whether a video frame is normal or abnormal. However, current approaches are inherently limited to a closed-set setting and may struggle in open-world applications where there can be anomaly categories in the test data unseen during training. A few recent studies attempt to tackle a more realistic setting, open-set VAD, which aims to detect unseen anomalies given seen anomalies and normal videos. However, such a setting focuses on predicting frame anomaly scores, having no ability to recognize the specific categories of anomalies, despite the fact that this ability is essential for building more informed video surveillance systems. This paper takes a step further and explores open-vocabulary video anomaly detection (OVVAD), in which we aim to leverage pre-trained large models to detect and categorize seen and unseen anomalies. To this end, we propose a model that decouples OVVAD into two mutually complementary tasks -- class-agnostic detection and class-specific classification -- and jointly optimizes both tasks. Particularly, we devise a semantic knowledge injection module to introduce semantic knowledge from large language models for the detection task, and design a novel anomaly synthesis module to generate pseudo unseen anomaly videos with the help of large vision generation models for the classification task. These semantic knowledge and synthesis anomalies substantially extend our model's capability in detecting and categorizing a variety of seen and unseen anomalies. Extensive experiments on three widely-used benchmarks demonstrate our model achieves state-of-the-art performance on OVVAD task. | 翻訳日:2023-11-14 15:54:48 公開日:2023-11-13 |
# 音韻レベルwav2vec2に基づく誤発音検出および診断方法 Phonological Level wav2vec2-based Mispronunciation Detection and Diagnosis Method ( http://arxiv.org/abs/2311.07037v1 ) ライセンス: Link先を確認 | Mostafa Shahin, Julien Epps, Beena Ahmed | (参考訳) Mispronunciation Detection and Diagnosis (MDD) として知られる発音誤りの自動識別と解析は、第二言語学習(L2)学習や音声治療などのコンピュータ支援発音学習(CAPL)ツールにおいて重要な役割を果たす。
既存のMDD法は音素の分析に頼っているため、十分な量の訓練データを持つ音素の分類誤差しか検出できない。
非ネイティブ話者や障害話者の発音誤りの予測不可能な性質と訓練データセットの不足により、あらゆる種類の誤認識をモデル化することは不可能である。
さらに,音素レベルのMDDアプローチは誤りの詳細な診断情報を提供する能力に限界がある。
本稿では,音声属性特徴の検出に基づく低レベルmdd手法を提案する。
音声属性の特徴は、音素生成を調音システムに直接関係する基本成分に分解し、学習者により形式的なフィードバックを与える。
さらに,コネクショニスト時間分類(CTC)アプローチのマルチラベル変種を提案し,一モデルを用いて非相互排他的音声属性を共同でモデル化する。
事前訓練したwav2vec2モデルを音声属性検出器のコアモデルとして使用した。
提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
提案した音声属性MDD法は従来の音素レベルのMDDとさらに比較され,音素レベルの等価値と比較して,FAR,FRR,診断誤差率(DER)が有意に低かった。 The automatic identification and analysis of pronunciation errors, known as Mispronunciation Detection and Diagnosis (MDD) plays a crucial role in Computer Aided Pronunciation Learning (CAPL) tools such as Second-Language (L2) learning or speech therapy applications. Existing MDD methods relying on analysing phonemes can only detect categorical errors of phonemes that have an adequate amount of training data to be modelled. With the unpredictable nature of the pronunciation errors of non-native or disordered speakers and the scarcity of training datasets, it is unfeasible to model all types of mispronunciations. Moreover, phoneme-level MDD approaches have a limited ability to provide detailed diagnostic information about the error made. In this paper, we propose a low-level MDD approach based on the detection of speech attribute features. Speech attribute features break down phoneme production into elementary components that are directly related to the articulatory system leading to more formative feedback to the learner. We further propose a multi-label variant of the Connectionist Temporal Classification (CTC) approach to jointly model the non-mutually exclusive speech attributes using a single model. The pre-trained wav2vec2 model was employed as a core model for the speech attribute detector. The proposed method was applied to L2 speech corpora collected from English learners from different native languages. The proposed speech attribute MDD method was further compared to the traditional phoneme-level MDD and achieved a significantly lower False Acceptance Rate (FAR), False Rejection Rate (FRR), and Diagnostic Error Rate (DER) over all speech attributes compared to the phoneme-level equivalent. | 翻訳日:2023-11-14 15:54:18 公開日:2023-11-13 |
# ttmfn:サバイバル予測のための2ストリームトランスフォーマーベースのマルチモーダル融合ネットワーク TTMFN: Two-stream Transformer-based Multimodal Fusion Network for Survival Prediction ( http://arxiv.org/abs/2311.07033v1 ) ライセンス: Link先を確認 | Ruiquan Ge, Xiangyang Hu, Rungen Huang, Gangyong Jia, Yaqi Wang, Renshu Gu, Changmiao Wang, Elazab Ahmed, Linyan Wang, Juan Ye, Ye Li | (参考訳) 生存予測は、がん治療プロトコルの開発を支援するために重要な役割を果たす。
最近の証拠は、マルチモーダルデータががんの診断と生存予測の改善に役立つことを示している。
現在、ディープラーニングに基づくアプローチは、病理画像と遺伝子発現データを統合することで生存予測に成功している。
しかし、既存のほとんどのアプローチは、モダリティ内潜時情報と複雑なモダリティ間相関を見落としている。
さらに、既存のモダリティは、特徴集約のためのニューラルネットワークの膨大な表現能力を完全に活用せず、特徴間の関係の重要性を無視している。
そのため,新しい深層学習手法を提案することにより,予測性能を高めるために,これらの課題に対処することが強く推奨されている。
本稿では,病理画像と遺伝子発現データを統合した,2ストリームトランスフォーマーを用いたサバイバル予測のためのマルチモーダル融合ネットワーク(ttmfn)を提案する。
TTMFNでは、異なるモダリティとモダリティ内のポテンシャル接続の間の複雑な関係をフル活用するために、2ストリームマルチモーダルコアテンショントランスフォーマーモジュールを提案する。
さらに,2つのモダリティの特徴表現を効果的に集約するマルチヘッドアテンションプール手法を開発した。
The Cancer Genome Atlasの4つのデータセットによる実験の結果、TTMFNは患者の生存率を予測する最先端の方法と比較して、最高のパフォーマンスまたは競争的な結果を得ることができることが示された。 Survival prediction plays a crucial role in assisting clinicians with the development of cancer treatment protocols. Recent evidence shows that multimodal data can help in the diagnosis of cancer disease and improve survival prediction. Currently, deep learning-based approaches have experienced increasing success in survival prediction by integrating pathological images and gene expression data. However, most existing approaches overlook the intra-modality latent information and the complex inter-modality correlations. Furthermore, existing modalities do not fully exploit the immense representational capabilities of neural networks for feature aggregation and disregard the importance of relationships between features. Therefore, it is highly recommended to address these issues in order to enhance the prediction performance by proposing a novel deep learning-based method. We propose a novel framework named Two-stream Transformer-based Multimodal Fusion Network for survival prediction (TTMFN), which integrates pathological images and gene expression data. In TTMFN, we present a two-stream multimodal co-attention transformer module to take full advantage of the complex relationships between different modalities and the potential connections within the modalities. Additionally, we develop a multi-head attention pooling approach to effectively aggregate the feature representations of the two modalities. The experiment results on four datasets from The Cancer Genome Atlas demonstrate that TTMFN can achieve the best performance or competitive results compared to the state-of-the-art methods in predicting the overall survival of patients. | 翻訳日:2023-11-14 15:53:48 公開日:2023-11-13 |
# ExpNote: エクスペリエンスノートブックによるブラックボックスの大規模言語モデルの改善 ExpNote: Black-box Large Language Models are Better Task Solvers with Experience Notebook ( http://arxiv.org/abs/2311.07032v1 ) ライセンス: Link先を確認 | Wangtao Sun, Xuanqing Yu, Shizhu He, Jun Zhao, Kang Liu | (参考訳) black-box large language model (llm) は様々なタスクを解決する上で大きな力を示し、一般的な問題解決者とみなされている。
しかし、LSMはタスク命令を理解しながら、多くの特定のタスクで失敗する。
本稿では,下流の課題を解決するためのブラックボックスLLMの能力向上に焦点をあてる。
そこで我々は,データから経験を反映し,通知し,テスト中に外部メモリから取り出す,llmが未知のタスクに適応するのに役立つ自動フレームワークexpnoteを提案する。
我々は,複数のタスクに対するExpNoteの評価を行い,提案手法がブラックボックスLLMの性能を大幅に向上することを示した。
データとコードはhttps://github.com/forangel2014/expnoteで入手できる。 Black-box Large Language Models (LLMs) have shown great power in solving various tasks and are considered general problem solvers. However, LLMs still fail in many specific tasks although understand the task instruction. In this paper, we focus on the problem of boosting the ability of black-box LLMs to solve downstream tasks. We propose ExpNote, an automated framework to help LLMs better adapt to unfamiliar tasks through reflecting and noting experiences from training data and retrieving them from external memory during testing. We evaluate ExpNote on multiple tasks and the experimental results demonstrate that the proposed method significantly improves the performance of black-box LLMs. The data and code are available at https://github.com/forangel2014/ExpNote | 翻訳日:2023-11-14 15:53:25 公開日:2023-11-13 |
# 気まぐれに単純なデータセット蒸留 Embarassingly Simple Dataset Distillation ( http://arxiv.org/abs/2311.07025v1 ) ライセンス: Link先を確認 | Feng Yunzhen, Vedantam Ramakrishna, Kempe Julia | (参考訳) データセット蒸留は、大規模なデータセットから少量の合成トレーニングサンプルを抽出し、このサンプル上でのトレーニング時にテストデータ上での競合性能を達成することを目的としている。
本研究では,二段階最適化問題として直接扱うことにより,コアとなるデータセット蒸留に取り組む。
時間的手法による基礎的バックプロパゲーションを再検討し,勾配,計算負担,長期依存性の顕著な相違について検討する。
本稿では,Ratom Truncated Backpropagation Through Time (RaT-BPTT) を改良した手法を提案する。
RaT-BPTTはランダムウィンドウと組み合わされたトランケーションを導入し、勾配を効果的に安定化し、長い依存関係をカバーしながら最適化を高速化する。
これにより、さまざまな標準データセットベンチマークのための新しい最先端を確立できます。
蒸留されたデータの性質を深く掘り下げると、相互相関が明らかになる。
特に、蒸留データセットのサブセットは、同じサイズの直接蒸留された小さなデータセットよりも、はるかに悪いパフォーマンスを示す傾向がある。
RaT-BPTTを活用することで、さまざまなデータ予算でほぼ最適性能のサブセットを含む蒸留データセットを生成するブーピング機構を考案する。 Dataset distillation extracts a small set of synthetic training samples from a large dataset with the goal of achieving competitive performance on test data when trained on this sample. In this work, we tackle dataset distillation at its core by treating it directly as a bilevel optimization problem. Re-examining the foundational back-propagation through time method, we study the pronounced variance in the gradients, computational burden, and long-term dependencies. We introduce an improved method: Random Truncated Backpropagation Through Time (RaT-BPTT) to address them. RaT-BPTT incorporates a truncation coupled with a random window, effectively stabilizing the gradients and speeding up the optimization while covering long dependencies. This allows us to establish new state-of-the-art for a variety of standard dataset benchmarks. A deeper dive into the nature of distilled data unveils pronounced intercorrelation. In particular, subsets of distilled datasets tend to exhibit much worse performance than directly distilled smaller datasets of the same size. Leveraging RaT-BPTT, we devise a boosting mechanism that generates distilled datasets that contain subsets with near optimal performance across different data budgets. | 翻訳日:2023-11-14 15:53:11 公開日:2023-11-13 |
# ViLMA:ビデオ言語モデルにおける言語的・時間的接地のためのゼロショットベンチマーク ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language Models ( http://arxiv.org/abs/2311.07022v1 ) ライセンス: Link先を確認 | Ilker Kesen, Andrea Pedrotti, Mustafa Dogan, Michele Cafagna, Emre Can Acikgoz, Letitia Parcalabescu, Iacer Calixto, Anette Frank, Albert Gatt, Aykut Erdem, Erkut Erdem | (参考訳) 事前訓練されたビデオ言語モデル(VidLMs)の普及に伴い、その視覚言語能力をより深く掘り下げる堅牢な評価手法を開発する必要がある。
この課題に対処するために,タスクに依存しないVLMA(Video Language Model Assessment,ビデオ言語モデルアセスメント)を提案する。
タスクベースの評価は、価値はあるものの、vidlmが処理する必要がある移動画像の複雑さと特定の時間的側面を捉えることができない。
慎重にキュレートされた対策によって、ViLMAはコントロールされた評価スイートを提供し、これらのモデルの真の可能性と、人間レベルの理解と比較してパフォーマンスのギャップを浮き彫りにする。
vilmaには、主要な反事実テストの解決に不可欠な基本的な能力を評価する熟練度テストも含まれている。
静止画像を用いた視覚言語モデルに比べ,現在のVidLMの接地能力は良くないことを示す。
熟練度テストのパフォーマンスが考慮されると、これは特に印象的になります。
我々のベンチマークは、将来のVidLMの研究の触媒として機能し、まだ調査が必要な領域の強調に役立つ。 With the ever-increasing popularity of pretrained Video-Language Models (VidLMs), there is a pressing need to develop robust evaluation methodologies that delve deeper into their visio-linguistic capabilities. To address this challenge, we present ViLMA (Video Language Model Assessment), a task-agnostic benchmark that places the assessment of fine-grained capabilities of these models on a firm footing. Task-based evaluations, while valuable, fail to capture the complexities and specific temporal aspects of moving images that VidLMs need to process. Through carefully curated counterfactuals, ViLMA offers a controlled evaluation suite that sheds light on the true potential of these models, as well as their performance gaps compared to human-level understanding. ViLMA also includes proficiency tests, which assess basic capabilities deemed essential to solving the main counterfactual tests. We show that current VidLMs' grounding abilities are no better than those of vision-language models which use static images. This is especially striking once the performance on proficiency tests is factored in. Our benchmark serves as a catalyst for future research on VidLMs, helping to highlight areas that still need to be explored. | 翻訳日:2023-11-14 15:52:54 公開日:2023-11-13 |
# qudcom: quditシステムのための量子コンパイルに向けて QudCom: Towards Quantum Compilation for Qudit Systems ( http://arxiv.org/abs/2311.07015v1 ) ライセンス: Link先を確認 | Daniel Volya, Prabhat Mishra | (参考訳) quditベースの量子計算は、ノイズ緩和機能とアルゴリズムの複雑さ改善の観点から、量子ビットベースのシステムよりもユニークな利点を提供する。
しかし、マルチステート量子システムのソフトウェアエコシステムは極めて限られている。
本稿では,quditシステムを記述するための量子ワークフローについて述べる。
quditシステムのための量子コンパイラの設計と実装について検討する。
また,qudit 計算の重要な理論特性と効率的な最適化手法についても検討した。
最後に,提案する量子ツールチェーンのシミュレーションに加えて,物理量子コンピュータを用いた実演を行う。 Qudit-based quantum computation offers unique advantages over qubit-based systems in terms of noise mitigation capabilities as well as algorithmic complexity improvements. However, the software ecosystem for multi-state quantum systems is severely limited. In this paper, we highlight a quantum workflow for describing and compiling qudit systems. We investigate the design and implementation of a quantum compiler for qudit systems. We also explore several key theoretical properties of qudit computing as well as efficient optimization techniques. Finally, we provide demonstrations using physical quantum computers as well as simulations of the proposed quantum toolchain. | 翻訳日:2023-11-14 15:52:33 公開日:2023-11-13 |
# PAC-Bayesian Perspective on the Interpolating Information Criterion A PAC-Bayesian Perspective on the Interpolating Information Criterion ( http://arxiv.org/abs/2311.07013v1 ) ライセンス: Link先を確認 | Liam Hodgkinson, Chris van der Heide, Robert Salomone, Fred Roosta, Michael W. Mahoney | (参考訳) ディープラーニングはその理論と実践のギャップで有名であり、原則理論は通常、実際に実施するための有益なガイダンスを提供しない。
ニューラルネットワークがデータセットを完璧に補間するのに十分な大きさになると、モデルサイズの増加とともにモデルパフォーマンスが向上し、よく知られたバイアス分散トレードオフと明らかに矛盾するように見える。
このような現象は一般モデルの理論的研究が困難であることが証明されているが、最近提案された補間情報量規準(IIC)は、過パラメータ化モデルの性能を調べるための貴重な理論的枠組みを提供する。
IICを用いて、補間系における一般化性能に影響を与える要因を特徴付ける、一般的なモデルのクラスに対してPAC-Bayes境界を求める。
提案手法では,モデル,オプティマイザ,パラメータ初期化スキームの組み合わせ,経験的神経接核のスペクトル,ロスランドスケープの曲率,データに存在する雑音などによって課される暗黙の正規化の品質に依存する過パラメータモデルのテスト誤差を定量化する。 Deep learning is renowned for its theory-practice gap, whereby principled theory typically fails to provide much beneficial guidance for implementation in practice. This has been highlighted recently by the benign overfitting phenomenon: when neural networks become sufficiently large to interpolate the dataset perfectly, model performance appears to improve with increasing model size, in apparent contradiction with the well-known bias-variance tradeoff. While such phenomena have proven challenging to theoretically study for general models, the recently proposed Interpolating Information Criterion (IIC) provides a valuable theoretical framework to examine performance for overparameterized models. Using the IIC, a PAC-Bayes bound is obtained for a general class of models, characterizing factors which influence generalization performance in the interpolating regime. From the provided bound, we quantify how the test error for overparameterized models achieving effectively zero training error depends on the quality of the implicit regularization imposed by e.g. the combination of model, optimizer, and parameter-initialization scheme; the spectrum of the empirical neural tangent kernel; curvature of the loss landscape; and noise present in the data. | 翻訳日:2023-11-14 15:52:28 公開日:2023-11-13 |
# 対話応答生成のための文脈依存命令チューニング Context-dependent Instruction Tuning for Dialogue Response Generation ( http://arxiv.org/abs/2311.07006v1 ) ライセンス: Link先を確認 | Jin Myung Kwak, Minseon Kim, Sung Ju Hwang | (参考訳) 最近の言語モデルは、微調整中に命令とタスク入力を組み込むことで、自然言語タスクにおいて印象的なパフォーマンスを達成している。
同じ自然言語タスク内のすべてのサンプルは、同じタスク命令で説明できるため、多くの命令データセットは、タスク内の各サンプルの入力を考慮せずに、タスク全体の命令のみを提供する。
しかし、対話コンテキストが変化するにつれて入力が多角的に変化する複雑なマルチターン対話生成タスクでは、このアプローチは有効ではないため、単純なタスク命令が生成性能を向上させることができない。
この制限に対処するために,前回の文脈に基づく応答と命令の両方を入力として生成するマルチターン対話毎に,コンテキストベースの命令微調整フレームワークを導入する。
評価中、モデルは以前の文脈に基づいて指示を生成し、応答を自己導出する。
提案フレームワークは,計算予算を削減したダイアログベンチマークデータセットの定量的評価において,インプットへの指示を微調整中に整列させることにより,ベースラインと同等あるいは同等な結果が得られる。 Recent language models have achieved impressive performance in natural language tasks by incorporating instructions with task input during fine-tuning. Since all samples in the same natural language task can be explained with the same task instructions, many instruction datasets only provide a few instructions for the entire task, without considering the input of each example in the task. However, this approach becomes ineffective in complex multi-turn dialogue generation tasks, where the input varies highly with each turn as the dialogue context changes, so that simple task instructions cannot improve the generation performance. To address this limitation, we introduce a context-based instruction fine-tuning framework for each multi-turn dialogue which generates both responses and instructions based on the previous context as input. During the evaluation, the model generates instructions based on the previous context to self-guide the response. The proposed framework produces comparable or even outstanding results compared to the baselines by aligning instructions to the input during fine-tuning with the instructions in quantitative evaluations on dialogue benchmark datasets with reduced computation budget. | 翻訳日:2023-11-14 15:52:03 公開日:2023-11-13 |
# Rydberg-atom 合成次元を用いたSSHモデルにおけるウェーブパケットダイナミクスと長距離トンネル Wave packet dynamics and long-range tunneling within the SSH model using Rydberg-atom synthetic dimensions ( http://arxiv.org/abs/2311.07005v1 ) ライセンス: Link先を確認 | Y. Lu, C. Wang, S. K. Kanungo, S. Yoshida, F. B. Dunning, T. C. Killian | (参考訳) n$^3S_1$の格子と58\leq n \leq 63$の2光子マイクロ波励起によるリドバーグ原子合成次元は、単一粒子Su-Schrieffer-Heeger(SSH)ハミルトニアン内のダイナミクスを調べるために用いられる。
この位相物質のパラダイムモデルは、スタッガードホッピング率の1次元格子上の粒子ホッピングを記述する。
格子部位間のトンネル速度とオンサイト電位はそれぞれマイクロ波振幅とデチューニングによって設定される。
原子はまず格子内にあるライドバーグ状態に励起され、その後マイクロ波ドレッシング場を受ける。
しばらくすると、ドレッシングフィールドをオフにし、フィールドイオン化を用いて観測された最終格子サイトの個体群分布の進化を観察する。
この測定は、長寿命対称性保護エッジ状態の存在を示し、エッジ状態間の直接長距離トンネルの存在を明らかにする。
結果はモデル計算とよく一致しており、複雑なハミルトニアンをシミュレートし忠実に再現するライドバーグ原子合成次元のポテンシャルをさらに証明している。 Rydberg-atom synthetic dimensions in the form of a lattice of n$^3S_1$ levels, $58\leq n \leq 63$, coupled through two-photon microwave excitation are used to examine dynamics within the single-particle Su-Schrieffer-Heeger (SSH) Hamiltonian. This paradigmatic model of topological matter describes a particle hopping on a one-dimensional lattice with staggered hopping rates. Tunneling rates between lattice sites and on-site potentials are set by the microwave amplitudes and detuning, respectively. An atom is first excited to a Rydberg state that lies within the lattice and then subject to the microwave dressing fields. After some time, the dressing fields are turned off and the evolution of the population distribution in the different final lattice sites monitored using field ionization. The measurements show the existence of long-lived symmetry-protected edge states and reveal the existence of direct long-distance tunneling between the edge states. The results are in good agreement with model calculations and further demonstrate the potential of Rydberg-atom synthetic dimensions to simulate and faithfully reproduce complex Hamiltonians. | 翻訳日:2023-11-14 15:51:47 公開日:2023-11-13 |
# PICS in Pics: 高速画像分割のための物理インフォーム付き輪郭選択 PICS in Pics: Physics Informed Contour Selection for Rapid Image Segmentation ( http://arxiv.org/abs/2311.07002v1 ) ライセンス: Link先を確認 | Vikas Dwivedi, Balaji Srinivasan and Ganapathy Krishnamurthi | (参考訳) 豊富な高品質のアノテーションを必要とするため、ディープイメージセグメンテーションモデルの効果的なトレーニングは難しい。
アノテーションの生成は、特に医療画像のセグメンテーションにおいて、人間の専門家にとって手間と時間がかかります。
画像アノテーションを容易にするために,ラベル付きデータに頼ることなく高速な画像分割のための解釈可能な物理インフォームドアルゴリズムであるPhysical Informed Contour Selection (PICS)を導入する。
PICSは物理インフォームドニューラルネットワーク(PINN)とスネークと呼ばれる活発な輪郭モデルからインスピレーションを得ている。
ベース関数としてディープニューラルネットワークの代わりに立方体スプラインを使用するため、高速で計算的に軽量である。
そのトレーニングパラメータは、セグメンテーション曲線の制御結び目を直接表現するため、物理的に解釈可能である。
伝統的なヘビは、オイラー・ラグランジュ方程式を導出し、その数値解を導出することにより、エッジベースの損失関数を最小化する。
しかし、PICSは損失関数を直接最小化し、オイラー・ラグランジュ方程式をバイパスする。
従来のエッジベースの損失関数ではなく、地域ベースの損失関数を最小化する最初のヘビ変種である。
PICSは3次元(3D)セグメンテーションプロセスと非定常偏微分方程式(PDE)を一意にモデル化し、トランスファーラーニングによる加速セグメンテーションを可能にする。
本発明の有効性を示すため, PICSを左室の3次元分画に応用した。
また,左室の形状情報をエンコードしてPICSのセグメンテーション品質を向上させる凸性保存損失項も導入した。
PICSは全体として、ネットワークアーキテクチャ、トランスファーラーニング、物理にインスパイアされたイメージセグメンテーションの損失にいくつかの新しい特徴を示し、将来的な成果とさらなる改善の可能性を示している。 Effective training of deep image segmentation models is challenging due to the need for abundant, high-quality annotations. Generating annotations is laborious and time-consuming for human experts, especially in medical image segmentation. To facilitate image annotation, we introduce Physics Informed Contour Selection (PICS) - an interpretable, physics-informed algorithm for rapid image segmentation without relying on labeled data. PICS draws inspiration from physics-informed neural networks (PINNs) and an active contour model called snake. It is fast and computationally lightweight because it employs cubic splines instead of a deep neural network as a basis function. Its training parameters are physically interpretable because they directly represent control knots of the segmentation curve. Traditional snakes involve minimization of the edge-based loss functionals by deriving the Euler-Lagrange equation followed by its numerical solution. However, PICS directly minimizes the loss functional, bypassing the Euler Lagrange equations. It is the first snake variant to minimize a region-based loss function instead of traditional edge-based loss functions. PICS uniquely models the three-dimensional (3D) segmentation process with an unsteady partial differential equation (PDE), which allows accelerated segmentation via transfer learning. To demonstrate its effectiveness, we apply PICS for 3D segmentation of the left ventricle on a publicly available cardiac dataset. While doing so, we also introduce a new convexity-preserving loss term that encodes the shape information of the left ventricle to enhance PICS's segmentation quality. Overall, PICS presents several novelties in network architecture, transfer learning, and physics-inspired losses for image segmentation, thereby showing promising outcomes and potential for further refinement. | 翻訳日:2023-11-14 15:51:23 公開日:2023-11-13 |
# 行列関数の量子的および古典的クエリ複雑性 Quantum and classical query complexities of functions of matrices ( http://arxiv.org/abs/2311.06999v1 ) ライセンス: Link先を確認 | Ashley Montanaro and Changpeng Shao | (参考訳) a$ をスパースエルミート行列とし、$f(x)$ を不定値関数とし、$i, j$ を2つの指標とする。
本研究では,$\bra{i} f(a) \ket{j}$ を近似するクエリ複雑性について検討する。
任意の連続関数 $f(x):[-1,1]\rightarrow [-1,1]$ に対して、計算の量子クエリ複雑性 $\bra{i} f(A) \ket{j}\pm \varepsilon/4$ は $\Omega(\widetilde{\deg}_\varepsilon(f)$ で下界であることが示される。
上界は、少なくとも$\widetilde{\deg}_\varepsilon(f)$において二次的であり、$A$上のある穏やかな仮定の下で$\widetilde{\deg}_\varepsilon(f)$において線型である。
ここで、近似次数 $\widetilde{\deg}_\varepsilon(f)$ は、その次数の多項式が$f$ から$[-1,1]$ の間の加算誤差 $\varepsilon$ に近似する最小次数である。
また、古典的なクエリの複雑さは$\widetilde{\Omega}(2^{\widetilde{\deg}_{2\varepsilon}(f)/6})$で制限される。
その結果、量子と古典の分離はスパース・エルミート行列の任意の連続函数に対して指数関数であり、また、量子特異値変換によってスパース・エルミート行列の滑らかな函数を実装するための最適性を示す。
私たちが使った主なテクニックは、実数上の関数に対する双対多項式法、線形半無限計画法、三角行列である。 Let $A$ be a sparse Hermitian matrix, $f(x)$ be a univariate function, and $i, j$ be two indices. In this work, we investigate the query complexity of approximating $\bra{i} f(A) \ket{j}$. We show that for any continuous function $f(x):[-1,1]\rightarrow [-1,1]$, the quantum query complexity of computing $\bra{i} f(A) \ket{j}\pm \varepsilon/4$ is lower bounded by $\Omega(\widetilde{\deg}_\varepsilon(f))$. The upper bound is at most quadratic in $\widetilde{\deg}_\varepsilon(f)$ and is linear in $\widetilde{\deg}_\varepsilon(f)$ under certain mild assumptions on $A$. Here the approximate degree $\widetilde{\deg}_\varepsilon(f)$ is the minimum degree such that there is a polynomial of that degree approximating $f$ up to additive error $\varepsilon$ in the interval $[-1,1]$. We also show that the classical query complexity is lower bounded by $\widetilde{\Omega}(2^{\widetilde{\deg}_{2\varepsilon}(f)/6})$. Our results show that the quantum and classical separation is exponential for any continuous function of sparse Hermitian matrices, and also imply the optimality of implementing smooth functions of sparse Hermitian matrices by quantum singular value transformation. The main techniques we used are the dual polynomial method for functions over the reals, linear semi-infinite programming, and tridiagonal matrices. | 翻訳日:2023-11-14 15:50:50 公開日:2023-11-13 |
# agramplifier: 局所更新増幅による中毒攻撃に対する連合学習の防御 AGRAMPLIFIER: Defending Federated Learning Against Poisoning Attacks Through Local Update Amplification ( http://arxiv.org/abs/2311.06996v1 ) ライセンス: Link先を確認 | Zirui Gong, Liyue Shen, Yanjun Zhang, Leo Yu Zhang, Jingwei Wang, Guangdong Bai, and Yong Xiang | (参考訳) 連合学習の協調性(fl)は、ビザンチン中毒攻撃として知られる局所的なトレーニングデータと局所的な更新を操作するという形で大きな脅威となる。
この問題に対処するために、ビザンチン参加者がアップロードした不審なローカルアップデートをフィルタリングまたは緩和するために、多くのビザンチン・ロバスト集約ルール(agr)が提案されている。
本稿では,既存のAGRの堅牢性,忠実性,効率性を同時に向上することを目的とした,AGRAMPLIFIERと呼ばれる新しいアプローチを提案する。
AGRAMPLIFIERの中核となる考え方は、各勾配更新の最も抑圧的な特徴を特定して、ローカル更新の「道徳」を増幅することであり、悪意のある更新と良心的な更新を明確に区別し、その結果、検出効果を改善することである。
この目的を達成するために、AGRMPとAGRXAIという2つのアプローチを提案する。
AGRMPはパッチへのローカルアップデートを整理し、各パッチから最大の値を抽出する一方、AGRXAIは説明可能なAIメソッドを活用して、最もアクティブな機能の勾配を抽出する。
AGRAMPLIFIERに既存のビザンチン・ロバスト機構を組み込むことで、モデルの堅牢性を向上し、その忠実性を維持し、全体的な効率を向上する。
AGRAMPLIFIERは、既存のビザンチン・ロバスト機構と普遍的に互換性がある。
本報告では, 主要なAGR機構に組み込むことにより, 有効性を示す。
7つの代表的な毒殺攻撃に対する多様なドメインから7つのデータセットに対して行われた広範な評価では、ロバスト性、忠実性、効率性が一貫して向上し、それぞれ40.08%、39.18%、10.68%の値が得られた。 The collaborative nature of federated learning (FL) poses a major threat in the form of manipulation of local training data and local updates, known as the Byzantine poisoning attack. To address this issue, many Byzantine-robust aggregation rules (AGRs) have been proposed to filter out or moderate suspicious local updates uploaded by Byzantine participants. This paper introduces a novel approach called AGRAMPLIFIER, aiming to simultaneously improve the robustness, fidelity, and efficiency of the existing AGRs. The core idea of AGRAMPLIFIER is to amplify the "morality" of local updates by identifying the most repressive features of each gradient update, which provides a clearer distinction between malicious and benign updates, consequently improving the detection effect. To achieve this objective, two approaches, namely AGRMP and AGRXAI, are proposed. AGRMP organizes local updates into patches and extracts the largest value from each patch, while AGRXAI leverages explainable AI methods to extract the gradient of the most activated features. By equipping AGRAMPLIFIER with the existing Byzantine-robust mechanisms, we successfully enhance the model's robustness, maintaining its fidelity and improving overall efficiency. AGRAMPLIFIER is universally compatible with the existing Byzantine-robust mechanisms. The paper demonstrates its effectiveness by integrating it with all mainstream AGR mechanisms. Extensive evaluations conducted on seven datasets from diverse domains against seven representative poisoning attacks consistently show enhancements in robustness, fidelity, and efficiency, with average gains of 40.08%, 39.18%, and 10.68%, respectively. | 翻訳日:2023-11-14 15:50:15 公開日:2023-11-13 |
# スケーラブルなライブラリとツールのスケーラブルなデリバリ: ECPがエクササイズ以上のソフトウェアエコシステムをどのように提供したか Scalable Delivery of Scalable Libraries and Tools: How ECP Delivered a Software Ecosystem for Exascale and Beyond ( http://arxiv.org/abs/2311.06995v1 ) ライセンス: Link先を確認 | Michael A. Heroux | (参考訳) exascale computing project (ecp)は、史上最大規模のオープンソース科学ソフトウェア開発プロジェクトの一つである。
アメリカエネルギー省の研究所から約1,000人のスタッフと大学と産業のパートナーを支援した。
約250人のスタッフが、開発中の複数のexascaleコンピューティングシステムでアプリケーションをサポートする70の科学図書館やツールに貢献しました。
建設プロジェクトとして資金提供され、ECPはマイルストーンに基づいた有価証券管理システムを採用した。
そして、統合に基づく重要なパフォーマンスパラメータシステム。
デリバリスケジュールの高速化とプロジェクトの大きなリスクにより、コミュニティポリシや自動テスト、継続的インテグレーションを使用したソフトウェア品質も重視しました。
ソフトウェア開発キットチームはチーム間のコラボレーションを提供した。
製品はライブラリやツールのキュレートされたポートフォリオであるe4s経由で提供された。
本稿では,ECPライブラリやツールの効率的かつ効果的な提供を可能にする組織的および管理的要素,学習と次のステップについて論じる。 The Exascale Computing Project (ECP) was one of the largest open-source scientific software development projects ever. It supported approximately 1,000 staff from US Department of Energy laboratories, and university and industry partners. About 250 staff contributed to 70 scientific libraries and tools to support applications on multiple exascale computing systems that were also under development. Funded as a construction project, ECP adopted an earned-value management system, based on milestones. and a key performance parameter system based, in part, on integrations. With accelerated delivery schedules and significant project risk, we also emphasized software quality using community policies, automated testing, and continuous integration. Software Development Kit teams provided cross-team collaboration. Products were delivered via E4S, a curated portfolio of libraries and tools. In this paper, we discuss the organizational and management elements that enabled the efficient and effective delivery of ECP libraries and tools, lessons learned and next steps. | 翻訳日:2023-11-14 15:49:41 公開日:2023-11-13 |
# 自動脳-コンピュータインタフェースのための非パラメトリック推定によるサンプルドミナンス認識フレームワーク Sample Dominance Aware Framework via Non-Parametric Estimation for Spontaneous Brain-Computer Interface ( http://arxiv.org/abs/2311.07079v1 ) ライセンス: Link先を確認 | Byeong-Hoo Lee, Byoung-Hee Kwon, and Seong-Whan Lee | (参考訳) 深層学習は脳波(EEG)などの脳波を脳-コンピュータインタフェース(BCI)の分野で復号する可能性を示している。
しかし、脳波信号の非定常特性は、適切な知識を得るためにニューラルネットワークを訓練する上での課題となる。
これらの非定常特性から生じる不整合脳波信号は、性能を低下させる可能性がある。
したがって, 自発性BCIにおいて, サンプルの不整合を調査, 対処することが重要である。
本研究では,脳波信号の不整合の尺度としてサンプル支配の概念を導入し,そのネットワークトレーニングへの影響を変調する方法を提案する。
サンプル不一致による性能低下を補償する2段階支配スコア推定手法を提案する。
提案手法は,非パラメトリック推定を用いてサンプルの不整合を推定し,各サンプルに支配スコアを割り当てる。
このスコアはトレーニング中の損失関数で集計され、サンプルの不一致の影響を変調する。
さらに,学習中の不整合信号の影響を徐々に増加させ,全体的なパフォーマンスを向上させるカリキュラム学習手法を考案する。
提案手法を自発的bciデータセットを用いて評価する。
実験の結果,自発的bcisにおけるロバスト性能を達成する上で,サンプル優位に対処することが重要であることが明らかとなった。 Deep learning has shown promise in decoding brain signals, such as electroencephalogram (EEG), in the field of brain-computer interfaces (BCIs). However, the non-stationary characteristics of EEG signals pose challenges for training neural networks to acquire appropriate knowledge. Inconsistent EEG signals resulting from these non-stationary characteristics can lead to poor performance. Therefore, it is crucial to investigate and address sample inconsistency to ensure robust performance in spontaneous BCIs. In this study, we introduce the concept of sample dominance as a measure of EEG signal inconsistency and propose a method to modulate its effect on network training. We present a two-stage dominance score estimation technique that compensates for performance degradation caused by sample inconsistencies. Our proposed method utilizes non-parametric estimation to infer sample inconsistency and assigns each sample a dominance score. This score is then aggregated with the loss function during training to modulate the impact of sample inconsistency. Furthermore, we design a curriculum learning approach that gradually increases the influence of inconsistent signals during training to improve overall performance. We evaluate our proposed method using public spontaneous BCI dataset. The experimental results confirm that our findings highlight the importance of addressing sample dominance for achieving robust performance in spontaneous BCIs. | 翻訳日:2023-11-14 15:41:16 公開日:2023-11-13 |
# 非局所性定量化のためのロバスト性尺度 Robustness measures for quantifying nonlocality ( http://arxiv.org/abs/2311.07077v1 ) ライセンス: Link先を確認 | Kyunghyun Baek, Junghee Ryu, Jinhyoung Lee | (参考訳) 本研究では,非局所性の定量化のための一般化されたロバスト性を提案し,白色雑音と標準ロバスト性指標との比較によりその特性について検討する。
その結果,白色雑音のロバスト性は局所的操作下での単調性や共有ランダム性では満たされないことがわかった。
標準および一般化されたロバスト性尺度を比較するために,モノトンの選択による順序関係の逆転を示す不等式の概念を導入する。
操作の観点からすると、リソースに富むオブジェクトに対するモノトーンの非等価性は、それらをつなぐ自由操作がないことを意味する。
この概念を適用すると、標準および一般化されたロバストネス測度は、偶数次元と奇数次元のケースで最大8次元まで等価でないことが分かる。
ランダムに実行されたCGLMP測定設定を最大絡み合った状態で取得する。
本研究は,非局所性の資源理論に寄与し,すべての資源理論に有効な非等価性の概念を用いてモノトンの比較に光を当てる。 We suggest generalized robustness for quantifying nonlocality and investigate its properties by comparing it with white-noise and standard robustness measures. As a result, we show that white-noise robustness does not fulfill monotonicity under local operation and shared randomness, whereas the other measures do. To compare the standard and generalized robustness measures, we introduce the concept of inequivalence, which indicates a reversal in the order relationship depending on the choice of monotones. From an operational perspective, the inequivalence of monotones for resourceful objects implies the absence of free operations that connect them. Applying this concept, we find that standard and generalized robustness measures are inequivalent between even- and odd-dimensional cases up to eight dimensions. This is obtained using randomly performed CGLMP measurement settings in a maximally entangled state. This study contributes to the resource theory of nonlocality and sheds light on comparing monotones by using the concept of inequivalence valid for all resource theories. | 翻訳日:2023-11-14 15:40:54 公開日:2023-11-13 |
# 大規模言語モデルの考察:エージェントの対称性とプロンプトとの相互作用 On the Discussion of Large Language Models: Symmetry of Agents and Interplay with Prompts ( http://arxiv.org/abs/2311.07076v1 ) ライセンス: Link先を確認 | Qineng Wang, Zihao Wang, Ying Su, Yangqiu Song | (参考訳) 大規模言語モデルの推論能力を開放する2つの方法が議論されている。
1つはプロンプトエンジニアリング、もう1つは大規模言語モデルの複数の推論、もしくはマルチエージェントの議論を組み合わせることである。
理論的には,エージェントの対称性からマルチエージェントの議論機構を正当化する。
本稿では,プロンプトと議論機構の相互作用に関する実験結果を報告し,複雑なマルチエージェント機構の実証的な性能は,慎重に開発されたプロンプトエンジニアリングによってアプローチできることを示す。
また,コンピュートとマージに基づくスケーラブルな議論機構を提案し,簡単なプロンプトと最先端のパフォーマンスを備えた簡易なマルチエージェントディスカッションソリューションを提供する。 Two ways has been discussed to unlock the reasoning capability of a large language model. The first one is prompt engineering and the second one is to combine the multiple inferences of large language models, or the multi-agent discussion. Theoretically, this paper justifies the multi-agent discussion mechanisms from the symmetry of agents. Empirically, this paper reports the empirical results of the interplay of prompts and discussion mechanisms, revealing the empirical state-of-the-art performance of complex multi-agent mechanisms can be approached by carefully developed prompt engineering. This paper also proposes a scalable discussion mechanism based on conquer and merge, providing a simple multi-agent discussion solution with simple prompts but state-of-the-art performance. | 翻訳日:2023-11-14 15:40:36 公開日:2023-11-13 |
# GazeForensics: 迷路誘導型空間不整合学習によるディープフェイク検出 GazeForensics: DeepFake Detection via Gaze-guided Spatial Inconsistency Learning ( http://arxiv.org/abs/2311.07075v1 ) ライセンス: Link先を確認 | Qinlin He, Chunlei Peng, Dechuang Liu, Nannan Wang, Xinbo Gao | (参考訳) DeepFakeの検出は、個人のプライバシーと公衆の安全において重要である。
DeepFakeの技術が反復的に進歩するにつれ、高品質な偽造ビデオや画像はますます騙されつつある。
これまでの研究では、DeepFake検出の分野にバイオメトリックな特徴を取り入れようと、多くの研究者が試みてきた。
しかしながら、従来のバイオメトリックベースのアプローチは、一般的な特徴からバイオメトリックの特徴を分離し、バイオメトリックの特徴抽出器を凍結する傾向がある。
これらのアプローチは価値ある一般的な特徴を排除し、性能の低下を招き、ディープフェイク検出を支援する生体情報の可能性を完全に活用できなかった。
また,近年のディープフェイク検出領域における視線認証の精査にはあまり注意が払われていない。
本稿では,3次元視線推定モデルから得られた視線表現を利用して,我々のDeepFake検出モデル内の対応する表現を規則化し,一般特徴を同時統合してモデルの性能をさらに向上する,革新的なDeepFake検出手法であるGazeForensicsを紹介する。
実験の結果,提案したGazeForensicsは現在の最先端手法よりも優れていることがわかった。 DeepFake detection is pivotal in personal privacy and public safety. With the iterative advancement of DeepFake techniques, high-quality forged videos and images are becoming increasingly deceptive. Prior research has seen numerous attempts by scholars to incorporate biometric features into the field of DeepFake detection. However, traditional biometric-based approaches tend to segregate biometric features from general ones and freeze the biometric feature extractor. These approaches resulted in the exclusion of valuable general features, potentially leading to a performance decline and, consequently, a failure to fully exploit the potential of biometric information in assisting DeepFake detection. Moreover, insufficient attention has been dedicated to scrutinizing gaze authenticity within the realm of DeepFake detection in recent years. In this paper, we introduce GazeForensics, an innovative DeepFake detection method that utilizes gaze representation obtained from a 3D gaze estimation model to regularize the corresponding representation within our DeepFake detection model, while concurrently integrating general features to further enhance the performance of our model. Experiment results reveal that our proposed GazeForensics outperforms the current state-of-the-art methods. | 翻訳日:2023-11-14 15:40:23 公開日:2023-11-13 |
# GNNにおけるオーバーカッシング問題に関する解説:現状, ベンチマーク, 課題 Exposition on over-squashing problem on GNNs: Current Methods, Benchmarks and Challenges ( http://arxiv.org/abs/2311.07073v1 ) ライセンス: Link先を確認 | Dai Shi, Andi Han, Lequan Lin, Yi Guo, Junbin Gao | (参考訳) グラフベースのメッセージパッシングニューラルネットワーク(mpnn)は、ノードとグラフレベルの学習タスクの両方で顕著な成功を収めている。
しかし、Over-Smoothing (OSM)、限定的な表現力、Over-Squashing (OSQ) といったいくつかの問題はまだMPNNの性能を制限している。
特にOSQは,グラフノード間の長距離依存関係が必要な場合,MPNNが学習精度を徐々に低下させる,最新の問題として機能する。
本研究は,OSQ問題に対処する3つのアプローチカテゴリとともに,現在の文献からOSQの異なる定式化を要約することによって,OSQ問題に関する解説を行う。
また,OSQと表現力の整合性,OSQとOSMのトレードオフについても論じる。
さらに,既存の研究から活用した経験的手法を概説し,osq緩和手法の効率性を検証するとともに,計算の複雑さを例示する。
最後に、我々は、我々の知識の最良の方向とともに、osq問題をさらに探究するために関心のあるいくつかの公開質問をリストアップします。 Graph-based message-passing neural networks (MPNNs) have achieved remarkable success in both node and graph-level learning tasks. However, several identified problems, including over-smoothing (OSM), limited expressive power, and over-squashing (OSQ), still limit the performance of MPNNs. In particular, OSQ serves as the latest identified problem, where MPNNs gradually lose their learning accuracy when long-range dependencies between graph nodes are required. In this work, we provide an exposition on the OSQ problem by summarizing different formulations of OSQ from current literature, as well as the three different categories of approaches for addressing the OSQ problem. In addition, we also discuss the alignment between OSQ and expressive power and the trade-off between OSQ and OSM. Furthermore, we summarize the empirical methods leveraged from existing works to verify the efficiency of OSQ mitigation approaches, with illustrations of their computational complexities. Lastly, we list some open questions that are of interest for further exploration of the OSQ problem along with potential directions from the best of our knowledge. | 翻訳日:2023-11-14 15:40:03 公開日:2023-11-13 |
# 生成的人工知能が与える影響 The Impact of Generative Artificial Intelligence ( http://arxiv.org/abs/2311.07071v1 ) ライセンス: Link先を確認 | Kaichen Zhang, Ohchan Kwon, Hui Xiong | (参考訳) 生成的人工知能(AI)の台頭は、失業と市場不況への潜在的な影響を懸念している。
本研究は、製品市場における生成AIの影響を調べることで、この問題に対処する。
因果推論の課題を克服するために、制御実験の実施の本来の限界を考えると、高度に熟練した画像生成AIの予期せぬ突然の漏洩を「自然実験」の新たな事例として挙げる。
このAIリークは急速に広がり、他のスタイルと比較してアニメスタイルの画像を生成するコストが大幅に削減され、比較評価の機会が生まれる。
私たちは、アートワークアウトソーシングプラットフォームから現実世界のデータを集めます。
意外なことに、私たちの結果は、生成的AIが平均価格を下げる一方で、注文数と全体的な収益を大幅に増加させることを示している。
この直感的な発見は、生成的AIがデトリメントよりもアーティストに利益をもたらすことを示唆している。
この研究はさらに、この予期せぬ現象を解明するための理論的経済的説明を提供する。
実証的な証拠を提示することで、この論文は、生成的AIが不況を招きかねず、市場の繁栄を育む可能性を強調している。
これらの発見は、実践者、政策立案者、そして幅広いAIコミュニティに重大な影響を与える。 The rise of generative artificial intelligence (AI) has sparked concerns about its potential influence on unemployment and market depression. This study addresses this concern by examining the impact of generative AI on product markets. To overcome the challenge of causal inference, given the inherent limitations of conducting controlled experiments, this paper identifies an unanticipated and sudden leak of a highly proficient image-generative AI as a novel instance of a "natural experiment". This AI leak spread rapidly, significantly reducing the cost of generating anime-style images compared to other styles, creating an opportunity for comparative assessment. We collect real-world data from an artwork outsourcing platform. Surprisingly, our results show that while generative AI lowers average prices, it substantially boosts order volume and overall revenue. This counterintuitive finding suggests that generative AI confers benefits upon artists rather than detriments. The study further offers theoretical economic explanations to elucidate this unexpected phenomenon. By furnishing empirical evidence, this paper dispels the notion that generative AI might engender depression, instead underscoring its potential to foster market prosperity. These findings carry significant implications for practitioners, policymakers, and the broader AI community. | 翻訳日:2023-11-14 15:39:44 公開日:2023-11-13 |
# 説明題翻訳:自己生成説明によるプログラム翻訳の改善に関する分析 Explain-then-Translate: An Analysis on Improving Program Translation with Self-generated Explanations ( http://arxiv.org/abs/2311.07070v1 ) ライセンス: Link先を確認 | Zilu Tang, Mayank Agarwal, Alex Shypula, Bailin Wang, Derry Wijaya, Jie Chen, Yoon Kim | (参考訳) 本研究は,言語モデルを用いたコード間翻訳の中間段階として,自己生成型自然言語説明の利用について検討する。
3種類の説明と19のプログラミング言語がMultiPL-Eデータセットから構築され、ゼロショットケースでは特に有効であることが分かり、平均して12%の性能向上が見られた。
自然言語による説明の改善は、特に難しいプログラムで顕著である。
19言語すべてでデータセット、コード、標準ソリューションをリリースしています。 This work explores the use of self-generated natural language explanations as an intermediate step for code-to-code translation with language models. Across three types of explanations and 19 programming languages constructed from the MultiPL-E dataset, we find the explanations to be particularly effective in the zero-shot case, improving performance by 12% on average. Improvements with natural language explanations are particularly pronounced on difficult programs. We release our dataset, code, and canonical solutions in all 19 languages. | 翻訳日:2023-11-14 15:39:24 公開日:2023-11-13 |
# 同時翻訳における学習とテストのコンテキスト一貫性 Context Consistency between Training and Testing in Simultaneous Machine Translation ( http://arxiv.org/abs/2311.07066v1 ) ライセンス: Link先を確認 | Meizhi Zhong, Lemao Liu, Kehai Chen, Mingming Yang, Min Zhang | (参考訳) 同時機械翻訳(SiMT)は、ソース側コンテキストを単調に拡張したリアルタイム部分翻訳を実現することを目的としている。
例えば、wait-kで一貫してトレーニングされたwait-kテストモデルは、翻訳品質の点で、wait-k' (k' は k に等しいものではない) で一貫性のないトレーニングを受けたモデルよりもはるかに悪い。
この目的のために、まずこの現象の根本原因を調査し、以下の2つの要因を明らかにする。
1) 翻訳品質と訓練(相互エントロピー)損失との限られた相関
2) トレーニングとテストの間の露光バイアス。
そこで本研究では,両目的に翻訳品質と遅延を最適化し,学習中にモデルに予測を提示することにより,学習とテストのコンテキスト利用を整合させる,コンテキスト一貫性トレーニングという効果的なトレーニング手法を提案する。
コンテキスト一貫性を奨励する私たちのシステムは、コンテキスト一貫性トレーニングアプローチの助けを借りて、コンテキスト一貫性を初めて既存のシステムよりも優れています。 Simultaneous Machine Translation (SiMT) aims to yield a real-time partial translation with a monotonically growing the source-side context. However, there is a counterintuitive phenomenon about the context usage between training and testing: e.g., the wait-k testing model consistently trained with wait-k is much worse than that model inconsistently trained with wait-k' (k' is not equal to k) in terms of translation quality. To this end, we first investigate the underlying reasons behind this phenomenon and uncover the following two factors: 1) the limited correlation between translation quality and training (cross-entropy) loss; 2) exposure bias between training and testing. Based on both reasons, we then propose an effective training approach called context consistency training accordingly, which makes consistent the context usage between training and testing by optimizing translation quality and latency as bi-objectives and exposing the predictions to the model during the training. The experiments on three language pairs demonstrate our intuition: our system encouraging context consistency outperforms that existing systems with context inconsistency for the first time, with the help of our context consistency training approach. | 翻訳日:2023-11-14 15:39:17 公開日:2023-11-13 |
# 深層学習における勾配降下による構成的大域$\mathcal{L}^2$最小化器の非近似性 Non-approximability of constructive global $\mathcal{L}^2$ minimizers by gradient descent in Deep Learning ( http://arxiv.org/abs/2311.07065v1 ) ライセンス: Link先を確認 | Thomas Chen, Patricia Mu\~noz Ewald | (参考訳) 深層学習(dl)ネットワークにおける勾配降下アルゴリズムの幾何学的側面を分析する。
特に,低パラメータの relu dl ネットワーク [chen-munoz ewald 2023] において構成的に得られる$\mathcal{l}^2$ の和とバイアスのグローバル最小化は,勾配降下流を介しては汎用的に近似できないことを証明した。
したがって,[Chen-Munoz Ewald 2023] で導入された手法は勾配降下法と解離する。 We analyze geometric aspects of the gradient descent algorithm in Deep Learning (DL) networks. In particular, we prove that the globally minimizing weights and biases for the $\mathcal{L}^2$ cost obtained constructively in [Chen-Munoz Ewald 2023] for underparametrized ReLU DL networks can generically not be approximated via the gradient descent flow. We therefore conclude that the method introduced in [Chen-Munoz Ewald 2023] is disjoint from the gradient descent method. | 翻訳日:2023-11-14 15:38:53 公開日:2023-11-13 |
# PROPANE: 逆問題としてのプロンプト設計 PROPANE: Prompt design as an inverse problem ( http://arxiv.org/abs/2311.07064v1 ) ライセンス: Link先を確認 | Rimon Melamed, Lucas H. McCabe, Tanay Wakhare, Yejin Kim, H. Howie Huang, Enric Boix-Adsera | (参考訳) 注意深い設計のプロンプトは、LLM(Large Language Models)において望ましい振る舞いを誘導する鍵となる。
その結果、LLMを特定の行動に導くエンジニアリングプロンプトに多大な努力が注がれた。
本研究では,ユーザの介入なしに,意味的に類似した出力を固定された例集合に誘導するプロンプトを見つけることを目的とした,自動プロンプト最適化フレームワーク PROPANE を提案する。
さらに, PROPANE が有効であることを示す。
(a)既存プロンプトの改善、及び
b) モデル間の転送を意味的に難読化するプロンプトを発見する。 Carefully-designed prompts are key to inducing desired behavior in Large Language Models (LLMs). As a result, great effort has been dedicated to engineering prompts that guide LLMs toward particular behaviors. In this work, we propose an automatic prompt optimization framework, PROPANE, which aims to find a prompt that induces semantically similar outputs to a fixed set of examples without user intervention. We further demonstrate that PROPANE can be used to (a) improve existing prompts, and (b) discover semantically obfuscated prompts that transfer between models. | 翻訳日:2023-11-14 15:38:42 公開日:2023-11-13 |
# CANメッセージを用いた多視点統計グラフ学習による車内侵入検出 Effective In-vehicle Intrusion Detection via Multi-view Statistical Graph Learning on CAN Messages ( http://arxiv.org/abs/2311.07056v1 ) ライセンス: Link先を確認 | Kai Wang, Qiguang Jiang, Bailing Wang, Yongzheng Zhang, Yulei Wu | (参考訳) 車両のインターネット(IoV)の重要な構成要素として、インテリジェントコネクテッドカー(ICV)は外部ネットワークと頻繁に通信する必要がある。
この場合、資源制約された車内ネットワーク(IVN)は、様々な複雑さに直面し、外部のサイバー攻撃、特にマスクレード攻撃は検出が困難であり、また、対策がほとんどない深刻な損傷効果がある。
さらに、現在の主流の侵入検知機構、すなわち、このウィンドウ内のすべてのデータ項目に対してきめ細かい認識を行うのではなく、全データフロー観察ウィンドウが攻撃ラベルを含むかどうかにおいて、粗い粒度のみを認識できる。
本稿では,詳細な侵入検出を実現するための,多視点統計的グラフ学習侵入検出手法StatGraphを提案する。
具体的には、データストリームに基づく2つの統計グラフ、タイミング相関グラフ(TCG)と結合関係グラフ(CRG)を生成する。
与えられたメッセージ観察ウィンドウでは、TCGのエッジ属性は異なるメッセージID間の時間的相関を表し、CRGのエッジ属性は隣接する関係とコンテキスト的類似を示す。
さらに,TCGとCRGのグラフ特性に基づいて軽量な層状GCNネットワークを訓練し,様々なパターンの普遍的な法則をより効果的に学習し,検出性能を向上させる。
前回の侵入検知において攻撃型が不十分な問題に対処するために,これまで調査されなかった4つの新しい攻撃をカバーする2つの実車載canデータセットを選択した。
実験の結果,StatGraphは最先端の侵入検知法よりも検出粒度と検出性能が向上した。 As an important component of internet of vehicles (IoV), intelligent connected vehicles (ICVs) have to communicate with external networks frequently. In this case, the resource-constrained in-vehicle network (IVN) is facing a wide variety of complex and changing external cyber-attacks, especially the masquerade attack with high difficulty of detection while serious damaging effects that few counter measures can identify successfully. Moreover, only coarse-grained recognition can be achieved in current mainstream intrusion detection mechanisms, i.e., whether a whole data flow observation window contains attack labels rather than fine-grained recognition on every single data item within this window. In this paper, we propose StatGraph: an Effective Multi-view Statistical Graph Learning Intrusion Detection to implement the fine-grained intrusion detection. Specifically, StatGraph generates two statistical graphs, timing correlation graph (TCG) and coupling relationship graph (CRG), based on data streams. In given message observation windows, edge attributes in TCGs represent temporal correlation between different message IDs, while edge attributes in CRGs denote the neighbour relationship and contextual similarity. Besides, a lightweight shallow layered GCN network is trained based graph property of TCGs and CRGs, which can learn the universal laws of various patterns more effectively and further enhance the performance of detection. To address the problem of insufficient attack types in previous intrusion detection, we select two real in-vehicle CAN datasets that cover four new attacks never investigated before. Experimental result shows StatGraph improves both detection granularity and detection performance over state-of-the-art intrusion detection methods. | 翻訳日:2023-11-14 15:38:33 公開日:2023-11-13 |
# ナノファイバーを用いたサブ5mWエバネッセント場原子ガイドによる膜導波路誘導原子干渉法 A Sub-5mW Evanescent Field Atom Guide with Nanofibers towards Guided Atom Interferometry with Membrane Waveguides ( http://arxiv.org/abs/2311.07055v1 ) ライセンス: Link先を確認 | Adrian Orozco, William Kindel, Nicholas Karl, Yuan-Yu Jau, Michael Gehl, Grant Biedermann, and Jongmin Lee | (参考訳) 実験室から実世界の用途まで、量子慣性センサーの分野では大きな進歩があり、最終的にはセンサーの小型化と動的動きのラグ化が必要となる。
しかし、感覚軸に対する側方原子移動は慣性センシングを制限するため、原子ガイドは横方向原子閉じ込めを確保する。
比較的大きな自由空間光学モードと比較して、有利に小さなモード領域を持つエバネッセント場(EF)モードは、より強い原子-光相互作用と低い原子ガイドの光パワー要求を実現する。
ナノファイバーや導波路のef原子ガイドを定在エバネッセント波のef光学格子ではなく、進行エバネッセント波で研究する。
我々は,685nmと937nmの光を用いたナノファイバー上でEF原子ガイドの予備的なデモンストレーションを行い,EF原子ガイドの原子コヒーレンス(685/937nm)がEF光学格子と類似していることを実験的に示す。
685 nmの光を763 nmの光に置き換えることで、ナノファイバーのサブ-5mw ef原子ガイド(793/937 nm)をさらに実証し、同じ光学ポテンシャル深さのナノファイバー(685/937 nm)と比較して、ナノファイバーで61$\$、膜導波路で78$\$$の相対パワー低減を評価する。
チップベースの膜フォトニックデバイス上でのアトム誘導のために、全光電力要求の低減と真空中の熱散逸を改善するのに電力削減は有用である。
本研究をEF誘導原子インターフェロメトリと結び付けるため, 膜導波路に低消費電力光を照射することにより, 将来的な実演のために線状および円形導波路を作製した。
これは、サイズ、重量、パワーを縮小したチップスケールの量子慣性センサーアレイに向けた有望なステップである。 Great progress has been made in the field of quantum inertial sensors, from the laboratory to the real-world use, which will ultimately require sensor miniaturization and ruggedization for dynamic motion. However, lateral atomic movement with respect to the sensing axis limits inertial sensing, which inspires the atom guides to ensure transverse atomic confinement. Compared to a relatively large free-space optical mode, an evanescent field (EF) mode with an advantageously small mode area allows for stronger atom-light interactions and lower optical power requirements for the atom guides. We study EF atom guides in nanofibers and waveguides with traveling evanescent waves, rather than EF optical lattices with standing evanescent waves. Our preliminary demonstration of an EF atom guide takes place on a nanofiber using 685 nm and 937 nm lights, and we experimentally show that the atomic coherence of the EF atom guide (685/937 nm) is similar to the EF optical lattice. By replacing the 685 nm light with 793 nm light, we further demonstrate the sub-5mW EF atom guide (793/937 nm) on nanofibers and assess relative power reduction of 61$\%$ on nanofibers and 78$\%$ on membrane waveguides, compared to nanofibers (685/937 nm), for the same optical potential depth. Power reduction is beneficial for reducing total optical power requirements and improving heat dissipation in vacuum for atom guiding on chip-based membrane-photonic devices. To connect this work with EF-guided atom interferometry, we evaluate the viability and potential benefits of using the low-power light configuration on membrane waveguides, presenting fabricated linear and circular waveguides for future demonstrations. This is a promising step towards a chip-scale quantum inertial sensor array with reduced size, weight, and power. | 翻訳日:2023-11-14 15:38:06 公開日:2023-11-13 |
# 蒸留言語モデルにおける容量ギャップの法則に向けて Towards the Law of Capacity Gap in Distilling Language Models ( http://arxiv.org/abs/2311.07052v1 ) ライセンス: Link先を確認 | Chen Zhang, Dawei Song, Zheyu Ye, Yan Gao | (参考訳) 言語モデル (LM) 蒸留は、大きな教師のLMに居住する知識を小さな学生に消し去ることを目的とした、流行の分野である。
蒸留を限界まで押し上げるための様々な方法が提案されているが、教師と学生のLMの間に大きな容量ギャップが示されるときはまだ、痛みを蒸留するLMである。
この痛みは主にキャパシティギャップの呪いによって引き起こされ、より大きな教師lmはキャパシティギャップインクリメントの影響により、より小さな教師lmから蒸留された生徒lmよりも常に優れた生徒lmを導くことはできない。
つまり、教師LMのスケーリングコースに沿って、最高の学生LMを得る最適なポイントがある可能性が高い。
さらに悪いことに、キャパシティギャップの呪いは、以前の研究で示されたように部分的にしか完全には持ち上げられていない。
しかし、物語は決して一方的ではない。
より大きな教師lmは、より小さな教師lmよりも優れた性能を持つが、特に最近の大きなlms(llms)の文脈では、リソースが要求される。
その結果、呪いを持ち上げる代わりに、呪いをそのままにしておくことは間違いなく問題ない。
さらに,本稿では,最適なキャパシティギャップが,学生のスケールやアーキテクチャによってほぼ一致していることを明らかにし,幸運にもキャパシティギャップの法則に転換した。
その後、この法律は7Bの教師LM(LLaMA2-7B)から3Bの学生LM(MiniMA)を駆除するよう案内します。
MiniMAは、一般的なベンチマークで既存の3B LMの中で新しい計算性能のパレートフロンティアが得られることが実証されており、命令調整されたバージョン(MiniChatと呼ばれる)は、GPT4の評価において幅広い3B競合より優れており、いくつかの7Bチャットモデルと競合する可能性さえある。 Language model (LM) distillation is a trending area that aims to distil the knowledge resided in a large teacher LM to a small student one. While various methods have been proposed to push the distillation to its limits, it is still a pain distilling LMs when a large capacity gap is exhibited between the teacher and the student LMs. The pain is mainly resulted by the curse of capacity gap, which describes that a larger teacher LM cannot always lead to a better student LM than one distilled from a smaller teacher LM due to the affect of capacity gap increment. That is, there is likely an optimal point yielding the best student LM along the scaling course of the teacher LM. Even worse, the curse of capacity gap can be only partly yet not fully lifted as indicated in previous studies. However, the tale is not ever one-sided. Although a larger teacher LM has better performance than a smaller teacher LM, it is much more resource-demanding especially in the context of recent large LMs (LLMs). Consequently, instead of sticking to lifting the curse, leaving the curse as is should be arguably fine. Even better, in this paper, we reveal that the optimal capacity gap is almost consistent across different student scales and architectures, fortunately turning the curse into the law of capacity gap. The law later guides us to distil a 3B student LM (termed MiniMA) from a 7B teacher LM (adapted LLaMA2-7B). MiniMA is demonstrated to yield a new compute-performance pareto frontier among existing 3B LMs on commonly used benchmarks, and its instruction-tuned version (termed MiniChat) outperforms a wide range of 3B competitors in GPT4 evaluation and could even compete with several 7B chat models. | 翻訳日:2023-11-14 15:37:27 公開日:2023-11-13 |
# 多点水平時空におけるフェルミオン場の量子的性質 Quantum properties of fermionic fields in multi-event horizon spacetime ( http://arxiv.org/abs/2311.07047v1 ) ライセンス: Link先を確認 | Qianqian Liu, Shu-Min Wu, Cuihong Wen, Jieci Wang | (参考訳) 質量を持たないディラック場の多点地平線Schwarzschild-de Sitter(SdS)時空における量子絡み合いと相互情報の性質について検討する。
我々は、sds時空におけるブラックホール事象地平線(beh)および宇宙事象地平線(ceh)近傍の量子状態の進化の式を得る。
成合制限の下では、物理的にアクセス可能な絡み合いと相互情報は最大化され、物理的にアクセス不能な相関はゼロである。
いずれの地平線の温度上昇により、物理的にアクセス可能な相関は劣化する。
特に、初期状態は絡み合いであり、スカラーフィールドの場合とは異なる、絡み合いに基づく量子情報処理タスクで利用することができる。
さらに、物理的にアクセス可能な相関の劣化は、小質量ブラックホールにとってより顕著である。
対照的に、CEHによって分離された物理的に到達不能な相関は放射温度と単調に増加し、そのような相関はBEHにおける粒子生成の影響によって決定的に影響されない。
さらに、BEHによって分離された到達不能な相関に対して同様の現象が観察された。
この結果は、物理的に到達不能な絡み合いがホーキング温度の単調関数である単一の事象時空とは異なる。 We investigate the properties of quantum entanglement and mutual information in the multi-event horizon Schwarzschild-de Sitter (SdS) spacetime for massless Dirac fields. We obtain the expression for the evolutions of the quantum state near the black hole event horizon (BEH) and cosmological event horizon (CEH) in the SdS spacetime. Under the Nariai limit, the physically accessible entanglement and mutual information are maximized, and the physically inaccessible correlations are zero. With the increase in temperature of either horizon, the physically accessible correlations experience degradation. Notably, the initial state remains entangled and can be utilized in entanglement-based quantum information processing tasks, which differs form the scalar field case. Furthermore, the degradation of physically accessible correlations is more pronounced for small-mass black holes. In contrast, the physically inaccessible correlations separated by the CEH monotonically increase with the radiation temperature, and such correlations are not decisively influenced by the effect of particle creation at the BEH. Moreover, a similar phenomenon is observed for the inaccessible correlations separated by the BEH. This result differs from the single event spacetime, in which the physically inaccessible entanglement is a monotonic function of the Hawking temperature. | 翻訳日:2023-11-14 15:36:54 公開日:2023-11-13 |
# L_0$-Sampler: NeRF用モデルガイドボリュームサンプリング $L_0$-Sampler: An $L_{0}$ Model Guided Volume Sampling for NeRF ( http://arxiv.org/abs/2311.07044v1 ) ライセンス: Link先を確認 | Liangchen Li, Juyong Zhang | (参考訳) 提案以降、neural radiance fields(nerf)は、ボリュームレンダリングに階層的ボリュームサンプリング(hvs)戦略を採用するなど、関連するタスクで大きな成功を収めている。
しかし、NeRFのHVSは断片的定数関数を用いて分布を近似し、相対的に粗い推定を与える。
十分に訓練された重み関数 $w(t)$ と点と表面との間の $l_0$ の距離が非常に高いという観測に基づいて,$l_0$ モデルを $w(t)$ に組み込んでサンプリングプロセスを導くことで $l_0$-sampler を提案する。
具体的には,線量分布を近似できるだけでなく,余分な計算負担を伴わずに数行のコードで容易に実装できるような補間関数として,断片的定数関数ではなく指数関数を用いる方法を提案する。
安定的なパフォーマンス改善は、NeRFとその関連する3D再構成のようなタスクに$L_0$-Samplerを適用することで達成できる。
コードはhttps://ustc3dv.github.io/L0-Sampler/で入手できる。 Since being proposed, Neural Radiance Fields (NeRF) have achieved great success in related tasks, mainly adopting the hierarchical volume sampling (HVS) strategy for volume rendering. However, the HVS of NeRF approximates distributions using piecewise constant functions, which provides a relatively rough estimation. Based on the observation that a well-trained weight function $w(t)$ and the $L_0$ distance between points and the surface have very high similarity, we propose $L_0$-Sampler by incorporating the $L_0$ model into $w(t)$ to guide the sampling process. Specifically, we propose to use piecewise exponential functions rather than piecewise constant functions for interpolation, which can not only approximate quasi-$L_0$ weight distributions along rays quite well but also can be easily implemented with few lines of code without additional computational burden. Stable performance improvements can be achieved by applying $L_0$-Sampler to NeRF and its related tasks like 3D reconstruction. Code is available at https://ustc3dv.github.io/L0-Sampler/ . | 翻訳日:2023-11-14 15:36:34 公開日:2023-11-13 |
# 第21回国際オーバーチャーワークショップ参加報告 Proceedings of the 21st International Overture Workshop ( http://arxiv.org/abs/2311.07120v1 ) ライセンス: Link先を確認 | Hugo Daniel Macedo and Ken Pierce | (参考訳) この本は2023年3月10日に開催された第21回国際オーバーチャーワークショップで発表された論文を含んでいる。
このイベントは、オープンソースのプロジェクト Overture と関連するツールとフォーマリズムである Vienna Development Method (VDM) に関する一連のワークショップの最新のものとなった。
VDMは、システム開発のための最も長い公式な方法の1つである。
研究者や実践者の活発なコミュニティがアカデミックで成長し、業界はモデリング言語(VDM-SL、VDM++、VDM-RT、CML)とツール(VDMTools、Overture、Crescendo、Symphony、INTO-CPSチェーン、EenenTalk)を中心に成長してきた。
これらは共に、静的および動的解析、テスト生成、実行サポート、モデルチェックを含むモデリングおよび分析技術に取り組むためのプラットフォームを提供する。
このワークショップは、コラボレーションインフラストラクチャ、協調モデリング、サイバー物理システムのための共シミュレーションを含む、VDM/Overtureの新しい技術のアップデートを提供した。 This volume contains the papers presented at the 21st International Overture Workshop, held on the 10th of March 2023. This event was the latest in a series of workshops around the Vienna Development Method (VDM), the open-source project Overture, and related tools and formalisms. VDM is one of the longest established formal methods for systems development. A lively community of researchers and practitioners has grown up in academia and industry has grown around the modelling languages (VDM-SL, VDM++, VDM-RT, CML) and tools (VDMTools, Overture, Crescendo, Symphony, the INTO-CPS chain, and ViennaTalk). Together, these provide a platform for work on modelling and analysis technology that includes static and dynamic analysis, test generation, execution support, and model checking. This workshop provided updates on the emerging technology of VDM/Overture, including collaboration infrastructure, collaborative modelling and co-simulation for Cyber-Physical Systems. | 翻訳日:2023-11-14 15:28:46 公開日:2023-11-13 |
# Gen-Z:文脈付きラベル記述を用いたゼロショットテキスト分類 Gen-Z: Generative Zero-Shot Text Classification with Contextualized Label Descriptions ( http://arxiv.org/abs/2311.07115v1 ) ライセンス: Link先を確認 | Sachin Kumar, Chan Young Park, Yulia Tsvetkov | (参考訳) 言語モデル(lm)プロンプト--nlpタスクを解決するための一般的なパラダイム--入力が与えられたラベルを予測する識別的プロンプトアプローチによって引き起こされる、わずかなプロンプトバリエーションに対する誤解と脆さの影響を受けやすいことが示されている。
これらの問題に対処するため,ゼロショットテキスト分類のための生成促進フレームワークGen-Zを提案する。
gen-Zは、ラベルの自然言語記述に基づいて入力テキストのLM可能性を測定するため、生成する。
ラベル記述により、ラベルに関する追加のコンテキスト情報をシームレスに統合し、タスクパフォーマンスを向上させることができます。
各種標準分類ベンチマークにおいて、6つのオープンソースLMファミリーを用いて、評価セットのデータソースの文脈化によるゼロショット分類が、ゼロショットベースラインと少数ショットベースラインの両方を一貫して上回り、変動を促すロバスト性を改善していることを示す。
また, ラベル記述に著者, 主題, 読者情報を組み込むことにより, ゼロショット方式で分類をパーソナライズすることができる。 Language model (LM) prompting--a popular paradigm for solving NLP tasks--has been shown to be susceptible to miscalibration and brittleness to slight prompt variations, caused by its discriminative prompting approach, i.e., predicting the label given the input. To address these issues, we propose Gen-Z--a generative prompting framework for zero-shot text classification. GEN-Z is generative, as it measures the LM likelihood of input text, conditioned on natural language descriptions of labels. The framework is multivariate, as label descriptions allow us to seamlessly integrate additional contextual information about the labels to improve task performance. On various standard classification benchmarks, with six open-source LM families, we show that zero-shot classification with simple contextualization of the data source of the evaluation set consistently outperforms both zero-shot and few-shot baselines while improving robustness to prompt variations. Further, our approach enables personalizing classification in a zero-shot manner by incorporating author, subject, or reader information in the label descriptions. | 翻訳日:2023-11-14 15:28:24 公開日:2023-11-13 |
# 機械学習に基づく広帯域ランダム負荷下での疲労寿命予測の新しいモデル Novel models for fatigue life prediction under wideband random loads based on machine learning ( http://arxiv.org/abs/2311.07114v1 ) ライセンス: Link先を確認 | Hong Sun, Yuanying Qiu, Jing Li, Jin Bai, Ming Peng | (参考訳) データ駆動ソリューションとしての機械学習は、疲労寿命予測の分野で広く適用されている。
本稿では,3つの機械学習モデル,すなわち,サポートベクターマシン(svm),ガウス過程回帰(gpr),ニューラルネットワーク(ann)に基づいて,広帯域疲労寿命予測のための3つのモデルを構築した。
帯域幅パラメータの異なる多数のパワースペクトルサンプルと疲労寿命に関連するさまざまな材料特性を用いて、モデルの一般化能力を高める。
モンテカルロ数値シミュレーションにより、新たに開発された機械学習モデルは、寿命予測精度の点で従来の周波数領域モデルよりも優れており、3つの開発した機械学習モデルの中で、annモデルが最も優れた性能を持つことが示された。 Machine learning as a data-driven solution has been widely applied in the field of fatigue lifetime prediction. In this paper, three models for wideband fatigue life prediction are built based on three machine learning models, i.e. support vector machine (SVM), Gaussian process regression (GPR) and artificial neural network (ANN). The generalization ability of the models is enhanced by employing numerous power spectra samples with different bandwidth parameters and a variety of material properties related to fatigue life. Sufficient Monte Carlo numerical simulations demonstrate that the newly developed machine learning models are superior to the traditional frequency-domain models in terms of life prediction accuracy and the ANN model has the best overall performance among the three developed machine learning models. | 翻訳日:2023-11-14 15:28:01 公開日:2023-11-13 |
# スペクトルGPT:スペクトル基礎モデル SpectralGPT: Spectral Foundation Model ( http://arxiv.org/abs/2311.07113v1 ) ライセンス: Link先を確認 | Danfeng Hong, Bing Zhang, Xuyang Li, Yuxuan Li, Chenyu Li, Jing Yao, Naoto Yokoya, Hao Li, Xiuping Jia, Antonio Plaza, Gamba Paolo, Jon Atli Benediktsson, Jocelyn Chanussot | (参考訳) ファウンデーションモデルは、視覚表現学習の分野を自己指導的に革新する可能性から、近年大きな注目を集めている。
ほとんどの基礎モデルは、様々な視覚的タスクのためにRGB画像を効果的に処理するように調整されているが、特にリモートセンシング(RS)アプリケーションにおいて、シーン理解に有用な情報を提供するスペクトルデータに焦点を当てた研究には、顕著なギャップがある。
このギャップを埋めるために,新しい3次元生成プリトレーニングトランス(gpt)を用いて,スペクトルrs画像を処理する目的で開発されたspectrumgptというユニバーサルrs基盤モデルが初めて作成した。
既存の基礎モデルとの比較,SpectralGPT
1) さまざまなサイズ,解像度,時系列,領域の入力画像をプログレッシブなトレーニング方法で収容し,広範なrsビッグデータのフル活用を可能にする。
2)空間-スペクトル結合のための3次元トークン生成を利用する。
3)多目的再構成によるスペクトル逐次パターンのキャプチャ
4) スペクトルRS画像100万枚をトレーニングし、6億以上のパラメータを持つモデルを生成する。
我々の評価は、事前訓練されたスペクトルGPTモデルによる顕著な性能向上を強調し、単一/複数ラベルシーン分類、セマンティックセグメンテーション、変化検出の4つの下流タスクにまたがる地球科学分野におけるスペクトルRSビッグデータ応用の進歩の可能性を示している。 The foundation model has recently garnered significant attention due to its potential to revolutionize the field of visual representation learning in a self-supervised manner. While most foundation models are tailored to effectively process RGB images for various visual tasks, there is a noticeable gap in research focused on spectral data, which offers valuable information for scene understanding, especially in remote sensing (RS) applications. To fill this gap, we created for the first time a universal RS foundation model, named SpectralGPT, which is purpose-built to handle spectral RS images using a novel 3D generative pretrained transformer (GPT). Compared to existing foundation models, SpectralGPT 1) accommodates input images with varying sizes, resolutions, time series, and regions in a progressive training fashion, enabling full utilization of extensive RS big data; 2) leverages 3D token generation for spatial-spectral coupling; 3) captures spectrally sequential patterns via multi-target reconstruction; 4) trains on one million spectral RS images, yielding models with over 600 million parameters. Our evaluation highlights significant performance improvements with pretrained SpectralGPT models, signifying substantial potential in advancing spectral RS big data applications within the field of geoscience across four downstream tasks: single/multi-label scene classification, semantic segmentation, and change detection. | 翻訳日:2023-11-14 15:27:47 公開日:2023-11-13 |
# 絡み合い支援符号語安定化量子符号のサイズに関する半定値プログラミング境界 Semidefinite programming bounds on the size of entanglement-assisted codeword stabilized quantum codes ( http://arxiv.org/abs/2311.07111v1 ) ライセンス: Link先を確認 | Ching-Yi Lai and Pin-Chieh Tseng and Wei-Hsuan Yu | (参考訳) 本稿では,量子符号の領域への半定値プログラミングの適用について検討し,特に絡み合い支援付き符号語安定化符号(CWS)に着目した。
特に、CWS群の等方部分群とCWS型量子コードのワード演算子の集合を利用して、最小距離上の上限を導出する。
さらに、この特徴は関連する距離列挙子に組み込むことができ、CWS型量子符号の最小距離またはサイズでSDP境界につながる半定値制約を構築することができる。
SDP が LP 境界より優れており、LP が有意義な結果を得ることができない場合もあれば、SDP が常に厳密で関連する境界を提供する場合もある。
最後に、コードワード安定化符号のためのshor-laflamme重み列挙子とshadow enumeratorの解釈を提供し、量子コードの理解を深める。 In this paper, we explore the application of semidefinite programming to the realm of quantum codes, specifically focusing on codeword stabilized (CWS) codes with entanglement assistance. Notably, we utilize the isotropic subgroup of the CWS group and the set of word operators of a CWS-type quantum code to derive an upper bound on the minimum distance. Furthermore, this characterization can be incorporated into the associated distance enumerators, enabling us to construct semidefinite constraints that lead to SDP bounds on the minimum distance or size of CWS-type quantum codes. We illustrate several instances where SDP bounds outperform LP bounds, and there are even cases where LP fails to yield meaningful results, while SDP consistently provides tight and relevant bounds. Finally, we also provide interpretations of the Shor-Laflamme weight enumerators and shadow enumerators for codeword stabilized codes, enhancing our understanding of quantum codes. | 翻訳日:2023-11-14 15:27:21 公開日:2023-11-13 |
# 拡散モデルを用いたデータ駆動型イベント分類器の逆浄化 Adversarial Purification for Data-Driven Power System Event Classifiers with Diffusion Models ( http://arxiv.org/abs/2311.07110v1 ) ライセンス: Link先を確認 | Yuanbin Cheng, Koji Yamashita, Jim Follum, Nanpeng Yu | (参考訳) ファサー計測ユニット(PMU)のグローバル展開により、電力システムのリアルタイムモニタリングが可能となり、イベント検出と分類のための機械学習モデルの研究が盛んに進められている。
しかし、最近の研究では、機械学習に基づく手法は敵攻撃に弱いことが判明しており、生のPMUデータに小さな摂動を加えることで、イベント分類器を騙すことができる。
敵攻撃による脅威を軽減するためには、防衛戦略の研究が急務である。
本稿では,機械学習に基づく電力系統イベント分類器の敵意攻撃に対する拡散モデルに基づく効果的な敵意浄化手法を提案する。
提案手法は、PMUデータにノイズを注入する2つのステップと、事前学習されたニューラルネットワークを用いて、敵攻撃によってもたらされる摂動を同時に除去する2つのステップを含む。
提案手法は,リアルタイム操作の要件を満たしながら,敵攻撃時の事象分類器の精度を大幅に向上させる。
さらに,提案手法は, 拡散モデルに基づく逆方向浄化法により, 元のPMUデータと妥協したPMUデータとの距離を低減し, 逆方向攻撃の影響を低減する。
大規模実世界のPMUデータセットにおける実験結果は,提案手法の有効性と計算効率を検証した。 The global deployment of the phasor measurement units (PMUs) enables real-time monitoring of the power system, which has stimulated considerable research into machine learning-based models for event detection and classification. However, recent studies reveal that machine learning-based methods are vulnerable to adversarial attacks, which can fool the event classifiers by adding small perturbations to the raw PMU data. To mitigate the threats posed by adversarial attacks, research on defense strategies is urgently needed. This paper proposes an effective adversarial purification method based on the diffusion model to counter adversarial attacks on the machine learning-based power system event classifier. The proposed method includes two steps: injecting noise into the PMU data; and utilizing a pre-trained neural network to eliminate the added noise while simultaneously removing perturbations introduced by the adversarial attacks. The proposed adversarial purification method significantly increases the accuracy of the event classifier under adversarial attacks while satisfying the requirements of real-time operations. In addition, the theoretical analysis reveals that the proposed diffusion model-based adversarial purification method decreases the distance between the original and compromised PMU data, which reduces the impacts of adversarial attacks. The empirical results on a large-scale real-world PMU dataset validate the effectiveness and computational efficiency of the proposed adversarial purification method. | 翻訳日:2023-11-14 15:27:03 公開日:2023-11-13 |
# ソースコード検索に関する調査 : 三次元的展望 A Survey of Source Code Search: A 3-Dimensional Perspective ( http://arxiv.org/abs/2311.07107v1 ) ライセンス: Link先を確認 | Weisong Sun, Chunrong Fang, Yifei Ge, Yuling Hu, Yuchen Chen, Quanjun Zhang, Xiuting Ge, Yang Liu, Zhenyu Chen | (参考訳) (ソース)コード検索は、ソフトウェア開発の生産性と品質を向上させることができるため、ソフトウェア工学研究者によって広く懸念されている。
自然言語文で通常記述される機能要件を考えると、コード検索システムは大規模なコードコーパス(GitHubなど)から要求を満たすコードスニペットを検索することができる。
効率的かつ効率的なコード検索を実現するため,多くの手法が提案されている。
これらの技術は、主にクエリ理解コンポーネント、コード理解コンポーネント、クエリ-コードマッチングコンポーネントを含む3つのコアコンポーネントを最適化することで、コード検索性能を向上させる。
本稿では,コード検索のための三次元視点調査を行う。
具体的には、既存のコード検索手法を、クエリーエンド最適化手法、コードーエンド最適化手法、マッチングーエンド最適化技法に分類する。
各エンドは独立して最適化でき、コード検索のパフォーマンスに寄与すると考えると、各エンドを次元として扱う。
したがって、この調査は自然界において3次元であり、各次元の詳細な概要を提供する。
既存のコード検索研究における3次元の研究動向を理解するため,68の文献を体系的にレビューした。
クエリ終端やコード終端のみに焦点を当てた既存のコード検索調査や,さまざまな側面(コードベースや評価指標,モデリング技術など)を浅く導入した調査とは違って,今回の調査は,3つの終端で使用される基盤となるテクニックの進化と開発に関する,より微妙な分析とレビューを提供します。
既存の作業の体系的なレビューと概要に基づいて,今後の作業で引き続き取り組まなければならない3つの課題と機会について概説する。 (Source) code search is widely concerned by software engineering researchers because it can improve the productivity and quality of software development. Given a functionality requirement usually described in a natural language sentence, a code search system can retrieve code snippets that satisfy the requirement from a large-scale code corpus, e.g., GitHub. To realize effective and efficient code search, many techniques have been proposed successively. These techniques improve code search performance mainly by optimizing three core components, including query understanding component, code understanding component, and query-code matching component. In this paper, we provide a 3-dimensional perspective survey for code search. Specifically, we categorize existing code search studies into query-end optimization techniques, code-end optimization techniques, and match-end optimization techniques according to the specific components they optimize. Considering that each end can be optimized independently and contributes to the code search performance, we treat each end as a dimension. Therefore, this survey is 3-dimensional in nature, and it provides a comprehensive summary of each dimension in detail. To understand the research trends of the three dimensions in existing code search studies, we systematically review 68 relevant literatures. Different from existing code search surveys that only focus on the query end or code end or introduce various aspects shallowly (including codebase, evaluation metrics, modeling technique, etc.), our survey provides a more nuanced analysis and review of the evolution and development of the underlying techniques used in the three ends. Based on a systematic review and summary of existing work, we outline several open challenges and opportunities at the three ends that remain to be addressed in future work. | 翻訳日:2023-11-14 15:26:41 公開日:2023-11-13 |
# fovea transformer: 構造化された細心の注意を伴う効率的なロングコンテキストモデリング Fovea Transformer: Efficient Long-Context Modeling with Structured Fine-to-Coarse Attention ( http://arxiv.org/abs/2311.07102v1 ) ライセンス: Link先を確認 | Ziwei He, Jian Yuan, Le Zhou, Jingwen Leng, Bo Jiang | (参考訳) トランスフォーマーにおける自己注意の二次的な複雑さは、長いテキストの処理を妨げる。
この問題を緩和するために、トークンに関する重要な情報が隣人から引き出すことができるという観察を生かして、注意行列をスパース化する以前の研究が提案されている。
これらの方法は通常、地域的注意とグローバルな注意の1つまたは別の形態を組み合わせる。
このような組み合わせは、局所からグローバルへ移動する際の文脈的粒度の急激な変化をもたらすが、これは望ましくない。
よりスムーズな移行は、長いコンテキスト依存をキャプチャするモデルの能力を高める可能性があると考えています。
本研究では,計算効率を保ちながらグローバル依存を捉えることの課題を解決する,長期文脈に焦点を絞ったトランスフォーマであるfovea transformerを提案する。
これを実現するために、入力シーケンスから多スケールツリーを構築し、クエリトークンとの距離が大きくなるにつれて、ツリー内の粒度が徐々に粗いコンテキストトークンの表現を使用する。
長文要約タスク\footnote{Our code is public available at: \textit{https://github.com/ZiweiHe/Fovea-Transformer}}。
そのうちの2つで最先端のパフォーマンスを達成し、3つ目では、評価指標の混合改善とセットバックによる競争結果を得る。 The quadratic complexity of self-attention in Transformers has hindered the processing of long text. To alleviate this problem, previous works have proposed to sparsify the attention matrix, taking advantage of the observation that crucial information about a token can be derived from its neighbors. These methods typically combine one or another form of local attention and global attention. Such combinations introduce abrupt changes in contextual granularity when going from local to global, which may be undesirable. We believe that a smoother transition could potentially enhance model's ability to capture long-context dependencies. In this study, we introduce Fovea Transformer, a long-context focused transformer that addresses the challenges of capturing global dependencies while maintaining computational efficiency. To achieve this, we construct a multi-scale tree from the input sequence, and use representations of context tokens with a progressively coarser granularity in the tree, as their distance to the query token increases. We evaluate our model on three long-context summarization tasks\footnote{Our code is publicly available at: \textit{https://github.com/ZiweiHe/Fovea-Transformer}}. It achieves state-of-the-art performance on two of them, and competitive results on the third with mixed improvement and setback of the evaluation metrics. | 翻訳日:2023-11-14 15:26:13 公開日:2023-11-13 |
# 説明認識型ソフトアンサンブルによる大規模言語モデルインコンテキスト学習 Explanation-aware Soft Ensemble Empowers Large Language Model In-context Learning ( http://arxiv.org/abs/2311.07099v1 ) ライセンス: Link先を確認 | Yue Yu, Jiaming Shen, Tianqi Liu, Zhen Qin, Jing Nathan Yan, Jialu Liu, Chao Zhang, Michael Bendersky | (参考訳) 大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
デモの例はわずかだが、これらのLSMは高価な勾配更新なしでターゲットタスクに迅速に適応できる。
このような「コンテキスト内」学習能力を高めるための一般的な戦略は、複数のモデルデコードされた結果をアンサンブルし、予測とともにモデルが説明を生成することである。
しかしながら、これらのモデルは、しばしば異なるクラス予測を等しく扱い、説明と予測の間の潜在的な相違を無視する。
説明の力を完全に解き放つために,LLMを用いたテキスト内学習を支援するための説明対応ソフトアンサンブルフレームワークであるEASEを提案する。
説明ガイドアンサンブルとソフト確率アグリゲーションという2つの手法を設計,信頼性の低い説明の効果を緩和し,説明と最終予測の一貫性を向上させる。
7つの自然言語理解タスクと4つのLLM実験により,提案手法の有効性が示された。 Large language models (LLMs) have shown remarkable capabilities in various natural language understanding tasks. With only a few demonstration examples, these LLMs can quickly adapt to target tasks without expensive gradient updates. Common strategies to boost such 'in-context' learning ability are to ensemble multiple model decoded results and require the model to generate an explanation along with the prediction. However, these models often treat different class predictions equally and neglect the potential discrepancy between the explanations and predictions. To fully unleash the power of explanations, we propose EASE, an Explanation-Aware Soft Ensemble framework to empower in-context learning with LLMs. We design two techniques, explanation-guided ensemble, and soft probability aggregation, to mitigate the effect of unreliable explanations and improve the consistency between explanations and final predictions. Experiments on seven natural language understanding tasks and four varying-size LLMs demonstrate the effectiveness of our proposed framework. | 翻訳日:2023-11-14 15:25:50 公開日:2023-11-13 |
# 量子不可能関数による信頼できる量子計算 Trustworthy Quantum Computation through Quantum Physical Unclonable Functions ( http://arxiv.org/abs/2311.07094v1 ) ライセンス: Link先を確認 | Kaitlin N. Smith, Pranav Gokhale | (参考訳) 量子コンピューティングは急速に発展しており、今日ではクラウドベースの量子コンピュータ(QC)がいくつかある。
これらのQCは、高度に専門化された古典的なサポート基盤とともに、供給が限られているが、リモートアクセスやプログラミングで容易に利用できる。
この研究は、現在存在するクラウドベースのQCをフィンガープリントするために、本質的な量子ハードウェア特性を使用する可能性を示している。
実qc特性データを用いた固有フィンガープリントの信頼性とシミュレーションqcデータの信頼性を実証し,ファジィ抽出と組み合わせたユニークなフィンガープリントデータを用いたセキュアキー生成のためのq-puf(quantum physical unclonable function)スキームを詳述した。
提案手法のプロトタイピングには固定周波数トランスモン量子ビットを用いる。 Quantum computing is under rapid development, and today there are several cloud-based, quantum computers (QCs) of modest size (>100s of physical qubits). Although these QCs, along with their highly-specialized classical support infrastructure, are in limited supply, they are readily available for remote access and programming. This work shows the viability of using intrinsic quantum hardware properties for fingerprinting cloud-based QCs that exist today. We demonstrate the reliability of intrinsic fingerprinting with real QC characterization data, as well as simulated QC data, and we detail a quantum physically unclonable function (Q-PUF) scheme for secure key generation using unique fingerprint data combined with fuzzy extraction. We use fixed-frequency transmon qubits for prototyping our methods. | 翻訳日:2023-11-14 15:25:35 公開日:2023-11-13 |
# 実環境雑音音声認識におけるASR表現の有効性について On the Effectiveness of ASR Representations in Real-world Noisy Speech Emotion Recognition ( http://arxiv.org/abs/2311.07093v1 ) ライセンス: Link先を確認 | Xiaohan Shi, Jiajun He, Xingfeng Li, Tomoki Toda | (参考訳) 本稿では,雑音下音声感情認識(nser)の効率的な試みを提案する。
従来のNSERアプローチは、ホワイトガウスノイズなどの人工ノイズ源の影響を緩和する効果が証明されているが、その複雑さと不確実性のため、現実環境における非定常ノイズに限定されている。
この制限を克服するために,ノイズロバスト特徴抽出器として自動音声認識(asr)モデルを適用し,雑音音声中の非音声情報を除去するnserの新しい手法を提案する。
まず、感情音声の特徴表現としてASRモデルから中間層情報を取得し、この表現を下流NSERタスクに適用する。
我々の実験結果は
1)提案手法は従来のノイズ低減法と比較してNSER性能が向上する。
2)自己指導型学習アプローチより優れ、
3)asr転写を用いたテキストベースアプローチやノイズ音声の基底的真理転写よりも優れる。 This paper proposes an efficient attempt to noisy speech emotion recognition (NSER). Conventional NSER approaches have proven effective in mitigating the impact of artificial noise sources, such as white Gaussian noise, but are limited to non-stationary noises in real-world environments due to their complexity and uncertainty. To overcome this limitation, we introduce a new method for NSER by adopting the automatic speech recognition (ASR) model as a noise-robust feature extractor to eliminate non-vocal information in noisy speech. We first obtain intermediate layer information from the ASR model as a feature representation for emotional speech and then apply this representation for the downstream NSER task. Our experimental results show that 1) the proposed method achieves better NSER performance compared with the conventional noise reduction method, 2) outperforms self-supervised learning approaches, and 3) even outperforms text-based approaches using ASR transcription or the ground truth transcription of noisy speech. | 翻訳日:2023-11-14 15:25:19 公開日:2023-11-13 |
# 真実を語る: 嘘の言語と言語モデル To Tell The Truth: Language of Deception and Language Models ( http://arxiv.org/abs/2311.07092v1 ) ライセンス: Link先を確認 | Bodhisattwa Prasad Majumder, Sanchaita Hazra | (参考訳) テキストに基づく誤情報は、オンラインの談話に浸透するが、真理をそのような偽りのテキストコンテンツと識別する能力の証拠は乏しい。
対立する目的を持つ個人同士の高テイク環境における会話が嘘をつくという,新しいテレビ番組データを分析する。
本研究は,先行するテキスト・ベース・デセプション・データセットにない特徴である,客観的真理の存在下での誤認の潜在的検証可能な言語手がかりの出現について検討する。
本研究では,前者が言語的手がかりのみにアクセスする場合や,後者がすべての潜在的な手がかり(言語および音声視覚)に完全にアクセスする場合においても,人体と同じような真理検出性能を有する検知器(アルゴリズム)が存在することを示す。
我々のモデルは,大きな言語モデルに基づいて構築され,識別可能な手がかりを学習して真理を判断するボトルネックフレームワークを採用している。
本モデルでは,人間が誤認を検知できず,人間がアルゴリズムと協調し,真理を検知する能力を改善する可能性がある場合に,新しいが正確な言語手がかりを検出する。 Text-based misinformation permeates online discourses, yet evidence of people's ability to discern truth from such deceptive textual content is scarce. We analyze a novel TV game show data where conversations in a high-stake environment between individuals with conflicting objectives result in lies. We investigate the manifestation of potentially verifiable language cues of deception in the presence of objective truth, a distinguishing feature absent in previous text-based deception datasets. We show that there exists a class of detectors (algorithms) that have similar truth detection performance compared to human subjects, even when the former accesses only the language cues while the latter engages in conversations with complete access to all potential sources of cues (language and audio-visual). Our model, built on a large language model, employs a bottleneck framework to learn discernible cues to determine truth, an act of reasoning in which human subjects often perform poorly, even with incentives. Our model detects novel but accurate language cues in many cases where humans failed to detect deception, opening up the possibility of humans collaborating with algorithms and ameliorating their ability to detect the truth. | 翻訳日:2023-11-14 15:25:02 公開日:2023-11-13 |
# CLiF-VQA:人間の感情に関連する高レベルセマンティック情報の導入による映像品質評価の強化 CLiF-VQA: Enhancing Video Quality Assessment by Incorporating High-Level Semantic Information related to Human Feelings ( http://arxiv.org/abs/2311.07090v1 ) ライセンス: Link先を確認 | Yachun Mi, Yu Li, Yan Shu, Chen Hui, Puchao Zhou, Shaohui Liu | (参考訳) 映像品質評価(VQA)は、人間の視覚システム(HVS)による映像品質の知覚過程をシミュレートすることを目的としている。
HVSによる判断は、常に人間の主観的感情に影響される。
しかしながら、現在のVQA研究の大部分は、人間の感情の影響を無視しながら、ビデオの空間的および時間的領域における様々な歪みを捉えることに焦点を当てている。
本稿では,人間の感情と映像の空間的特徴の両方を考慮したCLiF-VQAを提案する。
映像から人間の感情に関連する特徴を効果的に抽出するために,ビデオ知覚におけるCLIPと人間の感情の一貫性を初めて探求する。
具体的には、人間の感情と密接に関連する複数の客観的、主観的記述をプロンプトとして設計する。
また,ビデオフレームの複数の領域を滑り越えることで,人間の感情に関連する特徴を抽出する新しいCLIPベースの意味特徴抽出器(SFE)を提案する。
さらに,映像の低レベルな特徴を空間的特徴抽出モジュールによってさらに把握する。
そして、2つの異なる特徴を集約し、ビデオの品質スコアを得る。
大規模な実験により、提案したCLiF-VQAは、いくつかのVQAデータセット上で優れた性能を示すことが示された。 Video Quality Assessment (VQA) aims to simulate the process of perceiving video quality by the human visual system (HVS). The judgments made by HVS are always influenced by human subjective feelings. However, most of the current VQA research focuses on capturing various distortions in the spatial and temporal domains of videos, while ignoring the impact of human feelings. In this paper, we propose CLiF-VQA, which considers both features related to human feelings and spatial features of videos. In order to effectively extract features related to human feelings from videos, we explore the consistency between CLIP and human feelings in video perception for the first time. Specifically, we design multiple objective and subjective descriptions closely related to human feelings as prompts. Further we propose a novel CLIP-based semantic feature extractor (SFE) which extracts features related to human feelings by sliding over multiple regions of the video frame. In addition, we further capture the low-level-aware features of the video through a spatial feature extraction module. The two different features are then aggregated thereby obtaining the quality score of the video. Extensive experiments show that the proposed CLiF-VQA exhibits excellent performance on several VQA datasets. | 翻訳日:2023-11-14 15:24:40 公開日:2023-11-13 |
# 量子時空間相関における時間矢印の推定 Inferring the arrow of time in quantum spatiotemporal correlations ( http://arxiv.org/abs/2311.07086v1 ) ライセンス: Link先を確認 | Xiangjing Liu, Qian Chen, Oscar Dahlsten | (参考訳) 量子実験から測定データに付随する時間順序を2回と数回の量子ビットで表す方法を考える。
我々は時間推論問題の矢印を定義する。
我々は、時間反転の下で対称あるいは非対称な初期状態と最終状態の条件を考える。
擬似密度行列時空状態を介して時空間計測データを表現する。
CPTPであるフォワードプロセスと、逆ユニタリディレーションに基づく新しいリカバリマップによって得られるリバースプロセスとがある。
非対称な条件において、このプロトコルはデータがユニタリ拡張リカバリマップまたはcptpマップと一致しているかを決定する。
対称条件の場合、リカバリマップは有効なユニタリとなり、実験はどちらの方向にも行われたかもしれない。
また、Leifer-Spekkens あるいは ProcessMatrix の時空状態へのアプローチの適応についても論じる。 We consider how to tell the time-ordering associated with measurement data from quantum experiments at two times and any number of qubits. We define an arrow of time inference problem. We consider conditions on the initial and final states that are symmetric or asymmetric under time reversal. We represent the spatiotemporal measurement data via the pseudo density matrix space-time state. There is a forward process which is CPTP and a reverse process which is obtained via a novel recovery map based on inverting unitary dilations. For asymmetric conditions, the protocol determines whether the data is consistent with the unitary dilation recovery map or the CPTP map. For symmetric conditions, the recovery map yields a valid unitary and the experiment may have taken place in either direction. We also discuss adapting the approach to the Leifer-Spekkens or Process matrix space-time states. | 翻訳日:2023-11-14 15:24:21 公開日:2023-11-13 |
# 磁化insb高次モードアンテナによる自然発光の動的制御 Dynamic Control of Spontaneous Emission Using Magnetized InSb Higher-Order-Mode Antennas ( http://arxiv.org/abs/2311.07083v1 ) ライセンス: Link先を確認 | Sina Aghili, Rasoul Alaee, Amirreza Ahmadnejad, Ehsan Mobini, Mohamadreza Mohamadpour, Carsten Rockstuhl, Robert W. Boyd, Ksenia Dolgaleva | (参考訳) insbの磁気誘起光特性を利用して、ダイポールエミッタの放射減衰速度を近傍で積極的に調整するthzサブ波長アンテナ設計を提案する。
提案した設計は、球状InSbアンテナと円筒状Si-InSbハイブリッドアンテナと、異なる挙動を示すもので、前者は、ゼーマン分割電気オクタポールモードの圧倒的な寄与により、エプシロン・ニアゼロ領域の放射減衰率と非放射減衰率の両方を劇的に向上させる。
後者は、磁気オクタポールモードによる顕著な放射減衰率向上、焼成過程の緩和、光子生成速度の加速を実現している。
エミッタ位置決めの深層学習に基づく最適化は、提案するハイブリッドシステムの量子効率をさらに向上させる。
これらの新しいメカニズムは、集積量子ネットワークにおけるチューナブル THz 単一光子源に期待できる。 We exploit InSb's magnetic-induced optical properties to propose THz sub-wavelength antenna designs that actively tune the radiative decay rates of dipole emitters at their proximity. The proposed designs include a spherical InSb antenna and a cylindrical Si-InSb hybrid antenna that demonstrate distinct behaviors; the former dramatically enhances both radiative and non-radiative decay rates in the epsilon-near-zero region due to the dominant contribution of the Zeeman splitting electric octupole mode. The latter realizes significant radiative decay rate enhancement via magnetic octupole mode, mitigating the quenching process and accelerating the photon production rate. A deep learning-based optimization of emitter positioning further enhances the quantum efficiency of the proposed hybrid system. These novel mechanisms are potentially promising for tunable THz single-photon sources in integrated quantum networks. | 翻訳日:2023-11-14 15:24:10 公開日:2023-11-13 |
# IoTアプリケーションにおける小型物体検出のための軽量ニューラルネットワークの強化 Enhancing Lightweight Neural Networks for Small Object Detection in IoT Applications ( http://arxiv.org/abs/2311.07163v1 ) ライセンス: Link先を確認 | Liam Boyle, Nicolas Baumann, Seonyeong Heo, Michele Magno | (参考訳) 軽量ニューラルネットワークの進歩は、リモート監視やプロセス自動化を含む幅広いIoTアプリケーションにおいて、コンピュータビジョンに革命をもたらした。
しかし、これらのアプリケーションの多くにとって重要な小さな物体の検出は、現在のコンピュータビジョン研究、特に組み込みデバイスにおいて未熟な領域である。
このギャップに対処するために,マイクロコントローラ上での物体検出のためのFOMOネットワークを含む既存の物体検出装置上で使用可能な,新しい適応型タイリング手法を提案する。
実験の結果,提案手法はf1-scoreを最大225%向上させ,平均被写体数誤差を最大76%低減できることがわかった。
さらに,本研究の結果から,人気の2値クロスエントロピー損失に対してソフトf1損失を用いることで,不均衡データの負の影響を著しく低減できることが示唆された。
最後に,sony spresenseマイクロコントローラを用いた実験を行い,提案手法が検出性能,低レイテンシ,最小メモリ消費のバランスをとることを示す。 Advances in lightweight neural networks have revolutionized computer vision in a broad range of IoT applications, encompassing remote monitoring and process automation. However, the detection of small objects, which is crucial for many of these applications, remains an underexplored area in current computer vision research, particularly for embedded devices. To address this gap, the paper proposes a novel adaptive tiling method that can be used on top of any existing object detector including the popular FOMO network for object detection on microcontrollers. Our experimental results show that the proposed tiling method can boost the F1-score by up to 225% while reducing the average object count error by up to 76%. Furthermore, the findings of this work suggest that using a soft F1 loss over the popular binary cross-entropy loss can significantly reduce the negative impact of imbalanced data. Finally, we validate our approach by conducting experiments on the Sony Spresense microcontroller, showcasing the proposed method's ability to strike a balance between detection performance, low latency, and minimal memory consumption. | 翻訳日:2023-11-14 15:16:48 公開日:2023-11-13 |
# CycleGANAS: CycleGANのための微分可能なニューラルネットワーク探索 CycleGANAS: Differentiable Neural Architecture Search for CycleGAN ( http://arxiv.org/abs/2311.07162v1 ) ライセンス: Link先を確認 | Taegun An, Changhee Joo | (参考訳) 我々は,画像対画像変換タスクを実行するサイクガンのためのニューラルアーキテクチャ探索(nas)フレームワークを開発した。
GAN(Generative Adversarial Networks)の従来のNASテクニックをCycleGANに拡張するのは、タスクの違いと検索スペースが大きくなるため、簡単ではない。
単純なResNetベースのセルからなるアーキテクチャを設計し,大規模な検索空間を効果的に探索する検索手法を開発した。
我々は、CycleGANASと呼ばれるフレームワークが、オリジナルのCycleGANの性能に適合または超越した高性能アーキテクチャを効果的に発見するだけでなく、各翻訳方向の個々のアーキテクチャ検索によってデータ不均衡に対処することに成功したことを示す。
我々の知る限り、これはCycleGANにとって初めてのNAS結果であり、より複雑な構造のためにNASに光を当てた。 We develop a Neural Architecture Search (NAS) framework for CycleGAN that carries out unpaired image-to-image translation task. Extending previous NAS techniques for Generative Adversarial Networks (GANs) to CycleGAN is not straightforward due to the task difference and greater search space. We design architectures that consist of a stack of simple ResNet-based cells and develop a search method that effectively explore the large search space. We show that our framework, called CycleGANAS, not only effectively discovers high-performance architectures that either match or surpass the performance of the original CycleGAN, but also successfully address the data imbalance by individual architecture search for each translation direction. To our best knowledge, it is the first NAS result for CycleGAN and shed light on NAS for more complex structures. | 翻訳日:2023-11-14 15:16:32 公開日:2023-11-13 |
# Tagalogのための名前付きエンティティ認識データセットの開発 Developing a Named Entity Recognition Dataset for Tagalog ( http://arxiv.org/abs/2311.07161v1 ) ライセンス: Link先を確認 | Lester James V. Miranda | (参考訳) 本稿では,tagalog用の名前付きエンティティ認識(ner)データセットの開発について述べる。
このコーパスは、現在フィリピンの言語に存在している資源ギャップを埋めるのに役立ち、NERの資源は乏しい。
テキストは、ニュースレポートを含む事前学習コーパスから得られ、母語話者によって反復的にラベル付けされた。
得られたデータセットには、Person、Organization、Locationの3つのエンティティタイプにわたる約7.8kドキュメントが含まれている。
cohenの$\kappa$で測定される注釈間合意は 0.81 である。
また,教師付きおよび伝達学習環境における最先端手法の広範な実証評価を行った。
最後に、Tagalog NLPに関する今後の研究を促すために、データと処理コードを公開しました。 We present the development of a Named Entity Recognition (NER) dataset for Tagalog. This corpus helps fill the resource gap present in Philippine languages today, where NER resources are scarce. The texts were obtained from a pretraining corpora containing news reports, and were labeled by native speakers in an iterative fashion. The resulting dataset contains ~7.8k documents across three entity types: Person, Organization, and Location. The inter-annotator agreement, as measured by Cohen's $\kappa$, is 0.81. We also conducted extensive empirical evaluation of state-of-the-art methods across supervised and transfer learning settings. Finally, we released the data and processing code publicly to inspire future work on Tagalog NLP. | 翻訳日:2023-11-14 15:16:14 公開日:2023-11-13 |
# 科学コミュニケーションにおけるハイプ : 量子物理学における科学者の態度と実践 Hype in Science Communication: Exploring Scientists' Attitudes and Practices in Quantum Physics ( http://arxiv.org/abs/2311.07160v1 ) ライセンス: Link先を確認 | Mar\'ia T. Soto-Sanfiel, Chin-Wen Chong, Jos\'e I. Latorre | (参考訳) 科学コミュニケーションにおける誇大広告に関連する科学者の態度や実践を調べるための解釈的現象論的アプローチが採用されている。
24人の量子物理学者が5つの焦点グループに参加した。
半構造化アンケートによって, 科学コミュニケーションにおけるハイプに対するハイプ, 態度, 行動, および視点の利用が観察された。
主な結果は、科学者が誇大広告の発生を自分たち、主要企業、マーケティング部門に主に与えていることを示している。
彼らは誇大広告を研究資金として重要視し、懸念にもかかわらず戦略的に利用している。
科学者は誇大広告を強迫的とみなし、作品の完全性を妥協し、共同制作者による誇大広告を除いて、主に否定的な感情をもたらす。
科学者の誇大広告への関与、彼らの意見、そしてそれが引き起こす否定的な感情の間には不協和が存在する。
彼らはこれを、学制に責任を負い、実践を軽視することで管理する。
これは学術的利害関係者による計算された説得的戦術としての科学コミュニケーションにおける誇大広告であり、科学の新自由主義的な見方と一致している。
影響は科学コミュニケーション、メディア研究、規制、アカデミアにまで及んでいる。 An interpretive phenomenological approach is adopted to investigate scientists' attitudes and practices related to hype in science communication. Twenty-four active quantum physicists participated in 5 focus groups. Through a semi-structured questionnaire, their use of hype, attitudes, behaviours, and perspectives on hype in science communication were observed. The main results show that scientists primarily attribute hype generation to themselves, major corporations, and marketing departments. They see hype as crucial for research funding and use it strategically, despite concerns. Scientists view hype as coercive, compromising their work's integrity, leading to mostly negative feelings about it, except for collaborator-generated hype. A dissonance exists between scientists' involvement in hype, their opinions, and the negative emotions it triggers. They manage this by attributing responsibility to the academic system, downplaying their practices. This reveals hype in science communication as a calculated, persuasive tactic by academic stakeholders, aligning with a neoliberal view of science. Implications extend to science communication, media studies, regulation, and academia. | 翻訳日:2023-11-14 15:16:05 公開日:2023-11-13 |
# 3次元物体検出におけるLiDAR-camera Fusionの再考 Detecting As Labeling: Rethinking LiDAR-camera Fusion in 3D Object Detection ( http://arxiv.org/abs/2311.07152v1 ) ライセンス: Link先を確認 | Junjie Huang, Yun Ye, Zhujin Liang, Yi Shan, and Dalong Du | (参考訳) LiDARカメラを用いた3Dオブジェクト検出は,いくつかの基本規則違反から生じるアルゴリズム開発において過度に適合する。
理論的補完のためのデータセット構築におけるデータアノテーションを参照し、回帰タスク予測はカメラブランチの機能を含まないべきだと主張する。
ラベル検出」という最先端の視点に従えば,dalと呼ばれる新しいパラダイムを提案する。
最も古典的な基本アルゴリズムでは、データアノテーションプロセスを模倣して単純な予測パイプラインを構築する。
そして、依存関係を最小化し、ポータビリティを強化するために、最も簡単な方法でトレーニングします。
構成と訓練は単純だが,提案したDALパラダイムは性能境界を大幅に推し進めるだけでなく,既存の手法間の速度と精度のトレードオフも優れている。
包括的な優位性によって、DALは将来の開発と実践的なデプロイメントの両方に理想的なベースラインとなります。
コードはhttps://github.com/huangjunjie2017/bevdetの今後の作業を容易にするためにリリースされた。 3D object Detection with LiDAR-camera encounters overfitting in algorithm development which is derived from the violation of some fundamental rules. We refer to the data annotation in dataset construction for theory complementing and argue that the regression task prediction should not involve the feature from the camera branch. By following the cutting-edge perspective of 'Detecting As Labeling', we propose a novel paradigm dubbed DAL. With the most classical elementary algorithms, a simple predicting pipeline is constructed by imitating the data annotation process. Then we train it in the simplest way to minimize its dependency and strengthen its portability. Though simple in construction and training, the proposed DAL paradigm not only substantially pushes the performance boundary but also provides a superior trade-off between speed and accuracy among all existing methods. With comprehensive superiority, DAL is an ideal baseline for both future work development and practical deployment. The code has been released to facilitate future work on https://github.com/HuangJunJie2017/BEVDet. | 翻訳日:2023-11-14 15:15:45 公開日:2023-11-13 |
# 対話だけでいいのか?
ロボットの理解・実行能力に関する研究 Interaction is all You Need? A Study of Robots Ability to Understand and Execute ( http://arxiv.org/abs/2311.07150v1 ) ライセンス: Link先を確認 | Kushal Koshti and Nidhir Bhavsar | (参考訳) 本稿では,自然言語インタラクションによる人間の環境におけるシームレスな操作を可能にするロボット工学における重要な課題を解決することを目的とする。
我々の主な焦点は、複雑なタスク解決シナリオを容易にするために、コヒーレントなダイアログで複雑な命令を理解し実行できるロボットを装備することである。
これを調べるために、challengeベンチマークのdialog history(edh)タスクから実行します。
BART LMを用いたマルチトランスモデルを用いる。
最適構成は、成功率スコア8.85、目標条件成功率スコア14.02でベースラインを上回っている。
さらに,この課題を完遂するための代替手法を提案する。
さらに、edhタスクを拡張し、個別のアクションではなくゲーム計画に関する予測を行うことにより、新たなタスクを導入する。
我々は,複数のBARTモデルとLLaMA2 LLMを評価し,ROGUE-Lスコア46.77を達成している。 This paper aims to address a critical challenge in robotics, which is enabling them to operate seamlessly in human environments through natural language interactions. Our primary focus is to equip robots with the ability to understand and execute complex instructions in coherent dialogs to facilitate intricate task-solving scenarios. To explore this, we build upon the Execution from Dialog History (EDH) task from the Teach benchmark. We employ a multi-transformer model with BART LM. We observe that our best configuration outperforms the baseline with a success rate score of 8.85 and a goal-conditioned success rate score of 14.02. In addition, we suggest an alternative methodology for completing this task. Moreover, we introduce a new task by expanding the EDH task and making predictions about game plans instead of individual actions. We have evaluated multiple BART models and an LLaMA2 LLM, which has achieved a ROGUE-L score of 46.77 for this task. | 翻訳日:2023-11-14 15:15:29 公開日:2023-11-13 |
# 軌道距離最小化を伴う等分散の学習対称性 Learning Symmetrization for Equivariance with Orbit Distance Minimization ( http://arxiv.org/abs/2311.07143v1 ) ライセンス: Link先を確認 | Tien Dat Nguyen, Jinwoo Kim, Hongseok Yang, Seunghoon Hong | (参考訳) 本稿では、任意のニューラルネットワークアーキテクチャを対称性化し、与えられたグループに対して同値にする一般的なフレームワークを提案する。
我々は、シンメトリゼーションのためのKim et al. (2023), Kaba et al. (2023)の提案に基づいて、ニューラル特徴の群表現への変換を直感的にグループ軌道間の距離を測定する最適化に置き換えることで、それらを改善する。
この変更により、この2つの提案よりも広い範囲の行列群、例えばローレンツ群 O(1, 3) に適用できる。
我々は,SO(2)画像分類タスクにおける提案手法の競争性およびO(1, 3)タスクにおける一般性の向上を実験的に示す。
私たちの実装はhttps://github.com/tiendatnguyen-vision/Orbit-symmetrizeでアクセスできます。 We present a general framework for symmetrizing an arbitrary neural-network architecture and making it equivariant with respect to a given group. We build upon the proposals of Kim et al. (2023); Kaba et al. (2023) for symmetrization, and improve them by replacing their conversion of neural features into group representations, with an optimization whose loss intuitively measures the distance between group orbits. This change makes our approach applicable to a broader range of matrix groups, such as the Lorentz group O(1, 3), than these two proposals. We experimentally show our method's competitiveness on the SO(2) image classification task, and also its increased generality on the task with O(1, 3). Our implementation will be made accessible at https://github.com/tiendatnguyen-vision/Orbit-symmetrize. | 翻訳日:2023-11-14 15:15:13 公開日:2023-11-13 |
# SABAF: 逆フィルタリングによるニューラルネットワークからの強い属性バイアスの除去 SABAF: Removing Strong Attribute Bias from Neural Networks with Adversarial Filtering ( http://arxiv.org/abs/2311.07141v1 ) ライセンス: Link先を確認 | Jiazhi Li, Mahyar Khayatkhoei, Jiageng Zhu, Hanchen Xie, Mohamed E. Hussein, Wael AbdAlmageed | (参考訳) ニューラルネットワークの保証は、公正で信頼できるAIを進める上で、予測のために保護された属性(例えば、人種、性別、年齢)に依存していない。
ニューラルネットワークにおける属性バイアスを取り除くためのいくつかの有望な方法が提案されているが、その制限は未検討のままである。
そこで本研究では,既存の属性バイアス除去法の強いバイアスの存在下での制限を数学的に実証的に明らかにし,この制限を緩和できる新しい手法を提案する。
具体的には,データセット内の固有バイアスが比較的弱い場合にのみ有効であることを示す,任意の属性バイアス除去法の性能に関する一般的な非空白な情報理論上の上限を,まず導出する。
次に、バイアス強度にかかわらず属性バイアスを除去できる任意の方法が存在するための必要条件を導出する。
この条件に触発されて、特定の目標ラベルを必要とせず、他の属性を最大限に保存しつつ、入力空間の保護された属性を直接フィルタリングする対向目的を用いた新しい手法を提案する。
提案手法は,強いバイアス設定と適度なバイアス設定の両方において,最先端の性能を実現する。
本研究では, 合成, 画像, および国勢調査データセットに関する広範な実験を行い, 導出理論境界とその実測結果の検証を行い, 強い属性バイアスを除去する手法の有効性を評価する。 Ensuring a neural network is not relying on protected attributes (e.g., race, sex, age) for prediction is crucial in advancing fair and trustworthy AI. While several promising methods for removing attribute bias in neural networks have been proposed, their limitations remain under-explored. To that end, in this work, we mathematically and empirically reveal the limitation of existing attribute bias removal methods in presence of strong bias and propose a new method that can mitigate this limitation. Specifically, we first derive a general non-vacuous information-theoretical upper bound on the performance of any attribute bias removal method in terms of the bias strength, revealing that they are effective only when the inherent bias in the dataset is relatively weak. Next, we derive a necessary condition for the existence of any method that can remove attribute bias regardless of the bias strength. Inspired by this condition, we then propose a new method using an adversarial objective that directly filters out protected attributes in the input space while maximally preserving all other attributes, without requiring any specific target label. The proposed method achieves state-of-the-art performance in both strong and moderate bias settings. We provide extensive experiments on synthetic, image, and census datasets, to verify the derived theoretical bound and its consequences in practice, and evaluate the effectiveness of the proposed method in removing strong attribute bias. | 翻訳日:2023-11-14 15:14:55 公開日:2023-11-13 |
# 大規模モバイルヘルスプログラムにおける低視聴率傾向の分析と予測 : 予備調査 Analyzing and Predicting Low-Listenership Trends in a Large-Scale Mobile Health Program: A Preliminary Investigation ( http://arxiv.org/abs/2311.07139v1 ) ライセンス: Link先を確認 | Arshika Lalan, Shresth Verma, Kumar Madhu Sudan, Amrita Mahale, Aparna Hegde, Milind Tambe and Aparna Taneja | (参考訳) モバイルヘルスプログラムは、より特権の低いコミュニティで受益者の間で健康情報を広めるメディアとして、ますます人気が高まっている。
キルカリは、妊婦や新しい母親に時間に敏感なオーディオメッセージを提供する世界最大のモバイル健康プログラムの1つである。
我々は、Kilkariプログラムを運営しているインドの非営利団体ARMMANと協力して、プログラムの効率を改善するためのボトルネックを特定している。
特に,受益者のmhealthプログラムとのインタラクションの軌跡を初期分析し,その成功を促進するために潜在的に強化される可能性のあるプログラムの要素を検討する。
リスナシップに基づいてコホートをさまざまなバケットにクラスタ化して,プログラムの成功を促進する上で有効な,各グループのリスナシップパターンを分析します。
また,時系列予測において履歴データを用いて受益者減少を識別し,受益者保持の時間的介入を考案することを可能にする予備的な結果を提示する。 Mobile health programs are becoming an increasingly popular medium for dissemination of health information among beneficiaries in less privileged communities. Kilkari is one of the world's largest mobile health programs which delivers time sensitive audio-messages to pregnant women and new mothers. We have been collaborating with ARMMAN, a non-profit in India which operates the Kilkari program, to identify bottlenecks to improve the efficiency of the program. In particular, we provide an initial analysis of the trajectories of beneficiaries' interaction with the mHealth program and examine elements of the program that can be potentially enhanced to boost its success. We cluster the cohort into different buckets based on listenership so as to analyze listenership patterns for each group that could help boost program success. We also demonstrate preliminary results on using historical data in a time-series prediction to identify beneficiary dropouts and enable NGOs in devising timely interventions to strengthen beneficiary retention. | 翻訳日:2023-11-14 15:14:32 公開日:2023-11-13 |
# WaterBench: 大規模言語モデルのための透かしの全体的評価を目指して WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models ( http://arxiv.org/abs/2311.07138v1 ) ライセンス: Link先を確認 | Shangqing Tu, Yuliang Sun, Yushi Bai, Jifan Yu, Lei Hou, Juanzi Li | (参考訳) 大規模言語モデル(llms)の潜在的な誤用を軽減するために、近年の研究は、透かし検出のための見えない痕跡を残す生成プロセスを制限する透かしアルゴリズムを開発した。
タスクの2段階の性質のため、ほとんどの研究は生成と検出を別々に評価し、不偏で徹底的で適用可能な評価の課題を提示する。
そこで本研究では,(1)リンゴとリンゴの比較を確実にするために,まず各ウォーターマーキング法のハイパーパラメータを調整し,同一のウォーターマーキング強度に達するように調整し,その生成と検出性能を共同で評価する,llmウォーターマーキングに関する最初の総合ベンチマークであるwaterbenchを紹介する。
2) textbf{task selection} では,入力長と出力長を多様化して5つの分類群を形成し,9ドルのタスクをカバーしている。
(3) textbf{evaluation metric} では,透かし後の指示追従能力の低下を自動的に評価するために GPT4-Judge を用いる。
私たちは、オープンソースのウォーターマークを$$$ llmsで評価し、$$$ウォーターマークの強さの下で評価し、世代品質を維持するための現在の方法に対する一般的な闘争を観察します。
コードとデータは \url{https://github.com/thu-keg/waterbench} で入手できる。 To mitigate the potential misuse of large language models (LLMs), recent research has developed watermarking algorithms, which restrict the generation process to leave an invisible trace for watermark detection. Due to the two-stage nature of the task, most studies evaluate the generation and detection separately, thereby presenting a challenge in unbiased, thorough, and applicable evaluations. In this paper, we introduce WaterBench, the first comprehensive benchmark for LLM watermarks, in which we design three crucial factors: (1) For \textbf{benchmarking procedure}, to ensure an apples-to-apples comparison, we first adjust each watermarking method's hyper-parameter to reach the same watermarking strength, then jointly evaluate their generation and detection performance. (2) For \textbf{task selection}, we diversify the input and output length to form a five-category taxonomy, covering $9$ tasks. (3) For \textbf{evaluation metric}, we adopt the GPT4-Judge for automatically evaluating the decline of instruction-following abilities after watermarking. We evaluate $4$ open-source watermarks on $2$ LLMs under $2$ watermarking strengths and observe the common struggles for current methods on maintaining the generation quality. The code and data are available at \url{https://github.com/THU-KEG/WaterBench}. | 翻訳日:2023-11-14 15:14:14 公開日:2023-11-13 |
# 経路計画記述の理解 Understanding Path Planning Explanations ( http://arxiv.org/abs/2311.07132v1 ) ライセンス: Link先を確認 | Amar Halilovic and Senka Krivic | (参考訳) ナビゲーションはどんな移動ロボットにも必須のスキルだ。
ナビゲーションにおける大きな課題は、環境とナビゲーションコンテキストの可能な構成の数を数多く考慮する必要があることである。
移動ロボットはナビゲーションの選択を説明でき、その決定を人間に理解できるようにするべきだ、と我々は主張する。
本稿では,視覚的およびテキスト的説明を通じてロボットのナビゲーション決定を説明する手法を提案する。
本稿では,ロボットの説明の理解性と簡易性を検証し,今後の研究課題について概説する。 Navigation is a must-have skill for any mobile robot. A core challenge in navigation is the need to account for an ample number of possible configurations of environment and navigation contexts. We claim that a mobile robot should be able to explain its navigational choices making its decisions understandable to humans. In this paper, we briefly present our approach to explaining navigational decisions of a robot through visual and textual explanations. We propose a user study to test the understandability and simplicity of the robot explanations and outline our further research agenda. | 翻訳日:2023-11-14 15:13:37 公開日:2023-11-13 |
# ソーシャルレコメンデーションのための未ターゲティングブラックボックス攻撃 Untargeted Black-box Attacks for Social Recommendations ( http://arxiv.org/abs/2311.07127v1 ) ライセンス: Link先を確認 | Wenqi Fan, Shijie Wang, Xiao-yong Wei, Xiaowei Mei, Qing Li | (参考訳) オンラインソーシャルネットワークの興隆は、ユーザの意思決定プロセスを強化するために社会的関係を組み込んだソーシャルレコメンデーションシステムの進化を促進する。
ノード表現の学習においてグラフニューラルネットワークが大きな成功を収めたことにより、GNNベースのソーシャルレコメンデーションは、ユーザ-イテムインタラクションとユーザ-ユーザ関係を同時にモデル化するために広く研究されている。
その大きな成功にもかかわらず、最近の研究では、これらの高度なレコメンデーションシステムは、攻撃者がレコメンデーションのパフォーマンスを乱すために適切に設計されたフェイクユーザープロファイルを注入できる敵の攻撃に対して非常に脆弱であることが示されている。
既存のほとんどの研究は、主にバニラレコメンデーターシステムにおけるターゲットアイテムのプロモートを目的とした攻撃に焦点を当てているが、全体的な予測性能を低下させる未目標攻撃はブラックボックスシナリオ下での社会的レコメンデーションでは調査されていない。
ソーシャルレコメンデーションシステムに対する未ターゲティング攻撃を実行するために、攻撃者は偽ユーザーのための悪意あるソーシャル関係を構築して攻撃性能を高めることができる。
しかし、ブラックボックスのソーシャルレコメンデーションを攻撃するには、社会的関係とアイテムプロファイルの調整が難しい。
この制限に対処するため,我々はまず,コミュニティ間接続とコールドスタート項目が推奨性能の劣化に有効であることを示すための予備的研究を行った。
具体的には,マルチエージェント強化学習に基づく新しいフレームワークによるマルチアタックを提案し,コールドスタートアイテムプロファイルの生成と,ブラックボックスソーシャルレコメンデーションに対する非ターゲティング攻撃を行うためのコミュニティ間ソーシャルリレーションを協調させる。
様々な実世界のデータセットに関する包括的実験は、ブラックボックス設定下で提案する攻撃フレームワークの有効性を実証する。 The rise of online social networks has facilitated the evolution of social recommender systems, which incorporate social relations to enhance users' decision-making process. With the great success of Graph Neural Networks in learning node representations, GNN-based social recommendations have been widely studied to model user-item interactions and user-user social relations simultaneously. Despite their great successes, recent studies have shown that these advanced recommender systems are highly vulnerable to adversarial attacks, in which attackers can inject well-designed fake user profiles to disrupt recommendation performances. While most existing studies mainly focus on targeted attacks to promote target items on vanilla recommender systems, untargeted attacks to degrade the overall prediction performance are less explored on social recommendations under a black-box scenario. To perform untargeted attacks on social recommender systems, attackers can construct malicious social relationships for fake users to enhance the attack performance. However, the coordination of social relations and item profiles is challenging for attacking black-box social recommendations. To address this limitation, we first conduct several preliminary studies to demonstrate the effectiveness of cross-community connections and cold-start items in degrading recommendations performance. Specifically, we propose a novel framework Multiattack based on multi-agent reinforcement learning to coordinate the generation of cold-start item profiles and cross-community social relations for conducting untargeted attacks on black-box social recommendations. Comprehensive experiments on various real-world datasets demonstrate the effectiveness of our proposed attacking framework under the black-box setting. | 翻訳日:2023-11-14 15:13:29 公開日:2023-11-13 |
# 機械学習を小さなデータでどのように行うか?
--産業的視点からのレビュー How to Do Machine Learning with Small Data? -- A Review from an Industrial Perspective ( http://arxiv.org/abs/2311.07126v1 ) ライセンス: Link先を確認 | Ivan Kraljevski, Yong Chul Ju, Dmitrij Ivanov, Constanze Tsch\"ope, Matthias Wolff | (参考訳) 過去数十年間、人工知能は科学、産業、日常生活で技術的ブレークスルーを経験した。
この進歩は、指数的なデータ成長をもたらす計算資源の可用性と小型化の継続によるものである。
しかし、場合によってはデータ量が不足しているため、複雑なタスクの解決に機械学習を採用することは簡単ではない。
その結果、データサイエンスといくつかの分野における応用において、小さなデータ体験を持つ機械学習の重要性が高まった。
筆者らは,「小型データ」の一般用語とその工学的・産業的役割の解釈に重点を置いている。
彼らは、機械学習と小さなデータの最も重要な産業的応用の概要を説明した。
小さなデータはビッグデータと比較して様々な特性で定義され、機械学習形式が導入された。
産業アプリケーションにおける小さなデータによる機械学習の5つの重要な課題として、ラベルのないデータ、不均衡なデータ、不足したデータ、不十分なデータ、まれなイベントがある。
これらの定義に基づいて、小さなデータのコンテキストにおける機械学習アプローチの分類とともに、ドメイン表現とデータ取得における考慮事項の概要が与えられる。 Artificial intelligence experienced a technological breakthrough in science, industry, and everyday life in the recent few decades. The advancements can be credited to the ever-increasing availability and miniaturization of computational resources that resulted in exponential data growth. However, because of the insufficient amount of data in some cases, employing machine learning in solving complex tasks is not straightforward or even possible. As a result, machine learning with small data experiences rising importance in data science and application in several fields. The authors focus on interpreting the general term of "small data" and their engineering and industrial application role. They give a brief overview of the most important industrial applications of machine learning and small data. Small data is defined in terms of various characteristics compared to big data, and a machine learning formalism was introduced. Five critical challenges of machine learning with small data in industrial applications are presented: unlabeled data, imbalanced data, missing data, insufficient data, and rare events. Based on those definitions, an overview of the considerations in domain representation and data acquisition is given along with a taxonomy of machine learning approaches in the context of small data. | 翻訳日:2023-11-14 15:12:56 公開日:2023-11-13 |
# 全スライド画像分類のためのマルチインスタンス学習 Attention-Challenging Multiple Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2311.07125v1 ) ライセンス: Link先を確認 | Yunlong Zhang and Honglin Li and Yuxuan Sun and Sunyi Zheng and Chenglu Zhu and Lin Yang | (参考訳) オーバーフィッティングは、全スライド画像(WSI)解析にMIL(Multiple Instance Learning)メソッドを適用する上で、依然として大きな課題である。
ヒートマップを可視化すると、現在のMILメソッドは予測インスタンスのサブセットに焦点を当てており、効果的なモデル一般化を妨げることが分かる。
そこで本研究では,より困難な予測インスタンスを捕捉するために注意機構を強制することを目的とした注意課題ミル(acmil)を提案する。
ACMILには、よりリッチな予測インスタンスをキャプチャするMultiple Branch Attention(MBA)と、単純な予測インスタンスを抑制するStochastic Top-K Instance Masking(STKIM)の2つのテクニックが組み込まれている。
3つのwsiデータセットの評価は最先端のメソッドよりも優れている。
さらに,ヒートマップの可視化,umapの可視化,注意値統計などを通じて,acmilの有効性を包括的に示す。
ソースコードは \url{https://github.com/dazhangyu123/acmil} で入手できる。 Overfitting remains a significant challenge in the application of Multiple Instance Learning (MIL) methods for Whole Slide Image (WSI) analysis. Visualizing heatmaps reveals that current MIL methods focus on a subset of predictive instances, hindering effective model generalization. To tackle this, we propose Attention-Challenging MIL (ACMIL), aimed at forcing the attention mechanism to capture more challenging predictive instances. ACMIL incorporates two techniques, Multiple Branch Attention (MBA) to capture richer predictive instances and Stochastic Top-K Instance Masking (STKIM) to suppress simple predictive instances. Evaluation on three WSI datasets outperforms state-of-the-art methods. Additionally, through heatmap visualization, UMAP visualization, and attention value statistics, this paper comprehensively illustrates ACMIL's effectiveness in overcoming the overfitting challenge. The source code is available at \url{https://github.com/dazhangyu123/ACMIL}. | 翻訳日:2023-11-14 15:12:41 公開日:2023-11-13 |
# 量子誤差補正の制御要件とベンチマーク Control Requirements and Benchmarks for Quantum Error Correction ( http://arxiv.org/abs/2311.07121v1 ) ライセンス: Link先を確認 | Yaniv Kurman, Lior Ella, Ramon Szmuk, Oded Wertheim, Benedikt Dorschner, Sam Stanwyck, and Yonatan Cohen | (参考訳) 有用なフォールトトレラント量子計算は量子誤り訂正(QEC)をうまく実装することに依存する。
QECでは、量子ゲートと測定を行い、計算量子ビットを安定化させ、古典的な処理を用いて測定結果を推定された論理的パウリフレームの更新や論理的測定結果に変換する。
QECの研究はQEC符号と復号アルゴリズムの開発と評価に重点を置いているが、QEC符号を実行する古典的な制御システムの要求仕様と明確化は欠如している。
本稿では,qec制御システムの役割を解明し,低レイテンシフィードフォワード量子演算を実現する必要性を明らかにし,qec量子計算の古典的ボトルネックに直面する短期的ベンチマークを提案する。
これらのベンチマークは、測定とそれに依存する操作の間のレイテンシに基づいており、量子古典的並列化機能や復号スループットなどの異なる制御側面を取り入れている。
動的システム解析を用いて、QEC制御系遅延性能がQEC回路の動作状態を決定する方法を示す:遅延ばらつき、量子計算が不可能な場合、古典的制御子制限ランタイム、古典的演算が量子回路を遅延しない場合、量子演算制限ランタイム。
この分析と提案したベンチマークは、フォールトトレラント量子計算の主成分としての実現に向けて、QEC制御システムの評価と開発を可能にすることを目的としている。 Reaching useful fault-tolerant quantum computation relies on successfully implementing quantum error correction (QEC). In QEC, quantum gates and measurements are performed to stabilize the computational qubits, and classical processing is used to convert the measurements into estimated logical Pauli frame updates or logical measurement results. While QEC research has concentrated on developing and evaluating QEC codes and decoding algorithms, specification and clarification of the requirements for the classical control system running QEC codes are lacking. Here, we elucidate the roles of the QEC control system, the necessity to implement low latency feed-forward quantum operations, and suggest near-term benchmarks that confront the classical bottlenecks for QEC quantum computation. These benchmarks are based on the latency between a measurement and the operation that depends on it and incorporate the different control aspects such as quantum-classical parallelization capabilities and decoding throughput. Using a dynamical system analysis, we show how the QEC control system latency performance determines the operation regime of a QEC circuit: latency divergence, where quantum calculations are unfeasible, classical-controller limited runtime, or quantum-operation limited runtime where the classical operations do not delay the quantum circuit. This analysis and the proposed benchmarks aim to allow the evaluation and development of QEC control systems toward their realization as a main component in fault-tolerant quantum computation. | 翻訳日:2023-11-14 15:12:22 公開日:2023-11-13 |
# monodiffusion:拡散モデルを用いた自己教師付き単眼深度推定 MonoDiffusion: Self-Supervised Monocular Depth Estimation Using Diffusion Model ( http://arxiv.org/abs/2311.07198v1 ) ライセンス: Link先を確認 | Shuwei Shao, Zhongcai Pei, Weihai Chen, Dingchi Sun, Peter C.Y.Chen and Zhengguo Li | (参考訳) 過去数年間、訓練段階では地表面に依存しない自己教師付き単眼深度推定が広く注目を集めている。
ほとんどの取り組みは、異なるタイプのネットワークアーキテクチャや損失関数の設計、エッジケース、例えば閉塞や動的オブジェクトの処理に重点を置いている。
本稿では,モノディフフュージョン(monodiffusion)と呼ばれる自己教師付き深さ推定フレームワークを提案する。
トレーニング段階では深部地下構造は利用できないため,モノ拡散の拡散を支援する擬似地下構造拡散プロセスを開発する。
擬似地動拡散は、事前訓練された教師モデルによって生成された深度マップに徐々にノイズを付加する。
また, 教師モデルでは, 蒸留損失を適用して分別深さを導出することができる。
さらに,モデルの発声能力を高めるためのマスキング視覚条件機構を開発した。
大規模な実験はKITTIとMake3Dデータセットで行われ、提案されたMonoDiffusionは最先端の競合より優れている。
ソースコードはhttps://github.com/shuweishao/monodiffusionで入手できる。 Over the past few years, self-supervised monocular depth estimation that does not depend on ground-truth during the training phase has received widespread attention. Most efforts focus on designing different types of network architectures and loss functions or handling edge cases, e.g., occlusion and dynamic objects. In this work, we introduce a novel self-supervised depth estimation framework, dubbed MonoDiffusion, by formulating it as an iterative denoising process. Because the depth ground-truth is unavailable in the training phase, we develop a pseudo ground-truth diffusion process to assist the diffusion in MonoDiffusion. The pseudo ground-truth diffusion gradually adds noise to the depth map generated by a pre-trained teacher model. Moreover,the teacher model allows applying a distillation loss to guide the denoised depth. Further, we develop a masked visual condition mechanism to enhance the denoising ability of model. Extensive experiments are conducted on the KITTI and Make3D datasets and the proposed MonoDiffusion outperforms prior state-of-the-art competitors. The source code will be available at https://github.com/ShuweiShao/MonoDiffusion. | 翻訳日:2023-11-14 15:05:17 公開日:2023-11-13 |
# 大規模言語モデルの対話理解能力の探索 Exploring the Dialogue Comprehension Ability of Large Language Models ( http://arxiv.org/abs/2311.07194v1 ) ライセンス: Link先を確認 | Shuaijie She, Shujian Huang, Xingyun Wang, Yanke Zhou, Jiajun Chen | (参考訳) 近年の大規模言語モデル(LLM)の出現は注目されている。
LLMは対話の形式でユーザと対話し、指示に従って応答を生成する。
対話の正しい理解がなければ、モデルは必然的に不正確な応答を生成する。
しかし、対話理解は、直接的に評価することが難しい一般的な言語能力である。
本研究では,対話要約タスクの助けを借りて評価を行うことを提案する。
対話要約性能(DIAC-Sum)の評価と解析に加えて,生成した要約から事実質問を導出し,より柔軟な対話理解尺度(DIAC-FactQA)として用いる。
評価の結果,LLMが生成する要約の27%が事実整合性を含んでいることがわかった。
最も評価の高いモデルであるChatGPTでさえ、その要約の16%にそのようなエラーがある。
より難しい事実に答えるには、評価済みのLLMの平均精度は62.8%に過ぎません。
どちらの結果も深刻な欠陥を示している。
詳細な分析は、会話の主題や対象を理解することが、まだLLMにとって最も難しい問題であることを示している。
さらに,LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
実験の結果,diac-factqaでは8.9%の精度向上が得られた。 The recent emergence of large language models (LLMs) have attracted considerable attention. LLMs may interact with users in the form of dialogue and generate responses following their instructions, which naturally require dialogue comprehension abilities. Without correct comprehension of the dialogue, the model may inevitably generate incorrect responses. However, dialogue comprehension is a general language ability which is hard to be evaluated directly. In this work, we propose to perform the evaluation with the help of the dialogue summarization task. Beside evaluating and analyzing the dialogue summarization performance (DIAC-Sum), we also derive factual questions from the generated summaries and use them as a more flexible measurement of dialogue comprehension (DIAC-FactQA). Our evaluation shows that, on average, 27% of the summaries generated by LLMs contain factual inconsistency. Even ChatGPT, the strongest evaluated model, has such errors in 16% of its summaries. For answering the factual questions, which is more challenging, the average accuracy of all evaluated LLMs is only 62.8%. Both results indicate serious deficiencies. Detailed analysis shows that the understanding of subject/object of the conversation is still the most challenging problem for LLMs. Furthermore, to stimulate and enhance the dialogue comprehension ability of LLMs, we propose a fine-tuning paradigm with auto-constructed multi-task data. The experimental results demonstrate that our method achieved an accuracy improvement of 8.9% on DIAC-FactQA. | 翻訳日:2023-11-14 15:04:47 公開日:2023-11-13 |
# 非小細胞肺癌における因果構造学習への大規模言語モデルの適用 Applying Large Language Models for Causal Structure Learning in Non Small Cell Lung Cancer ( http://arxiv.org/abs/2311.07191v1 ) ライセンス: Link先を確認 | Narmada Naik, Ayush Khandelwal, Mohit Joshi, Madhusudan Atre, Hollis Wright, Kavya Kannan, Scott Hill, Giridhar Mamidipudi, Ganapati Srinivasa, Carlo Bifulco, Brian Piening, Kevin Matlock | (参考訳) 因果発見は、医療ai研究の重要な部分になりつつある。
これらの方法は、バイオマーカー、人口統計、治療、結果の間の因果関係を識別することで医療を強化することができる。
医療専門家がより影響力のある治療や戦略を選択するのを助けることができる。
同時に、LLM(Large Language Models)は、パターンを特定し、テキストデータから洞察を生成する大きな可能性を示している。
本稿では,LLMを因果発見におけるエッジの方向決定問題に適用することを検討する。
具体的には、電子的健康記録とゲノムパネルデータの両方を有する非小細胞肺癌(NSCLC)患者に対して、本研究のアプローチを検証した。
グラフは表データを用いてベイズディリクレ推定器を用いて検証される。
その結果,LLMは因果グラフのエッジの方向を正確に予測でき,既存の最先端手法よりも優れていることがわかった。
これらの結果から,LSMは因果発見を促進する上で重要な役割を担い,複雑なシステムを理解する上で有効であることが示唆された。 Causal discovery is becoming a key part in medical AI research. These methods can enhance healthcare by identifying causal links between biomarkers, demographics, treatments and outcomes. They can aid medical professionals in choosing more impactful treatments and strategies. In parallel, Large Language Models (LLMs) have shown great potential in identifying patterns and generating insights from text data. In this paper we investigate applying LLMs to the problem of determining the directionality of edges in causal discovery. Specifically, we test our approach on a deidentified set of Non Small Cell Lung Cancer(NSCLC) patients that have both electronic health record and genomic panel data. Graphs are validated using Bayesian Dirichlet estimators using tabular data. Our result shows that LLMs can accurately predict the directionality of edges in causal graphs, outperforming existing state-of-the-art methods. These findings suggests that LLMs can play a significant role in advancing causal discovery and help us better understand complex systems. | 翻訳日:2023-11-14 15:04:11 公開日:2023-11-13 |
# 血管追跡のためのcnnと測地線を用いたフィッティングツリーモデルと超音波定位顕微鏡データへの応用 Fitting tree model with CNN and geodesics to track vesselsand application to Ultrasound Localization Microscopy data ( http://arxiv.org/abs/2311.07188v1 ) ライセンス: Link先を確認 | Th\'eo Bertrand and Laurent D. Cohen | (参考訳) 血管イメージングにおける管状構造の分節化はよく研究されている課題であるが,検出対象領域の樹状構造の知識を注入しようとすることは稀である。
本研究は,血管ネットワークの重要なランドマーク(cnnによる局所化と関心点の分類)の検出と,血管を極小距離木グラフのエッジとして表現することに焦点を当てている。
2d血管を木として正確に表現できるように,血管とその形状の検出に関連する測地学的手法を活用し,位置と向きの空間を活用した。
我々は,超音波局在顕微鏡(ULM)データの追跡を行うモデルを構築し,このタイプのデータを追跡するための優れたコスト関数を構築することを提案する。
また、合成眼底データについても検討した。
その結果,高度に注釈されたulmデータの不足は血管ランドマークの局在化の障害であるが,ulmデータから構築したオリエンテーションスコアは血管の追跡に優れた測地線をもたらすことがわかった。 Segmentation of tubular structures in vascular imaging is a well studied task, although it is rare that we try to infuse knowledge of the tree-like structure of the regions to be detected. Our work focuses on detecting the important landmarks in the vascular network (via CNN performing both localization and classification of the points of interest) and representing vessels as the edges in some minimal distance tree graph. We leverage geodesic methods relevant to the detection of vessels and their geometry, making use of the space of positions and orientations so that 2D vessels can be accurately represented as trees. We build our model to carry tracking on Ultrasound Localization Microscopy (ULM) data, proposing to build a good cost function for tracking on this type of data. We also test our framework on synthetic and eye fundus data. Results show that scarcity of well annotated ULM data is an obstacle to localization of vascular landmarks but the Orientation Score built from ULM data yields good geodesics for tracking blood vessels. | 翻訳日:2023-11-14 15:03:44 公開日:2023-11-13 |
# 2次元ロータリー埋め込みを用いたクロス軸変圧器 Cross-Axis Transformer with 2D Rotary Embeddings ( http://arxiv.org/abs/2311.07184v1 ) ライセンス: Link先を確認 | Lily Erickson | (参考訳) 多くの点で従兄弟の遅れにもかかわらず、視覚トランスフォーマーはシーケンスモデリングと画像モデリングの間のギャップを埋める興味深い機会を提供している。
しかし、これまで視覚トランスフォーマーは、計算能力の非効率と空間次元の適切な取り扱いの欠如により、ほとんどが後退していた。
本稿では,Cross-Axis Transformerを紹介する。
CATは、Axial TransformersとMicrosoftのRetentive Networkの両方にインスパイアされたモデルで、画像を処理するのに必要な浮動小数点演算数を劇的に削減し、同時にVision Transformersよりも高速で正確に収束する。 Despite lagging behind their modal cousins in many respects, Vision Transformers have provided an interesting opportunity to bridge the gap between sequence modeling and image modeling. Up until now however, vision transformers have largely been held back, due to both computational inefficiency, and lack of proper handling of spatial dimensions. In this paper, we introduce the Cross-Axis Transformer. CAT is a model inspired by both Axial Transformers, and Microsoft's recent Retentive Network, that drastically reduces the required number of floating point operations required to process an image, while simultaneously converging faster and more accurately than the Vision Transformers it replaces. | 翻訳日:2023-11-14 15:02:56 公開日:2023-11-13 |
# 分裂断片のスピン間の開口角分布に対する量子効果 Quantal effect on the opening angle distribution between the fission fragment's spins ( http://arxiv.org/abs/2311.07182v1 ) ライセンス: Link先を確認 | Guillaume Scamps | (参考訳) 背景: いくつかのアプローチは現在、分裂片の角運動量の生成を理解しようとしている。
顕微鏡のTDDFTと統計的なFREYAは、特に0度と180度の2つのスピンの間に形成される開口角分布に関して異なる予測をもたらす。
目的: この手紙は、スピンの幾何学と量子的性質が開角の分布にどのように影響し、異なるモデル予測につながるかを理解することを目的としている。
方法:k分布の様々な仮定(k=0,等方性,全k=0,tdfftの等方性)を量子的に検討する。
これらの分布は、'\hbar$ approach zero' の極限におけるクレブシュ・ゴルダン係数を用いて古典極限と比較される。
結果: 全てのスキーマ的シナリオにおいて, 開口角の量子分布が古典的極限における期待挙動に導かれることを示した。
モデルにより、スピンの量子的性質は、0度と180度に近い開口角の集団を防ぐことが示されている。
2次元の開口角と等方性3次元の分布の差について考察し、現実的なTDFFT開口角分布は両者の中間的挙動を示すことを示した。
結論:最後の比較では、TDDFTにおける量子スピンの性質とFREYAにおけるゼロK値の仮定の2つの重要な違いが明らかになった。 Background: Several approaches are currently trying to understand the generation of angular momentum in the fission fragments. The microscopic TDDFT and statistical FREYA lead to different predictions concerning the opening angle distribution formed between the two spins in particular at 0 and 180 degrees. Purpose: This letter aims to investigate how the geometry and the quantum nature of spins impact the distribution of opening angles to understand what leads to different model predictions. Method: Various assumptions of K distribution (K=0, isotropic, isotropic with total K=0, and from TDFFT) are investigated in a quantum approach. These distributions are then compared to the classical limit using the Clebsch-Gordan coefficients in the limit of $\hbar$ approaches zero. Results: It is shown that in all the schematic scenario the quantal distribution of opening angle lead to the expected behavior in the classical limit. The model shows that the quantal nature of the spins prevents the population of opening angles close to 0 and 180 degrees. The difference in opening angle in the 2D and isotropic 3D distribution is discussed and it is shown that the realistic TDFFT opening angle distribution presents an intermediate behavior between the two cases. Conclusions: The last comparison reveals two key differences between the two models' predictions: the quantal spins' nature in TDDFT and the assumption of zero K values in FREYA. | 翻訳日:2023-11-14 15:02:40 公開日:2023-11-13 |
# 集中ケア時間系列予測を強化する知識グラフ表現 Knowledge Graph Representations to enhance Intensive Care Time-Series Predictions ( http://arxiv.org/abs/2311.07180v1 ) ライセンス: Link先を確認 | Samyak Jain, Manuel Burger, Gunnar R\"atsch, Rita Kuznetsova | (参考訳) 集中治療ユニット(icu)は、患者の状態を評価するのに必須の、臨床結果予測の強化のために総合的な患者データ統合を必要とする。
近年の深層学習は患者の時系列データを利用しており、融合モデルには非構造化の臨床報告が組み込まれ、予測性能が向上している。
しかし、これらのモデルへの確立された医学的知識の統合はまだ検討されていない。
医療領域のデータは、構造的関係に富んだものであり、UMLS(Unified Medical Language System)のような臨床オントロジーから得られた知識グラフを通じて、より良い予測を行うことができる。
提案手法はこの知識をICUデータと統合し,臨床診断モデルの改善を図る。
グラフ表現とバイタルサインと臨床報告を組み合わせることで、特にデータ不足時のパフォーマンスを向上させる。
さらに,モデルには,知識グラフノードが予測にどのように影響するかを理解するための解釈可能性成分が含まれている。 Intensive Care Units (ICU) require comprehensive patient data integration for enhanced clinical outcome predictions, crucial for assessing patient conditions. Recent deep learning advances have utilized patient time series data, and fusion models have incorporated unstructured clinical reports, improving predictive performance. However, integrating established medical knowledge into these models has not yet been explored. The medical domain's data, rich in structural relationships, can be harnessed through knowledge graphs derived from clinical ontologies like the Unified Medical Language System (UMLS) for better predictions. Our proposed methodology integrates this knowledge with ICU data, improving clinical decision modeling. It combines graph representations with vital signs and clinical reports, enhancing performance, especially when data is missing. Additionally, our model includes an interpretability component to understand how knowledge graph nodes affect predictions. | 翻訳日:2023-11-14 15:02:03 公開日:2023-11-13 |
# オンラインファインチューニングによるゲーム問題解決 Game Solving with Online Fine-Tuning ( http://arxiv.org/abs/2311.07178v1 ) ライセンス: Link先を確認 | Ti-Rong Wu, Hung Guei, Ting Han Wei, Chung-Chin Shih, Jui-Te Chin, I-Chen Wu | (参考訳) ゲーム解決は、ゲームをマスターするよりも、同じような、しかし難しいタスクです。
ゲームの解決は通常、ゲーム理論的な価値(最適なプレイで得られる利益)を見つけ、その結果を達成するための完全な戦略を見つけることを意味する。
alphazeroアルゴリズムはスーパーヒューマンレベルのプレイを実証し、その強力なポリシーと価値予測はゲームの解法におけるヒューリスティックスとしても役立った。
しかし、試合を解いて完全な戦略を得るためには、負けたプレイヤーのあらゆる動きに対して勝利の反応を見出す必要がある。
この中には、AlphaZeroのセルフプレイプロセスに遭遇しない、負けた側からの非常に貧しいプレイラインが含まれている。
AlphaZeroベースのヒューリスティックスは、検索全体を通して発生する分布外位置を評価する際に、非常に不正確である。
そこで本研究では,探索中にオンラインの微調整を適用し,ゲーム解法のための仕立て型ヒューリスティックスを学ぶ2つの手法を提案する。
オンラインの微調整は,オンラインの微調整を行なわずに,計算時間の23.54%の計算時間を用いて,難しい7×7キルオールゴー問題を解くことができることを示した。
その結果,貯蓄は問題規模で拡大することが示唆された。
本手法は,問題解決のための任意の木探索アルゴリズムに拡張することができる。
私たちのコードはhttps://rlg.iis.sinica.edu.tw/papers/neurips2023-online-fine-tuning-solverで利用可能です。 Game solving is a similar, yet more difficult task than mastering a game. Solving a game typically means to find the game-theoretic value (outcome given optimal play), and optionally a full strategy to follow in order to achieve that outcome. The AlphaZero algorithm has demonstrated super-human level play, and its powerful policy and value predictions have also served as heuristics in game solving. However, to solve a game and obtain a full strategy, a winning response must be found for all possible moves by the losing player. This includes very poor lines of play from the losing side, for which the AlphaZero self-play process will not encounter. AlphaZero-based heuristics can be highly inaccurate when evaluating these out-of-distribution positions, which occur throughout the entire search. To address this issue, this paper investigates applying online fine-tuning while searching and proposes two methods to learn tailor-designed heuristics for game solving. Our experiments show that using online fine-tuning can solve a series of challenging 7x7 Killall-Go problems, using only 23.54% of computation time compared to the baseline without online fine-tuning. Results suggest that the savings scale with problem size. Our method can further be extended to any tree search algorithm for problem solving. Our code is available at https://rlg.iis.sinica.edu.tw/papers/neurips2023-online-fine-tuning-solver. | 翻訳日:2023-11-14 15:01:50 公開日:2023-11-13 |
# 高次元位相図と大型calphadモデル The High-dimensional Phase Diagram and the Large CALPHAD Model ( http://arxiv.org/abs/2311.07174v1 ) ライセンス: Link先を確認 | Zhengdi Liu, Xulong An, Wenwen Sun | (参考訳) 合金系が3つ以上の元素から構成される場合、相空間全体の可視化は困難となるだけでなく、データサージも伴う。
この複雑さに対処するため、FeNiCrMn合金系を探索し、Large CALPHAD Model (LCM)を導入する。
LCMは計算導管として機能し、位相空間全体を捕捉する。
その後、この巨大なデータはハッシュテーブルと深さ優先探索(dfs)によって支援され、消化可能かつプログラム的にアクセス可能な高次元位相図を用いて体系的に構成される。
興味深いことに、LCMは位相体積予測において97%の分類精度と平均平方誤差が4.80*10-5である。
提案手法はFeNiCrMn系における51個の相空間の定式化に成功し, その有効性を439個の共晶合金の設計で実証した。
この先駆的手法は、合金設計技術や多変量問題に重大な変化をもたらす。 When alloy systems comprise more than three elements, the visualization of the entire phase space becomes not only daunting but is also accompanied by a data surge. Addressing this complexity, we delve into the FeNiCrMn alloy system and introduce the Large CALPHAD Model (LCM). The LCM acts as a computational conduit, capturing the entire phase space. Subsequently, this enormous data is systematically structured using a high-dimensional phase diagram, aided by hash tables and Depth-first Search (DFS), rendering it both digestible and programmatically accessible. Remarkably, the LCM boasts a 97% classification accuracy and a mean square error of 4.80*10-5 in phase volume prediction. Our methodology successfully delineates 51 unique phase spaces in the FeNiCrMn system, exemplifying its efficacy with the design of all 439 eutectic alloys. This pioneering methodology signifies a monumental shift in alloy design techniques or even multi-variable problems. | 翻訳日:2023-11-14 15:01:23 公開日:2023-11-13 |
# VerityMath: ユニット一貫性による自己検証による数学的推論の促進 VerityMath: Advancing Mathematical Reasoning by Self-Verification Through Unit Consistency ( http://arxiv.org/abs/2311.07172v1 ) ライセンス: Link先を確認 | Vernon Toh, Ratish Puduppully, Nancy F. Chen | (参考訳) 大規模言語モデル(llm)とプログラムベースの解法を組み合わせることで、数学的推論における熟練度が高まっている。
しかし、この進歩はOpenAI-GPT4やClaudeのようなクローズドソースモデルで主に実証されている。
本稿では,強力なオープンソース LLM の性能について検討する。
具体的には,算術語問題に適用した場合のCode Llama (7B) の出力を分析する。
モデルにとって課題となる問題のカテゴリ、特に複数のタイプや単位にまたがる量に関するカテゴリを特定します。
この問題に対処するため,各量の単位を定義し,数理演算時の単位の整合性を確保することによる体系的アプローチを提案する。
単位整合性プログラム (UCPs) は, 単位仕様と単位検証ルーチンを含むプログラムと組み合わせた, 数学語問題の注釈付きデータセットである。
最後に, Code Llama (7B) モデルを UCP で微調整し, VerityMath を作成した。 Large Language Models (LLMs) combined with program-based solving techniques are increasingly demonstrating proficiency in mathematical reasoning. However, such progress is mostly demonstrated in closed-source models such as OpenAI-GPT4 and Claude. In this paper, we seek to study the performance of strong open-source LLMs. Specifically, we analyze the outputs of Code Llama (7B) when applied to math word problems. We identify a category of problems that pose a challenge for the model, particularly those involving quantities that span multiple types or units. To address this issue, we propose a systematic approach by defining units for each quantity and ensuring the consistency of these units during mathematical operations. We developed Unit Consistency Programs (UCPs), an annotated dataset of math word problems, each paired with programs that contain unit specifications and unit verification routines. Finally, we finetune the Code Llama (7B) model with UCPs to produce VerityMath and present our preliminary findings. | 翻訳日:2023-11-14 15:01:08 公開日:2023-11-13 |
# calamanCy: Tagalogの自然言語処理ツールキット calamanCy: A Tagalog Natural Language Processing Toolkit ( http://arxiv.org/abs/2311.07171v1 ) ライセンス: Link先を確認 | Lester James V. Miranda | (参考訳) 本稿では,自然言語処理(NLP)パイプライン構築のためのオープンソースツールキットであるcalamanCyを紹介する。
SpaCy上に構築されており、簡単に実験でき、他のフレームワークと統合できる。
CalamanCyは、NLPアプリケーションを構築するための一貫したAPIを提供し、依存性解析、POSタグ付け、名前付きエンティティ認識(NER)をサポートする汎用マルチタスクモデルを提供することによって、開発ギャップに対処する。
CalamanCyは、統合されたフレームワークで未結合のリソースを統合することで、Tagalog NLPの進歩を加速することを目指している。
calamancy toolkitはgithubで入手できる。 https://github.com/ljvmiranda921/calamancy。 We introduce calamanCy, an open-source toolkit for constructing natural language processing (NLP) pipelines for Tagalog. It is built on top of spaCy, enabling easy experimentation and integration with other frameworks. calamanCy addresses the development gap by providing a consistent API for building NLP applications and offering general-purpose multitask models with out-of-the-box support for dependency parsing, parts-of-speech (POS) tagging, and named entity recognition (NER). calamanCy aims to accelerate the progress of Tagalog NLP by consolidating disjointed resources in a unified framework. The calamanCy toolkit is available on GitHub: https://github.com/ljvmiranda921/calamanCy. | 翻訳日:2023-11-14 15:00:54 公開日:2023-11-13 |
# 蒸留経路探究による任意映像の再生 Regenerating Arbitrary Video Sequences with Distillation Path-Finding ( http://arxiv.org/abs/2311.07170v1 ) ライセンス: Link先を確認 | Thi-Ngoc-Hanh Le, Sheng-Yi Yao, Chun-Te Wu, and Tong-Yee Lee | (参考訳) 動画が広く可視化された形式として長く言及されてきた場合、動画内のアニメーションシーケンスは人々のストーリーテリングとして言及される。
アニメーションを作成するには、複雑なコンテンツ、複数の移動物体、そして密集した動きを持つアニメーションに対して、コンテンツと運動方向の両方でもっともらしいアニメーションを得るために、熟練したプロのアーティストからの集中的な人間労働が必要である。
本稿では,開始フレーム上でユーザの好みに応じて新しいシーケンスを生成するインタラクティブなフレームワークを提案する。
従来の作業と既存の商業的応用との違いは、任意の開始フレームを持つ新規なシーケンスが、コンテンツと動き方向の両方で一貫した程度に生成される点である。
これを効果的に実現するために,まず,提案するrsfnetを用いて,映像のフレームセット上の特徴相関を学習する。
そこで我々は,ソースビデオの動作方向の知識を定式化し,スムーズかつ妥当なシーケンスを推定する新しいパスフィニングアルゴリズム,SDPFを開発した。
大規模な実験により,本フレームワークは漫画や自然の場面に新たなアニメーションを作成でき,先行作品や商業的応用を推し進めることで,より予測可能な結果が得られることを示した。 If the video has long been mentioned as a widespread visualization form, the animation sequence in the video is mentioned as storytelling for people. Producing an animation requires intensive human labor from skilled professional artists to obtain plausible animation in both content and motion direction, incredibly for animations with complex content, multiple moving objects, and dense movement. This paper presents an interactive framework to generate new sequences according to the users' preference on the starting frame. The critical contrast of our approach versus prior work and existing commercial applications is that novel sequences with arbitrary starting frame are produced by our system with a consistent degree in both content and motion direction. To achieve this effectively, we first learn the feature correlation on the frameset of the given video through a proposed network called RSFNet. Then, we develop a novel path-finding algorithm, SDPF, which formulates the knowledge of motion directions of the source video to estimate the smooth and plausible sequences. The extensive experiments show that our framework can produce new animations on the cartoon and natural scenes and advance prior works and commercial applications to enable users to obtain more predictable results. | 翻訳日:2023-11-14 15:00:42 公開日:2023-11-13 |
# steer: エキスパート強化による統一スタイル転送 STEER: Unified Style Transfer with Expert Reinforcement ( http://arxiv.org/abs/2311.07167v1 ) ライセンス: Link先を確認 | Skyler Hallinan, Faeze Brahman, Ximing Lu, Jaehun Jung, Sean Welleck, Yejin Choi | (参考訳) テキストスタイルの転送には自然言語処理にまたがる多くの応用があるが、単一のソーススタイルからの転送の前提は現実の環境では非現実的である。
本研究では、任意のスタイル転送に焦点を当て、任意の未知のスタイルからターゲットスタイルにテキストを書き換える。
スタイル転送のための制限された並列データの課題を克服するために開発された統一フレームワークである,エキスパート強化による統一スタイル転送を提案する。
STEERは、デコーディング中に専門家の製品を使用してスタイル転送ペアのコーパスを自動的に生成する。
生成されたオフラインデータは、オンラインのオフライン強化学習に切り替える前に、初期ポリシーを事前訓練するために使用される。
STEERは統一されており、任意の未知のソーススタイルから複数のターゲットスタイルに転送できるため、特に柔軟で効率的である。
多様なスタイルのテキストを用いた挑戦的データセットの実験結果は、競合するベースラインと比較して最先端の結果を示している。
興味深いことに、STEERは175Bパラメータの指定したGPT-3よりも226倍小さいが、全体的なスタイルの転送品質が高い。
また、STEERは堅牢で、ドメイン外のデータでスタイル転送機能を維持し、様々なスタイルでほぼすべてのベースラインを超越していることを示す。
本手法の成功は,制限されたデータ管理の課題を克服するために,制御可能なデコードで拡張されたRLアルゴリズムの可能性を強調した。 While text style transfer has many applications across natural language processing, the core premise of transferring from a single source style is unrealistic in a real-world setting. In this work, we focus on arbitrary style transfer: rewriting a text from an arbitrary, unknown style to a target style. We propose STEER: Unified Style Transfer with Expert Reinforcement, a unified frame-work developed to overcome the challenge of limited parallel data for style transfer. STEER involves automatically generating a corpus of style-transfer pairs using a product of experts during decoding. The generated offline data is then used to pre-train an initial policy before switching to online, off-policy reinforcement learning for further improvements via fine-grained reward signals. STEER is unified and can transfer to multiple target styles from an arbitrary, unknown source style, making it particularly flexible and efficient. Experimental results on a challenging dataset with text from a diverse set of styles demonstrate state-of-the-art results compared to competitive baselines. Remarkably, STEER outperforms the 175B parameter instruction-tuned GPT-3 on overall style transfer quality, despite being 226 times smaller in size. We also show STEER is robust, maintaining its style transfer capabilities on out-of-domain data, and surpassing nearly all baselines across various styles. The success of our method highlights the potential of RL algorithms when augmented with controllable decoding to overcome the challenge of limited data supervision. | 翻訳日:2023-11-14 15:00:20 公開日:2023-11-13 |
# NDDepth: 正常距離支援単眼深度推定と完了 NDDepth: Normal-Distance Assisted Monocular Depth Estimation and Completion ( http://arxiv.org/abs/2311.07166v1 ) ライセンス: Link先を確認 | Shuwei Shao, Zhongcai Pei, Weihai Chen, Peter C. Y. Chen and Zhengguo Li | (参考訳) 過去数年間にわたり、単眼深度の推定と完了はコンピュータビジョンコミュニティからますます注目を集めてきた。
本稿では,これら2つの課題に対して,3dシーンが分割平面で構成されていると仮定して,新しい物理(ジオメトリ)駆動のディープラーニングフレームワークを提案する。
深度マップを直接推定したり,スパース深度マップを完成させる代わりに,表面正規分布と平面対オリジン距離マップを推定したり,スパース面正規分布と距離マップを中間出力として完成させる。
この目的のために、我々は、画素レベル表面の正規および距離を出力する正規距離ヘッドを開発する。
一方、表面正規写像と距離写像は、発達した平面認識一貫性制約によって正規化され、深度写像に変換される。
さらに,提案フレームワークのロバスト性を強化するために,さらに奥行きヘッドを統合する。
The NYU-Depth-v2, KITTI, SUN RGB-D データセットの大規模な実験により,本手法は最先端のモノクル深度推定および完成競合よりも高い性能を示した。
ソースコードはhttps://github.com/shuweishao/nddepthで入手できる。 Over the past few years, monocular depth estimation and completion have been paid more and more attention from the computer vision community because of their widespread applications. In this paper, we introduce novel physics (geometry)-driven deep learning frameworks for these two tasks by assuming that 3D scenes are constituted with piece-wise planes. Instead of directly estimating the depth map or completing the sparse depth map, we propose to estimate the surface normal and plane-to-origin distance maps or complete the sparse surface normal and distance maps as intermediate outputs. To this end, we develop a normal-distance head that outputs pixel-level surface normal and distance. Meanwhile, the surface normal and distance maps are regularized by a developed plane-aware consistency constraint, which are then transformed into depth maps. Furthermore, we integrate an additional depth head to strengthen the robustness of the proposed frameworks. Extensive experiments on the NYU-Depth-v2, KITTI and SUN RGB-D datasets demonstrate that our method exceeds in performance prior state-of-the-art monocular depth estimation and completion competitors. The source code will be available at https://github.com/ShuweiShao/NDDepth. | 翻訳日:2023-11-14 14:59:55 公開日:2023-11-13 |
# アナログai最適化のためのプルーニングランダム抵抗メモリ Pruning random resistive memory for optimizing analogue AI ( http://arxiv.org/abs/2311.07164v1 ) ライセンス: Link先を確認 | Yi Li, Songqi Wang, Yaping Zhao, Shaocong Wang, Woyu Zhang, Yangu He, Ning Lin, Binbin Cui, Xi Chen, Shiming Zhang, Hao Jiang, Peng Lin, Xumeng Zhang, Xiaojuan Qi, Zhongrui Wang, Xiaoxin Xu, Dashan Shang, Qi Liu, Kwang-Ting Cheng, Ming Liu | (参考訳) 人工知能(AI)の急速な進歩は、人間のような知性を示す大きな言語モデルによって特徴づけられている。
しかし、これらのモデルはまた、エネルギー消費と環境持続可能性に前例のない課題を呈している。
1つの有望な解決策はアナログコンピューティングを再検討することであり、これはデジタルコンピューティングよりも早く、抵抗性メモリのような、インメモリコンピューティング、高いスケーラビリティ、非揮発性を備えた新しいアナログ電子デバイスを利用する技術である。
しかし、アナログコンピューティングは以前と同じ課題に直面している。 プログラミングの非理想性と高価なプログラミングは、基礎となるデバイス物理学のためである。
本稿では,ランダム重み付けされたアナログ抵抗型メモリニューラルネットワークのトポロジーを最適化するために,構造可塑性に触発されたエッジプルーニングを用いたソフトウェアハードウェア共同設計について報告する。
ソフトウェア面では、ランダム重み付けされたニューラルネットワークのトポロジーは、抵抗メモリ重みを正確にチューニングするのではなく、接続をプルーニングすることで最適化される。
ハードウェア面では、高性能サブネットワークを含む過パラメータランダムニューラルネットワークの大規模かつ低コスト実装に利用される透過型電子顕微鏡を用いて、プログラミング確率性の物理的起源を明らかにする。
我々は,40nm 256K 抵抗型メモリマクロに共設計を実装し,FashionMNIST と Spoken を用いた画像分類では17.3%,音声分類では19.9%,DRIVE を用いた画像分割では9.8% (2%) の精度向上を実現した。
これには82.1%、51.2%、99.8%のエネルギー効率向上が伴う。
内在的な確率性とインメモリコンピューティングを取り入れることで、この研究はアナログコンピューティングシステムの最大の障害を解決し、次世代aiハードウェアの膨大な可能性を解き放ちます。 The rapid advancement of artificial intelligence (AI) has been marked by the large language models exhibiting human-like intelligence. However, these models also present unprecedented challenges to energy consumption and environmental sustainability. One promising solution is to revisit analogue computing, a technique that predates digital computing and exploits emerging analogue electronic devices, such as resistive memory, which features in-memory computing, high scalability, and nonvolatility. However, analogue computing still faces the same challenges as before: programming nonidealities and expensive programming due to the underlying devices physics. Here, we report a universal solution, software-hardware co-design using structural plasticity-inspired edge pruning to optimize the topology of a randomly weighted analogue resistive memory neural network. Software-wise, the topology of a randomly weighted neural network is optimized by pruning connections rather than precisely tuning resistive memory weights. Hardware-wise, we reveal the physical origin of the programming stochasticity using transmission electron microscopy, which is leveraged for large-scale and low-cost implementation of an overparameterized random neural network containing high-performance sub-networks. We implemented the co-design on a 40nm 256K resistive memory macro, observing 17.3% and 19.9% accuracy improvements in image and audio classification on FashionMNIST and Spoken digits datasets, as well as 9.8% (2%) improvement in PR (ROC) in image segmentation on DRIVE datasets, respectively. This is accompanied by 82.1%, 51.2%, and 99.8% improvement in energy efficiency thanks to analogue in-memory computing. By embracing the intrinsic stochasticity and in-memory computing, this work may solve the biggest obstacle of analogue computing systems and thus unleash their immense potential for next-generation AI hardware. | 翻訳日:2023-11-14 14:59:32 公開日:2023-11-13 |
# deepmetriceye:periocular vr画像における距離深度推定 DeepMetricEye: Metric Depth Estimation in Periocular VR Imagery ( http://arxiv.org/abs/2311.07235v1 ) ライセンス: Link先を確認 | Yitong Sun, Zijian Zhou, Cyriel Diels, Ali Asadipour | (参考訳) VRヘッドセットによるリアリズムと没入性の向上にもかかわらず、ユーザはしばしば、VRディスプレイからの過剰な目刺激とマスクからの圧力により、デジタルアイストレイン(DES)、ドライアイ、および潜在的長期視覚障害などの副作用に遭遇する。
最近のVRヘッドセットは、視線の特徴マップを分割する単眼カメラをますます装備している。
しかし、入射光刺激を計算し、眼周囲の条件変化を観察するためには、これらの相対測定を計量次元に変換することが不可欠である。
このギャップを埋めるため、我々はU-Net 3+の深層学習バックボーンから派生した軽量なフレームワークを提案し、計測可能な眼深度マップを推定した。
眼用単眼カメラを装着したvrヘッドセットと互換性があり、3次元の眼窩領域を再構成し、関連する光刺激計算プロトコルと医療ガイドラインのためのメトリックベースを提供する。
データ収集の複雑さをナビゲートし、UE MetaHumanに基づく動的眼周データ生成(DPDG)環境を導入し、少量の人間の顔スキャンデータから数千のトレーニング画像を合成する。
被験者36名を対象に評価を行い, 瞳孔径測定, 眼窩大域的精度評価実験において有意な有効性を示した。 Despite the enhanced realism and immersion provided by VR headsets, users frequently encounter adverse effects such as digital eye strain (DES), dry eye, and potential long-term visual impairment due to excessive eye stimulation from VR displays and pressure from the mask. Recent VR headsets are increasingly equipped with eye-oriented monocular cameras to segment ocular feature maps. Yet, to compute the incident light stimulus and observe periocular condition alterations, it is imperative to transform these relative measurements into metric dimensions. To bridge this gap, we propose a lightweight framework derived from the U-Net 3+ deep learning backbone that we re-optimised, to estimate measurable periocular depth maps. Compatible with any VR headset equipped with an eye-oriented monocular camera, our method reconstructs three-dimensional periocular regions, providing a metric basis for related light stimulus calculation protocols and medical guidelines. Navigating the complexities of data collection, we introduce a Dynamic Periocular Data Generation (DPDG) environment based on UE MetaHuman, which synthesises thousands of training images from a small quantity of human facial scan data. Evaluated on a sample of 36 participants, our method exhibited notable efficacy in the periocular global precision evaluation experiment, and the pupil diameter measurement. | 翻訳日:2023-11-14 14:52:40 公開日:2023-11-13 |
# 胎児心MRIにおけるマルチタスクラーニングによる関節温存分節と大動脈弓異常分類 Multi-task learning for joint weakly-supervised segmentation and aortic arch anomaly classification in fetal cardiac MRI ( http://arxiv.org/abs/2311.07234v1 ) ライセンス: Link先を確認 | Paula Ramirez, Alena Uus, Milou P.M. van Poppel, Irina Grigorescu, Johannes K. Steinweg, David F.A. Lloyd, Kuberan Pushparajah, Andrew P. King, Maria Deprez | (参考訳) 先天性心疾患(英: Congenital Heart Disease、CHD)は、胎児期において既に存在している心臓奇形の一種で、世界中で流行している出生欠陥のカテゴリーである。
本研究の目的は,大動脈弓奇形における3次元胎児血管トポロジーの可視化を支援することである。
本稿では,3d黒血t2w mriと異常分類による胎児血管自動分割のためのマルチタスクフレームワークを提案する。
トレーニングデータは,各被験者の心臓血管領域の2つの手動セグメンテーションマスクと,異常特異的集団アトラスからなる。
我々のフレームワークは、VoxelMorphを用いたディープラーニングラベルの伝搬と、3次元注意U-NetセグメンテーションとDenseNet121異常分類を組み合わせた。
11の心臓血管と3つの異なる大動脈弓奇形を標的とし, 大動脈弓, 右大動脈弓, 大動脈の結束を疑った。
セグメンテーションパイプラインに異常分類器を組み込み、セグメンテーションのトポロジカルな不正確性を修正する主な動機を持つマルチタスクフレームワークを提供します。
マルチタスクアプローチは、セグメンタネットワークに異常特有の特徴を学ぶように促す、という仮説だ。
第2の動機として、自動診断ツールは、意思決定支援設定における診断信頼性を高める可能性がある。
その結果,提案手法はラベル伝播を著しく上回り,伝播ラベルのみを訓練したネットワークを上回った。
分類器はt2wボリューム画像のみを訓練した分類器を上回り,共同訓練後の平均平衡精度0.99 (0.01) である。
分類器を追加することで、正しく分類された2つの大動脈弓部の解剖学的およびトポロジカルな精度が向上する。 Congenital Heart Disease (CHD) is a group of cardiac malformations present already during fetal life, representing the prevailing category of birth defects globally. Our aim in this study is to aid 3D fetal vessel topology visualisation in aortic arch anomalies, a group which encompasses a range of conditions with significant anatomical heterogeneity. We present a multi-task framework for automated multi-class fetal vessel segmentation from 3D black blood T2w MRI and anomaly classification. Our training data consists of binary manual segmentation masks of the cardiac vessels' region in individual subjects and fully-labelled anomaly-specific population atlases. Our framework combines deep learning label propagation using VoxelMorph with 3D Attention U-Net segmentation and DenseNet121 anomaly classification. We target 11 cardiac vessels and three distinct aortic arch anomalies, including double aortic arch, right aortic arch, and suspected coarctation of the aorta. We incorporate an anomaly classifier into our segmentation pipeline, delivering a multi-task framework with the primary motivation of correcting topological inaccuracies of the segmentation. The hypothesis is that the multi-task approach will encourage the segmenter network to learn anomaly-specific features. As a secondary motivation, an automated diagnosis tool may have the potential to enhance diagnostic confidence in a decision support setting. Our results showcase that our proposed training strategy significantly outperforms label propagation and a network trained exclusively on propagated labels. Our classifier outperforms a classifier trained exclusively on T2w volume images, with an average balanced accuracy of 0.99 (0.01) after joint training. Adding a classifier improves the anatomical and topological accuracy of all correctly classified double aortic arch subjects. | 翻訳日:2023-11-14 14:52:16 公開日:2023-11-13 |
# IASCAR: インクリメンタルAnswer Set Counting by Anytime Refinement IASCAR: Incremental Answer Set Counting by Anytime Refinement ( http://arxiv.org/abs/2311.07233v1 ) ライセンス: Link先を確認 | Johannes K. Fichte, Sarah Alice Gaggl, Markus Hecher, Dominik Rusovac | (参考訳) Answer set programming (ASP)は、様々なアプリケーションで一般的な宣言型プログラミングパラダイムである。
プログラムは、実際に列挙できない多くの解集合を持つことは容易であるが、数えることによって解空間の定量化が可能である。
リテラルの仮定の下で数えると、解空間の一部を理解するツール(いわゆる解集合ナビゲーション)が得られる。
しかし、解空間の一部をナビゲートするには何度も数える必要があり、理論的には高価である。
知識コンパイルはインスタンスを多項式時間で計算する表現にコンパイルする。
しかし、これらの手法はCNF式にのみ存在し、ASPプログラムをCNF式にコンパイルすると指数的オーバーヘッドが生じる。
本稿では,CNFの知識コンパイルを前提として,サポート対象モデルを符号化する手法を提案する。
当社のanytimeテクニックでは,包含排他原則を使用して,オーバーカウントとオーバーカウントによる境界の改善を体系的に行います。
予備的な実証分析では,有望な結果を示した。
入力(オフラインフェーズ)をコンパイルすると、我々のアプローチはすぐに(再)カウントされます。 Answer set programming (ASP) is a popular declarative programming paradigm with various applications. Programs can easily have many answer sets that cannot be enumerated in practice, but counting still allows quantifying solution spaces. If one counts under assumptions on literals, one obtains a tool to comprehend parts of the solution space, so-called answer set navigation. However, navigating through parts of the solution space requires counting many times, which is expensive in theory. Knowledge compilation compiles instances into representations on which counting works in polynomial time. However, these techniques exist only for CNF formulas, and compiling ASP programs into CNF formulas can introduce an exponential overhead. This paper introduces a technique to iteratively count answer sets under assumptions on knowledge compilations of CNFs that encode supported models. Our anytime technique uses the inclusion-exclusion principle to improve bounds by over- and undercounting systematically. In a preliminary empirical analysis, we demonstrate promising results. After compiling the input (offline phase), our approach quickly (re)counts. | 翻訳日:2023-11-14 14:51:44 公開日:2023-11-13 |
# 深部PDE解法によるオプション価格の誤差分析:実証的研究 Error Analysis of Option Pricing via Deep PDE Solvers: Empirical Study ( http://arxiv.org/abs/2311.07231v1 ) ライセンス: Link先を確認 | Rawin Assabumrungrat, Kentaro Minami, Masanori Hirano | (参考訳) オプション価格は金融の基本的な問題であり、しばしば非線形偏微分方程式(PDE)を解く必要がある。
レインボーオプションのようなマルチアセットオプションを扱う場合、これらのPDEは高次元化され、次元性の呪いによって引き起こされる課題となる。
ディープラーニングベースのPDEソルバは、この高次元問題に対するスケーラブルなソリューションとして最近登場したが、その経験的かつ定量的な精度はよく理解されておらず、現実の応用性を妨げている。
本研究では,Deep PDEソルバの実用的オプション価格設定実装における有効性について,実用的な洞察を提供することを目的としている。
比較実験により,これらの解法の性能を高次元の文脈で評価した。
調査の結果,Deep PDEソルバの誤りの原因は3つであった。
(i)ターゲットオプションの仕様及び基盤となる資産に固有のエラー。
(ii)資産モデルシミュレーション方法による誤差、及び
(iii)ニューラルネットワークトレーニングによるエラー。
アブレーション研究を通じて,各誤差源の個人的影響を評価した。
この結果から,Deep BSDE法(DBSDE)は性能が優れ,オプション仕様の変動に対して頑健であることが示された。
対照的に、他のいくつかのメソッドは、有効期限などのオプション仕様に過度に敏感である。
また,これらの手法の性能は,バッチサイズの平方根と時間ステップの数に逆比例して向上することがわかった。
この観測は、Deep PDEソルバで望ましい精度を達成するための計算資源の推定に役立つ。 Option pricing, a fundamental problem in finance, often requires solving non-linear partial differential equations (PDEs). When dealing with multi-asset options, such as rainbow options, these PDEs become high-dimensional, leading to challenges posed by the curse of dimensionality. While deep learning-based PDE solvers have recently emerged as scalable solutions to this high-dimensional problem, their empirical and quantitative accuracy remains not well-understood, hindering their real-world applicability. In this study, we aimed to offer actionable insights into the utility of Deep PDE solvers for practical option pricing implementation. Through comparative experiments, we assessed the empirical performance of these solvers in high-dimensional contexts. Our investigation identified three primary sources of errors in Deep PDE solvers: (i) errors inherent in the specifications of the target option and underlying assets, (ii) errors originating from the asset model simulation methods, and (iii) errors stemming from the neural network training. Through ablation studies, we evaluated the individual impact of each error source. Our results indicate that the Deep BSDE method (DBSDE) is superior in performance and exhibits robustness against variations in option specifications. In contrast, some other methods are overly sensitive to option specifications, such as time to expiration. We also find that the performance of these methods improves inversely proportional to the square root of batch size and the number of time steps. This observation can aid in estimating computational resources for achieving desired accuracies with Deep PDE solvers. | 翻訳日:2023-11-14 14:51:26 公開日:2023-11-13 |
# プロンプトの感度はどのように違うのか? How are Prompts Different in Terms of Sensitivity? ( http://arxiv.org/abs/2311.07230v1 ) ライセンス: Link先を確認 | Sheng Lu, Hendrik Schuff, Iryna Gurevych | (参考訳) In-context Learning (ICL)は、最も人気のある学習パラダイムの1つである。
プロンプトエンジニアリングに焦点を当てた文献が増えているが、異なるモデルやタスクにおけるプロンプトの効果を比較する体系的な分析が不足している。
このギャップに対処するため,関数の感度に基づいた包括的プロンプト解析を提案する。
分析の結果、感度はモデル性能の教師なしプロキシであり、精度と強い負の相関を示すことが明らかとなった。
出力に対する入力トークンの関連性に異なるプロンプトがどう影響するかを実証的に示すために,勾配に基づく塩分濃度スコアを用いた。
さらに, 感度推定をペナルティ項として組み込んだ感度認識復号法を標準グリーディ復号法で導入する。
入力情報が少ない場合には,このアプローチが特に有用であることを示す。
我々の研究は、プロンプトの分析に新たな視点を与え、ICLのメカニズムをより深く理解するのに役立ちます。 In-context learning (ICL) has become one of the most popular learning paradigms. While there is a growing body of literature focusing on prompt engineering, there is a lack of systematic analysis comparing the effects of prompts across different models and tasks. To address this gap, we present a comprehensive prompt analysis based on the sensitivity of a function. Our analysis reveals that sensitivity is an unsupervised proxy for model performance, as it exhibits a strong negative correlation with accuracy. We use gradient-based saliency scores to empirically demonstrate how different prompts affect the relevance of input tokens to the output, resulting in different levels of sensitivity. Furthermore, we introduce sensitivity-aware decoding which incorporates sensitivity estimation as a penalty term in the standard greedy decoding. We show that this approach is particularly helpful when information in the input is scarce. Our work provides a fresh perspective on the analysis of prompts, and contributes to a better understanding of the mechanism of ICL. | 翻訳日:2023-11-14 14:51:03 公開日:2023-11-13 |
# ロボットのための大規模言語モデル: 調査 Large Language Models for Robotics: A Survey ( http://arxiv.org/abs/2311.07226v1 ) ライセンス: Link先を確認 | Fanlong Zeng, Wensheng Gan, Yongheng Wang, Ning Liu, Philip S. Yu | (参考訳) マルチモダリティフィードバックを通じて複雑な操作タスクを学習、一般化、制御する人間の能力は、我々がデクスタリティインテリジェンスと呼ぶユニークな能力を示している。
この知性の理解と評価は複雑なタスクです。
大規模言語モデル(LLM)の急速な進歩と広範な普及の中で、ロボット工学分野におけるその応用が注目されている。
LLMは自然言語を処理および生成する能力を有しており、ロボットとの効率的な相互作用と協調を促進する。
ロボット工学の分野の研究者とエンジニアは、ロボット知能、人間とロボットの相互作用、自律性向上におけるllmの膨大な可能性を認識した。
そこで本研究では,ロボット工学におけるLLMの応用を要約し,ロボット制御,知覚,意思決定,経路計画といった重要な分野への貢献について考察する。
まず,ロボット工学におけるLLMの背景と開発について概説するとともに,ロボット工学におけるLLMのメリットと,LLMに基づくロボット工学モデルの最近の進歩について述べる。
次に、知覚、意思決定、制御、および相互作用に使用されるものを含む、モデルで使用される様々な技術を調べます。
最後に、ロボット工学におけるLLMの応用と、近い将来直面する可能性のある潜在的な課題について検討する。
embodied intelligenceは知的科学の未来であり、llmsベースのロボティクスは、これを達成するための有望だが挑戦的な道の1つだ。 The human ability to learn, generalize, and control complex manipulation tasks through multi-modality feedback suggests a unique capability, which we refer to as dexterity intelligence. Understanding and assessing this intelligence is a complex task. Amidst the swift progress and extensive proliferation of large language models (LLMs), their applications in the field of robotics have garnered increasing attention. LLMs possess the ability to process and generate natural language, facilitating efficient interaction and collaboration with robots. Researchers and engineers in the field of robotics have recognized the immense potential of LLMs in enhancing robot intelligence, human-robot interaction, and autonomy. Therefore, this comprehensive review aims to summarize the applications of LLMs in robotics, delving into their impact and contributions to key areas such as robot control, perception, decision-making, and path planning. We first provide an overview of the background and development of LLMs for robotics, followed by a description of the benefits of LLMs for robotics and recent advancements in robotics models based on LLMs. We then delve into the various techniques used in the model, including those employed in perception, decision-making, control, and interaction. Finally, we explore the applications of LLMs in robotics and some potential challenges they may face in the near future. Embodied intelligence is the future of intelligent science, and LLMs-based robotics is one of the promising but challenging paths to achieve this. | 翻訳日:2023-11-14 14:50:46 公開日:2023-11-13 |
# 神経一般循環モデル Neural General Circulation Models ( http://arxiv.org/abs/2311.07222v1 ) ライセンス: Link先を確認 | Dmitrii Kochkov, Janni Yuval, Ian Langmore, Peter Norgaard, Jamie Smith, Griffin Mooers, James Lottes, Stephan Rasp, Peter D\"uben, Milan Kl\"ower, Sam Hatfield, Peter Battaglia, Alvaro Sanchez-Gonzalez, Matthew Willson, Michael P. Brenner, Stephan Hoyer | (参考訳) 一般的な循環モデル(GCM)は気象と気候予測の基礎である。
gcmsは、大規模ダイナミクスのための数値解法と、雲形成のような小規模プロセスのための調律表現を組み合わせた物理ベースのシミュレータである。
近年,再分析データに基づく機械学習(ml)モデルが,気象予報のためのgcmと同等あるいは優れたスキルを達成している。
しかし,これらのモデルではアンサンブル予測の改善は示されておらず,長期気象・気候シミュレーションに十分な安定性を示した。
本稿では,大気力学の微分可能な解法をML成分と組み合わせた最初のGCMについて述べる。
NeuralGCMは1~10日の予測でMLモデルと競合し、European Centre for Medium-Range Weather Forecasts は1~15日の予測で一致している。
所定の海面温度で、ニューラルgcmは地球平均気温などの気候指標を何十年も正確に追跡することができ、140kmの解像度の気候予測では、現実の頻度や熱帯サイクロンの軌道のような創発的な現象を示す。
気象・気候の両面では,従来のGCMよりも桁違いの計算コストを削減できる。
この結果から, エンド・ツー・エンドの深層学習は従来のGCMのタスクと互換性があり, 地球系の理解と予測に不可欠な大規模物理シミュレーションを向上できることがわかった。 General circulation models (GCMs) are the foundation of weather and climate prediction. GCMs are physics-based simulators which combine a numerical solver for large-scale dynamics with tuned representations for small-scale processes such as cloud formation. Recently, machine learning (ML) models trained on reanalysis data achieved comparable or better skill than GCMs for deterministic weather forecasting. However, these models have not demonstrated improved ensemble forecasts, or shown sufficient stability for long-term weather and climate simulations. Here we present the first GCM that combines a differentiable solver for atmospheric dynamics with ML components, and show that it can generate forecasts of deterministic weather, ensemble weather and climate on par with the best ML and physics-based methods. NeuralGCM is competitive with ML models for 1-10 day forecasts, and with the European Centre for Medium-Range Weather Forecasts ensemble prediction for 1-15 day forecasts. With prescribed sea surface temperature, NeuralGCM can accurately track climate metrics such as global mean temperature for multiple decades, and climate forecasts with 140 km resolution exhibit emergent phenomena such as realistic frequency and trajectories of tropical cyclones. For both weather and climate, our approach offers orders of magnitude computational savings over conventional GCMs. Our results show that end-to-end deep learning is compatible with tasks performed by conventional GCMs, and can enhance the large-scale physical simulations that are essential for understanding and predicting the Earth system. | 翻訳日:2023-11-14 14:50:21 公開日:2023-11-13 |
# 相互作用言語におけるトラブルと失敗。
言語学的にインフォームドされた分類法に向けて Troubles and Failures in Interactional Language. Towards a Linguistically Informed Taxonomy ( http://arxiv.org/abs/2311.07217v1 ) ライセンス: Link先を確認 | Martina Wiltschko | (参考訳) この講演の目的は、人間と人工会話エージェント(ca)(henceforth humanmachine interaction, hmi)との相互作用の性質を理解することを目的とした体系的な研究課題の導入である。
具体的には,人間間の会話の流れに影響を与えることが知られている言語的に定義された変数(人間と人間の相互作用,HHI)に焦点を当てた言語学的視点を明確化する。 The goal of this talk is to introduce a systematic research agenda which aims to understand the nature of interaction between humans and artificial conversational agents (CA) (henceforth humanmachine interaction, HMI). Specifically, we shall take an explicit linguistic perspective focusing on linguistically defined variables that are known to influence the flow of conversations among humans (henceforth human-human interaction, HHI). | 翻訳日:2023-11-14 14:49:57 公開日:2023-11-13 |
# 頭頸部腫瘍の共焦点レーザー内視鏡像の分類のためのショット学習 Few Shot Learning for the Classification of Confocal Laser Endomicroscopy Images of Head and Neck Tumors ( http://arxiv.org/abs/2311.07216v1 ) ライセンス: Link先を確認 | Marc Aubreville, Zhaoya Pan, Matti Sievert, Jonas Ammeling, Jonathan Ganz, Nicolai Oetter, Florian Stelzle, Ann-Kathrin Frenken, Katharina Breininger, and Miguel Goncalves | (参考訳) 頭頸部腫瘍の外科的切除には安全なマージンが必要であり、通常は術中凍結切開により術中確認される。
この方法自体はオーバーサンプリング法であり、パラフィン埋め込み部位における決定的な組織分析と比較して比較的感度が低い。
共焦点レーザー内視鏡(英語版) (CLE) は、生体内イメージング技術であり、組織の生検でその可能性を示している。
モダリティの解釈が難しいことで有名なこの自動分析は、外科医に役立ちます。
しかし、CLEの画像は、個々の要因だけでなく、最も強く、画像化された組織の解剖学的構造によって引き起こされるパターンの多様性を示しており、パターン認識の課題となっている。
そこで本研究では,CLE画像の解剖学的領域を一般化するための4つのFSL法の評価を行った。
5例の鼻腔腫瘍 (SNT) 像と, 11例の声帯腫瘍 (VF) 像について, クロスバリデーション法を用いて検討した。
最良のアプローチは、比較的均一なVFデータセットでは79.6%の中央値に達したが、非常に多様なSNTデータセットでは61.6%しかなかった。
以上の結果より, CLE画像上のFSLは有効であるが, 患者数, 解剖学的パターンの多様性に強く影響されていることが示唆された。 The surgical removal of head and neck tumors requires safe margins, which are usually confirmed intraoperatively by means of frozen sections. This method is, in itself, an oversampling procedure, which has a relatively low sensitivity compared to the definitive tissue analysis on paraffin-embedded sections. Confocal laser endomicroscopy (CLE) is an in-vivo imaging technique that has shown its potential in the live optical biopsy of tissue. An automated analysis of this notoriously difficult to interpret modality would help surgeons. However, the images of CLE show a wide variability of patterns, caused both by individual factors but also, and most strongly, by the anatomical structures of the imaged tissue, making it a challenging pattern recognition task. In this work, we evaluate four popular few shot learning (FSL) methods towards their capability of generalizing to unseen anatomical domains in CLE images. We evaluate this on images of sinunasal tumors (SNT) from five patients and on images of the vocal folds (VF) from 11 patients using a cross-validation scheme. The best respective approach reached a median accuracy of 79.6% on the rather homogeneous VF dataset, but only of 61.6% for the highly diverse SNT dataset. Our results indicate that FSL on CLE images is viable, but strongly affected by the number of patients, as well as the diversity of anatomical patterns. | 翻訳日:2023-11-14 14:49:49 公開日:2023-11-13 |
# Coffee: フィードバックでバグを修正することでコードLLMを強化 Coffee: Boost Your Code LLMs by Fixing Bugs with Feedback ( http://arxiv.org/abs/2311.07215v1 ) ライセンス: Link先を確認 | Seungjun Moon, Yongho Song, Hyungjoo Chae, Dongjin Kang, Taeyoon Kwon, Kai Tzu-iunn Ong, Seung-won Hwang, Jinyoung Yeo | (参考訳) コード編集は、コードLLMから生成された臨界エラーを自動的に修正する、信頼性の高いプログラム合成への重要なステップである。
近年の研究では、ChatGPT や GPT-4 といったクローズドソース LLM が、誤った入力を編集する修正フィードバックを生成できることが示されている。
しかし、これらのモデルは表面的なフィードバック形式に固執し、誤解を招く情報を提供する傾向があるため、オープンソースのLLMがコード編集のためのフィードバックを生成することは依然として困難である。
したがって、我々の研究の焦点は、オープンソースのLLMを活用して、コード編集のための正しいガイダンスで有益なフィードバックを生成することである。
この目的のために、フィードバックによるコード修正に特化したデータセットであるCoffeeを紹介します。
このデータセットを用いて、Preference-Optimized Tuning and Selectionを介して、FEEdbackによるCOde FixingのためのフレームワークであるCoffeePotsを構築する。
提案フレームワークは,表面的フィードバックのリスクを最小限に抑えつつ,コード編集に有用なフィードバックを自動的に生成することを目的としている。
コーヒーとコーヒーポットの組み合わせは重要な進歩を示し、humanevalfixベンチマークで最先端のパフォーマンスを達成した。
コードとモデルチェックポイントはhttps://github.com/lune-blue/coffeeで公開されている。 Code editing is an essential step towards reliable program synthesis to automatically correct critical errors generated from code LLMs. Recent studies have demonstrated that closed-source LLMs (i.e., ChatGPT and GPT-4) are capable of generating corrective feedback to edit erroneous inputs. However, it remains challenging for open-source code LLMs to generate feedback for code editing, since these models tend to adhere to the superficial formats of feedback and provide feedback with misleading information. Hence, the focus of our work is to leverage open-source code LLMs to generate helpful feedback with correct guidance for code editing. To this end, we present Coffee, a collected dataset specifically designed for code fixing with feedback. Using this dataset, we construct CoffeePots, a framework for COde Fixing with FEEdback via Preference-Optimized Tuning and Selection. The proposed framework aims to automatically generate helpful feedback for code editing while minimizing the potential risk of superficial feedback. The combination of Coffee and CoffeePots marks a significant advancement, achieving state-of-the-art performance on HumanEvalFix benchmark. Codes and model checkpoints are publicly available at https://github.com/Lune-Blue/COFFEE. | 翻訳日:2023-11-14 14:49:26 公開日:2023-11-13 |
# 眼底写真における視神経乳頭椎間板の定量化法とその乳頭状rnfl厚みとの関連 A method for quantifying sectoral optic disc pallor in fundus photographs and its association with peripapillary RNFL thickness ( http://arxiv.org/abs/2311.07213v1 ) ライセンス: Link先を確認 | Samuel Gibbon, Graciela Muniz-Terrera, Fabian SL Yii, Charlene Hamid, Simon Cox, Ian JC Maccormick, Andrew J Tatham, Craig Ritchie, Emanuele Trucco, Baljean Dhillon, Thomas J MacGillivray | (参考訳) 目的:眼底写真における光ディスクパラーの自動定量法を開発し、乳頭周囲網膜神経線維層(pRNFL)の厚みとの関連を判定する。
方法: 深層学習を用いて眼円板, 眼窩, 血管を眼底写真で分割し, 眼球運動を計測した。
118例の光コヒーレンストモグラフィーによる口蓋骨厚とpRNFL厚の関係について検討した。
臨床検査で診断した画像は, 健常者 (N=45) と診断し, 健常者 (N=46) との比較を行った。
また,自動拒絶閾値を開発し,カメラタイプ,画像フォーマット,解像度に頑健なソフトウェアをテストした。
結果: 眼底写真の複数の領域にまたがる円盤口蓋の自動定量化ソフトウェアを開発した。
pallorはprnflの太さ (\b{eta} = -9.81 (se = 3.16), p < 0.05), 側頭下部 (\b{eta} = -29.78 (se = 8.32), p < 0.01), 鼻/側頭比 (\b{eta} = 0.88 (se = 0.34), p < 0.05), 全体 (\b{eta} = -8.22 (se = 2.92), p < 0.05) と関連していた。
さらに,患者群では口蓋裂が有意に高かった。
最後に、カメラタイプ、画像フォーマット、解像度に対してロバストな分析結果を示す。
結論: 眼底写真中の円盤状口蓋を自動同定・定量するソフトウェアを開発し, 口蓋計測とpRNFL厚みの関係を見出した。
翻訳的関連性: 本手法は, 緑内障, 圧迫, 神経変性疾患などの乳頭・乳頭萎縮を特徴とする疾患の同定, モニタリング, 進行に有用であると考えられる。 Purpose: To develop an automatic method of quantifying optic disc pallor in fundus photographs and determine associations with peripapillary retinal nerve fibre layer (pRNFL) thickness. Methods: We used deep learning to segment the optic disc, fovea, and vessels in fundus photographs, and measured pallor. We assessed the relationship between pallor and pRNFL thickness derived from optical coherence tomography scans in 118 participants. Separately, we used images diagnosed by clinical inspection as pale (N=45) and assessed how measurements compared to healthy controls (N=46). We also developed automatic rejection thresholds, and tested the software for robustness to camera type, image format, and resolution. Results: We developed software that automatically quantified disc pallor across several zones in fundus photographs. Pallor was associated with pRNFL thickness globally (\b{eta} = -9.81 (SE = 3.16), p < 0.05), in the temporal inferior zone (\b{eta} = -29.78 (SE = 8.32), p < 0.01), with the nasal/temporal ratio (\b{eta} = 0.88 (SE = 0.34), p < 0.05), and in the whole disc (\b{eta} = -8.22 (SE = 2.92), p < 0.05). Furthermore, pallor was significantly higher in the patient group. Lastly, we demonstrate the analysis to be robust to camera type, image format, and resolution. Conclusions: We developed software that automatically locates and quantifies disc pallor in fundus photographs and found associations between pallor measurements and pRNFL thickness. Translational relevance: We think our method will be useful for the identification, monitoring and progression of diseases characterized by disc pallor/optic atrophy, including glaucoma, compression, and potentially in neurodegenerative disorders. | 翻訳日:2023-11-14 14:49:07 公開日:2023-11-13 |
# 強結合su(3)ゲージ理論のための量子アニーラの試験的重要性サンプリング Testing importance sampling on a quantum annealer for strong coupling SU(3) gauge theory ( http://arxiv.org/abs/2311.07209v1 ) ライセンス: Link先を確認 | Jangho Kim, Thomas Luu, Wolfgang Unger | (参考訳) 強結合極限における$su(n_c)$ゲージ理論はモノマー、ダイマー、バリオンループを表す整数変数によって記述できる。
この理論の強結合定式化において、d波量子アニーラが u(n_c)$ ゲージ理論における重要サンプリングをいかに行うかを示す。
重要サンプリングにおいて符号問題を引き起こすことに加え、バリオンループはD波焼鈍器で最適化できない複雑なQUBO行列を誘導する。
代わりに、符号再重み付け法と組み合わせた場合、d波上の符号-problem free quenched 動作のシミュレーションが十分であることを示す。
su(3)$ゲージ理論の最初のテストとして、2 \times 2$ latticeをシミュレートし、その結果を解析解と比較する。 $SU(N_c)$ gauge theories in the strong coupling limit can be described by integer variables representing monomers, dimers and baryon loops. We demonstrate how the D-wave quantum annealer can perform importance sampling on $U(N_c)$ gauge theory in the strong coupling formulation of this theory. In addition to causing a sign problem in importance sampling, baryon loops induce a complex QUBO matrix which cannot be optimized by the D-Wave annealer. Instead we show that simulating the sign-problem free quenched action on the D-Wave is sufficient when combined with a sign reweighting method. As the first test on $SU(3)$ gauge theory, we simulate on $2 \times 2$ lattice and compare the results with its analytic solutions. | 翻訳日:2023-11-14 14:48:23 公開日:2023-11-13 |
# 弾性言語モデルについて On Elastic Language Models ( http://arxiv.org/abs/2311.07204v1 ) ライセンス: Link先を確認 | Chen Zhang, Benyou Wang, Dawei Song | (参考訳) 大規模事前学習された言語モデルは、幅広い言語理解と情報検索タスクにおいて魅力的な性能を達成している。
知識蒸留は、適切な遅延性能のトレードオフに到達するために、大きな言語モデルを小さな言語に圧縮する機会を提供する。
しかし、リクエスト数(例えば、検索エンジンに提出されたクエリ)が非常に異なるシナリオでは、圧縮言語モデルによって達成される静的トレードオフが必ずしも適合するとは限らない。
モデルが静的なトレードオフでアサインされると、リクエスト数が大きい場合のレイテンシが高過ぎるか、リクエスト数が少ない場合はパフォーマンスが低すぎるという点で不適切な場合がある。
そこで本研究では,要求ストリームに応じてトレードオフを弾性的に調整する弾性言語モデル(ElasticLM)を提案する。
基本的な考え方は、圧縮された言語モデルに計算の弾力性を導入することである。
具体的には,計算弾力性のあるelasticlmを実現するために弾性構造を課し,計算弾力性の下でelasticlmを学ぶための弾性最適化を設計する。
ElasticLMを実現するために,弾力性のあるスケジュールを適用する。
情報検索の特異性を考慮すると,ElasticLM を高密度検索に適用し,ElasticDenser と ElasticRanker をそれぞれ提示する。
オフライン評価は言語理解ベンチマークGLUEで行われ、Natural Question, Trivia QA, MS MARCOなどの情報検索タスクも行われている。
その結果,elasticnum と elasticdenser と elasticranker は静的ベースラインの配列と比較し,精度と競合性が向上した。
さらに、並行性を伴うオンラインシミュレーションも実施する。
その結果、ElasticLMは様々なリクエストストリームに対して、弾性的なトレードオフを提供できることを示した。 Large-scale pretrained language models have achieved compelling performance in a wide range of language understanding and information retrieval tasks. Knowledge distillation offers an opportunity to compress a large language model to a small one, in order to reach a reasonable latency-performance tradeoff. However, for scenarios where the number of requests (e.g., queries submitted to a search engine) is highly variant, the static tradeoff attained by the compressed language model might not always fit. Once a model is assigned with a static tradeoff, it could be inadequate in that the latency is too high when the number of requests is large or the performance is too low when the number of requests is small. To this end, we propose an elastic language model (ElasticLM) that elastically adjusts the tradeoff according to the request stream. The basic idea is to introduce a compute elasticity to the compressed language model, so that the tradeoff could vary on-the-fly along scalable and controllable compute. Specifically, we impose an elastic structure to enable ElasticLM with compute elasticity and design an elastic optimization to learn ElasticLM under compute elasticity. To serve ElasticLM, we apply an elastic schedule. Considering the specificity of information retrieval, we adapt ElasticLM to dense retrieval and reranking and present ElasticDenser and ElasticRanker respectively. Offline evaluation is conducted on a language understanding benchmark GLUE; and several information retrieval tasks including Natural Question, Trivia QA, and MS MARCO. The results show that ElasticLM along with ElasticDenser and ElasticRanker can perform correctly and competitively compared with an array of static baselines. Furthermore, online simulation with concurrency is also carried out. The results demonstrate that ElasticLM can provide elastic tradeoffs with respect to varying request stream. | 翻訳日:2023-11-14 14:48:10 公開日:2023-11-13 |
# 深層学習による非依存環境のための光量子センシング Optical Quantum Sensing for Agnostic Environments via Deep Learning ( http://arxiv.org/abs/2311.07203v1 ) ライセンス: Link先を確認 | Zeqiao Zhou, Yuxuan Du, Xu-Fei Yin, Shanshan Zhao, Xinmei Tian, Dacheng Tao | (参考訳) 光量子センシングは、ハイゼンベルク限界(HL)と呼ばれる古典的なセンサーを超える測定精度を約束する。
しかし、従来の手法はHLを達成するためにターゲットシステムの事前知識に頼り、実用上の課題を提示することが多い。
この制限に対処して,光量子センサによるhl達成を可能にする,革新的な深層学習型量子センシングスキーム(dqs)を提案する。
DQSには、グラフニューラルネットワーク(GNN)予測器と三角補間アルゴリズムの2つの重要なコンポーネントが組み込まれている。
データ駆動のパラダイムで運用されているDQSは、オフラインデータに基づいてトレーニングされたGNN予測器を使用して、プローブ状態の準備に使用される光学装置と、非依存環境との相互作用後に生じる量子フィッシャー情報(QFI)との間の本質的な関係を明らかにする。
この蒸留知識は、最大qfiに関連する最適光学セットアップの同定を容易にする。
その後、DQSは三角補間アルゴリズムを用いて、同定された光学装置の未知パラメータ推定を復元する。
8光子までの異なる条件下でのdqの性能を調べるために広範な実験が行われた。
我々の発見は、光学量子センシングタスクを加速する新しいレンズを提供するだけでなく、深層学習と量子力学を統合する将来の研究を触媒する。 Optical quantum sensing promises measurement precision beyond classical sensors termed the Heisenberg limit (HL). However, conventional methodologies often rely on prior knowledge of the target system to achieve HL, presenting challenges in practical applications. Addressing this limitation, we introduce an innovative Deep Learning-based Quantum Sensing scheme (DQS), enabling optical quantum sensors to attain HL in agnostic environments. DQS incorporates two essential components: a Graph Neural Network (GNN) predictor and a trigonometric interpolation algorithm. Operating within a data-driven paradigm, DQS utilizes the GNN predictor, trained on offline data, to unveil the intrinsic relationships between the optical setups employed in preparing the probe state and the resulting quantum Fisher information (QFI) after interaction with the agnostic environment. This distilled knowledge facilitates the identification of optimal optical setups associated with maximal QFI. Subsequently, DQS employs a trigonometric interpolation algorithm to recover the unknown parameter estimates for the identified optical setups. Extensive experiments are conducted to investigate the performance of DQS under different settings up to eight photons. Our findings not only offer a new lens through which to accelerate optical quantum sensing tasks but also catalyze future research integrating deep learning and quantum mechanics. | 翻訳日:2023-11-14 14:47:40 公開日:2023-11-13 |
# 入力凸LSTM:高速リアプノフモデル予測制御のための凸アプローチ Input Convex LSTM: A Convex Approach for Fast Lyapunov-Based Model Predictive Control ( http://arxiv.org/abs/2311.07202v1 ) ライセンス: Link先を確認 | Zihao Wang, Zhe Wu | (参考訳) 入力凸ニューラルネットワーク(ICNN)を活用し、ICNNベースのモデル予測制御(MPC)は、MPCフレームワーク内の凸性を維持することで、グローバルに最適なソリューションを実現する。
しかし、現在のICNNアーキテクチャでは、複雑なタスクのためのディープニューラルネットワークとして機能する能力を制限するグラデーションの消滅という問題に直面している。
さらに、従来のニューラルネットワークベースのMPCやICNNベースのMPCを含む現在のニューラルネットワークベースのMPCは、第一原理モデルに基づくMPCと比較して収束速度が遅い。
本研究では, リアプノフ系mpcのための新しい入力凸lstmを提案するために, icnnsの原理を活用し, 収束時間を短縮し, 消滅勾配問題を緩和し, 閉ループ安定性を確保した。
非線形ケミカルリアクターのシミュレーション研究から, 消失勾配問題の緩和と収束時間の短縮が観察され, ベースラインrnn, プレーンlstm, 入力凸リカレントニューラルネットワークと比較して46.7%, 31.3%, 20.2%の低下を示した。 Leveraging Input Convex Neural Networks (ICNNs), ICNN-based Model Predictive Control (MPC) successfully attains globally optimal solutions by upholding convexity within the MPC framework. However, current ICNN architectures encounter the issue of vanishing gradients, which limits their ability to serve as deep neural networks for complex tasks. Additionally, the current neural network-based MPC, including conventional neural network-based MPC and ICNN-based MPC, faces slower convergence speed when compared to MPC based on first-principles models. In this study, we leverage the principles of ICNNs to propose a novel Input Convex LSTM for Lyapunov-based MPC, with the specific goal of reducing convergence time and mitigating the vanishing gradient problem while ensuring closed-loop stability. From a simulation study of a nonlinear chemical reactor, we observed a mitigation of vanishing gradient problem and a reduction in convergence time, with a percentage decrease of 46.7%, 31.3%, and 20.2% compared to baseline plain RNN, plain LSTM, and Input Convex Recurrent Neural Network, respectively. | 翻訳日:2023-11-14 14:47:18 公開日:2023-11-13 |
# 騒音存在下での算数公式の学習:教師なし学習の一般的な枠組みと応用 Learning Arithmetic Formulas in the Presence of Noise: A General Framework and Applications to Unsupervised Learning ( http://arxiv.org/abs/2311.07284v1 ) ライセンス: Link先を確認 | Pritam Chandra, Ankit Garg, Neeraj Kayal, Kunal Mittal, Tanmay Sinha | (参考訳) 本稿では,ガウス群や部分空間クラスタリングといった教師なし学習問題の効率的なアルゴリズムを設計するための汎用フレームワークを提案する。
我々のフレームワークは,下界を用いて雑音の存在下で演算回路を学習するメタアルゴリズムに基づいている。
これはGarg, Kayal, Saha (FOCS 20) の最近の研究に基づいており、ノイズなしで算術回路を学習するためのフレームワークを設計した。
我々のメタアルゴリズムの重要な要素は、ロバストベクトル空間分解と呼ばれる新しい問題の効率的なアルゴリズムである。
メタアルゴリズムは、ある行列が十分大きな非零特異値を持つ場合にうまく機能することを示す。
この条件が問題のスムーズな例に当てはまると推測するので、我々のフレームワークはスムーズな設定でこれらの問題に対して効率的なアルゴリズムを生成する。 We present a general framework for designing efficient algorithms for unsupervised learning problems, such as mixtures of Gaussians and subspace clustering. Our framework is based on a meta algorithm that learns arithmetic circuits in the presence of noise, using lower bounds. This builds upon the recent work of Garg, Kayal and Saha (FOCS 20), who designed such a framework for learning arithmetic circuits without any noise. A key ingredient of our meta algorithm is an efficient algorithm for a novel problem called Robust Vector Space Decomposition. We show that our meta algorithm works well when certain matrices have sufficiently large smallest non-zero singular values. We conjecture that this condition holds for smoothed instances of our problems, and thus our framework would yield efficient algorithms for these problems in the smoothed setting. | 翻訳日:2023-11-14 14:40:14 公開日:2023-11-13 |
# frailと高齢者サービスの多地点モデリングのための予測および規範的分析 Predictive and Prescriptive Analytics for Multi-Site Modeling of Frail and Elderly Patient Services ( http://arxiv.org/abs/2311.07283v1 ) ライセンス: Link先を確認 | Elizabeth Williams, Daniel Gartner, Paul Harper | (参考訳) 最近の研究は、予測分析と規範分析のリンクの可能性を強調している。
しかし、今日の医療における大きな課題に対処するために、両方のパラダイムが互いにどのように利益を享受できるかは、いまだに未定である。
そのうちの1つは、高齢者や高齢者の病棟の資源容量のよりスマートな計画であり、高齢化の社会的な課題に対処している。
虚弱や高齢者は通常多病性に悩まされ、治療中により多くのケアを必要とする。
本研究の目的は,様々な予測的および規範的分析手法が,需要が増加している医療分野における運用上の課題への対処にどのように寄与するかを評価することである。
臨床および人口統計学的属性は165,000人以上の患者の記録から収集され、滞在期間の説明と予測に用いられる。
そこで我々は,この関係を確立するために分類・回帰木解析(CART)を用いた。
規範的側面では,決定論的・二段階確率的プログラムが開発され,コストを最小限に抑えるために,ベッドや病棟のスタッフを最適に計画する方法が決定される。
さらに,この2つの分析手法は,カートグルーピングを用いた記述モデルに対する需要を発生させることによって関連付けられる。
その結果,本手法は平均値と比較して異なるが類似した結果が得られ,その結果,患者滞在期間においてより現実的な実世界変動が得られた。
当社の研究は、ヘルスケアマネージャがよりインフォームドな意思決定に予測モデルと規範モデルを使うべきだ、ということを明らかにしています。
予測分析と規範分析を組み合わせることで、医療管理者は平均値に頼ることから離れ、患者のユニークな特徴を取り入れ、より堅牢な計画決定を作成し、需要の変化によるリスクを軽減できる。 Recent research has highlighted the potential of linking predictive and prescriptive analytics. However, it remains widely unexplored how both paradigms could benefit from one another to address today's major challenges in healthcare. One of these is smarter planning of resource capacities for frail and elderly inpatient wards, addressing the societal challenge of an aging population. Frail and elderly patients typically suffer from multimorbidity and require more care while receiving medical treatment. The aim of this research is to assess how various predictive and prescriptive analytical methods, both individually and in tandem, contribute to addressing the operational challenges within an area of healthcare that is growing in demand. Clinical and demographic patient attributes are gathered from more than 165,000 patient records and used to explain and predict length of stay. To that extent, we employ Classification and Regression Trees (CART) analysis to establish this relationship. On the prescriptive side, deterministic and two-stage stochastic programs are developed to determine how to optimally plan for beds and ward staff with the objective to minimize cost. Furthermore, the two analytical methodologies are linked by generating demand for the prescriptive models using the CART groupings. The results show the linked methodologies provided different but similar results compared to using averages and in doing so, captured a more realistic real-world variation in the patient length of stay. Our research reveals that healthcare managers should consider using predictive and prescriptive models to make more informed decisions. By combining predictive and prescriptive analytics, healthcare managers can move away from relying on averages and incorporate the unique characteristics of their patients to create more robust planning decisions, mitigating risks caused by variations in demand. | 翻訳日:2023-11-14 14:39:59 公開日:2023-11-13 |
# AdaCCD:コードクローン検出のためのクロスリンガル適応に基づく適応セマンティックコントラスト探索 AdaCCD: Adaptive Semantic Contrasts Discovery based Cross Lingual Adaptation for Code Clone Detection ( http://arxiv.org/abs/2311.07277v1 ) ライセンス: Link先を確認 | Yangkai Du, Tengfei Ma, Lingfei Wu, Xuhong Zhang, Shouling Ji | (参考訳) 大規模なコードベースから機能的に類似したプログラムを検索するコードクローン検出が注目されている。
現代のソフトウェアは、しばしば多様なプログラミング言語を含む。
しかし、現在のコードクローン検出法は、注釈付きデータやモデル設計の制約が不十分なため、一般的なプログラム言語に限られている。
これらの問題に対処するために、新しい言語におけるクローンコードを検出するための新しい言語間適応法であるAdaCCDを提案する。
AdaCCDは、事前訓練されたプログラミング言語モデルから言語に依存しないコード表現を活用し、リソース豊富な言語からリソース不足言語に知識を移すための適応精製コントラスト学習フレームワークを提案する。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
AdaCCDは他のベースラインよりも大幅に改善され、教師付き微調整に匹敵する。 Code Clone Detection, which aims to retrieve functionally similar programs from large code bases, has been attracting increasing attention. Modern software often involves a diverse range of programming languages. However, current code clone detection methods are generally limited to only a few popular programming languages due to insufficient annotated data as well as their own model design constraints. To address these issues, we present AdaCCD, a novel cross-lingual adaptation method that can detect cloned codes in a new language without any annotations in that language. AdaCCD leverages language-agnostic code representations from pre-trained programming language models and propose an Adaptively Refined Contrastive Learning framework to transfer knowledge from resource-rich languages to resource-poor languages. We evaluate the cross-lingual adaptation results of AdaCCD by constructing a multilingual code clone detection benchmark consisting of 5 programming languages. AdaCCD achieves significant improvements over other baselines, and it is even comparable to supervised fine-tuning. | 翻訳日:2023-11-14 14:39:29 公開日:2023-11-13 |
# 基礎物理学における量子計測:ユーザーマニュアル Quantum measurements in fundamental physics: a user's manual ( http://arxiv.org/abs/2311.07270v1 ) ライセンス: Link先を確認 | Jacob Beckey, Daniel Carney, Giacomo Marocco | (参考訳) 我々は,近年の高エネルギー物理実験において,暗黒物質空洞ハロスコープ,重力波検出器,衝動型機械センサなどの線形量子検出器を体系的に処理する。
これらのデバイスに対する関心信号の結合の導出方法,ノイズスペクトルの算出方法,信号対雑音比,検出感度について述べる。
これらのシステムにおける量子真空と熱雑音の役割を強調する。
最後に,高度な量子技術 – 待ち行列,非デモレーション測定,絡み合い – が,これらの検索を強化するために使用されるか,あるいは現在使用されているかについて検討する。 We give a systematic theoretical treatment of linear quantum detectors used in modern high energy physics experiments, including dark matter cavity haloscopes, gravitational wave detectors, and impulsive mechanical sensors. We show how to derive the coupling of signals of interest to these devices, and how to calculate noise spectra, signal-to-noise ratios, and detection sensitivities. We emphasize the role of quantum vacuum and thermal noise in these systems. Finally, we review ways in which advanced quantum techniques -- squeezing, non-demolition measurements, and entanglement -- can be or currently are used to enhance these searches. | 翻訳日:2023-11-14 14:39:13 公開日:2023-11-13 |
# 真の多部交絡状態の自己検定 Self-testing of true multipartite entangled states ( http://arxiv.org/abs/2311.07266v1 ) ライセンス: Link先を確認 | Ranendu Adhikary, Abhishek Mishra and Ramij Rahaman | (参考訳) セルフテストは、デバイスに依存しない方法で量子状態と測定を認証する方法である。
デバイスに依存しない量子特性の認証は、内部動作に関する最小限の知識を持つ関係するデバイスの入力出力測定統計に基づいている。
両部純絡み状態は自己テスト可能であるが、多部純絡状態の場合、その答えはそれほど単純ではない。
それにもかかわらず、 \v{s}upi\'{c}らは最近、ネットワーク支援を利用して二成分の絡み合った測定に依存する、純粋な絡み合った量子状態に対する新しい自己テスト法を導入した。
したがって、これらのスキームは真のデバイスに依存しない自己テストのフレーバーを失う。
この点に関して、一般化されたハーディ型非局所論法を用いて、真の多部的純粋絡み合い状態に対する自己検証スキームを提供する。
提案手法は局所的操作と古典的通信のみに係わるものであり, 両部交絡測定に依存しず, ネットワーク支援が不要である点に留意する必要がある。
さらに、一般化されたハーディ型非局所性試験の最大成功確率のデバイス非依存境界を提供する。 Self-testing is a method to certify quantum states and measurements in a device-independent way. The device-independent certification of quantum properties is purely based on input-output measurement statistics of the involved devices with minimal knowledge about their internal workings. Bipartite pure entangled states can be self-tested, but, in the case of multipartite pure entangled states, the answer is not so straightforward. Nevertheless, \v{S}upi\'{c} et al. recently introduced a novel self-testing method for any pure entangled quantum state, which leverages network assistance and relies on bipartite entangled measurements. Hence, their scheme loses the true device-independent flavor of self-testing. In this regard, we provide a self-testing scheme for genuine multipartite pure entangle states in the true sense by employing a generalized Hardy-type non-local argument. It is important to note that our approach involves only local operations and classical communications and it does not depend on bipartite entangled measurements and is free from any network assistance. In addition, we provide the device-independent bound of the maximum probability of success of the generalized Hardy-type nonlocality test. | 翻訳日:2023-11-14 14:39:01 公開日:2023-11-13 |
# 商空間量子符号 Quotient Space Quantum Codes ( http://arxiv.org/abs/2311.07265v1 ) ライセンス: Link先を確認 | JingLei Xia | (参考訳) 量子誤り訂正符号は、量子コンピューティングと通信に不可欠である。
現在、これらの符号は、主に加法、非加法、表面符号に分類されている。
加法符号および非加法符号は、安定化器Gの1つ以上の不変部分空間を利用して量子符号を構成する。
したがって、これらの不変部分空間の選択は重要な問題である。
本稿では,商空間符号と商空間量子符号の構成法を導入することにより,この問題に対する解法を提案する。
この新しいフレームワークは、加法と非加法量子符号を統一する。
このフレームワークの特別なケースとして,コードワード安定化符号を実証し,誤り訂正距離を補う。
さらに、この量子符号に対するシングルトン境界の簡単な証明として、商空間符号の符号境界を確立し、純粋かつ不純な符号の符号境界について議論する。
商空間アプローチは量子コードの研究に簡潔で明確な数学的形式を提供する。 Quantum error-correcting codes are crucial for quantum computing and communication. Currently, these codes are mainly categorized into additive, non-additive, and surface codes. Additive and non-additive codes utilize one or more invariant subspaces of the stabilizer G to construct quantum codes. Therefore, the selection of these invariant subspaces is a key issue. In this paper, we propose a solution to this problem by introducing quotient space codes and a construction method for quotient space quantum codes. This new framework unifies additive and non-additive quantum codes. We demonstrate the codeword stabilizer codes as a special case within this framework and supplement its error-correction distance. Furthermore, we provide a simple proof of the Singleton bound for this quantum code by establishing the code bound of quotient space codes and discuss the code bounds for pure and impure codes. The quotient space approach offers a concise and clear mathematical form for the study of quantum codes. | 翻訳日:2023-11-14 14:38:41 公開日:2023-11-13 |
# デンマークの基礎モデル Danish Foundation Models ( http://arxiv.org/abs/2311.07264v1 ) ライセンス: Link先を確認 | Kenneth Enevoldsen, Lasse Hansen, Dan S. Nielsen, Rasmus A. F. Egeb{\ae}k, S{\o}ren V. Holm, Martin C. Nielsen, Martin Bernstorff, Rasmus Larsen, Peter B. J{\o}rgensen, Malte H{\o}jmark-Bertelsen, Peter B. Vahlstrup, Per M{\o}ldrup-Dalum, Kristoffer Nielbo | (参考訳) 大きな言語モデルは、しばしば基礎モデルと呼ばれ、複数の研究分野に変化をもたらした。
しかし、訓練コストが高く、大企業がこれらのモデルを訓練するインセンティブが小さいため、小さな言語が遅れるリスクがある。
これに対抗するため、デンマーク財団モデルプロジェクトは、デンマーク語のオープンで文書化された高品質な基礎モデルを提供し、維持することを目指している。
これは、訓練されたモデルの高いデータ品質と適用性を保証するために、公的および民間機関との広範な協力を通じて達成される。
我々は,プロジェクトのモチベーション,現状,今後の展望について述べる。 Large language models, sometimes referred to as foundation models, have transformed multiple fields of research. However, smaller languages risk falling behind due to high training costs and small incentives for large companies to train these models. To combat this, the Danish Foundation Models project seeks to provide and maintain open, well-documented, and high-quality foundation models for the Danish language. This is achieved through broad cooperation with public and private institutions, to ensure high data quality and applicability of the trained models. We present the motivation of the project, the current status, and future perspectives. | 翻訳日:2023-11-14 14:38:19 公開日:2023-11-13 |
# LT-ViT:マルチラベル胸部X線分類用視覚変換器 LT-ViT: A Vision Transformer for multi-label Chest X-ray classification ( http://arxiv.org/abs/2311.07263v1 ) ライセンス: Link先を確認 | Umar Marikkar and Sara Atito and Muhammad Awais and Adam Mahdi | (参考訳) 視覚トランスフォーマー(vits)は医用画像診断に広く採用されており、胸部x線(cxr)の視覚言語訓練に向けた取り組みも行われている。
しかし,非トランスフォーマーネットワークにおいて有益であることが証明されている複数のスケールからの情報を集約することで,視力のみのトレーニングをViTで行うことが可能である。
そこで我々は,画像トークンとラベルを表すランダム初期化補助トークンを併用した変換器LT-ViTを開発した。
実験により, lt-vit (1) は2つの公開cxrデータセット上で, 純粋vits を用いた最先端性能を上回っており, (2) は他の事前学習法に一般化できるため, モデル初期化には依存せず, (3) grad-cam およびその変種を使わずにモデル解釈が可能となった。 Vision Transformers (ViTs) are widely adopted in medical imaging tasks, and some existing efforts have been directed towards vision-language training for Chest X-rays (CXRs). However, we envision that there still exists a potential for improvement in vision-only training for CXRs using ViTs, by aggregating information from multiple scales, which has been proven beneficial for non-transformer networks. Hence, we have developed LT-ViT, a transformer that utilizes combined attention between image tokens and randomly initialized auxiliary tokens that represent labels. Our experiments demonstrate that LT-ViT (1) surpasses the state-of-the-art performance using pure ViTs on two publicly available CXR datasets, (2) is generalizable to other pre-training methods and therefore is agnostic to model initialization, and (3) enables model interpretability without grad-cam and its variants. | 翻訳日:2023-11-14 14:38:03 公開日:2023-11-13 |
# sketch-based video object segmentation:ベンチマークと分析 Sketch-based Video Object Segmentation: Benchmark and Analysis ( http://arxiv.org/abs/2311.07261v1 ) ライセンス: Link先を確認 | Ruolin Yang, Da Li, Conghui Hu, Timothy Hospedales, Honggang Zhang, Yi-Zhe Song | (参考訳) 参照ベースのビデオオブジェクトセグメンテーションは、言語表現やフォトマスクなど、所定の参照によって参照されるビデオフレームごとに対応するターゲットオブジェクトをセグメンテーションすることを目的とした、新たなトピックである。
しかし、あるフレーム内の類似したオブジェクトが言語によって区別するのが困難である場合、言語表現は意図された概念を伝える際に曖昧になることがある。
一方、写真マスクは注釈を付けるのに費用がかかり、実際のアプリケーションでは実用的ではない。
本稿では,スケッチベースのビデオオブジェクトセグメンテーション,関連するベンチマーク,強力なベースラインについて紹介する。
私たちのベンチマークには、3つのデータセット、Sketch-DAVIS16、Sketch-DAVIS17、Sketch-YouTube-VOSが含まれています。
我々は、半教師付きVOSタスクの一般的なベースラインであるSTCNを活用し、スケッチ参照を組み込む上で最も効果的な設計が何かを評価する。
実験の結果、スケッチは、写真マスク、言語、スクリブルといった他の参照よりも効果的だがアノテーション効率が高いことがわかった。 Reference-based video object segmentation is an emerging topic which aims to segment the corresponding target object in each video frame referred by a given reference, such as a language expression or a photo mask. However, language expressions can sometimes be vague in conveying an intended concept and ambiguous when similar objects in one frame are hard to distinguish by language. Meanwhile, photo masks are costly to annotate and less practical to provide in a real application. This paper introduces a new task of sketch-based video object segmentation, an associated benchmark, and a strong baseline. Our benchmark includes three datasets, Sketch-DAVIS16, Sketch-DAVIS17 and Sketch-YouTube-VOS, which exploit human-drawn sketches as an informative yet low-cost reference for video object segmentation. We take advantage of STCN, a popular baseline of semi-supervised VOS task, and evaluate what the most effective design for incorporating a sketch reference is. Experimental results show sketch is more effective yet annotation-efficient than other references, such as photo masks, language and scribble. | 翻訳日:2023-11-14 14:37:30 公開日:2023-11-13 |
# TIAGo RL:移動ロボットの触覚データを用いた強化学習環境のシミュレーション TIAGo RL: Simulated Reinforcement Learning Environments with Tactile Data for Mobile Robots ( http://arxiv.org/abs/2311.07260v1 ) ライセンス: Link先を確認 | Luca Lach, Francesco Ferro, Robert Haschke | (参考訳) 触覚情報は、オブジェクト操作などの物理的相互作用を含むロボットタスクにおいて、堅牢なパフォーマンスのために重要である。
しかし、推論と制御プロセスに含まれるデータが増えれば、モデリングの動作はますます困難になる。
深層強化学習(drl)は,触覚に基づくロボット操作を含む,さまざまな領域における複雑な行動の学習に有望な結果をもたらした。
本研究では,TAAGoサービスロボットのためのオープンソースの強化学習環境を提案する。
触覚センサーは、TAAGo用の本物のセンサーグリップに似ており、DRLポリシーの伝達学習の研究を奨励している。
最後に,学習力制御方針の予備訓練結果を示し,従来のpiコントローラと比較する。 Tactile information is important for robust performance in robotic tasks that involve physical interaction, such as object manipulation. However, with more data included in the reasoning and control process, modeling behavior becomes increasingly difficult. Deep Reinforcement Learning (DRL) produced promising results for learning complex behavior in various domains, including tactile-based manipulation in robotics. In this work, we present our open-source reinforcement learning environments for the TIAGo service robot. They produce tactile sensor measurements that resemble those of a real sensorised gripper for TIAGo, encouraging research in transfer learning of DRL policies. Lastly, we show preliminary training results of a learned force control policy and compare it to a classical PI controller. | 翻訳日:2023-11-14 14:36:53 公開日:2023-11-13 |
# マルコフ等価性下における因果効果のバウンディングに向けて Towards Bounding Causal Effects under Markov Equivalence ( http://arxiv.org/abs/2311.07259v1 ) ライセンス: Link先を確認 | Alexis Bellot | (参考訳) 未発見の介入の効果を予測することは、データサイエンス全体の基本的な研究課題である。
一般に、そのような質問が観測データから決定的に答えられないことは、例えば、観測されていない不確実性の結果である。
このタスクの一般化は、データによって引き起こされる因果効果の非自明な境界を決定することである。
文献では、この問題を解くためにいくつかのアルゴリズムが開発されている。
しかし、ほとんどの場合、既知のパラメトリック形式や完全に特定された因果図を入力として必要としており、これは通常、実用的な用途では利用できない。
本稿では, 因果図のマルコフ同値クラスを表現し, 観測データから学習可能な部分アンセストラルグラフ (Partial Ancestral Graph) と呼ばれる少ない情報構造を入力として仮定する。
このより「データ駆動」な設定では、分析的に計算できる因果効果の境界を導出する体系的なアルゴリズムを提供する。 Predicting the effect of unseen interventions is a fundamental research question across the data sciences. It is well established that, in general, such questions cannot be answered definitively from observational data, e.g., as a consequence of unobserved confounding. A generalization of this task is to determine non-trivial bounds on causal effects induced by the data, also known as the task of partial causal identification. In the literature, several algorithms have been developed for solving this problem. Most, however, require a known parametric form or a fully specified causal diagram as input, which is usually not available in practical applications. In this paper, we assume as input a less informative structure known as a Partial Ancestral Graph, which represents a Markov equivalence class of causal diagrams and is learnable from observational data. In this more "data-driven" setting, we provide a systematic algorithm to derive bounds on causal effects that can be computed analytically. | 翻訳日:2023-11-14 14:36:13 公開日:2023-11-13 |
# 量子格子上の波束ダイナミクスのコヒーレント空間制御 Coherent spatial control of wave packet dynamics on quantum lattices ( http://arxiv.org/abs/2311.07254v1 ) ライセンス: Link先を確認 | Ilia Tutunnikov, Chern Chuang, Jianshu Cao | (参考訳) 量子格子は、量子材料と情報科学の急成長する分野において重要である。
顕微鏡と量子工学の急速な発展により、空間分解能と時間分解能が増大する量子格子上での波束力学の準備とモニタリングが可能となった。
これらの研究の関心に触発され、確率雑音を受ける強結合量子格子上の波状パケットの拡散率と拡散長の解析的研究を行った。
Our analysis points to the crucial role of spatial coherence and predicts a set of novel phenomena: noise can enhance the transient diffusivity and diffusion length of sufficiently extended initial states; A smooth Gaussian initial state spreads slower than a localized initial state; A standing or traveling initial state with large momentum spreads faster than a localized initial state and exhibits a noise-induced peak in the transient diffusivity; The change in the time-dependent diffusivity and diffusion length relative to a localized initial state follows a universal dependence on the Gaussian width.
これらの理論的予測と空間コヒーレンスの基本機構は、物質科学や量子技術に影響を及ぼす空間操作によって量子格子上の波束ダイナミクスを制御する可能性を示唆している。 Quantum lattices are pivotal in the burgeoning fields of quantum materials and information science. Rapid developments in microscopy and quantum engineering allow for preparing and monitoring wave-packet dynamics on quantum lattices with increasing spatial and temporal resolution. Motivated by these emerging research interests, we present an analytical study of wave packet diffusivity and diffusion length on tight-binding quantum lattices subject to stochastic noise. Our analysis points to the crucial role of spatial coherence and predicts a set of novel phenomena: noise can enhance the transient diffusivity and diffusion length of sufficiently extended initial states; A smooth Gaussian initial state spreads slower than a localized initial state; A standing or traveling initial state with large momentum spreads faster than a localized initial state and exhibits a noise-induced peak in the transient diffusivity; The change in the time-dependent diffusivity and diffusion length relative to a localized initial state follows a universal dependence on the Gaussian width. These theoretical predictions and the underlying mechanism of spatial coherence suggest the possibility of controlling the wave packet dynamics on quantum lattices by spatial manipulations, which will have implications for materials science and quantum technologies. | 翻訳日:2023-11-14 14:35:51 公開日:2023-11-13 |
# 自動車レーダデータに対する移動物体の同時クラッタ検出とセマンティックセグメンテーション Simultaneous Clutter Detection and Semantic Segmentation of Moving Objects for Automotive Radar Data ( http://arxiv.org/abs/2311.07247v1 ) ライセンス: Link先を確認 | Johannes Kopp, Dominik Kellner, Aldi Piroli, Vinzenz Dallabetta, Klaus Dietmayer | (参考訳) レーダーセンサーの独特の特性、例えば悪天候に対する堅牢性は、自動運転車の環境認識システムにおいて重要な要素となっている。
レーダーポイント雲の処理における最初のステップの1つは、しばしばクラッター、すなわち実際の物体と一致しない誤点の検出である。
もう一つの一般的な目的は、移動道路利用者のセマンティックセグメンテーションである。
これら2つの問題は文学において互いに厳密に分離される。
ニューラルネットワークは、常にタスクの1つだけに集中している。
これとは対照的に,1つの共用モデルで2つのタスクを同時に解決する方法を検討する。
新たな拡張マルチヘッドアーキテクチャに加えて,2つのタスクに対するネットワークの予測を1つの出力値で表現する手法も考案した。
この手法により,従来のタスク固有モデルと同じ推論時間でタスクを同時に解くことができる。
広範な評価では,radarscenesデータセット上でのセマンティクスセグメンテーションにおいて,既存のネットワークを上回っており,非常に効果的であることを示す。 The unique properties of radar sensors, such as their robustness to adverse weather conditions, make them an important part of the environment perception system of autonomous vehicles. One of the first steps during the processing of radar point clouds is often the detection of clutter, i.e. erroneous points that do not correspond to real objects. Another common objective is the semantic segmentation of moving road users. These two problems are handled strictly separate from each other in literature. The employed neural networks are always focused entirely on only one of the tasks. In contrast to this, we examine ways to solve both tasks at the same time with a single jointly used model. In addition to a new augmented multi-head architecture, we also devise a method to represent a network's predictions for the two tasks with only one output value. This novel approach allows us to solve the tasks simultaneously with the same inference time as a conventional task-specific model. In an extensive evaluation, we show that our setup is highly effective and outperforms every existing network for semantic segmentation on the RadarScenes dataset. | 翻訳日:2023-11-14 14:35:25 公開日:2023-11-13 |
# 触覚に基づく連続力制御政策のシミュレーションからロボットへ Towards Transferring Tactile-based Continuous Force Control Policies from Simulation to Robot ( http://arxiv.org/abs/2311.07245v1 ) ライセンス: Link先を確認 | Luca Lach, Robert Haschke, Davide Tateo, Jan Peters, Helge Ritter, J\'ulia Borr\`as, Carme Torras | (参考訳) ロボット工学における触覚センサーの出現は、ロボットが環境相互作用の直接接触測定を活用して操作作業を改善する方法について、多くのアイデアを生み出した。
この点で重要な研究は、物体に作用する力量を制限することで、物体を安全に操作することを目的とした把持力制御である。
従来の作業では,手動制御,モデルベースアプローチ,あるいはsim-to-realトランスファーを示さなかったが,シミュレーションで訓練されたモデルフリーの深部強化学習手法を提案し,さらに微調整を行なわずにロボットに移行した。
そこで,我々は,連続的な力制御政策を訓練するために使用する,現実的な正常な力を生み出すシミュレーション環境を提案する。
ベースラインと比較し, アブレーション実験を行った結果, 提案手法がハンドモデルベースラインよりも優れており, 提案する帰納的バイアスとドメインランダム化がsim-to-real転送を促進することがわかった。
コード、モデル、補足ビデオはhttps://sites.google.com/view/rl-force-ctrlで入手できる。 The advent of tactile sensors in robotics has sparked many ideas on how robots can leverage direct contact measurements of their environment interactions to improve manipulation tasks. An important line of research in this regard is that of grasp force control, which aims to manipulate objects safely by limiting the amount of force exerted on the object. While prior works have either hand-modeled their force controllers, employed model-based approaches, or have not shown sim-to-real transfer, we propose a model-free deep reinforcement learning approach trained in simulation and then transferred to the robot without further fine-tuning. We therefore present a simulation environment that produces realistic normal forces, which we use to train continuous force control policies. An evaluation in which we compare against a baseline and perform an ablation study shows that our approach outperforms the hand-modeled baseline and that our proposed inductive bias and domain randomization facilitate sim-to-real transfer. Code, models, and supplementary videos are available on https://sites.google.com/view/rl-force-ctrl | 翻訳日:2023-11-14 14:35:08 公開日:2023-11-13 |
# ロングテール探索:論理ルールガイドによるロングテール知識の体系的生成 In Search of the Long-Tail: Systematic Generation of Long-Tail Knowledge via Logical Rule Guided Search ( http://arxiv.org/abs/2311.07237v1 ) ライセンス: Link先を確認 | Huihan Li, Yuting Ning, Zeyi Liao, Siyuan Wang, Xiang Lorraine Li, Ximing Lu, Faeze Brahman, Wenting Zhao, Yejin Choi, Xiang Ren | (参考訳) 大きな言語モデルが多くのタスクで人間レベルのパフォーマンスに近づきつつあるため、研究者はモデルにまだ挑戦しているタスクを見つけることがますます難しくなっている。
障害ケースは通常、長い尾の分布から来ます - オラクル言語モデルがその分布の下部に確率を割り当てることのできるデータです。
プロンプトエンジニアリングやクラウドソーシングのような現在の方法論は、人間が認知バイアスに拘束されているため、長い尾の例を作成するには不十分である。
本稿では,Lar-tail knowledge文を体系的に生成する Logic-induced-Knowledge-Search (LINK) フレームワークを提案する。
まず LLM をプロンプトし,その値の正しさを批評家で検証し,最後にリランカでロングテール分布を推し進めることで,ルールの各変数のロングテール値を探索する。
このフレームワークでは、4つのドメインにまたがる200のシンボリックルールと50Kの知識ステートメントからなるデータセット、Logic-induced-Long-Tail (LINT)を構築します。
人間のアノテーションは、LINTのステートメントの84%が実際正しいことに気付きます。
それとは対照的に、ChatGPTとGPT4は論理規則の指導の下で直接ロングテールステートメントを生成するのに苦労しており、それぞれが正しい文の56%と78%しか得られていない。
さらに、彼らの「長い尾」世代は実際には高い可能性範囲に落ちているので、実際には長い尾ではない。
その結果,LINKは品質を保ちながら長期分布のデータ生成に有効であることが示唆された。
LINTは長期分布におけるLLMの能力を体系的に評価するのに有用である。
LINT のサンプルを用いて,簡単な細部分類タスクでモデルに挑戦する。
chatgpt と gpt4 の誤認識能力は, 頭部分布と比較して, ロングテール分布の約3%減少することがわかった。 Since large language models have approached human-level performance on many tasks, it has become increasingly harder for researchers to find tasks that are still challenging to the models. Failure cases usually come from the long-tail distribution - data that an oracle language model could assign a probability on the lower end of its distribution. Current methodology such as prompt engineering or crowdsourcing are insufficient for creating long-tail examples because humans are constrained by cognitive bias. We propose a Logic-Induced-Knowledge-Search (LINK) framework for systematically generating long-tail knowledge statements. Grounded by a symbolic rule, we search for long-tail values for each variable of the rule by first prompting a LLM, then verifying the correctness of the values with a critic, and lastly pushing for the long-tail distribution with a reranker. With this framework we construct a dataset, Logic-Induced-Long-Tail (LINT), consisting of 200 symbolic rules and 50K knowledge statements spanning across four domains. Human annotations find that 84% of the statements in LINT are factually correct. In contrast, ChatGPT and GPT4 struggle with directly generating long-tail statements under the guidance of logic rules, each only getting 56% and 78% of their statements correct. Moreover, their "long-tail" generations in fact fall into the higher likelihood range, and thus are not really long-tail. Our findings suggest that LINK is effective for generating data in the long-tail distribution while enforcing quality. LINT can be useful for systematically evaluating LLMs' capabilities in the long-tail distribution. We challenge the models with a simple entailment classification task using samples from LINT. We find that ChatGPT and GPT4's capability in identifying incorrect knowledge drop by ~3% in the long-tail distribution compared to head distribution. | 翻訳日:2023-11-14 14:34:48 公開日:2023-11-13 |
# ルール学習による説明可能な分類のための投票アプローチ A Voting Approach for Explainable Classification with Rule Learning ( http://arxiv.org/abs/2311.07323v1 ) ライセンス: Link先を確認 | Albert N\"ossig, Tobias Hell, Georg Moser | (参考訳) 典型的な分類タスクにおける最先端の結果は、主に深層ニューラルネットワークのような説明不能な機械学習手法によって達成される。
本稿では,このような文脈におけるルール学習手法の適用について検討する。
したがって、分類は理解可能な(一階の)規則に基づいており、予測を説明する。
しかし、一般的には、規則に基づく分類は最先端の結果よりも正確ではない(しばしば顕著に)。
主な貢献として,両世界を組み合わせた投票手法を導入し,比較結果を(説明不能な)最先端の手法として実現し,決定論的ルールの形での説明を継続する。
保険業界に多大な関心を寄せるユースケースを含む様々なベンチマークデータセットを考慮して,本手法が通常のルール学習手法を明らかに上回るだけでなく,最先端の成果に匹敵する結果が得られることを実証する。 State-of-the-art results in typical classification tasks are mostly achieved by unexplainable machine learning methods, like deep neural networks, for instance. Contrarily, in this paper, we investigate the application of rule learning methods in such a context. Thus, classifications become based on comprehensible (first-order) rules, explaining the predictions made. In general, however, rule-based classifications are less accurate than state-of-the-art results (often significantly). As main contribution, we introduce a voting approach combining both worlds, aiming to achieve comparable results as (unexplainable) state-of-the-art methods, while still providing explanations in the form of deterministic rules. Considering a variety of benchmark data sets including a use case of significant interest to insurance industries, we prove that our approach not only clearly outperforms ordinary rule learning methods, but also yields results on a par with state-of-the-art outcomes. | 翻訳日:2023-11-14 14:26:36 公開日:2023-11-13 |
# ドットの接続: グラフニューラルネットワークを用いたアンサンブルと医用画像の分類 Connecting the Dots: Graph Neural Network Powered Ensemble and Classification of Medical Images ( http://arxiv.org/abs/2311.07321v1 ) ライセンス: Link先を確認 | Aryan Singh, Pepijn Van de Ven, Ciar\'an Eising, Patrick Denny | (参考訳) 深層学習モデルは、医療画像の領域を含む様々なコンピュータビジョンタスクにおいて顕著な結果を示した。
しかし、医療分野での応用は、大量のトレーニングデータを必要とするため制限されているため、入手は困難かつ費用がかかる可能性がある。
これを軽減するため、事前学習されたモデルはドメイン固有のデータに基づいて微調整されているが、そのようなアプローチは帰納的バイアスに苦しむことがある。
さらに、深層学習モデルは、畳み込み操作がすべてのピクセルを等しく扱うため、空間的に離れた特徴とその重要性の関係を知るのに苦労している。
この課題に対する新しい解法を開拓し,画像フォレスティング変換を用いて画像を最適にスーパーピクセルに分割する。
これらのスーパーピクセルはグラフ構造データに変換され、グラフニューラルネットワーク(gnn)を使用して特徴の熟練した抽出と関係のモデリングが可能になる。
本手法は, 3種類のgnnアーキテクチャを用いたロバスト性向上手法である。
肺炎の分類を目標とした評価では,従来のディープニューラルネットワーク (dnn) を性能面で上回り,パラメータ数を大幅に削減した。
これはデータに関連するコストを削減するだけでなく、トレーニングを加速しバイアスを最小限にする。
その結果、医用画像分類のための頑丈で経済的に実現可能でスケーラブルな戦略が提案され、広範囲なトレーニングデータセットへの依存を著しく減らした。 Deep learning models have demonstrated remarkable results for various computer vision tasks, including the realm of medical imaging. However, their application in the medical domain is limited due to the requirement for large amounts of training data, which can be both challenging and expensive to obtain. To mitigate this, pre-trained models have been fine-tuned on domain-specific data, but such an approach can suffer from inductive biases. Furthermore, deep learning models struggle to learn the relationship between spatially distant features and their importance, as convolution operations treat all pixels equally. Pioneering a novel solution to this challenge, we employ the Image Foresting Transform to optimally segment images into superpixels. These superpixels are subsequently transformed into graph-structured data, enabling the proficient extraction of features and modeling of relationships using Graph Neural Networks (GNNs). Our method harnesses an ensemble of three distinct GNN architectures to boost its robustness. In our evaluations targeting pneumonia classification, our methodology surpassed prevailing Deep Neural Networks (DNNs) in performance, all while drastically cutting down on the parameter count. This not only trims down the expenses tied to data but also accelerates training and minimizes bias. Consequently, our proposition offers a sturdy, economically viable, and scalable strategy for medical image classification, significantly diminishing dependency on extensive training data sets. | 翻訳日:2023-11-14 14:26:23 公開日:2023-11-13 |
# 神経科学のための強化学習入門 An introduction to reinforcement learning for neuroscience ( http://arxiv.org/abs/2311.07315v1 ) ライセンス: Link先を確認 | Kristopher T. Jensen | (参考訳) 強化学習は、時間差学習のための報酬予測エラー信号としてのドーパミンの初期の研究(Schultz et al., 1997)から、最近の研究は、ドーパミンが深層学習で普及した「分配強化学習」の形式を実装可能であることを示唆している(Dabney et al., 2020)。
この論文を通して、強化学習の理論的進歩と神経科学実験と研究結果の間には密接な関係がある。
その結果、実験データを記述する理論はますます複雑になり、ナビゲートが難しくなっている。
本稿では、強化学習における古典的研究の基礎的理論を概説し、システム神経科学の応用を見いだした現代の深層強化学習における手法の入門的概要を構築する。
まず,強化学習問題と古典的時間差アルゴリズムの概観から始め,次は「モデルフリー」と「モデルベース」の強化学習について,dyna などの手法とこれら2つのカテゴリの間に存在する後継表現について論じる。
これらのセクションを通じて、実験と理論両方の神経科学における機械学習手法と関連する研究の類似点を強調した。
次に,これらの手法が,メタ強化学習 (wang et al., 2018) や分布強化学習 (dabney et al., 2020) など,神経科学文献における異なる学習現象のモデル化にどのように使われているかを示す。
この作業で議論されたメソッドを実装し、図を生成するコードも提供される。 Reinforcement learning has a rich history in neuroscience, from early work on dopamine as a reward prediction error signal for temporal difference learning (Schultz et al., 1997) to recent work suggesting that dopamine could implement a form of 'distributional reinforcement learning' popularized in deep learning (Dabney et al., 2020). Throughout this literature, there has been a tight link between theoretical advances in reinforcement learning and neuroscientific experiments and findings. As a result, the theories describing our experimental data have become increasingly complex and difficult to navigate. In this review, we cover the basic theory underlying classical work in reinforcement learning and build up to an introductory overview of methods used in modern deep reinforcement learning that have found applications in systems neuroscience. We start with an overview of the reinforcement learning problem and classical temporal difference algorithms, followed by a discussion of 'model-free' and 'model-based' reinforcement learning together with methods such as DYNA and successor representations that fall in between these two categories. Throughout these sections, we highlight the close parallels between the machine learning methods and related work in both experimental and theoretical neuroscience. We then provide an introduction to deep reinforcement learning with examples of how these methods have been used to model different learning phenomena in the systems neuroscience literature, such as meta-reinforcement learning (Wang et al., 2018) and distributional reinforcement learning (Dabney et al., 2020). Code that implements the methods discussed in this work and generates the figures is also provided. | 翻訳日:2023-11-14 14:25:59 公開日:2023-11-13 |
# 大言語モデルからの遠隔監視による文書レベル関係抽出のための半自動的データ拡張 Semi-automatic Data Enhancement for Document-Level Relation Extraction with Distant Supervision from Large Language Models ( http://arxiv.org/abs/2311.07314v1 ) ライセンス: Link先を確認 | Junpeng Li, Zixia Jia, Zilong Zheng | (参考訳) 長い文脈から関係を抽出することを目的とした文書レベルの関係抽出(DocRE)は,詳細な構造的理解と解釈可能な文書表現の生成において重要な課題である。
近年,ChatGPTのような大規模言語モデル(LLM)から生まれた文脈内学習能力の進歩に触発されて,DocREの自動アノテーション手法を人間に最小限の努力で設計することを目指している。
不運なことに、Vanilla in-context Learningは、事前定義された細粒度関係型と制御されていないLLM世代のため、文書レベルの関係抽出には有効ではない。
この問題に対処するために,大規模言語モデル(LLM)と自然言語推論(NLI)モジュールを統合する手法を提案する。
我々は,多くの長尾関係型を再注釈するDocGNREと呼ばれる拡張データセットを導入することで,アプローチの有効性を実証する。
我々は,本手法がドメイン固有関係型定義における広範な応用の可能性を保持し,一般化された言語意味理解の進展に有意義なメリットをもたらすと確信している。 Document-level Relation Extraction (DocRE), which aims to extract relations from a long context, is a critical challenge in achieving fine-grained structural comprehension and generating interpretable document representations. Inspired by recent advances in in-context learning capabilities emergent from large language models (LLMs), such as ChatGPT, we aim to design an automated annotation method for DocRE with minimum human effort. Unfortunately, vanilla in-context learning is infeasible for document-level relation extraction due to the plenty of predefined fine-grained relation types and the uncontrolled generations of LLMs. To tackle this issue, we propose a method integrating a large language model (LLM) and a natural language inference (NLI) module to generate relation triples, thereby augmenting document-level relation datasets. We demonstrate the effectiveness of our approach by introducing an enhanced dataset known as DocGNRE, which excels in re-annotating numerous long-tail relation types. We are confident that our method holds the potential for broader applications in domain-specific relation type definitions and offers tangible benefits in advancing generalized language semantic comprehension. | 翻訳日:2023-11-14 14:25:31 公開日:2023-11-13 |
# C-Procgen: 制御可能なコンテキストでProcgenを強化する C-Procgen: Empowering Procgen with Controllable Contexts ( http://arxiv.org/abs/2311.07312v1 ) ライセンス: Link先を確認 | Zhenxiong Tan, Kaixin Wang and Xinchao Wang | (参考訳) 本稿では,Procgenベンチマーク上に拡張された環境スイートであるC-Procgenを紹介する。
C-Procgenは16ゲームに200以上のユニークなゲームコンテキストを提供する。
ゲームメカニズムからエージェント属性まで、環境の詳細な設定が可能になる。
これにより、プロシージャ生成プロセス(以前はプロシージャーのブラックボックス)は、様々な研究ニーズに対してより透明で適応可能となり、このアップグレードは、計算効率を維持しつつ、動的コンテキスト管理と個別化割り当てを強化している。
c-procgenの制御可能なコンテキストは、学習ダイナミクス分析、カリキュラム学習、転校学習など、様々な強化学習研究分野に適用できる。
我々はC-Procgenが現在の文献のギャップを埋め、将来の研究に有用なツールキットを提供すると考えている。 We present C-Procgen, an enhanced suite of environments on top of the Procgen benchmark. C-Procgen provides access to over 200 unique game contexts across 16 games. It allows for detailed configuration of environments, ranging from game mechanics to agent attributes. This makes the procedural generation process, previously a black-box in Procgen, more transparent and adaptable for various research needs.The upgrade enhances dynamic context management and individualized assignments, while maintaining computational efficiency. C-Procgen's controllable contexts make it applicable in diverse reinforcement learning research areas, such as learning dynamics analysis, curriculum learning, and transfer learning. We believe that C-Procgen will fill a gap in the current literature and offer a valuable toolkit for future works. | 翻訳日:2023-11-14 14:25:09 公開日:2023-11-13 |
# 大規模言語モデルと人間は、スクリプト知識と因果推論に類似した振る舞いを持つか? Do large language models and humans have similar behaviors in causal inference with script knowledge? ( http://arxiv.org/abs/2311.07311v1 ) ライセンス: Link先を確認 | Xudong Hong, Margarita Ryzhova, Daniel Adrian Biondi and Vera Demberg | (参考訳) 近年,大規模な事前学習型言語モデル (LLM) は,ゼロショット因果推論を含む優れた言語理解能力を示している。
しかし、その能力がどの程度人間に類似しているかは不明である。
ここでは、スクリプトベースのストーリーにおけるイベント$b$の処理を研究します。
私たちの操作では、Event $A$はテキストの以前のセクションで記述、無効化、または省略されます。
まず,人間は論理的条件下(A \rightarrow B$)よりも,因果的衝突が存在する場合(A \rightarrow B$)の読解時間が有意に長いことを示した。
しかし、A原因が明記されていない場合の読解時間は類似しており、人間がスクリプトの知識から容易にB事象を推測できることを示している。
次に、同じデータ上でさまざまなLSMをテストし、モデルが人間の行動をどの程度再現するかを確認しました。
私たちの実験は
1) GPT-3 や Vicuna のような最近の LLM は、$\neg A \rightarrow B$ 条件における人間の行動と相関している。
2) この相関にもかかわらず、すべてのモデルは、$nil \rightarrow b$が$\neg a \rightarrow b$よりも意外ではないと予測できない。
私たちのコードと収集したデータセットは、https://github.com/tony-hong/causal-scriptで利用可能です。 Recently, large pre-trained language models (LLMs) have demonstrated superior language understanding abilities, including zero-shot causal reasoning. However, it is unclear to what extent their capabilities are similar to human ones. We here study the processing of an event $B$ in a script-based story, which causally depends on a previous event $A$. In our manipulation, event $A$ is stated, negated, or omitted in an earlier section of the text. We first conducted a self-paced reading experiment, which showed that humans exhibit significantly longer reading times when causal conflicts exist ($\neg A \rightarrow B$) than under logical conditions ($A \rightarrow B$). However, reading times remain similar when cause A is not explicitly mentioned, indicating that humans can easily infer event B from their script knowledge. We then tested a variety of LLMs on the same data to check to what extent the models replicate human behavior. Our experiments show that 1) only recent LLMs, like GPT-3 or Vicuna, correlate with human behavior in the $\neg A \rightarrow B$ condition. 2) Despite this correlation, all models still fail to predict that $nil \rightarrow B$ is less surprising than $\neg A \rightarrow B$, indicating that LLMs still have difficulties integrating script knowledge. Our code and collected data set are available at https://github.com/tony-hong/causal-script. | 翻訳日:2023-11-14 14:24:57 公開日:2023-11-13 |
# テキストリッチVQAにどのような大きな言語モデルをもたらすか? What Large Language Models Bring to Text-rich VQA? ( http://arxiv.org/abs/2311.07306v1 ) ライセンス: Link先を確認 | Xuejing Liu, Wei Tang, Xinzhe Ni, Jinghui Lu, Rui Zhao, Zechao Li and Fei Tan | (参考訳) テキストリッチなVQA、すなわち画像中のテキスト認識に基づくビジュアル質問回答は、画像理解とテキスト認識の両方を必要とする横断的なタスクである。
本研究では,この問題に対処するLLMベースのアプローチの利点とボトルネックについて検討する。
上記の懸念に対処するため、我々は視覚と言語モジュールを分離し、外部のOCRモデルを利用して画像中のテキストを認識し、Large Language Models (LLMs) で与えられたテキストに答える。
フレームワーク全体が、LLMのコンテキスト内能力の恩恵を受けることなくトレーニングできる。
このパイプラインは、既存のMLLM(Multimodal Large Language Models)の4つのテキストリッチVQAデータセットと比較して、優れたパフォーマンスを実現した。
また, アブレーション研究から, LLMはより強力な理解能力をもたらし, VQA問題に有用な知識をもたらす可能性が示唆された。
LLMがテキストリッチなVQA問題に対処するボトルネックは主に視覚的部分にあるかもしれない。
また,OCRモジュールとMLLMを組み合わせることで,OCRモジュールとMLLMの組み合わせも有効であることがわかった。
すべてのmllmがocr情報を理解できるわけではないので、llmの能力を維持するmllmのトレーニング方法についての洞察が得られます。 Text-rich VQA, namely Visual Question Answering based on text recognition in the images, is a cross-modal task that requires both image comprehension and text recognition. In this work, we focus on investigating the advantages and bottlenecks of LLM-based approaches in addressing this problem. To address the above concern, we separate the vision and language modules, where we leverage external OCR models to recognize texts in the image and Large Language Models (LLMs) to answer the question given texts. The whole framework is training-free benefiting from the in-context ability of LLMs. This pipeline achieved superior performance compared to the majority of existing Multimodal Large Language Models (MLLM) on four text-rich VQA datasets. Besides, based on the ablation study, we find that LLM brings stronger comprehension ability and may introduce helpful knowledge for the VQA problem. The bottleneck for LLM to address text-rich VQA problems may primarily lie in visual part. We also combine the OCR module with MLLMs and pleasantly find that the combination of OCR module with MLLM also works. It's worth noting that not all MLLMs can comprehend the OCR information, which provides insights into how to train an MLLM that preserves the abilities of LLM. | 翻訳日:2023-11-14 14:24:31 公開日:2023-11-13 |
# 時間遅延を伴う連続コヒーレント量子フィードバック:テンソルネットワークソリューション Continuous Coherent Quantum Feedback with Time Delays: Tensor Network Solution ( http://arxiv.org/abs/2311.07302v1 ) ライセンス: Link先を確認 | Kseniia Vodenkova, Hannes Pichler | (参考訳) 本稿では,時間遅延を特徴とするコヒーレント量子フィードバックループに結合した量子光学系問題を解く新しい手法を提案する。
本手法は,そのような非マルコフ問題から等価マルコフ駆動散逸量子多体問題への厳密なマッピングに基づいている。
本研究は, 得られたマルコフ量子多体問題を, 数点離れた導波路に結合した駆動量子系からなる一連のパラダイム的な例に対して, テンソルネットワーク法を用いて, 正確に, 効率的に解けることを示す。
特に,本手法は,遅延線における任意の長時間遅延問題や任意の数の励磁問題など,これまで到達不能な問題を解くことができることを示す。
我々は、これら全てのレジームにおける定常状態と同様に、完全なリアルタイムダイナミクスのためのソリューションを得る。
最後に,本研究の結果に動機づけられて,半解析的に解を見つけ出し,この近似が正確なテンソルネットワーク結果とよく一致するパラメータレジームを同定する,新しい平均場法を開発した。 In this paper we develop a novel method to solve problems involving quantum optical systems coupled to coherent quantum feedback loops featuring time delays. Our method is based on exact mappings of such non-Markovian problems to equivalent Markovian driven dissipative quantum many-body problems. In this work we show that the resulting Markovian quantum many-body problems can be solved (numerically) exactly and efficiently using tensor network methods for a series of paradigmatic examples, consisting of driven quantum systems coupled to waveguides at several distant points. In particular, we show that our method allows solving problems in so far inaccessible regimes, including problems with arbitrary long time delays and arbitrary numbers of excitations in the delay lines. We obtain solutions for the full real-time dynamics as well as the steady state in all these regimes. Finally, motivated by our results, we develop a novel mean-field approach, which allows us to find the solution semi-analytically and identify parameter regimes where this approximation is in excellent agreement with our exact tensor network results. | 翻訳日:2023-11-14 14:24:11 公開日:2023-11-13 |
# 特徴量に基づく局所化のための動的重み付け因子グラフ Dynamically Weighted Factor-Graph for Feature-based Geo-localization ( http://arxiv.org/abs/2311.07301v1 ) ライセンス: Link先を確認 | Miguel \'Angel Mu\~noz-Ba\~n\'on, Alejandro Olivas, Edison Velasco-S\'anchez, Francisco A. Candelas and Fernando Torres | (参考訳) 特徴に基づくジオローカライゼーションは、航空画像から抽出された特徴と車両のセンサーによって検出された特徴とを関連付けることに依存する。
これにより、ランドマークの種類は両方のソースから観測できなければならない。
この特徴型の非可変性は、それぞれ曖昧さと検出の欠如によって生じる異常値と偏差をもたらす貧弱な表現を生成する。
これらの欠点を緩和するため,本稿では,車両の軌道推定のための動的重み付け係数グラフモデルを提案する。
この実装における重み調整は、LiDARセンサを用いた検出における情報の定量化に依存する。
また、モデルに事前(GNSSに基づく)誤差推定を含める。
そして、表現があいまいになる、あるいは疎らくなると、重みは動的に調整され、修正された事前軌跡に依存し、この方法で外れ値や偏差を緩和する。
本手法は,不明瞭な環境下において最先端のジオローカライズ手法と比較し,検出損失を発生させる。
他のメソッドが失敗する場合の、前述の欠点の軽減を示す。 Feature-based geo-localization relies on associating features extracted from aerial imagery with those detected by the vehicle's sensors. This requires that the type of landmarks must be observable from both sources. This no-variety of feature types generates poor representations that lead to outliers and deviations, produced by ambiguities and lack of detections respectively. To mitigate these drawbacks, in this paper, we present a dynamically weighted factor graph model for the vehicle's trajectory estimation. The weight adjustment in this implementation depends on information quantification in the detections performed using a LiDAR sensor. Also, a prior (GNSS-based) error estimation is included in the model. Then, when the representation becomes ambiguous or sparse, the weights are dynamically adjusted to rely on the corrected prior trajectory, mitigating in this way outliers and deviations. We compare our method against state-of-the-art geo-localization ones in a challenging ambiguous environment, where we also cause detection losses. We demonstrate mitigation of the mentioned drawbacks where the other methods fail. | 翻訳日:2023-11-14 14:23:53 公開日:2023-11-13 |
# javaにおけるソートアルゴリズムのエネルギー複雑性 Energy Complexity for Sorting Algorithms in Java ( http://arxiv.org/abs/2311.07298v1 ) ライセンス: Link先を確認 | Kristina Carter and Su Mei Gwen Ho and Mathias Marquar Arhipenko Larsen and Martin Sundman and Maja H. Kirkeby | (参考訳) この研究は、時間複雑性の概念をエネルギーに拡張し、すなわち、ソートアルゴリズムの時間複雑性とエネルギー消費の間に強い相関関係を示す: Bubble Sort, Counting Sort, Merge Sort, Quick Sort。
本研究では,壁面時間と時間複雑性の相関と,エネルギー消費と壁面時間の相関について検討した。
主な発見は、時間複雑性がo(n*n)、o(nlog(n))およびo(n + k)ソートアルゴリズムのエネルギー消費量を推定するためのガイドラインとして使用できることである。
二次的な発見は、マージソートとバブルソートのために理論的に最悪のケースを生成する入力は、最悪のケースウォールタイムや最悪のケースエネルギー消費を生み出しなかったことである。 This study extends the concept of time complexity to energy, i.e., energy complexity, by showing a strong correlation between time complexity and energy consumption for sorting algorithms: Bubble Sort, Counting Sort, Merge Sort and Quick Sort, written in Java and run on single kernels. We investigate the correlation between wall time and time complexity, as well as the correlation between energy consumption and wall time. The primary finding is that time complexity can be used as a guideline to estimate the energy consumption of O(n*n), O(nlog(n)) and O(n + k) sorting algorithms. The secondary finding is that the inputs producing the theoretical worst cases for Merge Sort and Bubble Sort did not produce the worst case wall time nor the worst case energy consumption. | 翻訳日:2023-11-14 14:23:36 公開日:2023-11-13 |
# BIDRN:知覚分析のための双方向リカレントニューラルネットワークの一手法 BIDRN: A Method of Bidirectional Recurrent Neural Network for Sentiment Analysis ( http://arxiv.org/abs/2311.07296v1 ) ライセンス: Link先を確認 | Dr. D Muthusankar, Dr. P Kaladevi, Dr. V R Sadasivam, R Praveen | (参考訳) テキストマイニングの研究は、構造化されていないテキストデータの量の増加により近年重要になっている。
このことは、この分野における大きな可能性と障害をもたらし、適切な分析と研究手法で効率的に対処することができる。
本研究では,双方向の深層リカレントニューラルネットワークを用いて感情分析を行う。
この方法は、感情ラベル付きデータセットを生成するため、感情極性分析に分類される。
このデータセットは、公平な意見を抽出することができる感情分析モデルのトレーニングと評価に使用できる。
本稿では,この課題を克服し,ビッグデータの文脈におけるテキストマイニングの可能性の最大化を目的とした,SA-BDRNN(Sentiment Analysis-Deep Bidirectional Recurrent Neural Networks)スキームについて述べる。
本研究は,学生の感情分析の体系的枠組みを組織的選択の文脈において与えようとする sa-dbrnn スキームを提案する。
本研究の目的は,提案するsa-dbrnn方式を既存のフレームワークと比較し,感情分析の分野で適切な分類モデルとして機能する頑健な深層ニューラルネットワークを構築することにある。 Text mining research has grown in importance in recent years due to the tremendous increase in the volume of unstructured textual data. This has resulted in immense potential as well as obstacles in the sector, which may be efficiently addressed with adequate analytical and study methods. Deep Bidirectional Recurrent Neural Networks are used in this study to analyze sentiment. The method is categorized as sentiment polarity analysis because it may generate a dataset with sentiment labels. This dataset can be used to train and evaluate sentiment analysis models capable of extracting impartial opinions. This paper describes the Sentiment Analysis-Deep Bidirectional Recurrent Neural Networks (SA-BDRNN) Scheme, which seeks to overcome the challenges and maximize the potential of text mining in the context of Big Data. The current study proposes a SA-DBRNN Scheme that attempts to give a systematic framework for sentiment analysis in the context of student input on institution choice. The purpose of this study is to compare the effectiveness of the proposed SA- DBRNN Scheme to existing frameworks to establish a robust deep neural network that might serve as an adequate classification model in the field of sentiment analysis. | 翻訳日:2023-11-14 14:23:19 公開日:2023-11-13 |
# トポロジカル絶縁体ヘテロ構造のトポロジカルファラデー効果を利用したマイクロ波-光量子変換 Microwave-to-Optical Quantum Transduction Utilizing the Topological Faraday Effect of Topological Insulator Heterostructures ( http://arxiv.org/abs/2311.07293v1 ) ライセンス: Link先を確認 | Akihiko Sekine, Mari Ohfuchi, Yoshiyasu Doi | (参考訳) マイクロ波と光子間の量子トランスダクションは超伝導量子ビットを用いたスケーラブル量子コンピュータの実現に不可欠である。
マイクロ波と光学レンジの周波数差が大きいため、中間ボソニックモードまたは非線形プロセスを介して変換を行う必要がある。
これまでのところ、強磁性体YIGの磁気光学ファラデー効果(すなわち光-マグノン相互作用)による転写効率$\eta$は、空洞内のサンプルサイズ制限により$\eta\sim 10^{-8} \mathrm{-} 10^{-15}$と小さいことが示されている。
ここでは,3次元トポロジカル絶縁膜が試料厚さに依存しない位相的ファラデー効果を示すという事実を利用する。
これによりファラデー回転角が大きくなり、薄膜限界における光磁気相互作用が強化される。
本稿では,Bi$_2$Se$_3$のようなトポロジカル絶縁薄膜とYIGのような強磁性絶縁薄膜からなるヘテロ構造を利用することで,トランスダクション効率を$\eta\sim10^{-4}$に大きく向上できることを理論的に示す。 The quantum transduction between microwave and optical photons is essential for realizing scalable quantum computers with superconducting qubits. Due to the large frequency difference between microwave and optical ranges, the transduction needs to be done via intermediate bosonic modes or nonlinear processes. So far, the transduction efficiency $\eta$ via the magneto-optic Faraday effect (i.e., the light-magnon interaction) in the ferromagnet YIG has been demonstrated to be small as $\eta\sim 10^{-8} \mathrm{-} 10^{-15}$ due to the sample size limitation inside the cavity. Here, we take advantage of the fact that three-dimensional topological insulator thin films exhibit a topological Faraday effect that is independent of the sample thickness. This leads to a large Faraday rotation angle and therefore enhanced light-magnon interaction in the thin film limit. We show theoretically that the transduction efficiency can be greatly improved to $\eta\sim10^{-4}$ by utilizing the heterostructures consisting of topological insulator thin films such as Bi$_2$Se$_3$ and ferromagnetic insulator thin films such as YIG. | 翻訳日:2023-11-14 14:23:02 公開日:2023-11-13 |
# オーストラリア国定電力市場における揮発性電力価格の確率論的予測手法 A probabilistic forecast methodology for volatile electricity prices in the Australian National Electricity Market ( http://arxiv.org/abs/2311.07289v1 ) ライセンス: Link先を確認 | Cameron Cornell, Nam Trong Dinh, S. Ali Pourmousavi | (参考訳) オーストラリア国定電力市場(NEM)の南オーストラリア地域は、現代の電力市場において最も高い価格変動率を示している。
本稿では,これらの極端な条件下での確率的予測へのアプローチについて概説する。
本稿では,確率的予測のためのアンサンブルツールとして分位回帰を用いた予測手法を提案する。
アンサンブルフレームワークでは,学習期間の異なるモデルの平均化により適応性が向上し,予測精度が向上することを示した。
最終モデルの適用性は、中央値予測とオーストラリアのnemオペレーターが提供するポイント予測を比較し、これらのnem予測をかなりのマージンで上回ったモデルと比較することで評価される。 The South Australia region of the Australian National Electricity Market (NEM) displays some of the highest levels of price volatility observed in modern electricity markets. This paper outlines an approach to probabilistic forecasting under these extreme conditions, including spike filtration and several post-processing steps. We propose using quantile regression as an ensemble tool for probabilistic forecasting, with our combined forecasts achieving superior results compared to all constituent models. Within our ensemble framework, we demonstrate that averaging models with varying training length periods leads to a more adaptive model and increased prediction accuracy. The applicability of the final model is evaluated by comparing our median forecasts with the point forecasts available from the Australian NEM operator, with our model outperforming these NEM forecasts by a significant margin. | 翻訳日:2023-11-14 14:22:37 公開日:2023-11-13 |
# SMILEを用いたブラックボックスの説明:局所説明を用いた統計的モデル非依存的解釈可能性 Explaining black boxes with a SMILE: Statistical Model-agnostic Interpretability with Local Explanations ( http://arxiv.org/abs/2311.07286v1 ) ライセンス: Link先を確認 | Koorosh Aslansefat, Mojgan Hashemian, Martin Walker, Mohammed Naveed Akram, Ioannis Sorokos, Yiannis Papadopoulos | (参考訳) 機械学習は現在、能力、人気、洗練の爆発的な進歩を続けている。
しかし、機械学習(ML)の広く受け入れられる大きな障壁の1つは信頼性である。ほとんどのMLモデルはブラックボックスとして機能し、内部の動作は不透明で神秘的であり、それらの結論がどのように達成されたかを理解しずに彼らの結論を信頼することは困難である。
したがって、説明可能性は信頼性を向上させる上で重要な側面である: mlモデルの振る舞いをよりよく理解し、解釈し、予測する能力。
そこで本研究では,様々な入力データ領域に適用しながら,統計距離尺度を用いて説明可能性を向上させる新しい手法であるsmileを提案する。 Machine learning is currently undergoing an explosion in capability, popularity, and sophistication. However, one of the major barriers to widespread acceptance of machine learning (ML) is trustworthiness: most ML models operate as black boxes, their inner workings opaque and mysterious, and it can be difficult to trust their conclusions without understanding how those conclusions are reached. Explainability is therefore a key aspect of improving trustworthiness: the ability to better understand, interpret, and anticipate the behaviour of ML models. To this end, we propose SMILE, a new method that builds on previous approaches by making use of statistical distance measures to improve explainability while remaining applicable to a wide range of input data domains. | 翻訳日:2023-11-14 14:22:23 公開日:2023-11-13 |
# 複雑な操作動作ビデオの多文記述 Multi Sentence Description of Complex Manipulation Action Videos ( http://arxiv.org/abs/2311.07285v1 ) ライセンス: Link先を確認 | Fatemeh Ziaeetabar, Reza Safabakhsh, Saeedeh Momtazi, Minija Tamosiunaite and Florentin W\"org\"otter | (参考訳) ビデオの自動記述は、ビデオ内のアクション、イベント、オブジェクトに関する自然言語ステートメントを生成する必要がある。
ビデオを説明するとき、人間の重要な特徴は、異なるレベルの詳細でこれを行うことができることです。
これと異なり、既存の自動ビデオ記述のアプローチは、主に特定のレベルでの単一文生成に焦点を当てている。
そこで本稿では,これらの動作の階層構造に関する情報をロボット学習の現代的アプローチで伝達するために,異なる詳細レベルが必要となる操作動作の映像記述について述べる。
この問題に対処するために,1つのハイブリッド統計と1つのエンドツーエンドフレームワークを提案する。
ビデオクリップ内の統計的不確かさをモデル化するのに対し、データ重みのあるエンドツーエンドの手法では、中間的な(統計的な)処理ステップなしにビジュアルエンコーダと言語デコーダを直接接続しています。
どちらのフレームワークもLSTMスタックを使用して記述の粒度の異なるレベルを指定でき、ビデオは単純な単一文や複雑な多重文で記述できる。
さらに、定量的な結果は、これらの手法が他の競合するアプローチよりも現実的な記述を生み出すことを示している。 Automatic video description requires the generation of natural language statements about the actions, events, and objects in the video. An important human trait, when we describe a video, is that we are able to do this with variable levels of detail. Different from this, existing approaches for automatic video descriptions are mostly focused on single sentence generation at a fixed level of detail. Instead, here we address video description of manipulation actions where different levels of detail are required for being able to convey information about the hierarchical structure of these actions relevant also for modern approaches of robot learning. We propose one hybrid statistical and one end-to-end framework to address this problem. The hybrid method needs much less data for training, because it models statistically uncertainties within the video clips, while in the end-to-end method, which is more data-heavy, we are directly connecting the visual encoder to the language decoder without any intermediate (statistical) processing step. Both frameworks use LSTM stacks to allow for different levels of description granularity and videos can be described by simple single-sentences or complex multiple-sentence descriptions. In addition, quantitative results demonstrate that these methods produce more realistic descriptions than other competing approaches. | 翻訳日:2023-11-14 14:22:10 公開日:2023-11-13 |
# 非局所的脱落を伴うXXスピン鎖の超拡散磁化輸送 Superdiffusive magnetization transport in the XX spin chain with non-local dephasing ( http://arxiv.org/abs/2311.07375v1 ) ライセンス: Link先を確認 | Marko Znidaric | (参考訳) 熱力学限界下での超拡散磁化輸送を実証し,非局所的デファス化(arXiv:2310.03069)によるXXスピン鎖の研究を行った。
超拡散の出現はリンドブラッド作用素が2項のコヒーレント和であり、それぞれが別々に拡散を引き起こすので、かなり興味深い。
したがって、2つの拡散項のコヒーレント和が超拡散をもたらす量子現象を持つ。
また超拡散モデルの摂動について研究し、散逸子の正確な形を破り、XX鎖に相互作用を加えることで超拡散が拡散へと変化することを示した。 We study recently discussed XX spin chain with non-local dephasing [arXiv:2310.03069] in a steady-state boundary-driven setting, confirming superdiffusive magnetization transport in the thermodynamic limit. The emergence of superdiffusion is rather interesting as the Lindblad operators causing it are a coherent sum of two terms, each of which would separately cause diffusion. One therefore has a quantum phenomenon where a coherent sum of two diffusive terms results in superdiffusion. We also study perturbations of the superdiffusive model, finding that breaking the exact form of dissipators, as well as adding interactions to the XX chain, results in superdiffusion changing into diffusion. | 翻訳日:2023-11-14 14:15:52 公開日:2023-11-13 |
# 多次元電気ネットワークとそのグラフ問題に対する指数速度アップへの応用 Multidimensional Electrical Networks and their Application to Exponential Speedups for Graph Problems ( http://arxiv.org/abs/2311.07372v1 ) ライセンス: Link先を確認 | Jianqiang Li and Sebastian Zur | (参考訳) 近年、Apers と Piddock [TQC '23] はKirchhoff の法則とOhm の法則を考慮し、量子ウォークと電気ネットワークの自然接続を強化した。
本稿では,Jeffery と Zur [STOC '23] による新しい多次元量子ウォークフレームワークに基づいて,Kirchhoff の代替法則とOhm の代替法則を定義することにより,多次元電気ネットワークを開発する。
この多次元電気ネットワークは,多次元量子ウォークアルゴリズムを用いて得られた電気の流れをサンプリングし,グラフ問題に対する指数的量子古典分離を実現する。
まずこの枠組みを用いて、バラシュラマン、Li、Harrow [arXiv '23] によって定義される一次元ランダム階層グラフのマーク頂点を求める。
本研究では,子ども, cleve, deotto, farhi, gutmann, spielman [stoc '03] による溶接木問題の指数関数的量子古典的分離をランダムな階層グラフに一般化した。
この結果は, より単純な解析によって部分的に回復する。
さらに,溶接木をベースとした3ドル規則グラフを構築することにより,パスフィンディング問題に対する指数的な高速化を示すことができる。
これはLi [arXiv '23] による開問題の1つを解決し、非正則グラフを構築し、次数情報を用いて同様のスピードアップを達成する。
グラフの(エッジ頂点)帰属行列と電気ネットワークにおけるキルヒホフの法則とオームの法則の接続に類似して、代替帰属行列とキルヒホフの代替法則とオームの代替法則との接続を再構築する。
この接続を確立することで、多次元電気ネットワークは量子ウォークを超えてより多くの応用が期待できる。 Recently, Apers and Piddock [TQC '23] strengthened the natural connection between quantum walks and electrical networks by considering Kirchhoff's Law and Ohm's Law. In this work, we develop the multidimensional electrical network by defining Kirchhoff's Alternative Law and Ohm's Alternative Law based on the novel multidimensional quantum walk framework by Jeffery and Zur [STOC '23]. This multidimensional electrical network allows us to sample from the electrical flow obtained via a multidimensional quantum walk algorithm and achieve exponential quantum-classical separations for certain graph problems. We first use this framework to find a marked vertex in one-dimensional random hierarchical graphs as defined by Balasubramanian, Li, and Harrow [arXiv '23]. In this work, they generalised the well known exponential quantum-classical separation of the welded tree problem by Childs, Cleve, Deotto, Farhi, Gutmann, and Spielman [STOC '03] to random hierarchical graphs. Our result partially recovers their results with an arguably simpler analysis. Furthermore, by constructing a $3$-regular graph based on welded trees, this framework also allows us to show an exponential speedup for the pathfinding problem. This solves one of the open problems by Li [arXiv '23], where they construct a non-regular graph and use the degree information to achieve a similar speedup. In analogy to the connection between the (edge-vertex) incidence matrix of a graph and Kirchhoff's Law and Ohm's Law in an electrical network, we also rebuild the connection between the alternative incidence matrix and Kirchhoff's Alternative Law and Ohm's Alternative Law. By establishing this connection, we expect that the multidimensional electrical network could have more applications beyond quantum walks. | 翻訳日:2023-11-14 14:15:38 公開日:2023-11-13 |
# グラフ畳み込みアグリゲーションによる発達障害と脳障害の分類 Classification of developmental and brain disorders via graph convolutional aggregation ( http://arxiv.org/abs/2311.07370v1 ) ライセンス: Link先を確認 | Ibrahim Salim and A. Ben Hamza | (参考訳) グラフ畳み込みに基づく手法は、グラフ表現学習のデファクトスタンダードとなっているが、その疾患予測タスクへの応用は、特に神経発達および神経変性脳障害の分類において、かなり制限されている。
本稿では,グラフサンプリングにおける集約を利用したアグリゲータ正規化グラフ畳み込みネットワークを提案する。
提案モデルでは, 画像特徴と非画像特徴をそれぞれグラフノードとエッジに組み込むことにより, 識別グラフノード表現を学習し, 予測能力を増強し, 脳障害のメカニズムの全体像を提供する。
スキップ接続は入力された特徴からネットワークの後層への情報の直接フローを可能にし、アイデンティティマッピングは特徴学習中にグラフの構造情報を維持するのに役立つ。
我々は、自閉症スペクトラム障害とアルツハイマー病の予測のために、自閉症脳画像データ交換(ABIDE)とアルツハイマー病ニューロイメージングイニシアチブ(ADNI)という2つの大きなデータセット上の最近のベースライン手法を比較検討した。
実験の結果,最近の評価基準と比較し,abideとadniのグラフ畳み込みネットワークに対する分類精度の50%と13.56%の相対的改善を達成した。 While graph convolution based methods have become the de-facto standard for graph representation learning, their applications to disease prediction tasks remain quite limited, particularly in the classification of neurodevelopmental and neurodegenerative brain disorders. In this paper, we introduce an aggregator normalization graph convolutional network by leveraging aggregation in graph sampling, as well as skip connections and identity mapping. The proposed model learns discriminative graph node representations by incorporating both imaging and non-imaging features into the graph nodes and edges, respectively, with the aim of augmenting predictive capabilities and providing a holistic perspective on the underlying mechanisms of brain disorders. Skip connections enable the direct flow of information from the input features to later layers of the network, while identity mapping helps maintain the structural information of the graph during feature learning. We benchmark our model against several recent baseline methods on two large datasets, Autism Brain Imaging Data Exchange (ABIDE) and Alzheimer's Disease Neuroimaging Initiative (ADNI), for the prediction of autism spectrum disorder and Alzheimer's disease, respectively. Experimental results demonstrate the competitive performance of our approach in comparison with recent baselines in terms of several evaluation metrics, achieving relative improvements of 50% and 13.56% in classification accuracy over graph convolutional networks on ABIDE and ADNI, respectively. | 翻訳日:2023-11-14 14:15:04 公開日:2023-11-13 |
# arfpy: 逆ランダムフォレストを用いた密度推定と生成モデリングのためのpythonパッケージ arfpy: A python package for density estimation and generative modeling with adversarial random forests ( http://arxiv.org/abs/2311.07366v1 ) ライセンス: Link先を確認 | Kristin Blesch, Marvin N. Wright | (参考訳) 本稿では,あるデータに類似した新しいデータを合成するための軽量な手順であるAdversarial Random Forests (ARF) (Watson et al., 2023) のピソン実装である$\textit{arfpy}$を紹介する。
ソフトウェア$\textit{arfpy}$は、密度推定と生成モデリングの両方に簡単な機能を持たせる。
本手法は特に表型データに有用であり,従来の文献では競合性能が示されている。
主にディープラーニングベースの代替手段に対する大きな利点として、$\textit{arfpy}$は、取り組みのチューニングにおけるメソッドの要件を減らし、計算リソースをユーザフレンドリーなpythonインターフェースと組み合わせます。
これにより、科学分野の聴衆に、データを生成するソフトウェアを提供する。 This paper introduces $\textit{arfpy}$, a python implementation of Adversarial Random Forests (ARF) (Watson et al., 2023), which is a lightweight procedure for synthesizing new data that resembles some given data. The software $\textit{arfpy}$ equips practitioners with straightforward functionalities for both density estimation and generative modeling. The method is particularly useful for tabular data and its competitive performance is demonstrated in previous literature. As a major advantage over the mostly deep learning based alternatives, $\textit{arfpy}$ combines the method's reduced requirements in tuning efforts and computational resources with a user-friendly python interface. This supplies audiences across scientific fields with software to generate data effortlessly. | 翻訳日:2023-11-14 14:14:39 公開日:2023-11-13 |
# 火山:自己フィードバックガイドによるマルチモーダル幻覚の緩和 Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision ( http://arxiv.org/abs/2311.07362v1 ) ライセンス: Link先を確認 | Seongyun Lee and Sue Hyun Park and Yongrae Jo and Minjoon Seo | (参考訳) 大規模マルチモーダルモデル (LMM) は多モード幻覚に悩まされ、与えられた視覚情報と間違った反応を提供する。
近年の研究では、マルチモーダル幻覚の原因の1つは、視覚エンコーダが画像に正しく接地できないためかもしれないと推測されている。
この問題を軽減するために,自己フィードバックを視覚的手がかりとして活用する新しいアプローチを提案する。
このアプローチに基づいて,マルチモーダルな自己フィードバック型リビジョンモデルであるVolcanoを導入する。
火山は、提供された視覚情報に基づいて、初期応答に対する自然言語フィードバックを生成し、このフィードバックを利用して初期応答を自己修正する。
火山は、マルチモーダル幻覚を効果的に低減し、MMHal-Bench、POPE、GAVIEの最先端を達成する。
また、一般的なマルチモーダル能力を改善し、MM-Vet や MMBench で以前のモデルより優れている。
定性解析により,火山のフィードバックが初期応答よりも画像に適切に反映されていることを示す。
これは火山がより豊かな視覚情報を提供し、マルチモーダル幻覚の緩和に役立つことを示している。
7Bと13BサイズのVolcanoモデルとデータとコードを、https://github.com/kaistAI/Volcano.comで公開しています。 Large multimodal models (LMMs) suffer from multimodal hallucination, where they provide incorrect responses misaligned with the given visual information. Recent works have conjectured that one of the reasons behind multimodal hallucination might be due to the vision encoder failing to ground on the image properly. To mitigate this issue, we propose a novel approach that leverages self-feedback as visual cues. Building on this approach, we introduce Volcano, a multimodal self-feedback guided revision model. Volcano generates natural language feedback to its initial response based on the provided visual information and utilizes this feedback to self-revise its initial response. Volcano effectively reduces multimodal hallucination and achieves state-of-the-art on MMHal-Bench, POPE, and GAVIE. It also improves on general multimodal abilities and outperforms previous models on MM-Vet and MMBench. Through a qualitative analysis, we show that Volcano's feedback is properly grounded on the image than the initial response. This indicates that Volcano can provide itself with richer visual information, helping alleviate multimodal hallucination. We publicly release Volcano models of 7B and 13B sizes along with the data and code at https://github.com/kaistAI/Volcano. | 翻訳日:2023-11-14 14:14:22 公開日:2023-11-13 |
# 大規模言語モデルが科学的発見に及ぼす影響--GPT-4を用いた予備的検討 The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4 ( http://arxiv.org/abs/2311.07361v1 ) ライセンス: Link先を確認 | Microsoft Research AI4Science, Microsoft Azure Quantum | (参考訳) 近年、自然言語処理における画期的な進歩は、自然言語の理解、生成、翻訳、さらには言語処理を超えて拡張されるタスクなどを含む、幅広い領域にまたがる顕著な能力を示す強力な大規模言語モデル(LLM)の出現において頂点に達している。
本稿では,言語モデルGPT-4に着目し,科学的発見の文脈におけるLCMの性能について検討する。
我々の研究は、創薬、生物学、計算化学(密度汎関数論(dft)と分子動力学(md))、材料設計、偏微分方程式(pde)を含む様々な分野にわたる。
科学的タスクにおけるGPT-4の評価は、様々な研究領域におけるその潜在能力を解明し、その領域固有の専門知識を検証し、科学的進歩を加速し、資源割り当てを最適化し、将来のモデル開発を誘導し、学際的な研究を促進するために重要である。
私たちの調査手法は、主に専門家主導のケースアセスメントから成り、モデルの複雑な科学的概念と関係を理解するための質的洞察を提供し、時には、よく定義されたドメイン固有の問題を解決するモデルの能力を定量的に評価するベンチマークテストを行います。
予備調査の結果, GPT-4は様々な科学的応用に有望な可能性を示し, 複雑な問題解決と知識統合の課題に対処する能力を示した。
GPT-4の知識基盤、科学的理解、科学的数値計算能力、および様々な科学的予測能力を評価する。 In recent years, groundbreaking advancements in natural language processing have culminated in the emergence of powerful large language models (LLMs), which have showcased remarkable capabilities across a vast array of domains, including the understanding, generation, and translation of natural language, and even tasks that extend beyond language processing. In this report, we delve into the performance of LLMs within the context of scientific discovery, focusing on GPT-4, the state-of-the-art language model. Our investigation spans a diverse range of scientific areas encompassing drug discovery, biology, computational chemistry (density functional theory (DFT) and molecular dynamics (MD)), materials design, and partial differential equations (PDE). Evaluating GPT-4 on scientific tasks is crucial for uncovering its potential across various research domains, validating its domain-specific expertise, accelerating scientific progress, optimizing resource allocation, guiding future model development, and fostering interdisciplinary research. Our exploration methodology primarily consists of expert-driven case assessments, which offer qualitative insights into the model's comprehension of intricate scientific concepts and relationships, and occasionally benchmark testing, which quantitatively evaluates the model's capacity to solve well-defined domain-specific problems. Our preliminary exploration indicates that GPT-4 exhibits promising potential for a variety of scientific applications, demonstrating its aptitude for handling complex problem-solving and knowledge integration tasks. Broadly speaking, we evaluate GPT-4's knowledge base, scientific understanding, scientific numerical calculation abilities, and various scientific prediction capabilities. | 翻訳日:2023-11-14 14:14:04 公開日:2023-11-13 |
# 単一視点雲からの登録・分割変形可能な物体再構成 Registered and Segmented Deformable Object Reconstruction from a Single View Point Cloud ( http://arxiv.org/abs/2311.07357v1 ) ライセンス: Link先を確認 | Pit Henrich, Bal\'azs Gyenes, Paul Maria Scheikl, Gerhard Neumann, Franziska Mathis-Ullrich | (参考訳) 変形可能なオブジェクト操作では、しばしばオブジェクトの非変形モデルでのみ定義されるオブジェクトの特定のセグメントと相互作用したいです。
したがって、変形した現実世界の物体のセンサーデータからこれらのセグメントを認識・特定できるシステムが必要である。
通常は変形可能なオブジェクト登録を使用して行われるが、これは問題特異的であり、チューニングが複雑である。
最近の手法では,オブジェクト再構成に登録することで変形可能なオブジェクト登録を改善するために,神経占有機能を利用する。
さらに一歩進めて、再構築に加えて、再構成対象のセグメンテーションを学習するシステムを提案する。
結果の出力にはセグメントに関する情報がすでに含まれているので、登録プロセスはスキップできます。
シミュレーションや実世界の様々な変形可能な物体を用いて実験を行い,本手法がこれらのセグメントを確実に見つけることを実証した。
また,より優れた学習データを生成するための簡単なサンプリングアルゴリズムも導入した。 In deformable object manipulation, we often want to interact with specific segments of an object that are only defined in non-deformed models of the object. We thus require a system that can recognize and locate these segments in sensor data of deformed real world objects. This is normally done using deformable object registration, which is problem specific and complex to tune. Recent methods utilize neural occupancy functions to improve deformable object registration by registering to an object reconstruction. Going one step further, we propose a system that in addition to reconstruction learns segmentation of the reconstructed object. As the resulting output already contains the information about the segments, we can skip the registration process. Tested on a variety of deformable objects in simulation and the real world, we demonstrate that our method learns to robustly find these segments. We also introduce a simple sampling algorithm to generate better training data for occupancy learning. | 翻訳日:2023-11-14 14:13:36 公開日:2023-11-13 |
# adamm: 属性付きマルチグラフのメタデータによる異常検出: 統一ニューラルネットワークアプローチ ADAMM: Anomaly Detection of Attributed Multi-graphs with Metadata: A Unified Neural Network Approach ( http://arxiv.org/abs/2311.07355v1 ) ライセンス: Link先を確認 | Konstantinos Sotiropoulos, Lingxiao Zhao, Pierre Jinghong Liang, Leman Akoglu | (参考訳) ノードとエッジに分散したマルチグラフの複雑なグラフデータベースと関連するグラフのメタデータが与えられたら、どのように異常なインスタンスを見つけることができるのか?
多くの現実世界の問題はグラフ推論タスクとしてキャストされ、グラフ表現は複雑な関係現象(例えば、ジャーナルエントリ内の金融口座間のトランザクション)と、表的な特徴(承認者、有効日付など)を反映したメタデータを捉えることができる。
グラフニューラルネットワーク(GNN)に基づく多数の異常検出器が提案されているが、指向グラフを直接マルチエッジや自己ループで扱うことはできない。
さらに、リレーショナル特徴と表特徴の同時処理は未探索領域のままである。
本研究では,有向多グラフを処理する新しいグラフニューラルネットワークモデルであるADAMMを提案し,メタデータとグラフレベルの表現学習を,教師なしの異常検出目的を通じて融合したエンドツーエンドアーキテクチャを提供する。
2つの異なるドメインのデータセットに関する実験、すなわち、異なる企業(アカウント)からの一般電子ジャーナルエントリと、何千もの個人(都市移動)による人間のgpsトラジェクタは、エキスパートガイドと地対地異常のadammの汎用性と検出効果を検証する。
特に、ADAMMは2つのデータモダリティ(グラフとメタデータ)を別々に扱う既存のベースラインよりも優れている。 Given a complex graph database of node- and edge-attributed multi-graphs as well as associated metadata for each graph, how can we spot the anomalous instances? Many real-world problems can be cast as graph inference tasks where the graph representation could capture complex relational phenomena (e.g., transactions among financial accounts in a journal entry), along with metadata reflecting tabular features (e.g. approver, effective date, etc.). While numerous anomaly detectors based on Graph Neural Networks (GNNs) have been proposed, none are capable of directly handling directed graphs with multi-edges and self-loops. Furthermore, the simultaneous handling of relational and tabular features remains an unexplored area. In this work we propose ADAMM, a novel graph neural network model that handles directed multi-graphs, providing a unified end-to-end architecture that fuses metadata and graph-level representation learning through an unsupervised anomaly detection objective. Experiments on datasets from two different domains, namely, general-ledger journal entries from different firms (accounting) as well as human GPS trajectories from thousands of individuals (urban mobility) validate ADAMM's generality and detection effectiveness of expert-guided and ground-truth anomalies. Notably, ADAMM outperforms existing baselines that handle the two data modalities (graph and metadata) separately with post hoc synthesis efforts. | 翻訳日:2023-11-14 14:13:20 公開日:2023-11-13 |
# カーシェアリングのための車間グリッド-2030年のシミュレーション研究- Vehicle-to-grid for car sharing -- A simulation study for 2030 ( http://arxiv.org/abs/2311.07349v1 ) ライセンス: Link先を確認 | Nina Wiedemann, Yanan Xin, Vasco Medici, Lorenzo Nespoli, Esra Suel, Martin Raubal | (参考訳) 近年のカーシェアリングサービスの普及は、持続可能な輸送を促進するための有望な道のりを示している。
単に車の所有率を下げるだけでなく、これらのシステムは車両間通信(V2G)技術による補助サービスの提供を通じてグリッドの安定性を高める上で重要な役割を担っている。
本研究では,スイスにおける全国規模のサービスにおける将来シナリオをデザインし,カーシェアリングにおけるv2gの可能性を分析する。
カーシェアリングサービスのさまざまなビジネス戦略と同様に,人口変動を考慮したエージェントベースシミュレーションパイプラインを提案し,2030年のシナリオシミュレーションにおけるその成功例を示す。
カーシェアリングを模倣するため,データ駆動型モード選択モデルを開発した。
本分析では, 車両使用率の向上など, 車両の小型化, 新たなシェアリングステーションの設置など, 検討シナリオにおける重要な違いを明らかにした。
これらの格差は、シナリオと日時に応じて、12MWから50MWまでのアシラリーサービスで利用可能な艦隊の電力柔軟性のバリエーションに変換される。
さらに,実世界の電力料金データを組み込んだカーシェアリング・フリートの一部を事例として検討する。
このケーススタディは、電力グリッド事業者と艦隊所有者の両方にとって金銭的利益を伴うスイートスポットの存在を裏付けるものである。
本研究は意思決定者に対してガイドラインを提供し,カーシェアリング分野における電力取引に関する規制強化の必要性を浮き彫りにする。 The proliferation of car sharing services in recent years presents a promising avenue for advancing sustainable transportation. Beyond merely reducing car ownership rates, these systems can play a pivotal role in bolstering grid stability through the provision of ancillary services via vehicle-to-grid (V2G) technologies - a facet that has received limited attention in previous research. In this study, we analyze the potential of V2G in car sharing by designing future scenarios for a national-scale service in Switzerland. We propose an agent-based simulation pipeline that considers population changes as well as different business strategies of the car sharing service, and we demonstrate its successful application for simulating scenarios for 2030. To imitate car sharing user behavior, we develop a data-driven mode choice model. Our analysis reveals important differences in the examined scenarios, such as higher vehicle utilization rates for a reduced fleet size as well as in a scenario featuring new car sharing stations. These disparities translate into variations in the power flexibility of the fleet available for ancillary services, ranging from 12 to 50 MW, depending on the scenario and the time of the day. Furthermore, we conduct a case study involving a subset of the car sharing fleet, incorporating real-world electricity pricing data. The case study substantiates the existence of a sweet spot involving monetary gains for both power grid operators and fleet owners. Our findings provide guidelines to decision makers and underscore the pressing need for regulatory enhancements concerning power trading within the realm of car sharing. | 翻訳日:2023-11-14 14:12:54 公開日:2023-11-13 |
# 心筋シンチグラフィ画像からの心筋ひずみ推定のための局所低域差計を用いた変形性集団登録 Deformable Groupwise Registration Using a Locally Low-Rank Dissimilarity Metric for Myocardial Strain Estimation from Cardiac Cine MRI Images ( http://arxiv.org/abs/2311.07348v1 ) ライセンス: Link先を確認 | Haiyang Chen, Juan Gao, and Chenxi Hu | (参考訳) 目的: 心血管磁気共鳴機能追跡(cmr-ft)は、心筋シンmri画像から心筋ひずみを推定するための一連の方法である。
確立されたCMR-FT法は主に光学フローまたはペア登録に基づいている。
しかし,これらの手法は,累積追尾誤差による大きな動きやドリフト効果の不正確な推定に悩まされている。
本研究では,CMR-FTにおける局所低ランク(LLR)差分法を用いて,変形可能なグループ単位の登録手法を提案する。
方法:提案手法(groupwise-llr)は,グループ登録に基づく2段階戦略により特徴点を追跡する。
グローバルローランク(GLR)の相似性メートル法とは異なり、LLRメートル法は画像全体よりも局所的な画像パッチに低ランクを課す。
我々は,グループワイズLLRとFarneback光フロー,ペア登録法,およびGLRに基づくグループ登録法をシミュレーションおよび生体内データセット上で定量的に比較した。
結果:シミュレートデータセットの結果,groupwise-llrは他の手法と比較して,より正確な追跡とひずみ推定が得られた。
in vivoデータセットの結果、groupwise-llrは後期透析におけるドリフト効果をより正確に追跡し除去した。
ひずみ推定のオブザーバ間再現性は全手法間で類似した。
結論: 提案手法は, グループ登録に基づく追跡戦略とLLRによる相似性指標の適用により, より正確に心筋ひずみを推定する。
意義:CMR-FT法は心機能障害の臨床的評価において,特にジアストールの心筋病変のより正確な評価を容易にする可能性がある。 Objective: Cardiovascular magnetic resonance-feature tracking (CMR-FT) represents a group of methods for myocardial strain estimation from cardiac cine MRI images. Established CMR-FT methods are mainly based on optical flow or pairwise registration. However, these methods suffer from either inaccurate estimation of large motion or drift effect caused by accumulative tracking errors. In this work, we propose a deformable groupwise registration method using a locally low-rank (LLR) dissimilarity metric for CMR-FT. Methods: The proposed method (Groupwise-LLR) tracks the feature points by a groupwise registration-based two-step strategy. Unlike the globally low-rank (GLR) dissimilarity metric, the proposed LLR metric imposes low-rankness on local image patches rather than the whole image. We quantitatively compared Groupwise-LLR with the Farneback optical flow, a pairwise registration method, and a GLR-based groupwise registration method on simulated and in vivo datasets. Results: Results from the simulated dataset showed that Groupwise-LLR achieved more accurate tracking and strain estimation compared with the other methods. Results from the in vivo dataset showed that Groupwise-LLR achieved more accurate tracking and elimination of the drift effect in late-diastole. Inter-observer reproducibility of strain estimates was similar between all studied methods. Conclusion: The proposed method estimates myocardial strains more accurately due to the application of a groupwise registration-based tracking strategy and an LLR-based dissimilarity metric. Significance: The proposed CMR-FT method may facilitate more accurate estimation of myocardial strains, especially in diastole, for clinical assessments of cardiac dysfunction. | 翻訳日:2023-11-14 14:12:35 公開日:2023-11-13 |
# メッセージ伝搬によるマルチ属性センサデータストリームの欠落値計算(拡張版) Missing Value Imputation for Multi-attribute Sensor Data Streams via Message Propagation (Extended Version) ( http://arxiv.org/abs/2311.07344v1 ) ライセンス: Link先を確認 | Xiao Li, Huan Li, Hua Lu, Christian S. Jensen, Varun Pandey, and Volker Markl | (参考訳) センサデータストリームは、IoT(Internet of Things)のコンテキストにおいて、さまざまなリアルタイムアプリケーションで広く発生する。
しかしながら、センサデータストリームには、センサ障害や通信エラー、電池の枯渇といった要因による値の欠如がある。
失敗する値は、リアルタイム分析タスクや下流アプリケーションの品質を損なう可能性がある。
既存の計算手法はストリームについて強い仮定をするか、効率を低下させる。
本研究では,リアルタイムアプリケーションにより広く活用するために,一般特性のみを満足するデータストリームの欠落値を正確にかつ効率的に推測することを目的とする。
まず、タイムウィンドウ内のデータインスタンスの欠落値を復元できるmpin(message propagation imputation network)を提案する。
MPINが有効である理由を理論的に分析する。
次に,mpinが効果的かつ効率的に連続的インプテーションを行えるように,データ更新機構とモデル更新機構からなる連続インプテーションフレームワークを提案する。
複数の実データセットに対する大規模な実験により、MPINは既存のデータインプットを広いマージンで上回り、連続的なインプットフレームワークは効率的かつ正確であることが示された。 Sensor data streams occur widely in various real-time applications in the context of the Internet of Things (IoT). However, sensor data streams feature missing values due to factors such as sensor failures, communication errors, or depleted batteries. Missing values can compromise the quality of real-time analytics tasks and downstream applications. Existing imputation methods either make strong assumptions about streams or have low efficiency. In this study, we aim to accurately and efficiently impute missing values in data streams that satisfy only general characteristics in order to benefit real-time applications more widely. First, we propose a message propagation imputation network (MPIN) that is able to recover the missing values of data instances in a time window. We give a theoretical analysis of why MPIN is effective. Second, we present a continuous imputation framework that consists of data update and model update mechanisms to enable MPIN to perform continuous imputation both effectively and efficiently. Extensive experiments on multiple real datasets show that MPIN can outperform the existing data imputers by wide margins and that the continuous imputation framework is efficient and accurate. | 翻訳日:2023-11-14 14:12:10 公開日:2023-11-13 |
# 喉頭深部学習における検索機構の微調整 Fine-Tuning the Retrieval Mechanism for Tabular Deep Learning ( http://arxiv.org/abs/2311.07343v1 ) ライセンス: Link先を確認 | Felix den Breejen, Sangmin Bae, Stephen Cha, Tae-Young Kim, Seoung Hyun Koh, Se-Young Yun | (参考訳) 表層深層学習への関心は著しく高まっているが、従来の木系モデルはいまだに深層学習よりも優れている。
この性能のギャップを狭めるために、ニューラルネットワークが予測しながら他のデータポイントを参照できるようにする手法である、革新的な検索メカニズムを探求する。
実験の結果,検索に基づくトレーニング,特に事前学習したTabPFNモデルを微調整する場合は,既存の手法をはるかに超えることがわかった。
さらに、モデルの性能を高めるために、広範な事前訓練が重要な役割を果たす。
これらの知見は,検索機構と事前学習と伝達学習を融合させることで,表層深層学習の分野を前進させる可能性が示唆された。 While interests in tabular deep learning has significantly grown, conventional tree-based models still outperform deep learning methods. To narrow this performance gap, we explore the innovative retrieval mechanism, a methodology that allows neural networks to refer to other data points while making predictions. Our experiments reveal that retrieval-based training, especially when fine-tuning the pretrained TabPFN model, notably surpasses existing methods. Moreover, the extensive pretraining plays a crucial role to enhance the performance of the model. These insights imply that blending the retrieval mechanism with pretraining and transfer learning schemes offers considerable potential for advancing the field of tabular deep learning. | 翻訳日:2023-11-14 14:11:41 公開日:2023-11-13 |
# 三次元キャビティアーキテクチャにおけるゲート互換回路QED Gate-Compatible Circuit QED in a Three-Dimensional Cavity Architecture ( http://arxiv.org/abs/2311.07337v1 ) ライセンス: Link先を確認 | Zezhou Xia, Jierong Huo, Zonglin Li, Jianghua Ying, Yulong Liu, Xin-Yi Tang, Yuqing Wang, Mo Chen, Dong Pan, Shan Zhang, Qichun Liu, Tiefu Li, Lin Li, Ke He, Jianhua Zhao, Runan Shang, Hao Zhang | (参考訳) 半導体ベースの超伝導量子ビットは、回路量子電磁力学(cqed)アーキテクチャでハイブリッド量子デバイスを研究するための汎用プラットフォームを提供する。
これらのcQED実験のほとんどは、直流ゲート線が組み込まれやすいコプラナー導波路を用いる。
本稿では,3次元マイクロ波空洞を用いたゲート可変ハイブリッドデバイスの探索手法を提案する。
装置やゲートラインの配置のためにキャビティ壁の内部に凹部を加工する。
InAs-Alナノワイヤジョセフソン接合を用いたハイブリッドデバイスを用いて,この設計を検証する。
デバイスとキャビティとの結合は、長い超伝導ストリップであるアンテナによって促進される。
ジョセフソン接合とアンテナは共にゲートモン量子ビットを形成する。
さらに、ゲート可変キャビティシフトと2トーン量子ビット分光を実証する。
この技術は、直流ゲート電圧を必要とする3D cQEDアーキテクチャで様々な量子デバイスや材料を探索するために使用できる。 Semiconductor-based superconducting qubits offer a versatile platform for studying hybrid quantum devices in circuit quantum electrodynamics (cQED) architecture. Most of these cQED experiments utilize coplanar waveguides, where the incorporation of DC gate lines is straightforward. Here, we present a technique for probing gate-tunable hybrid devices using a three-dimensional (3D) microwave cavity. A recess is machined inside the cavity wall for the placement of devices and gate lines. We validate this design using a hybrid device based on an InAs-Al nanowire Josephson junction. The coupling between the device and the cavity is facilitated by a long superconducting strip, the antenna. The Josephson junction and the antenna together form a gatemon qubit. We further demonstrate the gate-tunable cavity shift and two-tone qubit spectroscopy. This technique could be used to probe various quantum devices and materials in a 3D cQED architecture that requires DC gate voltages. | 翻訳日:2023-11-14 14:11:20 公開日:2023-11-13 |
# MetaSymNet:任意の定式化に進化可能な動的シンボリック回帰ネットワーク MetaSymNet: A Dynamic Symbolic Regression Network Capable of Evolving into Arbitrary Formulations ( http://arxiv.org/abs/2311.07326v1 ) ライセンス: Link先を確認 | Yanjie Li, Weijun Li, Lina Yu, Min Wu, Jinyi Liu, Wenqiang Li, Meilan Hao, Shu Wei, Yusong Deng | (参考訳) 数学的公式は人間と自然の間のコミュニケーションの手段となり、自然現象を支配する操作則をカプセル化する。
これらの法律の簡潔な定式化は科学研究において重要な目標であり、人工知能(AI)にとって重要な課題である。
従来の人工ニューラルネットワーク(MLP)はデータ適合性が優れているが、解釈不能なブラックボックスの結果が得られ、変数 x と予測値 y の関係の理解を妨げることがしばしばある。
さらに、MLPの固定ネットワークアーキテクチャは、しばしばネットワーク構造とパラメータの両方に冗長性をもたらす。
これらの問題に対処するために,我々は,その構造を動的に動的に調整し,拡張と縮小を両立する新しいニューラルネットワークであるmetasymnetを提案する。
この適応ネットワークは、パングメタ関数を活性化関数として使用しており、トレーニング中に様々な基本的な機能へと進化し、特定のニーズに合わせて数学的公式を構成することができる。
その後、ニューラルネットワークを簡潔で解釈可能な数学的表現へと進化させます。
metasymnetのパフォーマンスを評価するために、222の式からなる10以上の公開データセットにわたる4つの最先端のシンボリック回帰アルゴリズムと比較する。
実験の結果, ノイズの有無にかかわらず, アルゴリズムは他よりも常に優れていた。
さらに,mlpとsvmに対するメタシンベネットの適合性と補間能力について評価し,これら2つの機械学習アルゴリズムの本質的側面について述べる。
その結果,アルゴリズムは両領域で優れていることがわかった。
最後に,ネットワーク構造の複雑度を反復プラニングを用いてメタシンベネットとmlpを比較した。
その結果,MetaSymNetのネットワーク構造の複雑性は,同一の良さでMLPよりも明らかに低いことがわかった。 Mathematical formulas serve as the means of communication between humans and nature, encapsulating the operational laws governing natural phenomena. The concise formulation of these laws is a crucial objective in scientific research and an important challenge for artificial intelligence (AI). While traditional artificial neural networks (MLP) excel at data fitting, they often yield uninterpretable black box results that hinder our understanding of the relationship between variables x and predicted values y. Moreover, the fixed network architecture in MLP often gives rise to redundancy in both network structure and parameters. To address these issues, we propose MetaSymNet, a novel neural network that dynamically adjusts its structure in real-time, allowing for both expansion and contraction. This adaptive network employs the PANGU meta function as its activation function, which is a unique type capable of evolving into various basic functions during training to compose mathematical formulas tailored to specific needs. We then evolve the neural network into a concise, interpretable mathematical expression. To evaluate MetaSymNet's performance, we compare it with four state-of-the-art symbolic regression algorithms across more than 10 public datasets comprising 222 formulas. Our experimental results demonstrate that our algorithm outperforms others consistently regardless of noise presence or absence. Furthermore, we assess MetaSymNet against MLP and SVM regarding their fitting ability and extrapolation capability, these are two essential aspects of machine learning algorithms. The findings reveal that our algorithm excels in both areas. Finally, we compared MetaSymNet with MLP using iterative pruning in network structure complexity. The results show that MetaSymNet's network structure complexity is obviously less than MLP under the same goodness of fit. | 翻訳日:2023-11-14 14:10:57 公開日:2023-11-13 |
# dagc: モバイルコンピューティングにおける分散機械学習のためのデータボリュームアウェア適応スパーシフィケーション勾配圧縮 DAGC: Data-Volume-Aware Adaptive Sparsification Gradient Compression for Distributed Machine Learning in Mobile Computing ( http://arxiv.org/abs/2311.07324v1 ) ライセンス: Link先を確認 | Rongwei Lu, Yutong Jiang, Yinan Mao, Chen Tang, Bin Chen, Laizhong Cui, Zhi Wang | (参考訳) モバイル環境における分散機械学習(DML)は、重要な通信ボトルネックに直面している。
グラディエント圧縮はこの問題に対する効果的な解決策として現れており、帯域幅と計測データに制限のある環境においてかなりの利点を提供している。
しかし、労働者間で異なるデータボリュームを考慮しないワンサイズ圧縮アプローチのため、非IID環境では厳しいパフォーマンス低下が発生している。
したがって、異なるデータ分布とボリュームを持つワーカーに異なる圧縮比を割り当てることは、有望な解決策である。
本研究では,非一様圧縮を伴う分散sgdの解析を行い,異なるボリュームの作業者に適用した圧縮比が収束率(特定の精度を達成するのに必要なイテレーションを示す)に与える影響を明らかにする。
そこで我々は,n$-variablesのカイ二乗非線形最適化問題として,固定的かつ限定的な通信予算で制約された相対圧縮比の割り当てを行う。
本稿では,大容量データを扱う作業者に保守的圧縮を割り当てるDAGC-Rを提案する。
モバイル機器の計算限界を認識したDAGC-Aは,非IIDシナリオにおける絶対勾配圧縮機のロバスト性を向上させる。
実験により,DAGC-AとDAGC-Rの両者が,高度に不均衡なデータボリューム分布と制限された通信を扱う場合,良好な性能が得られることを確認した。 Distributed machine learning (DML) in mobile environments faces significant communication bottlenecks. Gradient compression has emerged as an effective solution to this issue, offering substantial benefits in environments with limited bandwidth and metered data. Yet, they encounter severe performance drop in non-IID environments due to a one-size-fits-all compression approach, which does not account for the varying data volumes across workers. Assigning varying compression ratios to workers with distinct data distributions and volumes is thus a promising solution. This study introduces an analysis of distributed SGD with non-uniform compression, which reveals that the convergence rate (indicative of the iterations needed to achieve a certain accuracy) is influenced by compression ratios applied to workers with differing volumes. Accordingly, we frame relative compression ratio assignment as an $n$-variables chi-square nonlinear optimization problem, constrained by a fixed and limited communication budget. We propose DAGC-R, which assigns the worker handling larger data volumes the conservative compression. Recognizing the computational limitations of mobile devices, we DAGC-A, which are computationally less demanding and enhances the robustness of the absolute gradient compressor in non-IID scenarios. Our experiments confirm that both the DAGC-A and DAGC-R can achieve better performance when dealing with highly imbalanced data volume distribution and restricted communication. | 翻訳日:2023-11-14 14:09:29 公開日:2023-11-13 |
# FIRST:テキスト駆動ファッション合成と設計のための100万エントリデータセット FIRST: A Million-Entry Dataset for Text-Driven Fashion Synthesis and Design ( http://arxiv.org/abs/2311.07414v1 ) ライセンス: Link先を確認 | Zhen Huang, Yihao Li, Dong Pei, Jiapeng Zhou, Xuliang Ning, Jianlin Han, Xiaoguang Han, Xuejun Chen | (参考訳) テキストによるファッション合成とデザインは、人工知能生成コンテンツ(AIGC)の極めて貴重な部分であり、伝統的なファッション産業において大きな革命をもたらす可能性がある。
テキスト駆動型ファッション合成とデザインの研究を進めるために,リッチ構造化テキスト(FIRST)記述を用いた100万枚の高解像度ファッション画像からなる新しいデータセットを提案する。
FIRSTには幅広い服装カテゴリーがあり、画像に見合った文章の記述は複数の階層レベルで整理される。
FISRTでトレーニングされた一般的な生成モデルの実験は、FIRSTの必要性を示している。
私たちはコミュニティに、私たちのデータセットに基づいてファッションデザインをより創造的で想像力のあるものにする、よりインテリジェントなファッション合成とデザインシステムの開発を依頼します。
データセットはまもなくリリースされる予定だ。 Text-driven fashion synthesis and design is an extremely valuable part of artificial intelligence generative content(AIGC), which has the potential to propel a tremendous revolution in the traditional fashion industry. To advance the research on text-driven fashion synthesis and design, we introduce a new dataset comprising a million high-resolution fashion images with rich structured textual(FIRST) descriptions. In the FIRST, there is a wide range of attire categories and each image-paired textual description is organized at multiple hierarchical levels. Experiments on prevalent generative models trained over FISRT show the necessity of FIRST. We invite the community to further develop more intelligent fashion synthesis and design systems that make fashion design more creative and imaginative based on our dataset. The dataset will be released soon. | 翻訳日:2023-11-14 14:01:18 公開日:2023-11-13 |
# 政策勾配アルゴリズムにおける大きな偏差の視点 A Large Deviations Perspective on Policy Gradient Algorithms ( http://arxiv.org/abs/2311.07411v1 ) ライセンス: Link先を確認 | Wouter Jongeneel, Mengmeng Li, Daniel Kuhn | (参考訳) 本研究では,ソフトマックスパラメトリゼーションとエントロピー正規化目的を用いたポリシー勾配法により生じる確率的イテレートに対する最初の大きな偏差率関数を導出する。
縮約原理を大きな偏差理論から利用し、他の幅広い政策パラメトリゼーションのスペクトルに対する指数収束率を導出するための一般的なレシピも開発する。
このアプローチは文献からのいくつかの結果を統一し、既存の証明技法を単純化する。 We derive the first large deviation rate function for the stochastic iterates generated by policy gradient methods with a softmax parametrization and an entropy regularized objective. Leveraging the contraction principle from large deviations theory, we also develop a general recipe for deriving exponential convergence rates for a wide spectrum of other policy parametrizations. This approach unifies several results from the literature and simplifies existing proof techniques. | 翻訳日:2023-11-14 14:01:04 公開日:2023-11-13 |
# AI駆動型ソフトウェアエンジニアリングタスクにおける最適な心理的機能を目指して:SEWELL-CAREアセスメントフレームワーク Toward Optimal Psychological Functioning in AI-driven Software Engineering Tasks: The SEWELL-CARE Assessment Framework ( http://arxiv.org/abs/2311.07410v1 ) ライセンス: Link先を確認 | Oussama Ben Sghaier, Jean-Sebastien Boudrias, Houari Sahraoui | (参考訳) ソフトウェアエンジニアリングの分野では、さまざまな人工知能技術を活用して課題に対処し、革新的なツールを作るためのシフトがあった。
これらのソリューションは、効率の向上、タスクの自動化、開発者に価値あるサポートを提供することを目的としている。
技術的な側面は重要であるが、これらのタスクを行う個人の幸福と心理学はしばしば見過ごされる。
本稿では,ソフトウェア工学タスクの技術的,心理的,社会的側面を考慮した総合的アプローチが不可欠であると主張する。
このギャップに対処するために、私たちは、AI駆動のソフトウェアエンジニアリングタスクを複数の視点から評価するために設計された概念的なフレームワークSEWELL-CAREを紹介します。
技術面と人的側面の両方を強調して、従来の技術指標を超えて、微妙な評価を行ないます。 In the field of software engineering, there has been a shift towards utilizing various artificial intelligence techniques to address challenges and create innovative tools. These solutions are aimed at enhancing efficiency, automating tasks, and providing valuable support to developers. While the technical aspects are crucial, the well-being and psychology of the individuals performing these tasks are often overlooked. This paper argues that a holistic approach is essential, one that considers the technical, psychological, and social aspects of software engineering tasks. To address this gap, we introduce SEWELL-CARE, a conceptual framework designed to assess AI-driven software engineering tasks from multiple perspectives, with the goal of customizing the tools to improve the efficiency, well-being, and psychological functioning of developers. By emphasizing both technical and human dimensions, our framework provides a nuanced evaluation that goes beyond traditional technical metrics. | 翻訳日:2023-11-14 14:00:58 公開日:2023-11-13 |
# 物理的に着想を得たフェルミオン-ビットマッピングによる絡み合いの低減 Reducing Entanglement With Physically-Inspired Fermion-To-Qubit Mappings ( http://arxiv.org/abs/2311.07409v1 ) ライセンス: Link先を確認 | Teodor Parella-Dilm\'e, Korbinian Kottmann, Leonardo Zambrano, Luke Mortimer, Jakob S. Kottmann and Antonio Ac\'in | (参考訳) ab-initio電子構造シミュレーションでは、フェルミオンからクォービットへの写像はフェルミオン問題の初期符号化ステップを表す。
この研究は、関心の状態をシミュレートする際の絡み合い要求を大幅に単純化する、マッピングを構築する物理的に着想を得た手法を導入する。
電子励起の存在はマッピングの構築を駆動し、キュービット空間におけるターゲット状態の相関を減少させる。
従来のマッピングを用いた先行研究の古典的・量子的変分法と比較して,小分子の基底状態のシミュレーションを行い,性能の向上を観測した。
特に量子側では、ryハードウェアの効率の良いアンサッツを用いて、lih$, $h_2$, $(h_2)_2$, $h_4$分子の化学精度を達成するために、我々のマッピングは多数の絡み合う層を減少させる必要がある。
さらに,n_2$分子の密度行列再正規化群アルゴリズムにおける基底状態シミュレーション性能も向上した。 In ab-initio electronic structure simulations, fermion-to-qubit mappings represent the initial encoding step of the fermionic problem into qubits. This work introduces a physically-inspired method for constructing mappings that significantly simplify entanglement requirements when simulating states of interest. The presence of electronic excitations drives the construction of our mappings, reducing correlations for target states in the qubit space. To benchmark our method, we simulate ground states of small molecules and observe an enhanced performance when compared to classical and quantum variational approaches from prior research employing conventional mappings. In particular, on the quantum side, our mappings require a reduced number of entangling layers to achieve chemical accuracy for the $LiH$, $H_2$, $(H_2)_2$ and $H_4$ molecules using the RY hardware efficient ansatz. In addition, our mappings also provide an enhanced ground state simulation performance in the density matrix renormalization group algorithm for the $N_2$ molecule. | 翻訳日:2023-11-14 14:00:43 公開日:2023-11-13 |
# 絵画マーキング再同定によるハニービーフラワーパッチ自動計測に向けて Towards Automatic Honey Bee Flower-Patch Assays with Paint Marking Re-Identification ( http://arxiv.org/abs/2311.07407v1 ) ライセンス: Link先を確認 | Luke Meyers, Josu\'e Rodr\'iguez Cordero, Carlos Corrada Bravo, Fanfan Noel, Jos\'e Agosto-Rivera, Tugrul Giray, R\'emi M\'egret | (参考訳) 本稿では,ハチミツバチができるだけ軽量でなければならない分野において,ハチミツバチの行動分析を自動化するための,塗料マーキングが実現可能であることを示す。
我々は,4392の画像と27のアイデンティティを持つペンキマーキングを用いたミツバチ再識別のための新しいデータセットを寄贈した。
resnetバックボーンと三重項損失によるコントラスト学習は、前もってアイデンティティが知られているクローズド設定において、ほぼ完全な認識を持つアイデンティティ表現機能をもたらした。
様々な実験により、別個のIDに一般化する能力を評価し、無マークの腹部のみを使用するなど、異なる身体部位を用いて識別することの影響を示す。
さらに,訪問検出を完全に自動化する可能性を示し,エッジデバイス上のフィールドにおける将来のリアルタイムデプロイメントのための計算時間の予備結果を提供する。 In this paper, we show that paint markings are a feasible approach to automatize the analysis of behavioral assays involving honey bees in the field where marking has to be as lightweight as possible. We contribute a novel dataset for bees re-identification with paint-markings with 4392 images and 27 identities. Contrastive learning with a ResNet backbone and triplet loss led to identity representation features with almost perfect recognition in closed setting where identities are known in advance. Diverse experiments evaluate the capability to generalize to separate IDs, and show the impact of using different body parts for identification, such as using the unmarked abdomen only. In addition, we show the potential to fully automate the visit detection and provide preliminary results of compute time for future real-time deployment in the field on an edge device. | 翻訳日:2023-11-14 14:00:25 公開日:2023-11-13 |
# 弱教師付き学習を用いた2次元画像からの歯の処理とセグメンテーション Processing and Segmentation of Human Teeth from 2D Images using Weakly Supervised Learning ( http://arxiv.org/abs/2311.07398v1 ) ライセンス: Link先を確認 | Tom\'a\v{s} Kunzo, Viktor Kocur, Luk\'a\v{s} Gajdo\v{s}ech, Martin Madaras | (参考訳) 歯のセグメンテーションは、正確な診断と治療計画のための歯科画像解析に欠かせない課題である。
教師付き深層学習法は歯のセグメンテーションに利用することができるが、時間と費用のかかるセグメンテーションマスクの広範な手動アノテーションを必要とすることが多い。
本研究では,手動アノテーションの必要性を減らすために,歯のセグメンテーションに対する弱い教師付きアプローチを提案する。
本手法は,キーポイント検出ネットワークからの出力ヒートマップと中間特徴マップを用いて,セグメント化プロセスの導出を行う。
そこで本研究では,歯牙キーポイントを付与した3000個の口腔画像から,歯牙キーポイント検出ネットワークのトレーニングを行う。
キーポイント検出ネットワークの異なる層からの特徴マップを組み合わせ、明示的なセグメンテーションアノテーションなしで正確な歯のセグメンテーションを可能にする。
検出されたキーポイントは、セグメンテーションマスクのさらなる洗練にも使用される。
TriDentalデータセットの実験結果は,最先端セグメンテーション法と比較して精度と堅牢性の観点から,我々のアプローチの優位性を示している。
本手法は, 実世界の歯科用アプリケーションにおいて, 歯のセグメンテーションに費用対効果と効率的なソリューションを提供する。 Teeth segmentation is an essential task in dental image analysis for accurate diagnosis and treatment planning. While supervised deep learning methods can be utilized for teeth segmentation, they often require extensive manual annotation of segmentation masks, which is time-consuming and costly. In this research, we propose a weakly supervised approach for teeth segmentation that reduces the need for manual annotation. Our method utilizes the output heatmaps and intermediate feature maps from a keypoint detection network to guide the segmentation process. We introduce the TriDental dataset, consisting of 3000 oral cavity images annotated with teeth keypoints, to train a teeth keypoint detection network. We combine feature maps from different layers of the keypoint detection network, enabling accurate teeth segmentation without explicit segmentation annotations. The detected keypoints are also used for further refinement of the segmentation masks. Experimental results on the TriDental dataset demonstrate the superiority of our approach in terms of accuracy and robustness compared to state-of-the-art segmentation methods. Our method offers a cost-effective and efficient solution for teeth segmentation in real-world dental applications, eliminating the need for extensive manual annotation efforts. | 翻訳日:2023-11-14 14:00:13 公開日:2023-11-13 |
# MLLMの幻覚評価のためのLLMフリー多次元ベンチマーク An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation ( http://arxiv.org/abs/2311.07397v1 ) ライセンス: Link先を確認 | Junyang Wang, Yuhang Wang, Guohai Xu, Jing Zhang, Yukai Gu, Haitao Jia, Ming Yan, Ji Zhang, Jitao Sang | (参考訳) マルチモーダルタスクの大幅な進歩にもかかわらず、現在のMulti-modal Large Language Models (MLLM) は幻覚の重大な課題に遭遇し、有害な結果をもたらす可能性がある。
したがって、MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。
先行研究は、高い評価コスト(例えば、人間や高度なllmに依存する)と不十分な評価次元(例えば幻覚やタスクの種類)で制限されている。
本稿では, LLMフリーな多次元ベンチマークAMBERを提案し, オブジェクト存在, オブジェクト属性, オブジェクト関係幻覚を含む, 生成タスクと識別タスクの両方を評価する。
AMBERに基づいて低コストで効率的な評価パイプラインを設計する。
また, GPT-4V(ision)を含むMLLMの総合的評価と詳細な分析を行い, 幻覚の緩和のためのガイドラインを提案する。
AMBERのデータとコードはhttps://github.com/junyangwang0410/AMBERで入手できる。 Despite making significant progress in multi-modal tasks, current Multi-modal Large Language Models (MLLMs) encounter the significant challenge of hallucination, which may lead to harmful consequences. Therefore, evaluating MLLMs' hallucinations is becoming increasingly important in model improvement and practical application deployment. Previous works are limited in high evaluation costs (e.g., relying on humans or advanced LLMs) and insufficient evaluation dimensions (e.g., types of hallucination and task). In this paper, we propose an LLM-free multi-dimensional benchmark AMBER, which can be used to evaluate both generative task and discriminative task including object existence, object attribute and object relation hallucination. Based on AMBER, we design a low-cost and efficient evaluation pipeline. Additionally, we conduct a comprehensive evaluation and detailed analysis of mainstream MLLMs including GPT-4V(ision), and also give guideline suggestions for mitigating hallucinations. The data and code of AMBER are available at https://github.com/junyangwang0410/AMBER. | 翻訳日:2023-11-14 13:59:52 公開日:2023-11-13 |
# SPICEプロジェクトにおけるミュージアムアーティファクトの価値を探る--予備的研究 Exploring Values in Museum Artifacts in the SPICE project: a Preliminary Study ( http://arxiv.org/abs/2311.07396v1 ) ライセンス: Link先を確認 | Nele Kadastik, Thomas A. Pederson, Luis Emilio Bruni, Rossana Damiano, Antonio Lieto, Manuel Striani, Tsvi Kuflik, Alan Wecker, | (参考訳) 本論文は、EU H2020 SPICEプロジェクトにおいて、博物館の訪問者が経験した視点の多様性を高めるために開発された意味推論ツールの理論的、実装、および予備評価について述べる。
DEGARI 2.0と呼ばれるこのツールは、コモンセンス推論フレームワークTCLに依存しており、ハイドの道徳的価値の理論を定式化した存在論的モデルを利用して、博物館のアイテムに価値と感情を結びつける。
ミュージアム展覧会内では、既に経験した、または好まれる物の価値だけでなく、価値のスタンスが異なる新しいアイテムに関連付けられた文化項目を提示し、より包括的な文化内容の解釈に訪問体験を開放する。
このシステムは、ハイファのヘヒト博物館 (Hecht Museum of Haifa) のコレクションにおいて、SPICEプロジェクト(英語版)の文脈で事前試験されている。 This document describes the rationale, the implementation and a preliminary evaluation of a semantic reasoning tool developed in the EU H2020 SPICE project to enhance the diversity of perspectives experienced by museum visitors. The tool, called DEGARI 2.0 for values, relies on the commonsense reasoning framework TCL, and exploits an ontological model formalizingthe Haidt's theory of moral values to associate museum items with combined values and emotions. Within a museum exhibition, this tool can suggest cultural items that are associated not only with the values of already experienced or preferred objects, but also with novel items with different value stances, opening the visit experience to more inclusive interpretations of cultural content. The system has been preliminarily tested, in the context of the SPICE project, on the collection of the Hecht Museum of Haifa. | 翻訳日:2023-11-14 13:59:36 公開日:2023-11-13 |
# sEMGによる多次元特徴学習による連続ロコモーションモードの予測 Predicting Continuous Locomotion Modes via Multidimensional Feature Learning from sEMG ( http://arxiv.org/abs/2311.07395v1 ) ライセンス: Link先を確認 | Peiwen Fu, Wenjuan Zhong, Yuyang Zhang, Wenxuan Xiong, Yuzhou Lin, Yanlong Tai, Lin Meng and Mingming Zhang | (参考訳) 歩行支援装置は、様々な移動モード間のスムーズな遷移を確保するために適応制御法を必要とする。
この目的のために、人間の歩行モード(例えば、レベルウォーキングや階段上昇)を事前に検出することは、そのようなロボットシステムの知性と透明性を改善するために不可欠である。
本研究では,表面筋電図(sEMG)信号から空間的・時間的・周波数的特徴抽出を統合したエンドツーエンドディープラーニングモデルであるDeep-STFを提案する。
本モデルは,100~500msの時間間隔で,9つの移動モードと15の遷移の正確な連続予測を可能にするとともに,予測効率を定量化するための「安定予測時間」の概念を導入した。
この用語は、第5の正確な予測からタスク遷移につながる臨界事象の発生までの、モード遷移の一貫性と正確な予測を行う期間を指す。
この安定予測時間と予測時間の区別は、モード遷移予測の精度と信頼性に重点を置いているため、不可欠である。
実験結果からDeep-STPの最先端予測性能は, sEMGデータにのみ依存して, 多様な移動モードおよび遷移にまたがった。
100msの予測では、Deep-STFはCNNや他の機械学習技術を上回っ、96.48%の予測精度を達成した。
500msの予測水平線が延長されても、精度は93.00%に低下した。
次回の遷移を検出するための平均的な安定な予測時間は、100-500msの速度で28.15msから372.21msの範囲に及んだ。 Walking-assistive devices require adaptive control methods to ensure smooth transitions between various modes of locomotion. For this purpose, detecting human locomotion modes (e.g., level walking or stair ascent) in advance is crucial for improving the intelligence and transparency of such robotic systems. This study proposes Deep-STF, a unified end-to-end deep learning model designed for integrated feature extraction in spatial, temporal, and frequency dimensions from surface electromyography (sEMG) signals. Our model enables accurate and robust continuous prediction of nine locomotion modes and 15 transitions at varying prediction time intervals, ranging from 100 to 500 ms. In addition, we introduced the concept of 'stable prediction time' as a distinct metric to quantify prediction efficiency. This term refers to the duration during which consistent and accurate predictions of mode transitions are made, measured from the time of the fifth correct prediction to the occurrence of the critical event leading to the task transition. This distinction between stable prediction time and prediction time is vital as it underscores our focus on the precision and reliability of mode transition predictions. Experimental results showcased Deep-STP's cutting-edge prediction performance across diverse locomotion modes and transitions, relying solely on sEMG data. When forecasting 100 ms ahead, Deep-STF surpassed CNN and other machine learning techniques, achieving an outstanding average prediction accuracy of 96.48%. Even with an extended 500 ms prediction horizon, accuracy only marginally decreased to 93.00%. The averaged stable prediction times for detecting next upcoming transitions spanned from 28.15 to 372.21 ms across the 100-500 ms time advances. | 翻訳日:2023-11-14 13:59:19 公開日:2023-11-13 |
# コンピュータビジョンを用いた運転者の視点からの屋外広告の意義評価 Evaluating the Significance of Outdoor Advertising from Driver's Perspective Using Computer Vision ( http://arxiv.org/abs/2311.07390v1 ) ライセンス: Link先を確認 | Zuzana \v{C}ernekov\'a, Zuzana Berger Haladov\'a, J\'an \v{S}pirka, Viktor Kocur | (参考訳) 路傍の看板のような屋外広告は、マーケティングキャンペーンで重要な役割を果たすが、ドライバーの気晴らしにもなり、事故に繋がる可能性がある。
本研究では,運転者の視点から撮影した映像における道路広告の意義を評価するパイプラインを提案する。
我々は、視線追跡デバイスを装着して、事前に定義された経路を運転するドライバーが撮影した8つのビデオを含む、新しいBillboardLamacデータセットを収集し、注釈付けした。
データセットには154のユニークなidと155万のバウンディングボックスを含むビルボードのアノテーションとアイフィケーションデータが含まれている。
YOLOv8検出器と組み合わせて様々な物体追跡手法を評価し,BillboardLamac上で38.5HOTAを達成できる最善のアプローチで広告広告を識別する。
さらに、ランダムな森林分類器を訓練し、75.8%の精度で運転者の固定時間に基づいて3つのクラスに分類する。
訓練された分類器の分析により, 看板の可視性, 満足度, サイズが, 看板の意義を評価する上で最も重要な特徴であることが判明した。 Outdoor advertising, such as roadside billboards, plays a significant role in marketing campaigns but can also be a distraction for drivers, potentially leading to accidents. In this study, we propose a pipeline for evaluating the significance of roadside billboards in videos captured from a driver's perspective. We have collected and annotated a new BillboardLamac dataset, comprising eight videos captured by drivers driving through a predefined path wearing eye-tracking devices. The dataset includes annotations of billboards, including 154 unique IDs and 155 thousand bounding boxes, as well as eye fixation data. We evaluate various object tracking methods in combination with a YOLOv8 detector to identify billboard advertisements with the best approach achieving 38.5 HOTA on BillboardLamac. Additionally, we train a random forest classifier to classify billboards into three classes based on the length of driver fixations achieving 75.8% test accuracy. An analysis of the trained classifier reveals that the duration of billboard visibility, its saliency, and size are the most influential features when assessing billboard significance. | 翻訳日:2023-11-14 13:58:52 公開日:2023-11-13 |
# transpose attack:双方向トレーニングによるデータセットの盗み Transpose Attack: Stealing Datasets with Bidirectional Training ( http://arxiv.org/abs/2311.07389v1 ) ライセンス: Link先を確認 | Guy Amit, Mosh Levy, Yisroel Mirsky | (参考訳) ディープニューラルネットワークは通常、前方方向に実行される。
しかし、本研究では、モデルが異なるタスクの方向と方向の両方でトレーニングできる脆弱性を特定します。
敵は、この能力を利用してローグモデルを隠すことができる。
さらに,本研究では,ニューラルネットワークがデータセットから特定のサンプルを体系的に記憶し,取り出すことができることを示す。
これらの結果から,保護された学習環境からのデータセットを正統なモデルで抽出する新たな手法が明らかになった。
データ流出攻撃に焦点をあてて、現代のアーキテクチャは秘密裏に数万のサンプルを秘密裏に流出させ、データのプライバシーを侵害したり、新しいモデルを訓練したりできることを示す。
さらに、この脅威を軽減するために、感染モデルを検出する新しいアプローチを提案する。 Deep neural networks are normally executed in the forward direction. However, in this work, we identify a vulnerability that enables models to be trained in both directions and on different tasks. Adversaries can exploit this capability to hide rogue models within seemingly legitimate models. In addition, in this work we show that neural networks can be taught to systematically memorize and retrieve specific samples from datasets. Together, these findings expose a novel method in which adversaries can exfiltrate datasets from protected learning environments under the guise of legitimate models. We focus on the data exfiltration attack and show that modern architectures can be used to secretly exfiltrate tens of thousands of samples with high fidelity, high enough to compromise data privacy and even train new models. Moreover, to mitigate this threat we propose a novel approach for detecting infected models. | 翻訳日:2023-11-14 13:58:33 公開日:2023-11-13 |
# 量子アニールにおけるイジングモデルの性能予測 Predicting Ising Model Performance on Quantum Annealers ( http://arxiv.org/abs/2311.07388v1 ) ライセンス: Link先を確認 | Salvatore Certo, Georgios Korpas, Andrew Vlasic, Philip Intallura | (参考訳) ハードウェアネイティブイジングモデルの特徴と、現在および次世代量子アニーラの性能を解析することにより、シミュレーションアニーラリングのような古典的ヒューリスティックと比較して、断熱的進化を利用した有利性を決定する枠組みを提供する。
我々は、様々な分布から引き出された係数を用いてIsing Model実験を行い、古典的ヒューリスティックスにおけるフラストレーションにつながる分布に必要なモーメントの範囲を提供する。
モデルの線形項と二次項の間の関係を同定することで、解析はアニーラーに問題インスタンス適合性を決定するために事前に行うことができる。
次に、これらの実験をD-Waveの次世代デバイスのプロトタイプに拡張し、現在のアドバンテージアニーラーと比較してさらなる性能向上を示す。 By analyzing the characteristics of hardware-native Ising Models and their performance on current and next generation quantum annealers, we provide a framework for determining the prospect of advantage utilizing adiabatic evolution compared to classical heuristics like simulated annealing. We conduct Ising Model experiments with coefficients drawn from a variety of different distributions and provide a range for the necessary moments of the distributions that lead to frustration in classical heuristics. By identifying the relationships between the linear and quadratic terms of the models, analysis can be done a priori to determine problem instance suitability on annealers. We then extend these experiments to a prototype of D-Wave's next generation device, showing further performance improvements compared to the current Advantage annealers. | 翻訳日:2023-11-14 13:58:20 公開日:2023-11-13 |
# 大規模言語モデルにおける論理的パズル解法の評価:マインズウィーパーケーススタディからの考察 Assessing Logical Puzzle Solving in Large Language Models: Insights from a Minesweeper Case Study ( http://arxiv.org/abs/2311.07387v1 ) ライセンス: Link先を確認 | Yinghao Li, Haorui Wang, Chao Zhang | (参考訳) 大規模言語モデル(llm)は言語理解に優れた能力を示しており、タスク固有の微調整やプロンプトエンジニアリングを通じて、様々な現実世界のタスクにうまく適用されている。
これらの進歩にもかかわらず、llmが基本的に推論と計画を行う能力があるのか、トレーニングデータから情報をリコールし、合成するかは、まだ疑問の余地がある。
本研究では,llmに不慣れで,トレーニングデータセットを欠いた形式で設計した,新しいタスクである minesweeper を紹介する。
このタスクは、隣接するオープンセルが提供する数値的な手がかりに基づいて、LLMが鉱山の位置を特定することを課題とする。
このタスクを成功させるには、各細胞の状態の理解、手がかりと鉱山の間の空間的関係の認識、細胞配置から引き出された論理的推論に基づく行動の階層化が必要となる。
我々の実験は、先進的な GPT-4 モデルによる試行を含むもので、LLM は、この課題に必要な基礎的能力を持っているが、Minesweeper を解くために必要な一貫性のある多段階論理的推論プロセスに統合するのに苦労していることを示している。
これらの知見は、LLMにおける推論能力の理解と性質に関するさらなる研究の必要性を強調し、より洗練されたAI推論と計画モデルへの道を探る必要がある。 Large Language Models (LLMs) have shown remarkable proficiency in language understanding and have been successfully applied to a variety of real-world tasks through task-specific fine-tuning or prompt engineering. Despite these advancements, it remains an open question whether LLMs are fundamentally capable of reasoning and planning, or if they primarily rely on recalling and synthesizing information from their training data. In our research, we introduce a novel task -- Minesweeper -- specifically designed in a format unfamiliar to LLMs and absent from their training datasets. This task challenges LLMs to identify the locations of mines based on numerical clues provided by adjacent opened cells. Successfully completing this task requires an understanding of each cell's state, discerning spatial relationships between the clues and mines, and strategizing actions based on logical deductions drawn from the arrangement of the cells. Our experiments, including trials with the advanced GPT-4 model, indicate that while LLMs possess the foundational abilities required for this task, they struggle to integrate these into a coherent, multi-step logical reasoning process needed to solve Minesweeper. These findings highlight the need for further research to understand and nature of reasoning capabilities in LLMs under similar circumstances, and to explore pathways towards more sophisticated AI reasoning and planning models. | 翻訳日:2023-11-14 13:58:06 公開日:2023-11-13 |
# LM-Polygraph:言語モデルの不確かさ推定 LM-Polygraph: Uncertainty Estimation for Language Models ( http://arxiv.org/abs/2311.07383v1 ) ライセンス: Link先を確認 | Ekaterina Fadeeva, Roman Vashurin, Akim Tsvigun, Artem Vazhentsev, Sergey Petrakov, Kirill Fedyanin, Daniil Vasilev, Elizaveta Goncharova, Alexander Panchenko, Maxim Panov, Timothy Baldwin, Artem Shelmanov | (参考訳) 大規模言語モデル(LLMs)の能力の最近の進歩は、様々な分野において、数多くの画期的な応用の道を開いた。
しかし、これらのモデルがしばしば「幻覚」、すなわち、ユーザに彼らの言明の真偽を識別する明確な手段を与えることなく事実をつくりだすため、重大な課題が発生する。
不確実性推定(UE)法は、より安全で、より責任があり、より効果的なLLMの使用方法である。
しかし、これまでLLMのUE法の研究は、工学的な貢献よりも理論的な研究に重点を置いてきた。
本研究では,テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリ実装と,Pythonの統一プログラムインタフェースを備えたフレームワークであるLM-Polygraphを導入することで,この問題に対処する。
さらに、研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼度スコア付き標準チャットダイアログを強化し、エンドユーザが信頼できない応答を識別できるようにするデモWebアプリケーションも導入されている。
LM-PolygraphはBLOOMz、LLaMA-2、ChatGPT、GPT-4といった最新のLLMと互換性があり、同様のスタイルのLMの将来のリリースをサポートするように設計されている。 Recent advancements in the capabilities of large language models (LLMs) have paved the way for a myriad of groundbreaking applications in various fields. However, a significant challenge arises as these models often "hallucinate", i.e., fabricate facts without providing users an apparent means to discern the veracity of their statements. Uncertainty estimation (UE) methods are one path to safer, more responsible, and more effective use of LLMs. However, to date, research on UE methods for LLMs has been focused primarily on theoretical rather than engineering contributions. In this work, we tackle this issue by introducing LM-Polygraph, a framework with implementations of a battery of state-of-the-art UE methods for LLMs in text generation tasks, with unified program interfaces in Python. Additionally, it introduces an extendable benchmark for consistent evaluation of UE techniques by researchers, and a demo web application that enriches the standard chat dialog with confidence scores, empowering end-users to discern unreliable responses. LM-Polygraph is compatible with the most recent LLMs, including BLOOMz, LLaMA-2, ChatGPT, and GPT-4, and is designed to support future releases of similarly-styled LMs. | 翻訳日:2023-11-14 13:57:39 公開日:2023-11-13 |
# 大規模言語モデルを用いた学習可能なサイバー物理システムのテスト:形式的アプローチ Testing learning-enabled cyber-physical systems with Large-Language Models: A Formal Approach ( http://arxiv.org/abs/2311.07377v1 ) ライセンス: Link先を確認 | Xi Zheng, Aloysius K. Mok, Ruzica Piskac, Yong Jae Lee, Bhaskar Krishnamachari, Dakai Zhu, Oleg Sokolsky, Insup Lee | (参考訳) 機械学習(ML)をサイバー物理システム(CPS)に統合することは、効率の向上、予測能力、リアルタイム応答性、自律的な操作の実現など、大きなメリットを提供する。
この収束により、自動運転車、配達ドローン、サービスロボット、遠隔医療手順など、さまざまな現実世界のアプリケーションの開発と展開が加速された。
しかし、AIを注入したCPSのためのソフトウェア開発ライフサイクル(SDLC)は、データと学習を2つの重要なコンポーネントとして特徴付ける従来のアプローチとは大きく異なる。
既存の検証と検証技術はしばしばこれらの新しいパラダイムには不十分である。
本研究は,学習可能なcpsの形式的安全性を確保する上での課題を指摘し,検証と検証のための最も実践的な手法としてテストを検討し,現状の方法論を要約する。
正式な安全保証を提供するための現在のテストアプローチの制限を認識し、我々は、基礎的な確率的テストからより厳密なアプローチに移行するためのロードマップを提案します。 The integration of machine learning (ML) into cyber-physical systems (CPS) offers significant benefits, including enhanced efficiency, predictive capabilities, real-time responsiveness, and the enabling of autonomous operations. This convergence has accelerated the development and deployment of a range of real-world applications, such as autonomous vehicles, delivery drones, service robots, and telemedicine procedures. However, the software development life cycle (SDLC) for AI-infused CPS diverges significantly from traditional approaches, featuring data and learning as two critical components. Existing verification and validation techniques are often inadequate for these new paradigms. In this study, we pinpoint the main challenges in ensuring formal safety for learningenabled CPS.We begin by examining testing as the most pragmatic method for verification and validation, summarizing the current state-of-the-art methodologies. Recognizing the limitations in current testing approaches to provide formal safety guarantees, we propose a roadmap to transition from foundational probabilistic testing to a more rigorous approach capable of delivering formal assurance. | 翻訳日:2023-11-14 13:57:15 公開日:2023-11-13 |
# 効率的な視覚言語理解のための言語基盤QFormer Language Grounded QFormer for Efficient Vision Language Understanding ( http://arxiv.org/abs/2311.07449v1 ) ライセンス: Link先を確認 | Moulik Choraria, Nitesh Sekhar, Yue Wu, Xu Zhang, Prateek Singhal, Lav R. Varshney | (参考訳) 大規模事前学習と命令チューニングは、幅広い能力を持つ汎用言語モデルの訓練に成功している。
しかし、視覚入力の分布的多様性のため、汎用視覚言語モデルへの拡張は困難である。
最近の研究は、凍結したモダリティをブリッジするためのBLIP-2モデルで提案されたQuery Transformer (QFormer) アプローチからインスピレーションを得て、視覚言語による命令チューニングを探求している。
しかし、これらのアプローチは、最終的な微調整の前に表現学習のための大規模なマルチモーダルプリトレーニングに重きを置き、巨大な計算オーバーヘッド、スケーリングの貧弱さ、アクセシビリティの制限を伴います。
そこで本研究では,QFormerに基づく視覚言語アライメントのより効率的な手法を提案し,既存のベースラインと比較して,視覚言語事前学習の効率を向上させるための戦略の有効性を実証する。 Large-scale pretraining and instruction tuning have been successful for training general-purpose language models with broad competencies. However, extending to general-purpose vision-language models is challenging due to the distributional diversity in visual inputs. A recent line of work explores vision-language instruction tuning, taking inspiration from the Query Transformer (QFormer) approach proposed in BLIP-2 models for bridging frozen modalities. However, these approaches rely heavily on large-scale multi-modal pretraining for representation learning before eventual finetuning, incurring a huge computational overhead, poor scaling, and limited accessibility. To that end, we propose a more efficient method for QFormer-based vision-language alignment and demonstrate the effectiveness of our strategy compared to existing baselines in improving the efficiency of vision-language pretraining. | 翻訳日:2023-11-14 13:49:46 公開日:2023-11-13 |
# ストーリー・トゥ・モーション:長文からの無限・制御可能な文字アニメーションの合成 Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text ( http://arxiv.org/abs/2311.07446v1 ) ライセンス: Link先を確認 | Zhongfei Qing, Zhongang Cai, Zhitao Yang and Lei Yang | (参考訳) ストーリーから自然な人間の動きを生み出すことは、アニメーション、ゲーム、映画産業の風景を変える可能性がある。
文字が様々な場所に移動し、長いテキスト記述に基づいて特定の動きを行う必要があるとき、新しく挑戦的なタスクであるストーリー・トゥ・モーションが生まれます。
このタスクは低レベル制御(軌道)と高レベル制御(モーションセマンティクス)の融合を必要とする。
キャラクタ制御メソッドはテキスト記述を扱わないが、text-to-motionメソッドは位置制約がなく、しばしば不安定な動きを生成する。
これらの制約を考慮し、制御可能で無限に長い動きと入力テキストに沿った軌跡を生成する新しいシステムを提案する。
1) 現代大規模言語モデルを利用してテキスト駆動型モーションスケジューラとして機能し, 長いテキストから一連の(テキスト, 位置, 持続時間)ペアを抽出する。
2) 動きのセマンティクスと軌跡制約を組み込んだテキスト駆動型動き検索手法を開発した。
3) 不自然なポーズや足の滑りといった遷移運動における共通のアーティファクトに対処するプログレッシブマスクトランスを設計。
ストーリー・トゥ・モーションのための最初の包括的なソリューションとしての先駆的な役割の他に、本システムは、軌道追従、時間的アクション構成、モーションブレンディングという3つの異なるサブタスクで評価を行い、ボード全体の最新のモーション合成方法よりも優れています。
ホームページ: https://story2motion.github.io/ Generating natural human motion from a story has the potential to transform the landscape of animation, gaming, and film industries. A new and challenging task, Story-to-Motion, arises when characters are required to move to various locations and perform specific motions based on a long text description. This task demands a fusion of low-level control (trajectories) and high-level control (motion semantics). Previous works in character control and text-to-motion have addressed related aspects, yet a comprehensive solution remains elusive: character control methods do not handle text description, whereas text-to-motion methods lack position constraints and often produce unstable motions. In light of these limitations, we propose a novel system that generates controllable, infinitely long motions and trajectories aligned with the input text. (1) We leverage contemporary Large Language Models to act as a text-driven motion scheduler to extract a series of (text, position, duration) pairs from long text. (2) We develop a text-driven motion retrieval scheme that incorporates motion matching with motion semantic and trajectory constraints. (3) We design a progressive mask transformer that addresses common artifacts in the transition motion such as unnatural pose and foot sliding. Beyond its pioneering role as the first comprehensive solution for Story-to-Motion, our system undergoes evaluation across three distinct sub-tasks: trajectory following, temporal action composition, and motion blending, where it outperforms previous state-of-the-art motion synthesis methods across the board. Homepage: https://story2motion.github.io/. | 翻訳日:2023-11-14 13:49:29 公開日:2023-11-13 |
# 話す前に考える - 内部モノローグによる大規模言語モデルのコミュニケーションスキルの育成 Think Before You Speak: Cultivating Communication Skills of Large Language Models via Inner Monologue ( http://arxiv.org/abs/2311.07445v1 ) ライセンス: Link先を確認 | Junkai Zhou, Liang Pang, Huawei Shen, Xueqi Cheng | (参考訳) 大規模言語モデル(llms)の出現により、オープンドメイン対話システムの能力がさらに向上し、流動的でコヒーレントで多様な応答を生成することができる。
しかし、llmには依然として重要な能力が欠けている。コミュニケーションスキルは、擬人化チャットボットよりも情報検索ツールのようなものだ。
会話中にLLMをより人為的かつ積極的にするために、トピック遷移、積極的に質問する質問、概念指導、共感、しばしば要約という5つのコミュニケーションスキルを応答生成プロセスに追加する。
コミュニケーションスキルが加わったことで、会話におけるユーザの関心が高まり、より長くチャットに誘惑される。
LLMがコミュニケーションスキルをよりよく理解し、活用できるように、内部のモノローグをLLMに設計し、追加する。
完全なプロセスは、プロンプトエンジニアリングとインコンテキスト学習によって達成される。
コミュニケーションスキルを評価するために,様々なコミュニケーションスキルを評価するベンチマークCskillsを構築し,モデルの対話生成能力をより包括的に評価する。
実験の結果,提案手法はバックボーンモデルを改善し,自動評価と人間評価の両方においてベースラインを上回った。 The emergence of large language models (LLMs) further improves the capabilities of open-domain dialogue systems and can generate fluent, coherent, and diverse responses. However, LLMs still lack an important ability: communication skills, which makes them more like information seeking tools than anthropomorphic chatbots. To make LLMs more anthropomorphic and proactive during the conversation, we add five communication skills to the response generation process: topic transition, proactively asking questions, concept guidance, empathy, and summarising often. The addition of communication skills increases the interest of users in the conversation and attracts them to chat for longer. To enable LLMs better understand and use communication skills, we design and add the inner monologue to LLMs. The complete process is achieved through prompt engineering and in-context learning. To evaluate communication skills, we construct a benchmark named Cskills for evaluating various communication skills, which can also more comprehensively evaluate the dialogue generation ability of the model. Experimental results show that the proposed CSIM strategy improves the backbone models and outperforms the baselines in both automatic and human evaluations. | 翻訳日:2023-11-14 13:48:59 公開日:2023-11-13 |
# 神経崩壊のロバスト性とロバスト性の神経崩壊について On the Robustness of Neural Collapse and the Neural Collapse of Robustness ( http://arxiv.org/abs/2311.07444v1 ) ライセンス: Link先を確認 | Jingtong Su, Ya Shi Zhang, Nikolaos Tsilivis, Julia Kempe | (参考訳) 神経崩壊(neural collapse)とは、ニューラルネットワークのトレーニングの最後に発生する奇妙な現象のことであり、特徴ベクトルと分類重みが非常に単純な幾何学的配列(単純集合)に収束する。
様々なケースで実証的に観測され、理論的には動機づけられているが、その一般化や堅牢性など、ニューラルネットワークの重要な特性との関連性はいまだに不明である。
本研究では,これらの単純化の安定性について検討する。
単純な頂点構造は、小さな逆攻撃によって消失し、単純な頂点間の乱れの例は「ピーク」となる。
さらに、入力の対向的摂動に対して頑健に最適化されたネットワークの幾何学を解析し、ニューラル・コラプスはこれらの場合においても広汎な現象であり、クリーンで摂動的な表現が整列した単純化を形成し、頑健な単純な近傍分類器を生み出すことを発見した。
ネットワーク内の崩壊量の伝播を研究することにより、ロバスト機械学習モデルと非ロバスト機械学習モデルの両方の新たな特性を同定し、後続の層とは異なり、摂動データに対する信頼性の高い簡易性を維持することを示す。 Neural Collapse refers to the curious phenomenon in the end of training of a neural network, where feature vectors and classification weights converge to a very simple geometrical arrangement (a simplex). While it has been observed empirically in various cases and has been theoretically motivated, its connection with crucial properties of neural networks, like their generalization and robustness, remains unclear. In this work, we study the stability properties of these simplices. We find that the simplex structure disappears under small adversarial attacks, and that perturbed examples "leap" between simplex vertices. We further analyze the geometry of networks that are optimized to be robust against adversarial perturbations of the input, and find that Neural Collapse is a pervasive phenomenon in these cases as well, with clean and perturbed representations forming aligned simplices, and giving rise to a robust simple nearest-neighbor classifier. By studying the propagation of the amount of collapse inside the network, we identify novel properties of both robust and non-robust machine learning models, and show that earlier, unlike later layers maintain reliable simplices on perturbed data. | 翻訳日:2023-11-14 13:48:39 公開日:2023-11-13 |
# 多言語機械翻訳モデルを用いたマルチピボットセンシングの検討 Investigating Multi-Pivot Ensembling with Massively Multilingual Machine Translation Models ( http://arxiv.org/abs/2311.07439v1 ) ライセンス: Link先を確認 | Alireza Mohammadshahi and Jannis Vamvas and Rico Sennrich | (参考訳) 大規模な多言語機械翻訳モデルでは、1つのモデルで多数の言語を翻訳できるが、低リソースと低リソースの翻訳では性能が限られている。
高いリソース言語によるピボットは、低リソースの方向性のための強力な戦略であり、本論文では、複数の言語をピボットする方法を再検討する。
従来の研究では、複数の経路からの確率分布の単純な平均化が用いられてきたが、これは1つのピボットを使うよりも悪く、同じ幻覚が異なる経路で観測できるため、幻覚の問題を悪化させる。
代替として、最も自信のある予測に偏りがある組合せ戦略であるMaxEnsを提案し、自信のある予測は幻覚の傾向が低いと仮定する。
我々は,低リソース言語20方向に対するフロレスベンチマークの異なる戦略を評価し,maxensが低リソース言語に対する翻訳品質を改善しつつ,翻訳における幻覚を低減し,直接翻訳と平均化アプローチの両方に比較した。
平均的なマルチピボット戦略は、英語を単一のピボット言語として使うよりも遅れており、与えられた翻訳方向の最良のピボット戦略をどうやって特定するかという疑問が提起されている。 Massively multilingual machine translation models allow for the translation of a large number of languages with a single model, but have limited performance on low- and very-low-resource translation directions. Pivoting via high-resource languages remains a strong strategy for low-resource directions, and in this paper we revisit ways of pivoting through multiple languages. Previous work has used a simple averaging of probability distributions from multiple paths, but we find that this performs worse than using a single pivot, and exacerbates the hallucination problem because the same hallucinations can be probable across different paths. As an alternative, we propose MaxEns, a combination strategy that is biased towards the most confident predictions, hypothesising that confident predictions are less prone to be hallucinations. We evaluate different strategies on the FLORES benchmark for 20 low-resource language directions, demonstrating that MaxEns improves translation quality for low-resource languages while reducing hallucination in translations, compared to both direct translation and an averaging approach. On average, multi-pivot strategies still lag behind using English as a single pivot language, raising the question of how to identify the best pivoting strategy for a given translation direction. | 翻訳日:2023-11-14 13:48:17 公開日:2023-11-13 |
# 進化アルゴリズムのための最も難しい単調関数 Hardest Monotone Functions for Evolutionary Algorithms ( http://arxiv.org/abs/2311.07438v1 ) ライセンス: Link先を確認 | Marc Kaufmann and Maxime Larcher and Johannes Lengler and Oliver Sieberling | (参考訳) 最も硬く、最も易しいフィットネスランドスケープの研究は、活発な研究領域である。
近年、Kaufmann, Larcher, Lengler and Zou は、自己調整の $(1,\lambda)$-EA に対して、Adversarial Dynamic BinVal (ADBV) は最適化する最も難しい動的単調関数であると予想している。
探索点内の残零点数が厳密には$n/2$未満である場合,$n$が検索空間の次元を表すとき, ADBV と一致する関数 Switching Dynamic BinVal (SDBV) を導入する。
1+1)$-EAの変異率$p \in [0,1]$の場合、SDBVは動的単調関数のクラスの中でドリフト最小化されていることを示す。
我々の構成は、Jansenの業績に基づくColin, Doerr, F\'ereyによって導入されたパラメータ化悲観的な部分順序進化アルゴリズム(PO-EA)モデルの例の最初の明示的な例を提供する。
さらに、$(1+1)$-EAは$\Theta(n^{3/2})$ジェネレーションでSDBVを最適化する。
我々のシミュレーションでは、静的および自己調整の両方のランタイムを、$(1,\lambda)$と$(1+\lambda)$-EAで表しています。
さらに,固定次元の例を用いて,ドリフト最小化が最大ランタイムに等しくないことを示す。 The study of hardest and easiest fitness landscapes is an active area of research. Recently, Kaufmann, Larcher, Lengler and Zou conjectured that for the self-adjusting $(1,\lambda)$-EA, Adversarial Dynamic BinVal (ADBV) is the hardest dynamic monotone function to optimize. We introduce the function Switching Dynamic BinVal (SDBV) which coincides with ADBV whenever the number of remaining zeros in the search point is strictly less than $n/2$, where $n$ denotes the dimension of the search space. We show, using a combinatorial argument, that for the $(1+1)$-EA with any mutation rate $p \in [0,1]$, SDBV is drift-minimizing among the class of dynamic monotone functions. Our construction provides the first explicit example of an instance of the partially-ordered evolutionary algorithm (PO-EA) model with parameterized pessimism introduced by Colin, Doerr and F\'erey, building on work of Jansen. We further show that the $(1+1)$-EA optimizes SDBV in $\Theta(n^{3/2})$ generations. Our simulations demonstrate matching runtimes for both static and self-adjusting $(1,\lambda)$ and $(1+\lambda)$-EA. We further show, using an example of fixed dimension, that drift-minimization does not equal maximal runtime. | 翻訳日:2023-11-14 13:47:55 公開日:2023-11-13 |
# 深層学習を用いた構造化光スキャナからのデータのスーパーサンプリング Supersampling of Data from Structured-light Scanner with Deep Learning ( http://arxiv.org/abs/2311.07432v1 ) ライセンス: Link先を確認 | Martin Melicher\v{c}\'ik, Luk\'a\v{s} Gajdo\v{s}ech, Viktor Kocur, Martin Madaras | (参考訳) 本稿では,構造光技術を用いた3次元カメラから得られる深度マップの解像度向上に焦点をあてる。
2つのディープラーニングモデルFDSRとDKNは高解像度のデータを扱うように修正され、安定したトレーニングのためにデータ前処理技術が実装される。
モデルは、1200の3Dスキャンのカスタムデータセットでトレーニングされています。
得られた高分解能深度マップは定性的,定量的に評価される。
ディープマップアップサンプリングのアプローチは、まず高解像度のディープマップをダウンサンプリングすることでパイプラインの処理時間を短縮し、低解像度で様々な処理ステップを実行し、その結果のディープマップをアップサンプリングしたり、より安価なデバイスで低解像度でキャプチャされたポイントクラウドの解像度を増大させることによる利点を提供する。
実験により、FDSRモデルはより高速な処理時間で優れており、速度が重要となるアプリケーションに適していることが示された。
一方、dknモデルは、より精度の高い結果を提供し、精度を優先するアプリケーションに適している。 This paper focuses on increasing the resolution of depth maps obtained from 3D cameras using structured light technology. Two deep learning models FDSR and DKN are modified to work with high-resolution data, and data pre-processing techniques are implemented for stable training. The models are trained on our custom dataset of 1200 3D scans. The resulting high-resolution depth maps are evaluated using qualitative and quantitative metrics. The approach for depth map upsampling offers benefits such as reducing the processing time of a pipeline by first downsampling a high-resolution depth map, performing various processing steps at the lower resolution and upsampling the resulting depth map or increasing the resolution of a point cloud captured in lower resolution by a cheaper device. The experiments demonstrate that the FDSR model excels in terms of faster processing time, making it a suitable choice for applications where speed is crucial. On the other hand, the DKN model provides results with higher precision, making it more suitable for applications that prioritize accuracy. | 翻訳日:2023-11-14 13:47:28 公開日:2023-11-13 |
# スコアベースプログレッシブエディタによるブラックボックス言語モデルのテキスト生成 Controlled Text Generation for Black-box Language Models via Score-based Progressive Editor ( http://arxiv.org/abs/2311.07430v1 ) ライセンス: Link先を確認 | Sangwon Yu, Changmin Lee, Hojin Lee, Sungroh Yoon | (参考訳) 言語モデルの最近の進歩にもかかわらず、特定のドメインに対して制約付きテキストを生成することは、特にドメイン固有の知識を欠いたブラックボックスモデルを利用する場合、課題である。
本稿では,ブラックボックス言語モデルのための制御テキスト生成手法であるScoPE(Score-based Progressive Editor)の生成について述べる。
我々はScoPEを用いて、カスケードアプローチによって言語モデルと統合することで、ターゲット領域でのテキスト生成を容易にする。
編集されたテキストのターゲットドメインスコアを強化するために訓練されたスコープは、言語モデルの自己回帰生成プロセス全体を通して、ターゲット属性に合わせて中間出力の離散トークンを段階的に編集する。
この反復プロセスは、ターゲットドメインに対して所望の出力テキストを生成するための次のステップを導く。
ScoPEはドメイン内およびドメイン外の両方でブラックボックス言語モデルに対する制御されたテキスト生成を効果的に促進し,既存の手法では困難であることを示す。 Despite recent progress in language models, generating constrained text for specific domains remains a challenge, particularly when utilizing black-box models that lack domain-specific knowledge. In this paper, we introduce ScoPE (Score-based Progressive Editor) generation, a novel approach for controlled text generation for black-box language models. We employ ScoPE to facilitate text generation in the target domain by integrating it with language models through a cascading approach. Trained to enhance the target domain score of the edited text, ScoPE progressively edits intermediate output discrete tokens to align with the target attributes throughout the auto-regressive generation process of the language model. This iterative process guides subsequent steps to produce desired output texts for the target domain. Our experimental results on diverse controlled generations demonstrate that ScoPE effectively facilitates controlled text generation for black-box language models in both in-domain and out-of-domain conditions, which is challenging for existing methods. | 翻訳日:2023-11-14 13:47:09 公開日:2023-11-13 |
# ブール変動とブール論理バックプロパゲーション Boolean Variation and Boolean Logic BackPropagation ( http://arxiv.org/abs/2311.07427v1 ) ライセンス: Link先を確認 | Van Minh Nguyen | (参考訳) 変動の概念はブール集合に導入され、ブール論理のバックプロパゲーション原理が開発された。
この概念を用いて、ディープモデルはウェイトとアクティベーションをブール数として構築でき、実算術の代わりにブール論理で操作できる。
特に、ブール深度モデルは遅延重みを伴わずにブール領域で直接訓練することができる。
勾配はないが、ロジックは層を通して合成され、バックプロパゲーションされる。 The notion of variation is introduced for the Boolean set and based on which Boolean logic backpropagation principle is developed. Using this concept, deep models can be built with weights and activations being Boolean numbers and operated with Boolean logic instead of real arithmetic. In particular, Boolean deep models can be trained directly in the Boolean domain without latent weights. No gradient but logic is synthesized and backpropagated through layers. | 翻訳日:2023-11-14 13:46:50 公開日:2023-11-13 |
# 説明の理解による人間とAIの協調の最適化 Optimising Human-AI Collaboration by Learning Convincing Explanations ( http://arxiv.org/abs/2311.07426v1 ) ライセンス: Link先を確認 | Alex J. Chan, Alihan Huyuk, Mihaela van der Schaar | (参考訳) 機械学習モデルは、準自律車から臨床意思決定支援システムに至るまで、ますます複雑で影響の大きい意思決定を取り入れたり、支援したりするためにデプロイされてきている。
これは特に、モデルが検出しにくい障害モードを持ち、見落としなくアクションを実行できる場合に問題となる。
この課題に対処するために,我々は,人間が最終的に意思決定を行いながら,モデルを説得し,解釈可能な説明で議論する最善の機会を与えながら,安全であり続ける協調システムのための手法を提案する。
しかし、最も有用な説明は個人によって異なり、明示された選好と矛盾する可能性がある。
そこで我々は,対話を通して効率よくランキングを学習し,人間のタスク完了を支援するアルゴリズムArdentを開発した。
共同アプローチを利用することで、透明性と説明責任の懸念に対処しながら、安全性を確保し、パフォーマンスを向上させることができます。
Ardentは、説明のための個別の嗜好に適応して効率よく効果的な意思決定を可能にし、課題の画像分類タスクを含むユーザスタディと並行して広範なシミュレーションを通して検証し、競合するシステムに対して一貫した改善を示す。 Machine learning models are being increasingly deployed to take, or assist in taking, complicated and high-impact decisions, from quasi-autonomous vehicles to clinical decision support systems. This poses challenges, particularly when models have hard-to-detect failure modes and are able to take actions without oversight. In order to handle this challenge, we propose a method for a collaborative system that remains safe by having a human ultimately making decisions, while giving the model the best opportunity to convince and debate them with interpretable explanations. However, the most helpful explanation varies among individuals and may be inconsistent across stated preferences. To this end we develop an algorithm, Ardent, to efficiently learn a ranking through interaction and best assist humans complete a task. By utilising a collaborative approach, we can ensure safety and improve performance while addressing transparency and accountability concerns. Ardent enables efficient and effective decision-making by adapting to individual preferences for explanations, which we validate through extensive simulations alongside a user study involving a challenging image classification task, demonstrating consistent improvement over competing systems. | 翻訳日:2023-11-14 13:46:43 公開日:2023-11-13 |
# 言語モデルのための幻覚強化リテーション Hallucination Augmented Recitations for Language Models ( http://arxiv.org/abs/2311.07424v1 ) ライセンス: Link先を確認 | Abdullatif K\"oksal, Renat Aksitov, Chung-Ching Chang | (参考訳) 属性は、情報ソースの制御とLLMの事実性の向上を可能にするため、大規模言語モデル(LLM)において重要な概念である。
既存のアプローチでは、アトリビューションを改善するためにopen book question answeringを使用しているが、factualデータセットは言語モデルに報酬を与えて、アトリビューションではなく、既にトレーニング済みのデータから知っている事実を思い出させる。
対照的に、反実的なオープンブックのQAデータセットは、回答が与えられたテキストにのみ根拠付けられるため、属性をさらに改善する。
本稿では,llmにおける幻覚を利用して帰属性を改善する幻覚拡張暗唱法(har)を提案する。
ケーススタディとしてオープンブックQAについて,本論文のデータセットを微調整したモデルによりテキストのグラウンド化が向上し,オープンブックQAのパフォーマンスが向上し,F1スコアが最大8.0%向上することを示した。
ファクトデータセットは,4倍小さいデータセットと4倍小さいモデルであっても,人為的なファクトデータセットを使用する場合よりも,はるかにパフォーマンスが向上する。
我々は、マルチホップ、バイオメディカル、敵対的qaデータセットを含む様々なモデルサイズとデータセットにまたがる改善が一貫性があることを観察する。 Attribution is a key concept in large language models (LLMs) as it enables control over information sources and enhances the factuality of LLMs. While existing approaches utilize open book question answering to improve attribution, factual datasets may reward language models to recall facts that they already know from their pretraining data, not attribution. In contrast, counterfactual open book QA datasets would further improve attribution because the answer could only be grounded in the given text. We propose Hallucination Augmented Recitations (HAR) for creating counterfactual datasets by utilizing hallucination in LLMs to improve attribution. For open book QA as a case study, we demonstrate that models finetuned with our counterfactual datasets improve text grounding, leading to better open book QA performance, with up to an 8.0% increase in F1 score. Our counterfactual dataset leads to significantly better performance than using humanannotated factual datasets, even with 4x smaller datasets and 4x smaller models. We observe that improvements are consistent across various model sizes and datasets, including multi-hop, biomedical, and adversarial QA datasets. | 翻訳日:2023-11-14 13:46:25 公開日:2023-11-13 |
# 時相アンサンブル拡散モデルを用いたロバスト半教師付きセグメンテーション Robust semi-supervised segmentation with timestep ensembling diffusion models ( http://arxiv.org/abs/2311.07421v1 ) ライセンス: Link先を確認 | Margherita Rosnati and Melanie Roschewitz and Ben Glocker | (参考訳) 医療画像のセグメンテーションは難しい作業であり、多くのデータセットのサイズやアノテーションの制限により難しくなっている。
denoising diffusion probabilistic models (ddpm) は自然画像の分布をモデル化する可能性を示し,様々な医用画像解析に応用した。
本研究は拡散モデルを用いた半教師あり画像分割、特に領域一般化に焦点をあてる。
まず,より小さな拡散ステップが,より大きなステップよりも下流タスクに頑健な潜在表現を生成することを実証する。
第2に,この知見を活かして,情報伝達の小さなステップと,より大きなステップによる予測の規則化効果を活用した,改良されたエスムリングスキームを提案する。
ドメイン内での競合性能を維持しながら、ドメインシフトした設定におけるパフォーマンスを著しく向上させる。
本研究は、半教師付き医療画像セグメント化におけるDDPMの可能性を強調し、ドメインシフトによるパフォーマンスの最適化に関する洞察を提供する。 Medical image segmentation is a challenging task, made more difficult by many datasets' limited size and annotations. Denoising diffusion probabilistic models (DDPM) have recently shown promise in modelling the distribution of natural images and were successfully applied to various medical imaging tasks. This work focuses on semi-supervised image segmentation using diffusion models, particularly addressing domain generalisation. Firstly, we demonstrate that smaller diffusion steps generate latent representations that are more robust for downstream tasks than larger steps. Secondly, we use this insight to propose an improved esembling scheme that leverages information-dense small steps and the regularising effect of larger steps to generate predictions. Our model shows significantly better performance in domain-shifted settings while retaining competitive performance in-domain. Overall, this work highlights the potential of DDPMs for semi-supervised medical image segmentation and provides insights into optimising their performance under domain shift. | 翻訳日:2023-11-14 13:46:02 公開日:2023-11-13 |
# 大型言語モデルを用いた音声によるスロット充填 Speech-based Slot Filling using Large Language Models ( http://arxiv.org/abs/2311.07418v1 ) ライセンス: Link先を確認 | Guangzhi Sun, Shutong Feng, Dongcheng Jiang, Chao Zhang, Milica Ga\v{s}i\'c, Philip C. Woodland | (参考訳) 近年,大規模言語モデル(LLM)の進歩は,様々な言語タスクにおいて前例のない能力を示している。
本稿では,テキスト内学習とタスク固有の微調整の両方を通して,雑音の多いASR文字によるスロットフィリングへのLLMの適用の可能性について検討する。
ノイズASR転写によるスロット充填におけるLCMのロバスト性を改善するために, 逐次設計と微調整手法を提案する。
さらに、動的外部知識をLLMに統合するために、線形化知識注入(LKI)方式も提案されている。
SLURPでは、GPT-3.5-turbo、GPT-4、LLaMA-13B、Vicuna-13B(v1.1、v1.5)などのLSMの性能を数値化するために実験が行われた。
LLaMA-13BのLKIスキームと組み合わせて提案した微調整は、データ設定が限られている強力なFlan-T5ベースラインシステムと比較して8.3%の絶対的なSLU-F1の改善を実現した。 Recently, advancements in large language models (LLMs) have shown an unprecedented ability across various language tasks. This paper investigates the potential application of LLMs to slot filling with noisy ASR transcriptions, via both in-context learning and task-specific fine-tuning. Dedicated prompt designs and fine-tuning approaches are proposed to improve the robustness of LLMs for slot filling with noisy ASR transcriptions. Moreover, a linearised knowledge injection (LKI) scheme is also proposed to integrate dynamic external knowledge into LLMs. Experiments were performed on SLURP to quantify the performance of LLMs, including GPT-3.5-turbo, GPT-4, LLaMA-13B and Vicuna-13B (v1.1 and v1.5) with different ASR error rates. The use of the proposed fine-tuning together with the LKI scheme for LLaMA-13B achieved an 8.3% absolute SLU-F1 improvement compared to the strong Flan-T5-base baseline system on a limited data setup. | 翻訳日:2023-11-14 13:45:45 公開日:2023-11-13 |
# データ制限構成によるディープニューラルネットワーク内のバックドアの緩和 Mitigating Backdoors within Deep Neural Networks in Data-limited Configuration ( http://arxiv.org/abs/2311.07417v1 ) ライセンス: Link先を確認 | Soroush Hashemifar, Saeed Parsa, Morteza Zakeri-Nasrabadi | (参考訳) ディープニューラルネットワーク(DNN)の容量が増加するにつれて、大量のデータの必要性は大きく増大する。
一般的な実践はトレーニングプロセスのアウトソースやインターネット上のデータ収集であり、バックドアDNNのリスクを導入する。
バックドアのDNNは、テスト時にサンプルにトリガーが注入されると悪意を持って振る舞いながらクリーンなデータに正常な振る舞いを示す。
この場合、ディフェンダーは複数の困難に直面する。
まず、利用可能なクリーンデータセットは、バックドアDNNの微調整とリカバリには不十分である。
第二に、現実世界の多くのアプリケーションにおいて、その情報なしでトリガーを回復することは不可能である。
本稿では,有毒ニューロンの特性を定式化する。
このバックドア不審性スコアは、ネットワークニューロンの活性化値、重み、および同じ層内の他のニューロンとの関係に応じてランク付けすることができる。
実験の結果,提案手法は,CIFAR-10データセットに対する10個のクリーンサンプルを用いて,モデルの性能を著しく低下させることなく,50%以上の精度で攻撃を成功させる可能性が示唆された。
さらに,提案手法はベースラインの3倍の速度で動作する。 As the capacity of deep neural networks (DNNs) increases, their need for huge amounts of data significantly grows. A common practice is to outsource the training process or collect more data over the Internet, which introduces the risks of a backdoored DNN. A backdoored DNN shows normal behavior on clean data while behaving maliciously once a trigger is injected into a sample at the test time. In such cases, the defender faces multiple difficulties. First, the available clean dataset may not be sufficient for fine-tuning and recovering the backdoored DNN. Second, it is impossible to recover the trigger in many real-world applications without information about it. In this paper, we formulate some characteristics of poisoned neurons. This backdoor suspiciousness score can rank network neurons according to their activation values, weights, and their relationship with other neurons in the same layer. Our experiments indicate the proposed method decreases the chance of attacks being successful by more than 50% with a tiny clean dataset, i.e., ten clean samples for the CIFAR-10 dataset, without significantly deteriorating the model's performance. Moreover, the proposed method runs three times as fast as baselines. | 翻訳日:2023-11-14 13:45:21 公開日:2023-11-13 |
# グラフニューラルネットワークを用いた学習シミュレータを用いた3次元粒状流れシミュレーション Three-dimensional granular flow simulation using graph neural network-based learned simulator ( http://arxiv.org/abs/2311.07416v1 ) ライセンス: Link先を確認 | Yongjin Choi, Krishna Kumar | (参考訳) 地すべりや土砂流などの地盤技術的危険性の信頼性評価には, 粒状流れの正確なシミュレーションが必要である。
従来の数値手法では、流体のような遷移に固体のような流れの複雑な挙動をシミュレートできるが、大規模系をシミュレートする際には計算が難しい。
統計的または機械学習手法に基づく代理モデルは、実行可能な代替手段であるが、一般的に経験的であり、関連するリスクを評価するのに限られたパラメータセットに依存している。
置換依存学習のため、従来の機械学習モデルは一般化可能なサロゲートモデルを構築するために不当に大量のトレーニングデータを必要とする。
我々は,グラフニューラルネットワーク(GNN)を用いて,これらの問題に対処するための粒状フローのためのGNNベースシミュレータ(GNS)を開発した。
グラフは粒子間のエネルギーと運動量の交換のような粒度の流れと相互作用の状態を表し、GNNは局所的な相互作用則を学ぶ。
GNSはグラニュラーフローの現在の状態をとり、オイラー明示積分を用いて次の状態を推定する。
我々は,粒状流路の限られたセットでGNSを訓練し,その性能を3次元の粒状カラム崩壊領域で評価する。
GNSは、訓練中に遭遇しなかった様々なアスペクト比でカラム崩壊の全体的な挙動を再現することに成功した。
GNSの計算速度は300倍の高忠実度数値シミュレータを上回る。 Reliable evaluations of geotechnical hazards like landslides and debris flow require accurate simulation of granular flow dynamics. Traditional numerical methods can simulate the complex behaviors of such flows that involve solid-like to fluid-like transitions, but they are computationally intractable when simulating large-scale systems. Surrogate models based on statistical or machine learning methods are a viable alternative, but they are typically empirical and rely on a confined set of parameters in evaluating associated risks. Due to their permutation-dependent learning, conventional machine learning models require an unreasonably large amount of training data for building generalizable surrogate models. We employ a graph neural network (GNN), a novel deep learning technique, to develop a GNN-based simulator (GNS) for granular flows to address these issues. Graphs represent the state of granular flows and interactions, like the exchange of energy and momentum between grains, and GNN learns the local interaction law. GNS takes the current state of the granular flow and estimates the next state using Euler explicit integration. We train GNS on a limited set of granular flow trajectories and evaluate its performance in a three-dimensional granular column collapse domain. GNS successfully reproduces the overall behaviors of column collapses with various aspect ratios that were not encountered during training. The computation speed of GNS outperforms high-fidelity numerical simulators by 300 times. | 翻訳日:2023-11-14 13:44:48 公開日:2023-11-13 |
# フェデレートデータ融合に基づくマルチストリーム不完全信号応用のための予測モデル A Federated Data Fusion-Based Prognostic Model for Applications with Multi-Stream Incomplete Signals ( http://arxiv.org/abs/2311.07474v1 ) ライセンス: Link先を確認 | Madi Arabi and Xiaolei Fang | (参考訳) ほとんどの確率的手法は、モデルトレーニングに十分な量のデータを必要とする。
しかし、実際には、1つの組織が所有する歴史的データの量は、信頼できる予測モデルを訓練するのに十分でないか、小さいかもしれない。
この課題に対処するため,本論文では,複数のユーザがマルチストリーム,高次元,不完全なデータを用いて,各ユーザのデータをローカルかつ機密に保ちながら,共同で障害時間予測モデルを構築することのできる,フェデレーション付き予測モデルを提案する。
予測モデルは、まず多変量主成分分析を用いてマルチストリーム劣化信号を融合する。
次に, 故障予測のための (log) 位置スケール回帰モデルを構築するために, 時間と障害を結合した融合特徴を利用する。
分散データセットを用いてパラメータを推定し,全参加者のデータプライバシを保持するために,特徴抽出のための新しいフェデレーションアルゴリズムを提案する。
数値的研究により,提案モデルの性能は従来の非フェデレート予測モデルと同等であり,各ユーザ自身が構築したモデルよりも優れていることが示された。 Most prognostic methods require a decent amount of data for model training. In reality, however, the amount of historical data owned by a single organization might be small or not large enough to train a reliable prognostic model. To address this challenge, this article proposes a federated prognostic model that allows multiple users to jointly construct a failure time prediction model using their multi-stream, high-dimensional, and incomplete data while keeping each user's data local and confidential. The prognostic model first employs multivariate functional principal component analysis to fuse the multi-stream degradation signals. Then, the fused features coupled with the times-to-failure are utilized to build a (log)-location-scale regression model for failure prediction. To estimate parameters using distributed datasets and keep the data privacy of all participants, we propose a new federated algorithm for feature extraction. Numerical studies indicate that the performance of the proposed model is the same as that of classic non-federated prognostic models and is better than that of the models constructed by each user itself. | 翻訳日:2023-11-14 13:36:37 公開日:2023-11-13 |
# プリトレーニングトランスフォーマーにおけるマルチモーダルニューロンの検索と編集 Finding and Editing Multi-Modal Neurons in Pre-Trained Transformer ( http://arxiv.org/abs/2311.07470v1 ) ライセンス: Link先を確認 | Haowen Pan, Yixin Cao, Xiaozhi Wang, Xun Yang | (参考訳) マルチモーダル大規模言語モデル(LLM)は近年,視覚的意味理解のための強力な機能を実現している。
しかし、LLMが視覚情報をどう理解し、特徴の異なる様相を解釈するかについては、ほとんど分かっていない。
本稿では,トランスを用いたマルチモーダルLLMにおけるマルチモーダルニューロンの同定手法を提案する。
4つの定量的評価指標を用いて,マルチモーダルニューロンの3つの重要な特性を強調する実験を行った。
さらに,特定されたマルチモーダルニューロンに基づく知識編集手法を導入し,特定のトークンを他の指定トークンに修正する。
我々は,マルチモーダルLLMの理解機構について,さらなる解説研究を期待する。 Multi-modal large language models (LLM) have achieved powerful capabilities for visual semantic understanding in recent years. However, little is known about how LLMs comprehend visual information and interpret different modalities of features. In this paper, we propose a new method for identifying multi-modal neurons in transformer-based multi-modal LLMs. Through a series of experiments, We highlight three critical properties of multi-modal neurons by four well-designed quantitative evaluation metrics. Furthermore, we introduce a knowledge editing method based on the identified multi-modal neurons, for modifying a specific token to another designative token. We hope our findings can inspire further explanatory researches on understanding mechanisms of multi-modal LLMs. | 翻訳日:2023-11-14 13:36:18 公開日:2023-11-13 |
# InCA:大規模言語モデルを活用した車内会話システム評価の再考 InCA: Rethinking In-Car Conversational System Assessment Leveraging Large Language Models ( http://arxiv.org/abs/2311.07469v1 ) ライセンス: Link先を確認 | Ken E. Friedl, Abbas Goher Khan, Soumya Ranjan Sahoo, Md Rashad Al Hasan Rony, Jana Germies, Christian S\"u{\ss} | (参考訳) 先進的な生成型大規模言語モデル (LLM) の評価は、最近の発展における複雑さの増大を考えると、大きな課題となっている。
さらに、キーパフォーマンス指標(KPI)が示すように、様々な産業におけるLCMベースのアプリケーションの性能評価は複雑な作業である。
このタスクは、産業のユースケースと予想されるシステムの振る舞いを深く理解する必要がある。
自動車産業の文脈において、既存の評価指標は車内会話質問応答(ConvQA)システムを評価するのに不十分である。
これらのシステムのユニークな要求は、答えがドライバーや車の安全性に関係し、車のドメイン内に限られている場合、現在のメトリクスの制限を強調します。
これらの課題に対処するために、車載のConvQAシステムの性能を評価するための一連のKPIと、これらのKPI用に特別に設計されたデータセットを紹介する。
予備的かつ包括的評価は,提案手法の有効性を裏付けるものである。
さらに, 異なる背景を持つ個人がトピックをどう知覚するかを反映して, 評価における多様な視点をシミュレートするモデルの能力を高めることが示唆された。 The assessment of advanced generative large language models (LLMs) poses a significant challenge, given their heightened complexity in recent developments. Furthermore, evaluating the performance of LLM-based applications in various industries, as indicated by Key Performance Indicators (KPIs), is a complex undertaking. This task necessitates a profound understanding of industry use cases and the anticipated system behavior. Within the context of the automotive industry, existing evaluation metrics prove inadequate for assessing in-car conversational question answering (ConvQA) systems. The unique demands of these systems, where answers may relate to driver or car safety and are confined within the car domain, highlight the limitations of current metrics. To address these challenges, this paper introduces a set of KPIs tailored for evaluating the performance of in-car ConvQA systems, along with datasets specifically designed for these KPIs. A preliminary and comprehensive empirical evaluation substantiates the efficacy of our proposed approach. Furthermore, we investigate the impact of employing varied personas in prompts and found that it enhances the model's capacity to simulate diverse viewpoints in assessments, mirroring how individuals with different backgrounds perceive a topic. | 翻訳日:2023-11-14 13:36:08 公開日:2023-11-13 |
# ミドルインテリジェンストラップに落ちていくのか?
逆呪いの分析と緩和 Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation of the Reversal Curse ( http://arxiv.org/abs/2311.07468v1 ) ライセンス: Link先を確認 | Ang Lv and Kaiyi Zhang and Shufang Xie and Quan Tu and Yuhan Chen and Ji-Rong Wen and Rui Yan | (参考訳) 近年の研究では、トレーニングデータにおける知識エンティティの順序がモデルの理解をバイアスする「反転の呪い」として知られる大規模言語モデル(llm)の現象が強調されている。
例えば、エンティティaがエンティティbの前に一貫して現れる文でモデルが訓練された場合、bを提供することによってaに関する問い合わせに応答することができる。しかし、bに関する質問が提示されると混乱することがある。
次世代の予測では、モデルはトークンの前のコンテキストのみに焦点を当て、入力の限定的な理解をもたらす。
対照的に、予測されるトークンがコンテキスト全体にアクセス可能な自己回帰的空白埋め込み目標を用いて訓練されたGLMは、逆の呪いに対してより良いレジリエンスを示す。
本稿では,新しいデータに基づく因果言語モデルに微調整を施した際の逆の呪いを軽減するために,BICO(BIdirectional Casual Language Modeling Optimization)を提案する。
bicoは因果注意機構を双方向に機能するように修正し、マスク同期最適化を採用している。
逆の呪いを評価するために設計されたタスクでは、Llamaの精度を元の0%から約70%に向上させる。
我々は、より高いレベルの知性を達成するために、現在のllmの持つ本質的な弱点を探求し、対処することに集中できることを望んでいる。 Recent studies have highlighted a phenomenon in large language models (LLMs) known as "the reversal curse," in which the order of knowledge entities in the training data biases the models' comprehension. For example, if a model is trained on sentences where entity A consistently appears before entity B, it can respond to queries about A by providing B. However, it may encounter confusion when presented with questions concerning B. We contend that the reversal curse is partially a result of specific model training objectives, particularly evident in the prevalent use of the next-token prediction within most causal language models. For the next-token prediction, models solely focus on a token's preceding context, resulting in a restricted comprehension of the input. In contrast, we illustrate that the GLM, trained using the autoregressive blank infilling objective where tokens to be predicted have access to the entire context, exhibits better resilience against the reversal curse. We propose a novel training method, BIdirectional Casual language modeling Optimization (BICO), designed to mitigate the reversal curse when fine-tuning pretrained causal language models on new data. BICO modifies the causal attention mechanism to function bidirectionally and employs a mask denoising optimization. In the task designed to assess the reversal curse, our approach improves Llama's accuracy from the original 0% to around 70%. We hope that more attention can be focused on exploring and addressing these inherent weaknesses of the current LLMs, in order to achieve a higher level of intelligence. | 翻訳日:2023-11-14 13:35:48 公開日:2023-11-13 |
# 自然言語説明の忠実度測定について On Measuring Faithfulness of Natural Language Explanations ( http://arxiv.org/abs/2311.07466v1 ) ライセンス: Link先を確認 | Letitia Parcalabescu and Anette Frank | (参考訳) 大規模言語モデル(LLM)は、ポストホックまたはチェーン・オブ・ソート(CoT)の説明を通じて、自身の予測を説明することができる。
しかしLLMは、その根底にある推論に反する合理的な説明を作ることができる。
最近の研究は、ポストホックまたはCoTの説明の忠実さを判断する試験を設計している。
本稿では,既存の忠実性テストは,モデルの内部動作の観点からは実際に忠実性を測定するのではなく,出力レベルでの自己一貫性を評価するものであることを論じる。
私たちの仕事の目的は2つです。
一 モデル説明可能性の観点から既存の忠実度テストの現状を明らかにすることを目指しており、代わりに自己整合性テストとして特徴付ける。
この評価は、自己整合性テストのための比較整合性銀行を構築し、11のオープンソースLLMと5つのデータセットからなる共通スイートにおける既存のテストとを初めて比較することで下記の通りです。
ii)我々は,cc-shapの自己抵抗尺度を提案している。
cc-shapは、モデルの入力貢献と回答予測と生成した説明を比較する、llm自己一貫性の新しい細かな尺度(テストではない)である。
CC-SHAPでは,より解釈可能できめ細かい方法で忠実度を測定することを目指している。
コードは \url{https://github.com/heidelberg-nlp/cc-shap} Large language models (LLMs) can explain their own predictions, through post-hoc or Chain-of-Thought (CoT) explanations. However the LLM could make up reasonably sounding explanations that are unfaithful to its underlying reasoning. Recent work has designed tests that aim to judge the faithfulness of either post-hoc or CoT explanations. In this paper we argue that existing faithfulness tests are not actually measuring faithfulness in terms of the models' inner workings, but only evaluate their self-consistency on the output level. The aims of our work are two-fold. i) We aim to clarify the status of existing faithfulness tests in terms of model explainability, characterising them as self-consistency tests instead. This assessment we underline by constructing a Comparative Consistency Bank for self-consistency tests that for the first time compares existing tests on a common suite of 11 open-source LLMs and 5 datasets -- including ii) our own proposed self-consistency measure CC-SHAP. CC-SHAP is a new fine-grained measure (not test) of LLM self-consistency that compares a model's input contributions to answer prediction and generated explanation. With CC-SHAP, we aim to take a step further towards measuring faithfulness with a more interpretable and fine-grained method. Code available at \url{https://github.com/Heidelberg-NLP/CC-SHAP} | 翻訳日:2023-11-14 13:35:24 公開日:2023-11-13 |
# コンピュータトモグラフィと再生カーネル Computerized Tomography and Reproducing Kernels ( http://arxiv.org/abs/2311.07465v1 ) ライセンス: Link先を確認 | Ho Yun and Victor M. Panaretos | (参考訳) X線変換は画像処理と再構成において最も基本的な演算子の1つである。
本稿では,その数学的フォーマリズムを再考し,RKHS(Reproduction Kernel Hilbert Spaces)を利用した革新的なアプローチを提案する。
この枠組みの中で、X線変換はユークリッド射影の自然な類似と見なすことができる。
RKHSフレームワークはプロジェクション画像の補間をかなり単純化し、トモグラフィー再構成の問題に対する有名な代表者定理の類似をもたらす。
これは次元自由であり、フーリエ変換にヒンジしないため、従来のフィルターバックプロジェクション手法とは別物となる方法論につながる。
また、データは離散的でノイズの多い現実的な環境では、真に機能的なレベルでシャープな安定性を達成できます。
RKHSフレームワークは、ユニットボール上の任意の再生カーネルに対して共振可能であり、高い一般性を持つ。
核が回転不変であると選択されると、関連するヒルベルト空間の正則性構造を解明する明示的なスペクトル表現を得ることができ、フィルター付きバックプロジェクションと同じ計算コストで再構成問題を解くこともできる。 The X-ray transform is one of the most fundamental integral operators in image processing and reconstruction. In this article, we revisit its mathematical formalism, and propose an innovative approach making use of Reproducing Kernel Hilbert Spaces (RKHS). Within this framework, the X-ray transform can be considered as a natural analogue of Euclidean projections. The RKHS framework considerably simplifies projection image interpolation, and leads to an analogue of the celebrated representer theorem for the problem of tomographic reconstruction. It leads to methodology that is dimension-free and stands apart from conventional filtered back-projection techniques, as it does not hinge on the Fourier transform. It also allows us to establish sharp stability results at a genuinely functional level, but in the realistic setting where the data are discrete and noisy. The RKHS framework is amenable to any reproducing kernel on a unit ball, affording a high level of generality. When the kernel is chosen to be rotation-invariant, one can obtain explicit spectral representations which elucidate the regularity structure of the associated Hilbert spaces, and one can also solve the reconstruction problem at the same computational cost as filtered back-projection. | 翻訳日:2023-11-14 13:35:01 公開日:2023-11-13 |
# MEGAVERSE: 言語、モダリティ、モデル、タスクにわたる大規模言語モデルのベンチマーク MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks ( http://arxiv.org/abs/2311.07463v1 ) ライセンス: Link先を確認 | Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram | (参考訳) 近年,Large Language Models (LLMs) の研究が急速に進展し,いくつかの自然言語処理(NLP)タスクが大幅に進歩している。
その結果、モデルの性能と限界を理解するためのLCM評価研究が急増した。
しかし、この研究の多くは英語に限られており、LLMの構築と非英語言語の評価は比較的未調査のままである。
英語以外の言語での評価を必要とするいくつかの新しいLLMが導入されている。
本研究は,MEGAVERSEベンチマークを作成するための6つの新しいデータセットを含むことで,MEGAベンチマークスイートを拡張することを目的とする。
ベンチマークは、低リソースのアフリカ言語を含む81言語をカバーする22のデータセットで構成されている。
我々は,MEGAVERSE データセット上で GPT-3.5-Turbo, GPT4, PaLM2, Llama2 などの最先端 LLM の評価を行った。
さらに、ベンチマークに2つのマルチモーダルデータセットを含め、LLaVa-v1.5モデルの性能を評価する。
GPT4 と PaLM2 は様々なタスク,特に低リソース言語において Llama モデルよりも優れており,その逆よりも多くのデータセットで PaLM2 よりも優れていた。
しかし、非英語言語におけるLLM性能の正確な評価を得るためには、データ汚染などの問題に対処する必要がある。 Recently, there has been a rapid advancement in research on Large Language Models (LLMs), resulting in significant progress in several Natural Language Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation research to comprehend the models' capabilities and limitations. However, much of this research has been confined to the English language, leaving LLM building and evaluation for non-English languages relatively unexplored. There has been an introduction of several new LLMs, necessitating their evaluation on non-English languages. This study aims to expand our MEGA benchmarking suite by including six new datasets to form the MEGAVERSE benchmark. The benchmark comprises 22 datasets covering 81 languages, including low-resource African languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4, PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two multimodal datasets in the benchmark and assess the performance of the LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the Llama models on various tasks, notably on low-resource languages, with GPT4 outperforming PaLM2 on more datasets than vice versa. However, issues such as data contamination must be addressed to obtain an accurate assessment of LLM performance on non-English languages. | 翻訳日:2023-11-14 13:34:44 公開日:2023-11-13 |
# サイバー物理システムにおけるロバスト性の調査:システム逸脱に直面した仕様中心分析 Investigating Robustness in Cyber-Physical Systems: Specification-Centric Analysis in the face of System Deviations ( http://arxiv.org/abs/2311.07462v1 ) ライセンス: Link先を確認 | Changjian Zhang, Parv Kapoor, Romulo Meira-Goes, David Garlan, Eunsuk Kang, Akila Ganlath, Shatadal Mishra, Nejib Ammar | (参考訳) サイバー物理システム(CPS)の採用は、自動運転車、IoT(Internet of Things)、スマートシティといった分野を含む複雑な物理的環境の台頭に近づいている。
CPSの重要な特性は堅牢性であり、運用環境の破壊や不確実性にもかかわらず安全に運用できる能力を示している。
本稿では,信号時相論理(stl)を介し,システム内の偏差を考慮しつつ,所定のシステム要件を満たすコントローラの有効性を特徴付ける,新しい仕様ベースロバストネスを提案する。
本稿では,この定義に基づくロバスト性改ざん問題についても提案する。
本稿では, 微妙な堅牢性違反を識別するための2層シミュレーションに基づく解析フレームワークを提案する。
提案手法を評価するために,システムパラメータを調整し,様々な形態の不確実性や乱れをエミュレートするベンチマーク問題を考案した。
初期評価では,提案手法がロバスト性違反を巧みに同定し,従来型と強化型(rl)型コントローラのロバスト性を比較する上で有用な知見を与えることができた。 The adoption of cyber-physical systems (CPS) is on the rise in complex physical environments, encompassing domains such as autonomous vehicles, the Internet of Things (IoT), and smart cities. A critical attribute of CPS is robustness, denoting its capacity to operate safely despite potential disruptions and uncertainties in the operating environment. This paper proposes a novel specification-based robustness, which characterizes the effectiveness of a controller in meeting a specified system requirement, articulated through Signal Temporal Logic (STL) while accounting for possible deviations in the system. This paper also proposes the robustness falsification problem based on the definition, which involves identifying minor deviations capable of violating the specified requirement. We present an innovative two-layer simulation-based analysis framework designed to identify subtle robustness violations. To assess our methodology, we devise a series of benchmark problems wherein system parameters can be adjusted to emulate various forms of uncertainties and disturbances. Initial evaluations indicate that our falsification approach proficiently identifies robustness violations, providing valuable insights for comparing robustness between conventional and reinforcement learning (RL)-based controllers | 翻訳日:2023-11-14 13:34:23 公開日:2023-11-13 |
# 自己教師付き動的漸進正規化適応について On Self-Supervised Dynamic Incremental Regularised Adaptation ( http://arxiv.org/abs/2311.07461v1 ) ライセンス: Link先を確認 | Abanoub Ghobrial, Kerstin Eder | (参考訳) 本稿では,最近の動的ドメイン適応手法であるDIRAについて概説する。この手法は,弾性重み付けという正規化手法を応用して,最先端(SOTA)ドメイン適応結果を実現する。
DIRAは以前、SOTAの教師なし適応技術と競合することが示されている。
しかし、DIRAの制限は、適応に使用される数少ないサンプルに対して提供されるラベルに依存することである。
これは監督技術である。
本稿では,ラベル提供の必要性を解消する自己教師型DIRA手法の修正について論じる。
提案する変更に関する実験は,今後の作業で実施する予定です。 In this paper, we overview a recent method for dynamic domain adaptation named DIRA, which relies on a few samples in addition to a regularisation approach named elastic weight consolidation to achieve state-of-the-art (SOTA) domain adaptation results. DIRA has been previously shown to perform competitively with SOTA unsupervised adaption techniques. However, a limitation of DIRA is that it relies on labels to be provided for the few samples used in adaption. This makes it a supervised technique. In this paper, we discuss a proposed alteration to the DIRA method to make it self-supervised i.e. remove the need for providing labels. Experiments on our proposed alteration will be provided in future work. | 翻訳日:2023-11-14 13:34:03 公開日:2023-11-13 |
# KnowSafe: 人工膵システムにおける知識とデータ駆動型ハザード緩和 KnowSafe: Combined Knowledge and Data Driven Hazard Mitigation in Artificial Pancreas Systems ( http://arxiv.org/abs/2311.07460v1 ) ライセンス: Link先を確認 | Xugui Zhou, Maxfield Kouzel, Chloe Smith, Homa Alemzadeh | (参考訳) サイバーフィジカルシステム(cps)の安全性と安全性を改善するため、異常検出と実行時の監視において大きな進歩があった。
しかし、危険軽減にはあまり注意が払われていない。
本稿では,安全に重大な悪質な攻撃やcpsコントローラを標的とする事故的障害から生じる安全性の危険を予測・軽減する安全エンジンの設計のための,知識とデータ駆動を組み合わせたアプローチであるnowsafeを提案する。
安全制約のドメイン固有の知識とコンテキスト固有の緩和アクションを機械学習(ML)技術と統合し、システムトラジェクトリを推定し、潜在的な危険を推測し、システムを安全に保つための最適な修正アクションを生成する。
人工膵システム(aps)のための2つの現実的なクローズドループテストベッドと、糖尿病治療のための実世界の臨床試験データセットの実験的評価は、システム状態の予測における高い精度と潜在的な危険、低い偽陽性率、偽陰性の達成により、ノウセーフが最先端を上回っていることを示している。
また、新たなハザードを導入することなく、シミュレーションされたAPSの安全な運用を維持しており、リスク軽減の成功率は92.8%であり、これはルールベース(50.9%)とデータ駆動(52.7%)の手法よりも少なくとも76%高い。 Significant progress has been made in anomaly detection and run-time monitoring to improve the safety and security of cyber-physical systems (CPS). However, less attention has been paid to hazard mitigation. This paper proposes a combined knowledge and data driven approach, KnowSafe, for the design of safety engines that can predict and mitigate safety hazards resulting from safety-critical malicious attacks or accidental faults targeting a CPS controller. We integrate domain-specific knowledge of safety constraints and context-specific mitigation actions with machine learning (ML) techniques to estimate system trajectories in the far and near future, infer potential hazards, and generate optimal corrective actions to keep the system safe. Experimental evaluation on two realistic closed-loop testbeds for artificial pancreas systems (APS) and a real-world clinical trial dataset for diabetes treatment demonstrates that KnowSafe outperforms the state-of-the-art by achieving higher accuracy in predicting system state trajectories and potential hazards, a low false positive rate, and no false negatives. It also maintains the safe operation of the simulated APS despite faults or attacks without introducing any new hazards, with a hazard mitigation success rate of 92.8%, which is at least 76% higher than solely rule-based (50.9%) and data-driven (52.7%) methods. | 翻訳日:2023-11-14 13:33:52 公開日:2023-11-13 |
# クイアロボットインタラクションにおける信頼 Trust in Queer Human-Robot Interaction ( http://arxiv.org/abs/2311.07458v1 ) ライセンス: Link先を確認 | Raj Korpan | (参考訳) ヒューマンロボットインタラクション(HRI)システムは、多様なアイデンティティを持つ人々との信頼を構築する必要がある。
本稿では,ロボットの信頼と受容を確保するためには,人間(lgbtqia+)をhriシステムの設計と評価に含める必要があることを論じる。
クイア人は人工知能やロボットシステムから差別と害を受けてきた。
多様性と包摂性の向上の要求にもかかわらず、HRIは体系的にクイア問題に対処していない。
本稿では,人体プールの多様化,HRI研究の中心人物の育成,信頼の文脈化という3つの手法を提案する。 Human-robot interaction (HRI) systems need to build trust with people of diverse identities. This position paper argues that queer (LGBTQIA+) people must be included in the design and evaluation of HRI systems to ensure their trust in and acceptance of robots. Queer people have faced discrimination and harm from artificial intelligence and robotic systems. Despite calls for increased diversity and inclusion, HRI has not systemically addressed queer issues. This paper suggests three approaches to address trust in queer HRI: diversifying human-subject pools, centering queer people in HRI studies, and contextualizing measures of trust. | 翻訳日:2023-11-14 13:33:25 公開日:2023-11-13 |
# 潜学級混在時の因果発見 Causal Discovery under Latent Class Confounding ( http://arxiv.org/abs/2311.07454v1 ) ライセンス: Link先を確認 | Bijan Mazaheri, Spencer Gordon, Yuval Rabani, Leonard Schulman | (参考訳) 有向非巡回グラフはシステムの因果構造をモデル化するために用いられる。
``causal discovery''はこの構造をデータから学ぶ問題を記述する。
データが複数のソース(人口や環境)からの集約である場合、グローバル結合は多くの因果発見アルゴリズムを駆動する条件付き独立性があいまいになる。
このため、既存の因果発見アルゴリズムはマルチソース設定には適していない。
共起が有界基数である場合(つまり、データは限られた情報源から来ている)、因果発見は依然として達成可能であることを実証する。
この問題の実現性は、グローバルな共同設立者の基数、観察された変数の基数、因果構造の疎性の間のトレードオフによって管理される。 Directed acyclic graphs are used to model the causal structure of a system. ``Causal discovery'' describes the problem of learning this structure from data. When data is an aggregate from multiple sources (populations or environments), global confounding obscures conditional independence properties that drive many causal discovery algorithms. For this reason, existing causal discovery algorithms are not suitable for the multiple-source setting. We demonstrate that, if the confounding is of bounded cardinality (i.e. the data comes from a limited number of sources), causal discovery can still be achieved. The feasibility of this problem is governed by a trade-off between the cardinality of the global confounder, the cardinalities of the observed variables, and the sparsity of the causal structure. | 翻訳日:2023-11-14 13:33:16 公開日:2023-11-13 |
# ChartCheck: 実世界のチャート画像上のエビデンスベースのFact-Checkingデータセット ChartCheck: An Evidence-Based Fact-Checking Dataset over Real-World Chart Images ( http://arxiv.org/abs/2311.07453v1 ) ライセンス: Link先を確認 | Mubashara Akhtar, Nikesh Subedi, Vivek Gupta, Sahar Tahmasebi, Oana Cocarascu, Elena Simperl | (参考訳) データ可視化は現実世界で一般的です。
科学論文、ニュース記事、教科書、ソーシャルメディアなどのデータソースで、重要な情報を視覚的に要約するためによく使用します。
チャートは、誤った情報を伝えるか、特定の議題に偏りを付けることで、聴衆を誤解させることもできる。
チャートに対するクレームの検証は簡単なプロセスではありません。
色、位置、向きなどの特性を考慮して、チャートのテキストと視覚の両方を分析する必要がある。
さらに、クレームがチャートコンテンツでサポートされているかどうかを決定するには、しばしば異なるタイプの推論が必要である。
この課題に対処するために、グラフ画像に対するファクトチェックのための新しいデータセットであるChartCheckを紹介する。
ChartCheckは1.7kの現実世界のチャートと10.5kの人文による主張と説明を備えた最初の大規模データセットである。
我々は,最先端モデルのデータセットを評価し,精密な設定で73.9の精度を達成した。
さらに,モデルに挑戦するグラフの特徴と推論型を同定した。 Data visualizations are common in the real-world. We often use them in data sources such as scientific documents, news articles, textbooks, and social media to summarize key information in a visual form. Charts can also mislead its audience by communicating false information or biasing them towards a specific agenda. Verifying claims against charts is not a straightforward process. It requires analyzing both the text and visual components of the chart, considering characteristics such as colors, positions, and orientations. Moreover, to determine if a claim is supported by the chart content often requires different types of reasoning. To address this challenge, we introduce ChartCheck, a novel dataset for fact-checking against chart images. ChartCheck is the first large-scale dataset with 1.7k real-world charts and 10.5k human-written claims and explanations. We evaluated the dataset on state-of-the-art models and achieved an accuracy of 73.9 in the finetuned setting. Additionally, we identified chart characteristics and reasoning types that challenge the models. | 翻訳日:2023-11-14 13:33:04 公開日:2023-11-13 |
# 空間を有する説明可能なブースティングマシン -高次元設定における説明可能性の維持 Explainable Boosting Machines with Sparsity -- Maintaining Explainability in High-Dimensional Settings ( http://arxiv.org/abs/2311.07452v1 ) ライセンス: Link先を確認 | Brandon M. Greenwell and Annika Dahlmann and Saurabh Dhoble | (参考訳) ランダムフォレストやディープニューラルネットワークのような"ブラックボックス"モデルと比較して、説明可能なブースティングマシン(EBM)は、高い透明性と説明可能性を維持しながら競争的に正確である"グラスボックス"モデルである。
しかし、ESMは容易に透明性が低くなり、多くの予測変数を持つ高次元設定で解釈しにくくなり、またスコアリング時間の増加によりプロダクションでの使用も困難になる。
我々は,個々のモデル用語を重み付けし,関係の少ないものを取り除き,高次元環境での透明性を維持し,比較的高速なスコアリング時間を実現するための,最小絶対収縮選択演算子(lasso)に基づく簡易解を提案する。
つまり、LASSOを使用する多くの用語(つまり数百から数千)で組み込まれたEMMを後処理することは、モデルの複雑さを減らし、スコアリング時間を大幅に改善する。
コードを使った実世界の例を2つ紹介する。 Compared to "black-box" models, like random forests and deep neural networks, explainable boosting machines (EBMs) are considered "glass-box" models that can be competitively accurate while also maintaining a higher degree of transparency and explainability. However, EBMs become readily less transparent and harder to interpret in high-dimensional settings with many predictor variables; they also become more difficult to use in production due to increases in scoring time. We propose a simple solution based on the least absolute shrinkage and selection operator (LASSO) that can help introduce sparsity by reweighting the individual model terms and removing the less relevant ones, thereby allowing these models to maintain their transparency and relatively fast scoring times in higher-dimensional settings. In short, post-processing a fitted EBM with many (i.e., possibly hundreds or thousands) of terms using the LASSO can help reduce the model's complexity and drastically improve scoring time. We illustrate the basic idea using two real-world examples with code. | 翻訳日:2023-11-14 13:32:47 公開日:2023-11-13 |
# 単一光子に基づく量子鍵分布と乱数生成法とそのデバイス非依存セキュリティ解析 Single-photon based Quantum Key Distribution and Random Number Generation schemes and their device-independent security analysis ( http://arxiv.org/abs/2311.07451v1 ) ライセンス: Link先を確認 | Konrad Schlichtholz, Bianka Woloncewicz, Tamoghna Das, Marcin Markiewicz, Marek \.Zukowski | (参考訳) 単一光子をベースとしたデバイス非依存の量子鍵分布スキームは、量子攻撃をカバーし、物理法則を超えても、空間的に分離された事象の規則に従っている。
操作スキームは、Tan-Walls-Collett (1991) インターフェロメトリクス(英語版) にインスパイアされ、入力ポートの1つに入る単一光子から生じる50-50ビームスプリッターの2つの出口モードの絡み合った状態と、2つの空間的に分離された測定ステーションでの弱いホモダイン測定を使用した。
このような配置の物理学と非古典的性質は、最近になって理解されるようになった。
本プロトコルは、暗号鍵のランダムビットであるbb84とekert91の2つのエンブレマプロトコルの基本的な特徴を単一光子上で測定し、特定のベル不等式に違反した場合、セキュリティを正に検証する。
ここで示したセキュリティ分析は、無符号のポリトープの極端点への相関の分解に基づいており、無符号の原理によってのみ制約される任意の盗聴の最適戦略の同定を可能にする。
この戦略では、鍵レートは計算され、特定のクロージャ・ホーンの不等式に違反する。
また, この解析を応用して, 自己テスト型量子乱数生成器を提案する。 We present a single-photon based device-independent quantum key distribution scheme secure even against no-signaling eavesdropping, which covers quantum attacks, as well as ones beyond laws of physics but still obeying the rules for spatially separated events. The operational scheme is inspired by the Tan-Walls-Collett (1991) interferometric setup, which used the entangled state of two exit modes of a 50-50 beamsplitter resulting from a single photon entering one of its input ports, and weak homodyne measurements at two spatially separated measurement stations. The physics and non-classically of such an arrangement has been understood only recently. Our protocol links basic features of the first two emblematic protocols, BB84 and Ekert91, namely the random bits of the cryptographic key are obtained by measurements on single photon, while the security is positively tested if one observes a violation of a specific Bell inequality. The security analysis presented here is based on a decomposition of the correlations into extremal points of a no-signaling polytope which allows for identification of the optimal strategy for any eavesdropping constrained only by the no-signalling principle. For this strategy, the key rate is calculated, which is then connected with the violation of a specific Clauser-Horne inequality. We also adapt this analysis to propose a self-testing quantum random number generator. | 翻訳日:2023-11-14 13:32:28 公開日:2023-11-13 |
# 自己追従型フィードフォワードニューラルユニットによる明示的基礎モデル最適化 Explicit Foundation Model Optimization with Self-Attentive Feed-Forward Neural Units ( http://arxiv.org/abs/2311.07510v1 ) ライセンス: Link先を確認 | Jake Ryland Williams and Haoran Zhao | (参考訳) バックプロパゲーションを用いた反復近似法はニューラルネットワークの最適化を可能にするが、特に大規模に使用する場合、計算コストは高い。
本稿では、ニューラルネットワークのスケーリングコストを低減し、低リソースアプリケーションに対して高効率な最適化を実現する、ニューラルネットワーク最適化の効率的な代替案を提案する。
本稿では,フィードフォワードニューラルネットワークに関する一般的な結果について議論し,フィードフォワード層とセルフアテンション層を含む簡易トランスフォーマーブロックに適用する構成層(mult層)ネットワークに適用する。
これらのモデルは、我々はSAFFU(Self-attentive Feed-forward Unit)層(Self-attentive Feed-forward Unit)と呼ばれる、高仕様で複雑な多層ニューラルネットワークを訓練するために使用される。
テストは、バックプロパゲーションだけで最適化されたモデルよりも明確なソリューションを示す。
さらに、明示解後のバックプロパゲーションのさらなる適用により、より小さなスケールのデータからの視認性が向上し、明示解ウォームスタートによって、はるかに少ないデータからの効果的なモデルのトレーニングが可能になる。
次に,100万トークン上で約250のトランスフォーマーモデルのロードマップをトレーニングして,理想的な設定を決定する。
複数の異なるアーキテクチャの変種が高度に高性能なモデルを生成することを発見し、このアブレーションからベストのいくつかが最もパラメータ化されていないことを発見する。
これは、明示的なソリューションを使用して、より少ないデータを使用して、十分に一般化されたモデルに到達できることを示しており、明示的なソリューションを用いたアーキテクチャの探索は、より少ないパラメータで効率的な変種探索を導くために配当を支払う。 Iterative approximation methods using backpropagation enable the optimization of neural networks, but they remain computationally expensive, especially when used at scale. This paper presents an efficient alternative for optimizing neural networks that reduces the costs of scaling neural networks and provides high-efficiency optimizations for low-resource applications. We will discuss a general result about feed-forward neural networks and then extend this solution to compositional (mult-layer) networks, which are applied to a simplified transformer block containing feed-forward and self-attention layers. These models are used to train highly-specified and complex multi-layer neural architectures that we refer to as self-attentive feed-forward unit (SAFFU) layers, which we use to develop a transformer that appears to generalize well over small, cognitively-feasible, volumes of data. Testing demonstrates explicit solutions outperform models optimized by backpropagation alone. Moreover, further application of backpropagation after explicit solutions leads to better optima from smaller scales of data, training effective models from much less data is enabled by explicit solution warm starts. We then carry out ablation experiments training a roadmap of about 250 transformer models over 1-million tokens to determine ideal settings. We find that multiple different architectural variants produce highly-performant models, and discover from this ablation that some of the best are not the most parameterized. This appears to indicate well-generalized models could be reached using less data by using explicit solutions, and that architectural exploration using explicit solutions pays dividends in guiding the search for efficient variants with fewer parameters, and which could be incorporated into low-resource hardware where AI might be embodied. | 翻訳日:2023-11-14 13:25:08 公開日:2023-11-13 |
# エンタープライズSQLデータベースにおける問合せ回答のための大規模言語モデルにおける知識グラフの役割理解のためのベンチマーク A Benchmark to Understand the Role of Knowledge Graphs on Large Language Model's Accuracy for Question Answering on Enterprise SQL Databases ( http://arxiv.org/abs/2311.07509v1 ) ライセンス: Link先を確認 | Juan Sequeda, Dean Allemang, Bryon Jacob | (参考訳) 大規模言語モデル(LLM)のエンタープライズアプリケーションは、エンタープライズSQLデータベースに対する質問応答を約束する。
しかし、エンタープライズ設定に適したText-to-SQLベンチマークが存在しないため、LLMがこのようなデータベースのエンタープライズ問題に正確に対応できる範囲は未定である。
さらに、ビジネスコンテキストを提供することでLLMに基づく質問応答を強化する知識グラフ(KG)の可能性はよく理解されていない。
本研究の目的は,企業質問やSQLデータベースの文脈におけるLCMを利用した質問応答システムの精度を評価するとともに,知識グラフの精度向上における役割を検討することである。
これを実現するために,保険ドメインのエンタープライズSQLスキーマ,メトリクスへのレポートを含むエンタープライズクエリの範囲,知識グラフを定義するオントロジーとマッピングを組み込んだコンテキスト層を含むベンチマークを導入する。
GPT-4を用いた質問応答は,SQLデータベース上で直接ゼロショットプロンプトで16%の精度を実現している。
特に、この精度は、エンタープライズSQLデータベースの知識グラフ表現に疑問が提示されると54%に向上する。
したがって、知識グラフへの投資はLLMによる質問応答システムに高い精度を提供する。 Enterprise applications of Large Language Models (LLMs) hold promise for question answering on enterprise SQL databases. However, the extent to which LLMs can accurately respond to enterprise questions in such databases remains unclear, given the absence of suitable Text-to-SQL benchmarks tailored to enterprise settings. Additionally, the potential of Knowledge Graphs (KGs) to enhance LLM-based question answering by providing business context is not well understood. This study aims to evaluate the accuracy of LLM-powered question answering systems in the context of enterprise questions and SQL databases, while also exploring the role of knowledge graphs in improving accuracy. To achieve this, we introduce a benchmark comprising an enterprise SQL schema in the insurance domain, a range of enterprise queries encompassing reporting to metrics, and a contextual layer incorporating an ontology and mappings that define a knowledge graph. Our primary finding reveals that question answering using GPT-4, with zero-shot prompts directly on SQL databases, achieves an accuracy of 16%. Notably, this accuracy increases to 54% when questions are posed over a Knowledge Graph representation of the enterprise SQL database. Therefore, investing in Knowledge Graph provides higher accuracy for LLM powered question answering systems. | 翻訳日:2023-11-14 13:24:35 公開日:2023-11-13 |
# 散逸的進化による物質の相の効率的な学習 Provably Efficient Learning of Phases of Matter via Dissipative Evolutions ( http://arxiv.org/abs/2311.07506v1 ) ライセンス: Link先を確認 | Emilio Onorati, Cambyse Rouz\'e, Daniel Stilck Fran\c{c}a, James D. Watson | (参考訳) 量子多体と機械学習の組み合わせは、量子コンピューティングの新しい発展の基盤として最近証明された。
いくつかの研究は、同じフェーズで他の状態から得られたデータから学習した後、機械学習アルゴリズムを用いて、すべての状態における局所可観測物の期待値を古典的に効率的に予測できることを示した。
しかし、既存の結果は、相関の指数的減衰を示すガッピングハミルトニアンの基底状態やギブス状態のような物質の位相に限定されている。
この研究において、我々はこの条件を廃止し、全ての状態の局所的な期待値をどのように学習できるかを示す。そこでは、局所的なリンドブラジアンで互いに高速に駆動できる状態を定義する coser \&p\'erez-garc\'ia [coser \&p\'erez-garc\'ia, quantum 3, 174 (2019)] によるリンドブラジアン位相定義を採用する。
この定義は、ガッピング基底状態相に対するよりよく知られたハミルトニアン定義を含み、さらに、短いユニタリ回路で接続された状態の族、物質の非平衡相、および外部散逸相互作用下で安定な状態にも適用される。
この定義の下で、$n = o(\log(n/\delta)2^{polylog(1/\epsilon)})$サンプルは、$n$ qubitsのシステムのフェーズ内で局所的な期待値を学ぶのに十分であり、エラー確率$\delta$で$\epsilon$をエラーする。
このサンプルの複雑さは、学習段階と熱段階の以前の結果に匹敵するものであり、この性質の以前の結果を統一的な方法で包含している。
さらに、リンドブラディアンの位相定義を超えた状態の族を学習できることを示し、リンドブラディアンの進化の下での状態間の混合時間に依存するサンプルの複雑さの限界を導出する。 The combination of quantum many-body and machine learning techniques has recently proved to be a fertile ground for new developments in quantum computing. Several works have shown that it is possible to classically efficiently predict the expectation values of local observables on all states within a phase of matter using a machine learning algorithm after learning from data obtained from other states in the same phase. However, existing results are restricted to phases of matter such as ground states of gapped Hamiltonians and Gibbs states that exhibit exponential decay of correlations. In this work, we drop this requirement and show how it is possible to learn local expectation values for all states in a phase, where we adopt the Lindbladian phase definition by Coser \& P\'erez-Garc\'ia [Coser \& P\'erez-Garc\'ia, Quantum 3, 174 (2019)], which defines states to be in the same phase if we can drive one to other rapidly with a local Lindbladian. This definition encompasses the better-known Hamiltonian definition of phase of matter for gapped ground state phases, and further applies to any family of states connected by short unitary circuits, as well as non-equilibrium phases of matter, and those stable under external dissipative interactions. Under this definition, we show that $N = O(\log(n/\delta)2^{polylog(1/\epsilon)})$ samples suffice to learn local expectation values within a phase for a system with $n$ qubits, to error $\epsilon$ with failure probability $\delta$. This sample complexity is comparable to previous results on learning gapped and thermal phases, and it encompasses previous results of this nature in a unified way. Furthermore, we also show that we can learn families of states which go beyond the Lindbladian definition of phase, and we derive bounds on the sample complexity which are dependent on the mixing time between states under a Lindbladian evolution. | 翻訳日:2023-11-14 13:24:15 公開日:2023-11-13 |
# 退化フェルミ気体のアンダーソン局在に関する拡散から何が学べるか。 What can we learn from diffusion about Anderson localization of a degenerate Fermi gas? ( http://arxiv.org/abs/2311.07505v1 ) ライセンス: Link先を確認 | Sian Barbosa, Maximilian Kiefer-Emmanouilidis, Felix Lang, Jennifer Koch, Artur Widera | (参考訳) 障害はシステムの輸送特性を根本的に変更することができる。
顕著な例はアンダーソン局在であり、伝播経路の破壊的干渉による輸送を抑制する。
不均一多体系では、全ての粒子が有限強度障害に局在しているわけではなく、系は部分的に拡散しうる。
このような拡散から局所化の複雑なシグネチャを解くことは長年の問題である。
ここでは、光スペックルパターンによって形成される障害電位において、縮退したスピン偏極フェルミガスを実験的に研究する。
外部拘束電位から解放された場合の無秩序電位の拡散を記録する。
本研究では, 吸収画像統計量の評価による粒子ダイナミックスを捉えた新しい手法を含む, 種々の密度分布解析法を比較した。
拡散指数や係数、局所分数、局在長といった標準観測値を用いて、臨界障害強度を超える局在への遷移のシグネチャを示すものもあれば、修正された拡散レジームへの滑らかなクロスオーバーを示すものもある。
側方変位障害では、異なる輸送体制を同時に解決し、弱局在化を期待するサブ拡散指数を抽出することができる。
本研究は,システムの拡散を詳細に解析し,指数関数的に減衰する密度分布のシグネチャを超えて局所化効果を明らかにすることにより,局在化への遷移を検証できることを強調する。 Disorder can fundamentally modify the transport properties of a system. A striking example is Anderson localization, suppressing transport due to destructive interference of propagation paths. In inhomogeneous many-body systems, not all particles are localized for finite-strength disorder, and the system can become partially diffusive. Unravelling the intricate signatures of localization from such observed diffusion is a long-standing problem. Here, we experimentally study a degenerate, spin-polarized Fermi gas in a disorder potential formed by an optical speckle pattern. We record the diffusion in the disordered potential upon release from an external confining potential. We compare different methods to analyze the resulting density distributions, including a new method to capture particle dynamics by evaluating absorption-image statistics. Using standard observables, such as diffusion exponent and coefficient, localized fraction, or localization length, we find that some show signatures for a transition to localization above a critical disorder strength, while others show a smooth crossover to a modified diffusion regime. In laterally displaced disorder, we spatially resolve different transport regimes simultaneously which allows us to extract the subdiffusion exponent expected for weak localization. Our work emphasizes that the transition toward localization can be investigated by closely analyzing the system's diffusion, offering ways of revealing localization effects beyond the signature of exponentially decaying density distribution. | 翻訳日:2023-11-14 13:23:34 公開日:2023-11-13 |
# STEMリバランス: SMOTE, 編集近辺, ミックスアップを用いた不均衡データセットへの新たなアプローチ STEM Rebalance: A Novel Approach for Tackling Imbalanced Datasets using SMOTE, Edited Nearest Neighbour, and Mixup ( http://arxiv.org/abs/2311.07504v1 ) ライセンス: Link先を確認 | Yumnah Hasan, Fatemeh Amerehi, Patrick Healy, Conor Ryan | (参考訳) 医療画像における不均衡データセットは、歪んだクラスの割合と異常な症例の不足が特徴である。
このようなデータを使ってトレーニングする場合、モデルは通常のケースに高い確率を割り当てる傾向があり、パフォーマンスに偏りが生じる。
SMOTEのような一般的なオーバーサンプリング技術は、ローカル情報に依存し、限界化問題を導入することができる。
本稿では,2つのトレーニング例と対応するラベルを組み合わせ,汎用的なビジナル分布として新たなデータポイントを生成するMixup Augmentationの有用性について検討する。
そこで本研究では,SMOTE-ENNとMixupをインスタンスレベルで組み合わせたSTEMを提案する。
この統合により、マイノリティクラス全体の分散を効果的に活用し、クラス間の不均衡とクラス内の不均衡を軽減できます。
不均衡なデータセットが一般的である乳癌の問題に焦点を当てる。
その結果, 乳房検診用デジタルデータベースとウィスコンシン乳癌(診断)データセットにおいて, AUC値0.96と0.99のSTEMの有効性が示された。
さらに,機械学習(ML)分類器のアンサンブルに適用した場合,有望なポテンシャルを示す。 Imbalanced datasets in medical imaging are characterized by skewed class proportions and scarcity of abnormal cases. When trained using such data, models tend to assign higher probabilities to normal cases, leading to biased performance. Common oversampling techniques such as SMOTE rely on local information and can introduce marginalization issues. This paper investigates the potential of using Mixup augmentation that combines two training examples along with their corresponding labels to generate new data points as a generic vicinal distribution. To this end, we propose STEM, which combines SMOTE-ENN and Mixup at the instance level. This integration enables us to effectively leverage the entire distribution of minority classes, thereby mitigating both between-class and within-class imbalances. We focus on the breast cancer problem, where imbalanced datasets are prevalent. The results demonstrate the effectiveness of STEM, which achieves AUC values of 0.96 and 0.99 in the Digital Database for Screening Mammography and Wisconsin Breast Cancer (Diagnostics) datasets, respectively. Moreover, this method shows promising potential when applied with an ensemble of machine learning (ML) classifiers. | 翻訳日:2023-11-14 13:23:11 公開日:2023-11-13 |
# ニューラルネットワークの明示的最適化によるバックプロパゲーションの必要性の低減とより優れたオプティマの発見 Reducing the Need for Backpropagation and Discovering Better Optima With Explicit Optimizations of Neural Networks ( http://arxiv.org/abs/2311.07498v1 ) ライセンス: Link先を確認 | Jake Ryland Williams and Haoran Zhao | (参考訳) バックプロパゲーションに依存する反復微分近似法は、ニューラルネットワークの最適化を可能にしたが、現時点では、特に大規模モデルのトレーニングにおいて、計算コストは高いままである。
本稿では、ニューラルネットワークのスケーリングコストを削減し、低リソースアプリケーションに高効率な最適化を提供するニューラルネットワークの最適化方法を提案する。
我々は、その勾配を数学的に解析することで、シンプルなフィードフォワード言語モデル(LM)の明確な解を得る。
本ソリューションは, 単一層LMから, 正値特徴に基づいて学習した全単層フィードフォワードソフトマックス活性化ニューラルモデルのクラスへ一般化する。
lm と桁分類器の両方について、明示解が実験においてほぼ最適となることを計算学的に確認する。
1)反復最適化は明確な解パラメータをわずかに改善する。
2) ランダム初期化パラメータは明示的な解に対して反復的に最適化する。
また,多層ネットワークの層によって局所的に明示的な解を適用し,その解の計算貯蓄がモデル複雑性とともにどのように増大するかを論じる。明示的な解の単一層およびマルチ層アプリケーションの場合,得られた最適解がバックプロパゲーションのみでは到達できないこと,すなわち,明示的な解が適用された後にのみ発見できる,というように強調する。
最後に,この解の計算量削減とモデル解釈可能性への影響について論じ,複雑多層アーキテクチャへの明示的な解の導出に向けた今後の方向性を提案する。 Iterative differential approximation methods that rely upon backpropagation have enabled the optimization of neural networks; however, at present, they remain computationally expensive, especially when training models at scale. In this paper, we propose a computationally efficient alternative for optimizing neural networks that can both reduce the costs of scaling neural networks and provide high-efficiency optimizations for low-resource applications. We derive an explicit solution to a simple feed-forward language model (LM) by mathematically analyzing its gradients. This solution generalizes from single-layer LMs to the class of all single-layer feed-forward softmax-activated neural models trained on positive-valued features, as is demonstrated by our extension of this solution application to MNIST digit classification. For both LM and digit classifiers, we find computationally that explicit solutions perform near-optimality in experiments showing that 1) iterative optimization only marginally improves the explicit solution parameters and 2) randomly initialized parameters iteratively optimize towards the explicit solution. We also preliminarily apply the explicit solution locally by layer in multi-layer networks and discuss how the solution's computational savings increase with model complexity -- for both single- and mult-layer applications of the explicit solution, we emphasize that the optima achieved cannot be reached by backpropagation alone, i.e., better optima appear discoverable only after explicit solutions are applied. Finally, we discuss the solution's computational savings alongside its impact on model interpretability and suggest future directions for the derivation of explicit solutions to complex- and multi-layer architectures. | 翻訳日:2023-11-14 13:22:50 公開日:2023-11-13 |
# 多言語性nonce依存性ツリーバンク:llmの表現方法とプロセス構文構造を理解する Multilingual Nonce Dependency Treebanks: Understanding how LLMs represent and process syntactic structure ( http://arxiv.org/abs/2311.07497v1 ) ライセンス: Link先を確認 | David Arps, Laura Kallmeyer, Younes Samih, Hassan Sajjad | (参考訳) 我々はSPUD(Semantically Perturbed Universal Dependencies)を導入した。これは多言語ユニバーサル依存(UD)コーパスのためのナンスツリーバンクを作成するためのフレームワークである。
SPUDデータは構文的引数構造を満足し、構文的アノテーションを提供し、言語固有の規則を通じて文法性を保証する。
我々は、アラビア語、英語、フランス語、ドイツ語、ロシア語でナンスデータを作成し、SPUDツリーバンクの2つのユースケースを示す。
まず,自動回帰(ALM)とマスキング言語モデル(MLM)の難易度スコアを用いて,名詞データが単語共起統計に与える影響を検討した。
その結果, ALM スコアは MLM スコアよりも, ナンスデータの影響が大きいことがわかった。
第二に、ナンスデータが構文依存プローブの性能に与える影響を示す。
実測データに基づくM\"uller-Eberstein et al. (2022) の結果を再現し, MLM と ALM の両方の性能低下を示す。
オリジナルのテストデータ。
しかし、ほとんどのパフォーマンスは保たれており、調査者は意味論から独立して構文を学ぶことになる。 We introduce SPUD (Semantically Perturbed Universal Dependencies), a framework for creating nonce treebanks for the multilingual Universal Dependencies (UD) corpora. SPUD data satisfies syntactic argument structure, provides syntactic annotations, and ensures grammaticality via language-specific rules. We create nonce data in Arabic, English, French, German, and Russian, and demonstrate two use cases of SPUD treebanks. First, we investigate the effect of nonce data on word co-occurrence statistics, as measured by perplexity scores of autoregressive (ALM) and masked language models (MLM). We find that ALM scores are significantly more affected by nonce data than MLM scores. Second, we show how nonce data affects the performance of syntactic dependency probes. We replicate the findings of M\"uller-Eberstein et al. (2022) on nonce test data and show that the performance declines on both MLMs and ALMs wrt. original test data. However, a majority of the performance is kept, suggesting that the probe indeed learns syntax independently from semantics. | 翻訳日:2023-11-14 13:22:23 公開日:2023-11-13 |
# 過去10年間のレビュー:包括的書誌分析による安全保証事例の進化の追跡 The Last Decade in Review: Tracing the Evolution of Safety Assurance Cases through a Comprehensive Bibliometric Analysis ( http://arxiv.org/abs/2311.07495v1 ) ライセンス: Link先を確認 | Mithila Sivakumar, Alvine Boaye Belle, Jinjun Shan, Opeyemi Adesina, Song Wang, Marsha Chechik, Marios Fokaefs, Kimya Khakzad Shahandashti, Oluwafemi Odu | (参考訳) 安全保証は自動車、航空宇宙、原子力など様々な分野において重要であり、ミッションクリティカルシステムの信頼性と受容性が不可欠である。
この保証は、安全保証ケースの利用により効果的に実現される。
安全保証ケースを使用することで、生成されたシステム機能の正確性を検証することができ、システム障害を防止することができる。
後者は、命の喪失、重傷、大規模な環境被害、不動産破壊、そして大きな経済損失をもたらす可能性がある。
それでも、サイバー物理システム(CPS)のような複雑な技術の出現は、その不均一性、自律性、機械学習能力、そして運用環境の不確実性によって、安全保証活動に重大な課題をもたらす。
いくつかの論文はこれらの課題に取り組むための解決策を提案しているが、我々の知る限りでは、安全事例の科学文献を特徴付ける傾向、パターン、関係性についての研究は行われていない。
これにより、安全事例の全体像を持ち、最も有望な将来の研究方向を特定することが困難になる。
そこで本稿では,本論文では,書誌分析に最先端の書誌計測ツール(vosviewerなど)を応用し,貴重な知見を収集し,重要な著者や会場を特定し,安全性保証領域における研究の現状を鳥眼で把握する。
知識のギャップを明らかにし,今後の研究への道筋を明らかにすることにより,研究者,企業安全アナリスト,規制当局が,特定のニーズや目的に合致した安全慣行を受け入れ,強化しようとする上で必要不可欠な基礎を提供する。 Safety assurance is of paramount importance across various domains, including automotive, aerospace, and nuclear energy, where the reliability and acceptability of mission-critical systems are imperative. This assurance is effectively realized through the utilization of Safety Assurance Cases. The use of safety assurance cases allows for verifying the correctness of the created systems capabilities, preventing system failure. The latter may result in loss of life, severe injuries, large-scale environmental damage, property destruction, and major economic loss. Still, the emergence of complex technologies such as cyber-physical systems (CPSs), characterized by their heterogeneity, autonomy, machine learning capabilities, and the uncertainty of their operational environments poses significant challenges for safety assurance activities. Several papers have tried to propose solutions to tackle these challenges, but to the best of our knowledge, no secondary study investigates the trends, patterns, and relationships characterizing the safety case scientific literature. This makes it difficult to have a holistic view of the safety case landscape and to identify the most promising future research directions. In this paper, we, therefore, rely on state-of-the-art bibliometric tools(e.g., VosViewer) to conduct a bibliometric analysis that allows us to generate valuable insights, identify key authors and venues, and gain a birds eye view of the current state of research in the safety assurance area. By revealing knowledge gaps and highlighting potential avenues for future research, our analysis provides an essential foundation for researchers, corporate safety analysts, and regulators seeking to embrace or enhance safety practices that align with their specific needs and objectives. | 翻訳日:2023-11-14 13:22:02 公開日:2023-11-13 |
# 包括的回答への一歩:大規模言語モデルによる制約付き多段階質問分解 A Step Closer to Comprehensive Answers: Constrained Multi-Stage Question Decomposition with Large Language Models ( http://arxiv.org/abs/2311.07491v1 ) ライセンス: Link先を確認 | Hejing Cao and Zhenwei An and Jiazhan Feng and Kun Xu and Liwei Chen and Dongyan Zhao | (参考訳) 大きな言語モデルは質問回答タスクにおいて顕著なパフォーマンスを示すが、幻覚に影響を受けやすい。
これらのモデルが複雑な質問におけるマルチホップ関係を理解したり、包括的な応答に必要な知識を欠いたりすると、課題が発生する。
この問題に対処するため、我々は"Decompose-and-Query"フレームワーク(D&Q)を紹介します。
このフレームワークは、ReActと同様の外部知識を考案し活用すると同時に、その思考を信頼できる情報に制限し、幻覚のリスクを効果的に軽減する。
我々のChitChatQAデータセットでは、D&Qは67%のケースでChatGPTに負けない。
私たちのコードはhttps://github.com/alkaidpku/dq-toolqaで利用可能です。 While large language models exhibit remarkable performance in the Question Answering task, they are susceptible to hallucinations. Challenges arise when these models grapple with understanding multi-hop relations in complex questions or lack the necessary knowledge for a comprehensive response. To address this issue, we introduce the "Decompose-and-Query" framework (D&Q). This framework guides the model to think and utilize external knowledge similar to ReAct, while also restricting its thinking to reliable information, effectively mitigating the risk of hallucinations. Experiments confirm the effectiveness of D&Q: On our ChitChatQA dataset, D&Q does not lose to ChatGPT in 67% of cases; on the HotPotQA question-only setting, D&Q achieved an F1 score of 59.6%. Our code is available at https://github.com/alkaidpku/DQ-ToolQA. | 翻訳日:2023-11-14 13:21:33 公開日:2023-11-13 |
# evofed: コミュニケーション効率のよい連合学習のための進化戦略の活用 EvoFed: Leveraging Evolutionary Strategies for Communication-Efficient Federated Learning ( http://arxiv.org/abs/2311.07485v1 ) ライセンス: Link先を確認 | Mohammad Mahdi Rahimi, Hasnain Irshad Bhatti, Younghyun Park, Humaira Kousar, Jaekyun Moon | (参考訳) フェデレーション学習(federated learning, fl)は、分散ノード間の協調的なモデルトレーニングを可能にする、分散機械学習パラダイムである。
しかし、その広く普及は、多数のモデルパラメータを伝達する通信コストの高さによって妨げられている。
本稿では,進化戦略(ES)とFLを統合する新しいアプローチであるEvoFedについて述べる。
EvoFedは「適合性に基づく情報共有」という概念を採用しており、従来のモデルベースFLとは大きく異なる。
実際の更新されたモデルパラメータを交換する代わりに、各ノードは、局所更新されたモデルとノイズ摂動モデル人口の各メンバーとの間の距離ベースの類似度測度を送信する。
各ノードとサーバは、同じランダムなシードを用いて完全に同期した方法で、同じ集団の摂動モデルのモデルを生成する。
適切に選択されたノイズ分散と人口規模により、摂動モデルを組み合わせて、ローカルデータセットを使用して更新された実際のモデルを正確に反映することができ、送信された類似度測定(または適合度値)がモデルパラメータに関するほぼ完全な情報を運ぶことができる。
集団の大きさは一般的にモデルパラメータの数よりはるかに小さいため、通信負荷の節約は大きい。
サーバはこれらのフィットネス値を集約し、グローバルモデルを更新することができる。
このグローバルなフィットネスベクトルはノードに分散され、それぞれが同じアップデートを適用してグローバルモデルに同期する。
分析の結果,EvoFedは局所的な処理負荷を増大させるコストでFedAvgに匹敵する性能を達成し,通信要求の総量を大幅に削減することを確認した。 Federated Learning (FL) is a decentralized machine learning paradigm that enables collaborative model training across dispersed nodes without having to force individual nodes to share data. However, its broad adoption is hindered by the high communication costs of transmitting a large number of model parameters. This paper presents EvoFed, a novel approach that integrates Evolutionary Strategies (ES) with FL to address these challenges. EvoFed employs a concept of 'fitness-based information sharing', deviating significantly from the conventional model-based FL. Rather than exchanging the actual updated model parameters, each node transmits a distance-based similarity measure between the locally updated model and each member of the noise-perturbed model population. Each node, as well as the server, generates an identical population set of perturbed models in a completely synchronized fashion using the same random seeds. With properly chosen noise variance and population size, perturbed models can be combined to closely reflect the actual model updated using the local dataset, allowing the transmitted similarity measures (or fitness values) to carry nearly the complete information about the model parameters. As the population size is typically much smaller than the number of model parameters, the savings in communication load is large. The server aggregates these fitness values and is able to update the global model. This global fitness vector is then disseminated back to the nodes, each of which applies the same update to be synchronized to the global model. Our analysis shows that EvoFed converges, and our experimental results validate that at the cost of increased local processing loads, EvoFed achieves performance comparable to FedAvg while reducing overall communication requirements drastically in various practical settings. | 翻訳日:2023-11-14 13:21:18 公開日:2023-11-13 |
# 大規模言語モデルの心理的予測力 Psychometric Predictive Power of Large Language Models ( http://arxiv.org/abs/2311.07484v1 ) ライセンス: Link先を確認 | Tatsuki Kuribayashi, Yohei Oseki, Timothy Baldwin | (参考訳) 言語モデルからの次の単語確率は、人間の読書行動のシミュレートに成功している。
これに基づいて, 命令調整型大規模言語モデル (LLM) が, 同等の難易度を持つベースLLMよりも, 人間の読影行動に対する心理的予測力 (PPP) を低下させることを示す。
言い換えれば、LLMが人間に好まれる応答を提供するのに役立つ命令チューニングは、計算心理学の観点から常に人間に似たものとは限らない。
さらに, LLMを用いた読解行動のシミュレーション手法について検討し, 特定の言語仮説を反映するプロンプトが優れたPPPを示すが, ベースLLMよりも悪いことを示す。
これらの結果は、最近の命令のチューニングとプロンプトが認知モデリングにおけるベースllmからの直接的確率測定よりも優れた推定を提供していないことを強調する。 Next-word probabilities from language models have been shown to successfully simulate human reading behavior. Building on this, we show that, interestingly, instruction-tuned large language models (LLMs) yield worse psychometric predictive power (PPP) for human reading behavior than base LLMs with equivalent perplexities. In other words, instruction tuning, which helps LLMs provide human-preferred responses, does not always make them human-like from the computational psycholinguistics perspective. In addition, we explore prompting methodologies in simulating human reading behavior with LLMs, showing that prompts reflecting a particular linguistic hypothesis lead LLMs to exhibit better PPP but are still worse than base LLMs. These highlight that recent instruction tuning and prompting do not offer better estimates than direct probability measurements from base LLMs in cognitive modeling. | 翻訳日:2023-11-14 13:20:49 公開日:2023-11-13 |
# 静的のクイット:静的解析アラート抑制に関する研究 Quieting the Static: A Study of Static Analysis Alert Suppressions ( http://arxiv.org/abs/2311.07482v1 ) ライセンス: Link先を確認 | Georgios Liargkovas, Evangelia Panourgia, Diomidis Spinellis | (参考訳) 静的解析ツールは、コードがリリースされる前に欠陥を検出するために一般的に使用される。
これまでの研究は、全体的な効果と欠陥を検出する能力に焦点を当ててきた。
しかし、警告抑制の使用パターンについてはほとんど知られていない。 特定の警告の出現を防ぐために開発者が設定した設定。
警告抑制機能の使用頻度,警告抑制機能の使用頻度,目的,警告抑制アノテーションの使用回避方法などを分析して,このギャップに対処する。
これらの質問に答えるために、FinderbugsやSpotbugsを使って、警告を抑圧する設定とソースコードアノテーションを利用する1,425のオープンソースプロジェクトを調べます。
ほとんどの警告は抑制されているが、一部の警告は頻繁に抑圧されている。
期待とは対照的に、偽陽性はわずかな抑制率を占める。
かなりの数の抑制が技術的負債をもたらし、コード品質やツールからの適切なガイダンスの欠如を潜在的に無視していることを示唆している。
誤解を招く提案や誤った仮定も抑圧につながる。
検索は、静的解析ツールの使用、バグパターン定義の改善、コードアノテーションの改善に関連するコミュニケーションと教育の改善の必要性を強調している。
将来の研究では、これらの知見を他の静的解析ツールに拡張し、静的解析の有効性を改善するために適用することができる。 Static analysis tools are commonly used to detect defects before the code is released. Previous research has focused on their overall effectiveness and their ability to detect defects. However, little is known about the usage patterns of warning suppressions: the configurations developers set up in order to prevent the appearance of specific warnings. We address this gap by analyzing how often are warning suppression features used, which warning suppression features are used and for what purpose, and also how could the use of warning suppression annotations be avoided. To answer these questions we examine 1\,425 open-source Java-based projects that utilize Findbugs or Spotbugs for warning-suppressing configurations and source code annotations. We find that although most warnings are suppressed, only a small portion of them get frequently suppressed. Contrary to expectations, false positives account for a minor proportion of suppressions. A significant number of suppressions introduce technical debt, suggesting potential disregard for code quality or a lack of appropriate guidance from the tool. Misleading suggestions and incorrect assumptions also lead to suppressions. Findings underscore the need for better communication and education related to the use of static analysis tools, improved bug pattern definitions, and better code annotation. Future research can extend these findings to other static analysis tools, and apply them to improve the effectiveness of static analysis. | 翻訳日:2023-11-14 13:20:32 公開日:2023-11-13 |
# 深部畳み込み長短期記憶ネットワークにおける時間的性能予測 Temporal Performance Prediction for Deep Convolutional Long Short-Term Memory Networks ( http://arxiv.org/abs/2311.07477v1 ) ライセンス: Link先を確認 | Laura Fieback (1), Bidya Dash (1), Jakob Spiegelberg (1), Hanno Gottschalk (2) ((1) Volkswagen AG, (2) TU Berlin) | (参考訳) ディープセグメンテーションネットワークの予測の不確かさの定量化は、安全クリティカルなタスクにおいて不可欠である。
ビデオデータが利用可能である自律運転のようなアプリケーションでは、畳み込み長期記憶ネットワークはセマンティックセグメンテーションを提供するだけでなく、次のタイムステップのセグメンテーションを予測することができる。
これらのモデルでは、セル状態を使用して過去のデータから情報をブロードキャストし、時系列の入力を受け取り、将来への1つまたはそれ以上のステップを予測する。
本稿では,畳み込み型長期短期記憶ネットワークの予測性能を予測できる時間後処理法を提案する。
この目的のために,セグメント毎の時間的セル状態に基づく入力メトリックを作成し,これらのメトリクスに基づいて予測品質を推定するための異なるモデルについて検討する。
さらに,提案する指標に対する細胞状態数の影響についても検討した。 Quantifying predictive uncertainty of deep semantic segmentation networks is essential in safety-critical tasks. In applications like autonomous driving, where video data is available, convolutional long short-term memory networks are capable of not only providing semantic segmentations but also predicting the segmentations of the next timesteps. These models use cell states to broadcast information from previous data by taking a time series of inputs to predict one or even further steps into the future. We present a temporal postprocessing method which estimates the prediction performance of convolutional long short-term memory networks by either predicting the intersection over union of predicted and ground truth segments or classifying between intersection over union being equal to zero or greater than zero. To this end, we create temporal cell state-based input metrics per segment and investigate different models for the estimation of the predictive quality based on these metrics. We further study the influence of the number of considered cell states for the proposed metrics. | 翻訳日:2023-11-14 13:20:12 公開日:2023-11-13 |
# 量子回路の最小方程式理論 Minimal Equational Theories for Quantum Circuits ( http://arxiv.org/abs/2311.07476v1 ) ライセンス: Link先を確認 | Alexandre Cl\'ement, No\'e Delorme, Simon Perdrix | (参考訳) 量子回路に対する最初の最小かつ完全方程式理論を導入する。
したがって、量子回路上の真の方程式は単純な規則から導出できることが示され、これらは全て新しいが直感的なものを除いて標準であり、マルチコントロールの2/pi$回転は同一性に他ならない。
我々の研究は、量子回路の最近の完全方程式理論を改善し、かなり実践的でないものを含むいくつかの規則を排除した。
私たちの主な貢献の一つは方程式理論の最小性を証明することである。
より一般に、量子回路上の任意の完全等式理論(すべてのゲートがユニタリであるとき)は、非有界数の量子ビットに作用する規則を必要とする。
最後に、Acillary qubits や/または qubit discarding を含む量子回路の完全方程式理論を単純化する。 We introduce the first minimal and complete equational theory for quantum circuits. Hence, we show that any true equation on quantum circuits can be derived from simple rules, all of them being standard except a novel but intuitive one which states that a multi-control $2\pi$ rotation is nothing but the identity. Our work improves on the recent complete equational theories for quantum circuits, by getting rid of several rules including a fairly unpractical one. One of our main contributions is to prove the minimality of the equational theory, i.e. none of the rules can be derived from the other ones. More generally, we demonstrate that any complete equational theory on quantum circuits (when all gates are unitary) requires rules acting on an unbounded number of qubits. Finally, we also simplify the complete equational theories for quantum circuits with ancillary qubits and/or qubit discarding. | 翻訳日:2023-11-14 13:19:55 公開日:2023-11-13 |
# マスク顔データセット生成とマスク顔認識 Masked Face Dataset Generation and Masked Face Recognition ( http://arxiv.org/abs/2311.07475v1 ) ライセンス: Link先を確認 | Rui Cai, Xuying Ning, Peter N. Belhumeur | (参考訳) ポストパンデミック時代には、顔のマスクを着用することは、普通の顔認識に大きな課題となった。
前回の研究では、事前訓練されたVGG16とResNet50を使用して、精巧にキュレートされた既存のマスク顔認識(MFR)データセット、RMFRDとSMFRDの特徴を抽出した。
サンプルサイズが小さく、カメラ環境が大きく変化した実世界の状況に適応できるように、我々は、野生(LFW)データセットにおけるLabelled Facesから50のIDと1702の画像を選択し、キーポイント検出によってシミュレーションされたフェイスマスクを選択し、より挑戦的なマスクデータセットを作成しました。
研究のもう1つの部分は、マスク付き顔認識の問題を解決することであり、私たちは、事前訓練されたモデルを直接使用する代わりに、事前訓練されたモデルではなく、モデルを選択し、新しいデータセット上でモデルを微調整し、最終線形層を使用して、直接分類を行った。
さらに,テスト精度をさらに高めるためにデータ拡張戦略を用いることを提案し,最も sota ネットワークである inception resnet v1 の先行研究を超えて,新たなネットワークを微調整した。
50のアイデンティティMFR上での最良のテスト精度は95%に達した。 In the post-pandemic era, wearing face masks has posed great challenge to the ordinary face recognition. In the previous study, researchers has applied pretrained VGG16, and ResNet50 to extract features on the elaborate curated existing masked face recognition (MFR) datasets, RMFRD and SMFRD. To make the model more adaptable to the real world situation where the sample size is smaller and the camera environment has greater changes, we created a more challenging masked face dataset ourselves, by selecting 50 identities with 1702 images from Labelled Faces in the Wild (LFW) Dataset, and simulated face masks through key point detection. The another part of our study is to solve the masked face recognition problem, and we chose models by referring to the former state of the art results, instead of directly using pretrained models, we fine tuned the model on our new dataset and use the last linear layer to do the classification directly. Furthermore, we proposed using data augmentation strategy to further increase the test accuracy, and fine tuned a new networks beyond the former study, one of the most SOTA networks, Inception ResNet v1. The best test accuracy on 50 identity MFR has achieved 95%. | 翻訳日:2023-11-14 13:19:42 公開日:2023-11-13 |
# 電子材料におけるトポロジカルオイラークラスの光学的発現 Optical manifestations of topological Euler class in electronic materials ( http://arxiv.org/abs/2311.07545v1 ) ライセンス: Link先を確認 | Wojciech J. Jankowski, Arthur S. Morris, Adrien Bouhon, F. Nur \"Unal, Robert-Jan Slager | (参考訳) 非自明なオイラー類、非可換なバンドトポロジーを特徴づけるマルチガップ不変量を持つ2つのバンドを持つ位相相の光学的重みの量子幾何学的境界を解析した。
境界は、異なるドーピングでオイラーバンドの結合した光学的重みを制限し、隣接するバンドギャップのサイズをさらに制限することを示す。
この過程では、直流導電率に対するフラットバンド限界の関連バンド間寄与についても検討する。
我々は,光の光吸収に伴う遷移速度の観点で境界を再キャストすることにより,これらの結果を物理的に検証し,運動量と周波数分解光測定を用いてオイラー接続と曲率を決定する方法を示し,この多バンド不変量の直接測定を可能にした。
さらに、境界がオイラー環の退化極限を超えて成り立つことを証明し、その結果、パッチオイラー級数によってノルム位相が取得される。
この文脈で、ドープしたオイラー半金属中の3階ジェルク光導電率を含む$\vec{k} \cdot \vec{p}$モデル内のオイラー位相の光学的表現を推定する。
本研究は, 実材料に対する有効理論をベンチマークし, メタマテリアルや光学格子に直接実現可能な格子正規化モデルにおいて, 数値的妥当性を示す。 We analyze quantum-geometric bounds on optical weights in topological phases with pairs of bands hosting non-trivial Euler class, a multi-gap invariant characterizing non-Abelian band topology. We show how the bounds constrain the combined optical weights of the Euler bands at different dopings and further restrict the size of the adjacent band gaps. In this process, we also consider the associated interband contributions to DC conductivities in the flat-band limit. We physically validate these results by recasting the bound in terms of transition rates associated with the optical absorption of light, and demonstrate how the Euler connections and curvatures can be determined through the use of momentum and frequency-resolved optical measurements, allowing for a direct measurement of this multi-band invariant. Additionally, we prove that the bound holds beyond the degenerate limit of Euler bands, resulting in nodal topology captured by the patch Euler class. In this context, we deduce optical manifestations of Euler topology within $\vec{k} \cdot \vec{p}$ models, which include AC conductivity, and third-order jerk photoconductivities in doped Euler semimetals. We showcase our findings with numerical validation in lattice-regularized models that benchmark effective theories for real materials and are themselves directly realizable in metamaterials and optical lattices. | 翻訳日:2023-11-14 13:12:01 公開日:2023-11-13 |
# mlscorecheck: 報告されたパフォーマンススコアと機械学習の実験の一貫性をテストする mlscorecheck: Testing the consistency of reported performance scores and experiments in machine learning ( http://arxiv.org/abs/2311.07541v1 ) ライセンス: Link先を確認 | Gy\"orgy Kov\'acs and Attila Fazekas | (参考訳) 報告された実験結果の検証を通じて、人工知能における再現性危機に対処することは難しい課題である。
技術の再実装や、科学的手法や最良の統計実践から逸脱した論文の細心の注意深い評価が必要となる。
報告結果の検証を容易にするため,2進・複数クラス分類や回帰を含む機械学習問題において,報告された性能スコアと各種実験装置との矛盾を識別できる数値的手法を開発した。
これらの一貫性テストは、オープンソースパッケージのmlscorecheckに統合され、網膜画像処理や合成マイノリティオーバーサンプリングなど、さまざまな分野で系統的に繰り返し発生する欠陥を検出するための、特定のテストバンドルも提供される。 Addressing the reproducibility crisis in artificial intelligence through the validation of reported experimental results is a challenging task. It necessitates either the reimplementation of techniques or a meticulous assessment of papers for deviations from the scientific method and best statistical practices. To facilitate the validation of reported results, we have developed numerical techniques capable of identifying inconsistencies between reported performance scores and various experimental setups in machine learning problems, including binary/multiclass classification and regression. These consistency tests are integrated into the open-source package mlscorecheck, which also provides specific test bundles designed to detect systematically recurring flaws in various fields, such as retina image processing and synthetic minority oversampling. | 翻訳日:2023-11-14 13:11:35 公開日:2023-11-13 |
# 言語誘導型分類器のテスト時間適応のための複数教師の活用 Leveraging Multiple Teachers for Test-Time Adaptation of Language-Guided Classifiers ( http://arxiv.org/abs/2311.07538v1 ) ライセンス: Link先を確認 | Kangda Wei, Sayan Ghosh, Rakesh R. Menon, Shashank Srivastava | (参考訳) 近年,タスク固有の自然言語の説明や指示,プロンプト(Sanh et al., 2022; R. Menon et al., 2022)が提供されると,新しいタスクから例を分類できる言語誘導型分類器を探索している。
これらの分類器はゼロショット設定で一般化できるが、そのタスク性能は予測不可能な方法で異なる言語説明の間で大きく異なる(Lu et al., 2022; Gonen et al., 2022)。
また、現在のアプローチでは、多くのシナリオで利用可能なラベルのない例を活用できない。
本稿では,複数の教師からの説明やラベルなしテスト例を提供する際に,データプログラミングを用いて言語誘導型分類器を新しいタスクに適応させるフレームワークTALCを紹介する。
以上の結果から,TALCは従来よりも9.3%(相対的な改善)で競争ベースラインを一貫して上回っていることが明らかとなった。
さらに、提供される説明の質や量の変化に対するTALCの頑健さを実証し、複数の教師や観衆からの学習が関与するシナリオにおいてその可能性を強調した。
私たちのコードは、https://github.com/weikangda/talc.gitで利用可能です。 Recent approaches have explored language-guided classifiers capable of classifying examples from novel tasks when provided with task-specific natural language explanations, instructions or prompts (Sanh et al., 2022; R. Menon et al., 2022). While these classifiers can generalize in zero-shot settings, their task performance often varies substantially between different language explanations in unpredictable ways (Lu et al., 2022; Gonen et al., 2022). Also, current approaches fail to leverage unlabeled examples that may be available in many scenarios. Here, we introduce TALC, a framework that uses data programming to adapt a language-guided classifier for a new task during inference when provided with explanations from multiple teachers and unlabeled test examples. Our results show that TALC consistently outperforms a competitive baseline from prior work by an impressive 9.3% (relative improvement). Further, we demonstrate the robustness of TALC to variations in the quality and quantity of provided explanations, highlighting its potential in scenarios where learning from multiple teachers or a crowd is involved. Our code is available at: https://github.com/WeiKangda/TALC.git. | 翻訳日:2023-11-14 13:11:22 公開日:2023-11-13 |
# Sentinel-1 SARデータとAutoMLによる光植生指標の推定 Estimating optical vegetation indices with Sentinel-1 SAR data and AutoML ( http://arxiv.org/abs/2311.07537v1 ) ライセンス: Link先を確認 | Daniel Paluba, Bertrand Le Saux, Francesco Sarti, P\v{r}emysl Stych | (参考訳) 現在の森林生態系モニタリング用光植生指標(VIs)は,様々な用途で広く利用されている。
しかし、光学衛星データに基づく連続監視は、雲などの大気効果によって阻害される可能性がある。
それとは対照的に、合成開口レーダ(SAR)データにより、雲や昼夜の取得による信号の侵入による完全時系列の森林モニタリングが可能となる。
本研究の目的は,sarデータを用いた光データへの影響を克服し,機械学習による森林の光vis推定の代替として利用することにある。
4つのVIの時系列 (LAI, FAPAR, EVI, NDVI) をマルチテンポラルセンチネル-1 SARとアシラリーデータを用いて推定した。
これはGoogle Earth Engine(GEE)に、時間的および空間的に整列したSentinel-1、Sentinel-2、デジタル高度モデル(DEM)、気象および土地被覆データセット(MMT-GEE)を含む、複数の時間的およびマルチモーダルデータセットを作成することで実現された。
DEMから発生する補助的特徴と気象データを用いることで、結果が改善された。
オープンソース自動機械学習(automl)アプローチであるauto-sklearnは、4つのvisのうち3つでランダムフォレスト回帰を上回り、1時間の最適化期間は69-84%の低エラー(viによっては0.05-0.32のmae)のr2で十分な結果を得るのに十分であった。
また, 時系列解析における選択事例研究や, SAR と推定された VI の空間比較においても大きな一致が認められた。
一般に、現在利用可能な光衛星データと利用可能なグローバルVI製品から得られるVIと比較すると、時間分解能(最大240測定/年)と空間分解能(20m)は推定されたSARベースのVIを用いて達成された。
SARベースのVIの大きな利点は、急激な森林変動を週単位の時間的精度で検出できることである。 Current optical vegetation indices (VIs) for monitoring forest ecosystems are widely used in various applications. However, continuous monitoring based on optical satellite data can be hampered by atmospheric effects such as clouds. On the contrary, synthetic aperture radar (SAR) data can offer insightful and systematic forest monitoring with complete time series due to signal penetration through clouds and day and night acquisitions. The goal of this work is to overcome the issues affecting optical data with SAR data and serve as a substitute for estimating optical VIs for forests using machine learning. Time series of four VIs (LAI, FAPAR, EVI and NDVI) were estimated using multitemporal Sentinel-1 SAR and ancillary data. This was enabled by creating a paired multi-temporal and multi-modal dataset in Google Earth Engine (GEE), including temporally and spatially aligned Sentinel-1, Sentinel-2, digital elevation model (DEM), weather and land cover datasets (MMT-GEE). The use of ancillary features generated from DEM and weather data improved the results. The open-source Automatic Machine Learning (AutoML) approach, auto-sklearn, outperformed Random Forest Regression for three out of four VIs, while a 1-hour optimization length was enough to achieve sufficient results with an R2 of 69-84% low errors (0.05-0.32 of MAE depending on VI). Great agreement was also found for selected case studies in the time series analysis and in the spatial comparison between the original and estimated SAR-based VIs. In general, compared to VIs from currently freely available optical satellite data and available global VI products, a better temporal resolution (up to 240 measurements/year) and a better spatial resolution (20 m) were achieved using estimated SAR-based VIs. A great advantage of the SAR-based VI is the ability to detect abrupt forest changes with a sub-weekly temporal accuracy. | 翻訳日:2023-11-14 13:10:59 公開日:2023-11-13 |
# 知識集中型視覚質問応答におけるGPT-4Vの総合的評価 A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering ( http://arxiv.org/abs/2311.07536v1 ) ライセンス: Link先を確認 | Yunxin Li, Longyue Wang, Baotian Hu, Xinyu Chen, Wanqi Zhong, Chenyang Lyu, Min Zhang | (参考訳) マルチモーダル大モデル(MLM)の出現は、視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域において顕著な能力を提供している。
しかし、真の課題は知識集約型VQAタスクの領域にある。これは視覚要素の認識だけでなく、学習した知識の膨大なリポジトリとともに視覚情報の深い理解を必要とする。
MLM、特に新たに導入されたGPT-4Vの機能を明らかにするために、3つの視点から詳細な評価を行う。
1) モデルが視覚的な手がかりをいかによく理解し、一般的な知識と結びつくかを評価する常識知識
2) 画像から特定の知識を推論するモデルの技能をテストする細かな世界知識は,様々な専門分野においてその熟練度を示す。
3) モデルが推論の論理的説明を提供する能力を検討する意思決定理論を用いた包括的知識は,解釈可能性の観点からより深い分析を促進する。
GPT-4Vは3つ以上のタスクでSOTA性能を達成する。
興味深いことに、私たちはそれを見つけました。
a) gpt-4vは,複合画像を用いた場合の推論及び説明の強化を示す。
b) GPT-4Vは、世界知識を扱う際に深刻な幻覚を生じさせ、この研究の方向性における進歩の必要性を浮き彫りにする。 The emergence of multimodal large models (MLMs) has significantly advanced the field of visual understanding, offering remarkable capabilities in the realm of visual question answering (VQA). Yet, the true challenge lies in the domain of knowledge-intensive VQA tasks, which necessitate not just recognition of visual elements, but also a deep comprehension of the visual information in conjunction with a vast repository of learned knowledge. To uncover such capabilities of MLMs, particularly the newly introduced GPT-4V, we provide an in-depth evaluation from three perspectives: 1) Commonsense Knowledge, which assesses how well models can understand visual cues and connect to general knowledge; 2) Fine-grained World Knowledge, which tests the model's skill in reasoning out specific knowledge from images, showcasing their proficiency across various specialized fields; 3) Comprehensive Knowledge with Decision-making Rationales, which examines model's capability to provide logical explanations for its inference, facilitating a deeper analysis from the interpretability perspective. Extensive experiments indicate that GPT-4V achieves SOTA performance on above three tasks. Interestingly, we find that: a) GPT-4V demonstrates enhanced reasoning and explanation when using composite images as few-shot; b) GPT-4V produces severe hallucinations when dealing with world knowledge, highlighting the future need for advancements in this research direction. | 翻訳日:2023-11-14 13:10:19 公開日:2023-11-13 |
# オーディオからの教師なし音楽オブジェクト発見 Unsupervised Musical Object Discovery from Audio ( http://arxiv.org/abs/2311.07534v1 ) ライセンス: Link先を確認 | Joonsu Gha, Vincent Herrmann, Benjamin Grewe, J\"urgen Schmidhuber, Anand Gopalakrishnan | (参考訳) 一般的なSlotAttentionアーキテクチャのような現在のオブジェクト中心学習モデルは、教師なしの視覚的シーン分解を可能にする。
新たなMusicSlots法は、SlotAttentionをオーディオ領域に適応させ、教師なしの音楽分解を実現する。
視覚における不透明性やオクルージョンの概念には聴覚類似性がないため、視覚オブジェクト中心モデルのデコーダにおけるアルファマスクのソフトマックス正規化は、オーディオオブジェクトの分解には適していない。
MusicSlotsはこの問題を克服する。
西洋の声調音楽における対象中心学習を評価するために,スペクトログラムに基づく多目的音楽データセットを提案する。
musicslotsは教師なしのノート発見で優れたパフォーマンスを達成し、教師なしのノートプロパティ予測タスクで確立されたいくつかのベースラインを上回っています。 Current object-centric learning models such as the popular SlotAttention architecture allow for unsupervised visual scene decomposition. Our novel MusicSlots method adapts SlotAttention to the audio domain, to achieve unsupervised music decomposition. Since concepts of opacity and occlusion in vision have no auditory analogues, the softmax normalization of alpha masks in the decoders of visual object-centric models is not well-suited for decomposing audio objects. MusicSlots overcomes this problem. We introduce a spectrogram-based multi-object music dataset tailored to evaluate object-centric learning on western tonal music. MusicSlots achieves good performance on unsupervised note discovery and outperforms several established baselines on supervised note property prediction tasks. | 翻訳日:2023-11-14 13:09:56 公開日:2023-11-13 |
# 間違いは簡単ではない - 大規模言語モデルにおける排除推論のプロセス評価 It's Not Easy Being Wrong: Evaluating Process of Elimination Reasoning in Large Language Models ( http://arxiv.org/abs/2311.07532v1 ) ライセンス: Link先を確認 | Nishant Balepur, Shramay Palta, Rachel Rudinger | (参考訳) 思考の連鎖(COT)は、大きな言語モデル(LLM)が正しい答えを推論するのに役立つが、誤った答えを推論する効果は未解明である。
このCOTによる除去プロセス(PoE)の戦略は、排除の医学診断のようなタスクにおける解釈可能性を高める可能性がある。
そこで我々は,複数項目の質問に対してLLMが誤った選択肢を判断する新たなタスクであるCOTを用いたPoEを提案する。
GPT-3.5, LLaMA-2, Falconの2種類のコモンセンスおよび科学的推論データセット上でCOTを用いてPoEを行う能力を評価する。
PoEは、正しい答えを直接選択する上で、一貫してパフォーマンスが低いことを示す。
これらの戦略の合意は、それぞれの戦略の自己整合性よりも低い。
これらの課題をさらに研究するため,エラー分析を行い,今後の課題の提案を行う。 Chain-of-thought (COT) prompting can help large language models (LLMs) reason toward correct answers, but its efficacy in reasoning toward incorrect answers is unexplored. This strategy of process of elimination (PoE), when used with COT, has the potential to enhance interpretability in tasks like medical diagnoses of exclusion. Thus, we propose PoE with COT, a new task where LLMs must reason toward incorrect options on multiple-choice questions. We evaluate the ability of GPT-3.5, LLaMA-2, and Falcon to perform PoE with COT on 2-choice commonsense and scientific reasoning datasets. We show that PoE consistently underperforms directly choosing the correct answer. The agreement of these strategies is also lower than the self-consistency of each strategy. To study these issues further, we conduct an error analysis and give suggestions for future work. | 翻訳日:2023-11-14 13:09:43 公開日:2023-11-13 |
# 超低温多原子分子の光学的ツイーザーアレイ An optical tweezer array of ultracold polyatomic molecules ( http://arxiv.org/abs/2311.07529v1 ) ライセンス: Link先を確認 | Nathaniel B. Vilas, Paige Robichaud, Christian Hallas, Grace K. Li, Lo\"ic Anderegg, John M. Doyle | (参考訳) 多原子分子は、量子情報科学、量子シミュレーション、超低温化学、標準模型を超えて物理学を探索する用途に特有の構造的特徴を持っている。
しかし、重要な課題は分子の内部量子状態と運動の自由度の両方を完全に制御することである。
ここでは、内部量子状態を量子制御した個々の多原子分子であるCaOHの光学的ツイーザーアレイの作成を実証する。
CaOHの複雑な量子構造は、分子の振る舞いをツイーザー光波長に非自明に依存させる。
この相互作用を制御し、90%以上の忠実度を持つtweezer配列内の個々の分子を直接、非破壊的に撮像する。
これらの分子は単一の内部量子状態レベルで操作され、トワイザー配列におけるコヒーレント状態制御を示す。
ここで実証されたプラットフォームは、任意の空間配置を持つ個々の多原子分子を用いた様々な実験を可能にする。 Polyatomic molecules have rich structural features that make them uniquely suited to applications in quantum information science, quantum simulation, ultracold chemistry, and searches for physics beyond the Standard Model. However, a key challenge is fully controlling both the internal quantum state and the motional degrees of freedom of the molecules. Here, we demonstrate the creation of an optical tweezer array of individual polyatomic molecules, CaOH, with quantum control of their internal quantum state. The complex quantum structure of CaOH results in a non-trivial dependence of the molecules' behavior on the tweezer light wavelength. We control this interaction and directly and nondestructively image individual molecules in the tweezer array with >90% fidelity. The molecules are manipulated at the single internal quantum state level, thus demonstrating coherent state control in a tweezer array. The platform demonstrated here will enable a variety of experiments using individual polyatomic molecules with arbitrary spatial arrangement. | 翻訳日:2023-11-14 13:09:25 公開日:2023-11-13 |
# ロバスト隠れセミマルコフモデルを用いた運転用マニキュアパターンの自動同定 Automatic Identification of Driving Maneuver Patterns using a Robust Hidden Semi-Markov Models ( http://arxiv.org/abs/2311.07527v1 ) ライセンス: Link先を確認 | Matthew Aguirre, Wenbo Sun, Jionghua (Judy) Jin, Yang Chen | (参考訳) 自然主義的連続運動データの自動クラスタリングによる運転操作パターンのモデル化への関心が高まっている。
学んだパターンは、エコ運転、道路安全、インテリジェントな車両といった輸送研究の分野でよく使われる。
このようなパターンをモデル化できるモデルの一つに階層的ディリクレプロセス隠れ半マルコフモデル(HDP-HSMM)がある。
このモデルは、観測された逐次データを自動的にクラスタリングする強力なツールであるが、既存のHDP-HSMM推定は、状態数を過大評価する固有の傾向に悩まされている。
これは運転パターンの誤った推論を通じて交通研究に影響を与える可能性がある。
本稿では,冗長状態の数を減らし,モデル推定の一貫性を向上させるため,新しいロバストなhdp-hsmm(rhdp-hsmm)法を提案する。
本研究は, 運転動作パターンの同定と推定におけるrHDP-HSMMの有効性を示すために, 自然性駆動データを用いたシミュレーション研究とケーススタディを行った。 There is an increase in interest to model driving maneuver patterns via the automatic unsupervised clustering of naturalistic sequential kinematic driving data. The patterns learned are often used in transportation research areas such as eco-driving, road safety, and intelligent vehicles. One such model capable of modeling these patterns is the Hierarchical Dirichlet Process Hidden Semi-Markov Model (HDP-HSMM), as it is often used to estimate data segmentation, state duration, and transition probabilities. While this model is a powerful tool for automatically clustering observed sequential data, the existing HDP-HSMM estimation suffers from an inherent tendency to overestimate the number of states. This can result in poor estimation, which can potentially impact impact transportation research through incorrect inference of driving patterns. In this paper, a new robust HDP-HSMM (rHDP-HSMM) method is proposed to reduce the number of redundant states and improve the consistency of the model's estimation. Both a simulation study and a case study using naturalistic driving data are presented to demonstrate the effectiveness of the proposed rHDP-HSMM in identifying and inference of driving maneuver patterns. | 翻訳日:2023-11-14 13:09:12 公開日:2023-11-13 |
# ビームラインステアリングのための機械学習 Machine Learning For Beamline Steering ( http://arxiv.org/abs/2311.07519v1 ) ライセンス: Link先を確認 | Isaac Kante | (参考訳) ビームステアリング(ビームステアリング)は、粒子加速器の電子ビームがコリメータの回転軸に対してX線ターゲットに発生する角度と位置の校正を含むプロセスである。
ビームステアリングは光源にとって重要な課題である。
検討中の場合,ビームラインのLINAC To Undulator (LTU) セクションを狙うのは難しい。
加速器の使用には、このセクションの磁石の再校正が必要である。
これは人間の操作者によるかなりの時間と労力を伴うが、光源の科学的なスループットは減少する。
我々は,この課題を支援するために深層ニューラルネットワークの利用について検討する。
ディープラーニングモデルはアーカイブデータに基づいてトレーニングされ、シミュレーションデータで検証される。
ディープラーニングモデルの性能は、訓練された人間のオペレータと対照的である。 Beam steering is the process involving the calibration of the angle and position at which a particle accelerator's electron beam is incident upon the x-ray target with respect to the rotation axis of the collimator. Beam Steering is an essential task for light sources. In the case under study, the LINAC To Undulator (LTU) section of the beamline is difficult to aim. Each use of the accelerator requires re-calibration of the magnets in this section. This involves a substantial amount of time and effort from human operators, while reducing scientific throughput of the light source. We investigate the use of deep neural networks to assist in this task. The deep learning models are trained on archival data and then validated on simulation data. The performance of the deep learning model is contrasted against that of trained human operators. | 翻訳日:2023-11-14 13:08:50 公開日:2023-11-13 |
# FEMDA: 識別分析のための統合フレームワーク FEMDA: a unified framework for discriminant analysis ( http://arxiv.org/abs/2311.07518v1 ) ライセンス: Link先を確認 | Pierre Houdouin, Matthieu Jonckheere, Frederic Pascal | (参考訳) 線形および二次判別分析は古典的手法として広く認知されているが、非ガウス分布や汚染データセットを扱う際には重大な課題に直面することがある。
これは主に、強固さを欠いたガウスの仮定に依存するためである。
まず、この制限に対処するための古典的手法を説明し、レビューし、これらの問題を克服する新しいアプローチを示す。
この新しいアプローチでは、このモデルは任意のスケールパラメータを持つクラスタごとの任意の楕円対称(es)分布であると考えられる。
このフレキシブルモデルは、同一分布に従わない、潜在的に多様で独立したサンプルを可能にする。
新しい決定規則を導出することにより,最大値のパラメータ推定と分類が,最先端手法と比較してシンプルで効率的で堅牢であることを示す。 Although linear and quadratic discriminant analysis are widely recognized classical methods, they can encounter significant challenges when dealing with non-Gaussian distributions or contaminated datasets. This is primarily due to their reliance on the Gaussian assumption, which lacks robustness. We first explain and review the classical methods to address this limitation and then present a novel approach that overcomes these issues. In this new approach, the model considered is an arbitrary Elliptically Symmetrical (ES) distribution per cluster with its own arbitrary scale parameter. This flexible model allows for potentially diverse and independent samples that may not follow identical distributions. By deriving a new decision rule, we demonstrate that maximum-likelihood parameter estimation and classification are simple, efficient, and robust compared to state-of-the-art methods. | 翻訳日:2023-11-14 13:08:40 公開日:2023-11-13 |
# 平面上の(反)探索における量子ナビゲーションの幾何学的モデル Geometric model of quantum navigation during (anti-)search on a plane ( http://arxiv.org/abs/2311.07516v1 ) ライセンス: Link先を確認 | Aiham M. Rostom, Vladimir A. Tomilin, Leonid V. Il'ichov | (参考訳) 無限平面上の2つのエージェントの連立ランダムウォーキングのモデルを考える。
エージェントは相互に古典的な通信手段を持たないが、事前調整されたプロトコルに従って使用される量子絡み合いリソースにアクセスする。
プロトコルの詳細によっては、2つのエージェントの間にアトラクションや反発の効果的な力が現れる。
量子エンタングルメントからのこの力の出現は、それぞれアトラクションや反発のための球面または双曲幾何学の用語で解釈される。 A model of joint random walk of two agents on an infinite plane is considered. The agents possess no means of mutual classical communication, but have access to quantum entanglement resource which is used according to a pre-arranged protocol. Depending on the details of the protocol, an effective force of attraction or repulsion emerges between the two agents. The emergence of this force from quantum entanglement is interpreted in terms of spherical or hyperbolic geometries for attraction or repulsion, respectively. | 翻訳日:2023-11-14 13:08:28 公開日:2023-11-13 |
# VGSG:テキスト検索のための視覚誘導セマンティックグループネットワーク VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search ( http://arxiv.org/abs/2311.07514v1 ) ライセンス: Link先を確認 | Shuting He, Hao Luo, Wei Jiang, Xudong Jiang, Henghui Ding | (参考訳) テキストベースPerson Search(TBPS)は、テキスト記述で示される対象歩行者の画像の検索を目的としている。
TBPSはきめ細かい局所的特徴を抽出し、それらを交差モードに整列させることが不可欠である。
既存の手法では、外部ツールや重いクロスモーダル相互作用を利用して、非効率で時間を要するクロスモーダルな微細な特徴の明確なアライメントを実現する。
本研究では,テキストに基づく人物探索のための視覚ガイド型セマンティック・グループ・ネットワーク(VGSG)を提案する。
提案したVGSGでは,視覚的局所的手がかりの指導のもと,テキストの局所的特徴を抽出するセマンティックグループテキスト学習(SGTL)モジュールと視覚誘導型知識伝達(VGKT)モジュールを開発した。
sgtlでは、局所的なテキスト表現を得るために、言語表現の意味的手がかりに基づいてチャンネル次元からテキスト特徴をグループ化し、類似した意味パターンを外部のツールなしで暗黙的にグループ化する。
vgktでは、視覚誘導の注意が視覚関連テキストの特徴を抽出するために用いられ、視覚誘導のテキスト特徴は本質的に視覚の手がかりと一致し、視覚誘導のテキスト特徴と呼ばれる。
さらに,視覚言語類似性伝達とクラス確率伝達を含むリレーショナル・ナレッジ・トランスファーを設計し,視覚ガイド付きテキスト特徴の情報を意味群テキスト特徴に適応的に伝達する。
リレーショナル・ナレッジ・トランスファーの助けを借りて、vgktは、セマンティクスグループによるテキストの特徴と対応する視覚的特徴を、外部ツールや複雑なペアワイズインタラクションなしで調整することができる。
2つの挑戦的ベンチマークの実験結果は、最先端の手法よりも優れていることを示している。 Text-based Person Search (TBPS) aims to retrieve images of target pedestrian indicated by textual descriptions. It is essential for TBPS to extract fine-grained local features and align them crossing modality. Existing methods utilize external tools or heavy cross-modal interaction to achieve explicit alignment of cross-modal fine-grained features, which is inefficient and time-consuming. In this work, we propose a Vision-Guided Semantic-Group Network (VGSG) for text-based person search to extract well-aligned fine-grained visual and textual features. In the proposed VGSG, we develop a Semantic-Group Textual Learning (SGTL) module and a Vision-guided Knowledge Transfer (VGKT) module to extract textual local features under the guidance of visual local clues. In SGTL, in order to obtain the local textual representation, we group textual features from the channel dimension based on the semantic cues of language expression, which encourages similar semantic patterns to be grouped implicitly without external tools. In VGKT, a vision-guided attention is employed to extract visual-related textual features, which are inherently aligned with visual cues and termed vision-guided textual features. Furthermore, we design a relational knowledge transfer, including a vision-language similarity transfer and a class probability transfer, to adaptively propagate information of the vision-guided textual features to semantic-group textual features. With the help of relational knowledge transfer, VGKT is capable of aligning semantic-group textual features with corresponding visual features without external tools and complex pairwise interaction. Experimental results on two challenging benchmarks demonstrate its superiority over state-of-the-art methods. | 翻訳日:2023-11-14 13:08:21 公開日:2023-11-13 |
# 金融時系列予測のためのAIベースのシステムのためのグッドプラクティスに関する仮説:ドメイン駆動型XAI手法に向けて A Hypothesis on Good Practices for AI-based Systems for Financial Time Series Forecasting: Towards Domain-Driven XAI Methods ( http://arxiv.org/abs/2311.07513v1 ) ライセンス: Link先を確認 | Branka Hadji Misheva and Joerg Osterrieder | (参考訳) マシンラーニングとディープラーニングは、顧客エクスペリエンスの向上、金融サービスの民主化、消費者保護の改善、リスク管理の強化など、金融予測や予測タスクでますます普及している。
しかしながら、これらの複雑なモデルは透明性と解釈可能性に欠けることが多く、金融のような繊細なドメインでの使用は困難である。
これは、人間が容易に理解できるモデルを作成することを目的としたeXplainable Artificial Intelligence(XAI)メソッドの台頭につながった。
LIMEやSHAPといった古典的なXAI手法は、複雑なモデルを説明するために開発された。
これらの手法は大きな貢献をしているが、計算複雑性、固有のモデルバイアス、データサンプリングに対する感度、機能依存を扱う際の課題など、制限もある。
本稿では,データ品質の重要性,オーディエンス固有の手法,データ特性の考慮,説明の安定性を重視し,AIベースの金融システムに説明可能性を展開するための優れた実践について考察する。
これらのプラクティスは、金融業界のユニークな課題や要件に対処し、効果的なXAIツールの開発を導くことを目的としています。 Machine learning and deep learning have become increasingly prevalent in financial prediction and forecasting tasks, offering advantages such as enhanced customer experience, democratising financial services, improving consumer protection, and enhancing risk management. However, these complex models often lack transparency and interpretability, making them challenging to use in sensitive domains like finance. This has led to the rise of eXplainable Artificial Intelligence (XAI) methods aimed at creating models that are easily understood by humans. Classical XAI methods, such as LIME and SHAP, have been developed to provide explanations for complex models. While these methods have made significant contributions, they also have limitations, including computational complexity, inherent model bias, sensitivity to data sampling, and challenges in dealing with feature dependence. In this context, this paper explores good practices for deploying explainability in AI-based systems for finance, emphasising the importance of data quality, audience-specific methods, consideration of data properties, and the stability of explanations. These practices aim to address the unique challenges and requirements of the financial industry and guide the development of effective XAI tools. | 翻訳日:2023-11-14 13:07:48 公開日:2023-11-13 |
# 衛星・地上観測観測における不確実性推定のための機械学習 Machine learning for uncertainty estimation in fusing precipitation observations from satellites and ground-based gauges ( http://arxiv.org/abs/2311.07511v1 ) ライセンス: Link先を確認 | Georgia Papacharalampous, Hristos Tyralis, Nikolaos Doulamis, Anastasios Doulamis | (参考訳) 正確な降水データセットを形成すると同時に、高い空間密度を持つため、衛星やゲージのデータはしばしば文献にマージされる。
しかし、予測モデルにおける不確実性定量化の重要性は広く認識されているが、この方法で得られたデータの不確実性推定はほとんど提供されていない。
さらに、このような見積もりを提供するタスクに機械学習がもたらす利点は、ベンチマーク実験を通じて広く実現され、適切に調査されていない。
本研究では,このトピックに関する最初のベンチマークテストを実施することで,このギャップを埋めることを目的とする。
連続した米国にまたがる15年間の月次データからなる大規模なデータセットにおいて、予測の不確実性定量化に適した6人の学習者を比較した。
これらは、quantile regression (qr)、quantile regression forests (qrf)、generalized random forests (grf)、gradient boosting machines (gbm)、light gradient boosting machines (lightgbm)、quantile regression neural networks (qrnn)である。
比較は、予測確率分布全体の近似を容易にする9段階の予測分位数を発行する学習者の能力を示し、主に分位数と連続的なランク付け確率スキルスコアに基づいていた。
3種類の予測変数(衛星の降水変数、関心点と衛星グリッド点の間の距離、関心点の上昇)が比較に使われ、さらに比較された。
この追加比較は、特徴の重要性に関する説明可能な機械学習の概念に基づいている。
その結果、調査対象の学習者のベストから最悪の順は、LightGBM, QRF, GRF, GBM, QRNN, そしてQRNNだ。 To form precipitation datasets that are accurate and, at the same time, have high spatial densities, data from satellites and gauges are often merged in the literature. However, uncertainty estimates for the data acquired in this manner are scarcely provided, although the importance of uncertainty quantification in predictive modelling is widely recognized. Furthermore, the benefits that machine learning can bring to the task of providing such estimates have not been broadly realized and properly explored through benchmark experiments. The present study aims at filling in this specific gap by conducting the first benchmark tests on the topic. On a large dataset that comprises 15-year-long monthly data spanning across the contiguous United States, we extensively compared six learners that are, by their construction, appropriate for predictive uncertainty quantification. These are the quantile regression (QR), quantile regression forests (QRF), generalized random forests (GRF), gradient boosting machines (GBM), light gradient boosting machines (LightGBM) and quantile regression neural networks (QRNN). The comparison referred to the competence of the learners in issuing predictive quantiles at nine levels that facilitate a good approximation of the entire predictive probability distribution, and was primarily based on the quantile and continuous ranked probability skill scores. Three types of predictor variables (i.e., satellite precipitation variables, distances between a point of interest and satellite grid points, and elevation at a point of interest) were used in the comparison and were additionally compared with each other. This additional comparison was based on the explainable machine learning concept of feature importance. The results suggest that the order from the best to the worst of the learners for the task investigated is the following: LightGBM, QRF, GRF, GBM, QRNN and QR... | 翻訳日:2023-11-14 13:07:30 公開日:2023-11-13 |
# SPHINX:マルチモーダル大言語モデルのためのウェイト,タスク,ビジュアル埋め込みの混合 SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models ( http://arxiv.org/abs/2311.07575v1 ) ライセンス: Link先を確認 | Ziyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao | (参考訳) モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)であるSPHINXを提案する。
第一に、より強力な視覚言語アライメントのために、事前学習中に大きな言語モデル(LLM)を解凍し、実世界と合成データで訓練されたLLM間の重み混合戦略を導入する。
2つのドメインから重みを直接統合することで、混合llmはより堅牢性のある多様なセマンティクスを効率的に取り入れることができる。
そして、多目的機能を実現するために、タスク間の衝突を避けるために、共同視覚指導チューニングとタスク固有の命令設計のための様々なタスクを混合する。
基本的な視覚的質問の回答に加えて,領域レベルの理解,キャプションのグラウンド化,ドキュメントレイアウト検出,人間のポーズ推定といった課題も含み,さまざまなシナリオの相互拡張に寄与する。
さらに,様々なネットワークアーキテクチャ,事前学習パラダイム,情報粒度から包括的視覚埋め込みを抽出し,より堅牢な画像表現を備えた言語モデルを提案する。
提案したジョイントミキシングに基づいて、SPHINXは広範囲のアプリケーションにおいて優れたマルチモーダル理解能力を示す。
さらに,高分解能画像の微細な外観をよりよく捉えるための効率的な戦略を提案する。
異なるスケールと高解像度のサブイメージの混合により、SPHINXは既存の評価ベンチマークで例外的な視覚解析と推論性能が得られる。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
コードはhttps://github.com/Alpha-VLLM/LLaMA2-Accessoryで公開されている。 We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings. First, for stronger vision-language alignment, we unfreeze the large language model (LLM) during pre-training, and introduce a weight mix strategy between LLMs trained by real-world and synthetic data. By directly integrating the weights from two domains, the mixed LLM can efficiently incorporate diverse semantics with favorable robustness. Then, to enable multi-purpose capabilities, we mix a variety of tasks for joint visual instruction tuning, and design task-specific instructions to avoid inter-task conflict. In addition to the basic visual question answering, we include more challenging tasks such as region-level understanding, caption grounding, document layout detection, and human pose estimation, contributing to mutual enhancement over different scenarios. Additionally, we propose to extract comprehensive visual embeddings from various network architectures, pre-training paradigms, and information granularity, providing language models with more robust image representations. Based on our proposed joint mixing, SPHINX exhibits superior multi-modal understanding capabilities on a wide range of applications. On top of this, we further propose an efficient strategy aiming to better capture fine-grained appearances of high-resolution images. With a mixing of different scales and high-resolution sub-images, SPHINX attains exceptional visual parsing and reasoning performance on existing evaluation benchmarks. We hope our work may cast a light on the exploration of joint mixing in future MLLM research. Code is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory. | 翻訳日:2023-11-14 12:59:30 公開日:2023-11-13 |
# GPT-4Vを改良したビジュアルインストラクションチューニングの試行 To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning ( http://arxiv.org/abs/2311.07574v1 ) ライセンス: Link先を確認 | Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang | (参考訳) 既存の視覚インストラクションチューニング手法は、通常、テキスト記述を持つ大きな言語モデルに命令追従データを生成するように促す。
達成される有望な性能にもかかわらず、これらの記述は、しばしば粗い粒度の画像アノテーションに由来する。
さらに、命令は視覚的コンテキスト全体を観察せずに視覚的内容と矛盾することもある。
この課題に対処するために,220Kの視覚的アライメントと,LVISの画像で強力なGPT-4Vをプロンプトすることで生成されたコンテキスト認識命令を含む,きめ細かい視覚的インストラクションデータセットLVIS-Instruct4Vを導入する。
実験的な検証とケーススタディを通じて、高品質なビジュアルインストラクションデータが、最先端の大規模マルチモーダルモデルであるllava-1.5の性能を、広い範囲のベンチマークでクリアマージンで改善できることを実証する。
例えば、LLaVA$^w$ (76.7 vs. 70.7) や MM-Vet (40.2 vs. 35.4) といった最も難しい LMM ベンチマークでは、LLaVA-Instruct を LVIS-Instruct4V に置き換えることで、LLaVA よりも優れた結果が得られる。
我々は、データとモデルをhttps://github.com/X2FD/LVIS-INSTRUCT4Vでリリースします。 Existing visual instruction tuning methods typically prompt large language models with textual descriptions to generate instruction-following data. Despite the promising performance achieved, these descriptions are derived from image annotations, which are oftentimes coarse-grained. Furthermore, the instructions might even contradict the visual content without observing the entire visual context. To address this challenge, we introduce a fine-grained visual instruction dataset, LVIS-Instruct4V, which contains 220K visually aligned and context-aware instructions produced by prompting the powerful GPT-4V with images from LVIS. Through experimental validation and case studies, we demonstrate that high-quality visual instructional data could improve the performance of LLaVA-1.5, a state-of-the-art large multimodal model, across a wide spectrum of benchmarks by clear margins. Notably, by simply replacing the LLaVA-Instruct with our LVIS-Instruct4V, we achieve better results than LLaVA on most challenging LMM benchmarks, e.g., LLaVA$^w$ (76.7 vs. 70.7) and MM-Vet (40.2 vs. 35.4). We release our data and model at https://github.com/X2FD/LVIS-INSTRUCT4V. | 翻訳日:2023-11-14 12:59:02 公開日:2023-11-13 |
# 臨界キタエフ鎖におけるマヨラナ零モードの普遍的シグネチャ Universal signatures of Majorana zero modes in critical Kitaev chains ( http://arxiv.org/abs/2311.07571v1 ) ライセンス: Link先を確認 | Nicolas Laflorencie | (参考訳) 北エフ連鎖の位相的あるいは臨界的な側面はよく知られており、いくつかの古典的な結果がある。
対照的に、強いマヨラナゼロモード(MZM)の臨界挙動の研究は見過ごされている。
ここでは2つのトポロジカルマーカーを導入し、驚くべきことに、(1+1)イジング臨界線全体に対して非自明なシグネチャを示す。
まず、パリティセクター間のMZMマッピングの尺度である${\cal{F}}_{\rm MZM}$-を解析的に計算する。
1+1) のイジング臨界線である ${\cal{f}}_{\rm mzm}=\sqrt{8}/\pi$ に沿って普遍値を取る。
また, 臨界 mzm 占有数 ${{\cal n}}_{\rm mzm}$ について, 基底状態 ({{\cal n}}_{\rm mzm}=1/2-4{\cal{g}}/\pi^2\approx 0.12877$) と最初の励起状態 ({{\cal n}}_{\rm mzm}=1/2+(8-4{\cal{g}})/\pi^2\approx 0.93934$) の両方について, カタランの定数 ${\cal g}\approx 0.91595959$ に依存する正確な解析結果を得る。
さらに、臨界キタエフ連鎖におけるペアリングとホッピングの間の特別な比$\Delta/t=\sqrt{2}-1$に対して、同様に消滅する有限サイズ補正を計算する。 Many topological or critical aspects of the Kitaev chain are well known, with several classic results. In contrast, the study of the critical behavior of the strong Majorana zero modes (MZM) has been overlooked. Here we introduce two topological markers which, surprisingly, exhibit non-trivial signatures over the entire (1+1) Ising critical line. We first analytically compute the MZM fidelity ${\cal{F}}_{\rm MZM}$--a measure of the MZM mapping between parity sectors. It takes a universal value along the (1+1) Ising critical line, ${\cal{F}}_{\rm MZM}=\sqrt{8}/\pi$, independent of the energy. We also obtain an exact analytical result for the critical MZM occupation number ${{\cal N}}_{\rm MZM}$ which depends on the Catalan's constant ${\cal G}\approx 0.91596559$, for both the ground-state (${{\cal N}}_{\rm MZM}=1/2-4{\cal{G}}/\pi^2\approx 0.12877$) and the first excited state (${{\cal N}}_{\rm MZM}=1/2+(8-4{\cal{G}})/\pi^2\approx 0.93934$). We further compute finite-size corrections which identically vanish for the special ratio $\Delta/t=\sqrt{2}-1$ between pairing and hopping in the critical Kitaev chain. | 翻訳日:2023-11-14 12:58:35 公開日:2023-11-13 |
# マージン最大化による特徴出現:代数的タスクにおけるケーススタディ Feature emergence via margin maximization: case studies in algebraic tasks ( http://arxiv.org/abs/2311.07568v1 ) ライセンス: Link先を確認 | Depen Morwani, Benjamin L. Edelman, Costin-Andrei Oncescu, Rosie Zhao, Sham Kakade | (参考訳) ニューラルネットワークによって学習される内部表現を理解することは、機械学習の科学における基礎的な課題である。
ニューラルネットワークが特定のターゲット関数をどのように実装するかを理解するための、いくつかのケースでは、最近の顕著な取り組みがあるが、この記事では、補完的な疑問を探求する。
本研究は,モジュラ付加,スパースパリティ,有限群演算の代数的学習タスクに焦点をあてる。
これらの代数的タスクに対して,ニューラルネットワークが学習した特徴を解析的に特徴付ける。
特に,本手法では,マージン最大化の原則だけでネットワークが学習する機能を完全に特定できることを示す。
具体的には、訓練されたネットワークがフーリエ特徴を用いてモジュラー付加を行い、既約群理論表現に対応する特徴を用いて一般群で合成を行い、ナンダやチュグタイなどの経験的観測と密接に関連していることを証明した。
より一般的には、我々の技術が、ニューラルネットワークが特定の計算戦略を採用する理由をより深く理解するのに役立つことを願っています。 Understanding the internal representations learned by neural networks is a cornerstone challenge in the science of machine learning. While there have been significant recent strides in some cases towards understanding how neural networks implement specific target functions, this paper explores a complementary question -- why do networks arrive at particular computational strategies? Our inquiry focuses on the algebraic learning tasks of modular addition, sparse parities, and finite group operations. Our primary theoretical findings analytically characterize the features learned by stylized neural networks for these algebraic tasks. Notably, our main technique demonstrates how the principle of margin maximization alone can be used to fully specify the features learned by the network. Specifically, we prove that the trained networks utilize Fourier features to perform modular addition and employ features corresponding to irreducible group-theoretic representations to perform compositions in general groups, aligning closely with the empirical observations of Nanda et al. and Chughtai et al. More generally, we hope our techniques can help to foster a deeper understanding of why neural networks adopt specific computational strategies. | 翻訳日:2023-11-14 12:57:58 公開日:2023-11-13 |
# 線形摂動損失最小化による探索 Exploration via linearly perturbed loss minimisation ( http://arxiv.org/abs/2311.07565v1 ) ライセンス: Link先を確認 | David Janz, Shuai Liu, Alex Ayoub, Csaba Szepesv\'ari | (参考訳) 本稿では,線形摂動正規化負対数様関数の最小化を解くことで機能する確率的バンディット問題のランダム化探索法である,線形損失摂動(EVILL)による探索を導入する。
一般化線形バンディットの場合、悪はランダムに摂動した報酬を訓練することで探索を行う方法であるperturbed history exploration(phe)に還元される。
そうすることで、ランダム報酬の摂動が良いバンディットアルゴリズムを生み出す理由と理由を、シンプルで簡潔に説明できます。
従来のPHE法には存在しないデータ依存摂動により,EVILLはトンプソン・サンプリング型パラメータ摂動法の性能を理論的・実際的に一致させることを示した。
さらに、PHEが不整合推定を導き、従って線形後悔をもたらすような一般化された線形包帯の外部の例を示す。
PHEと同様、EVILLはほんの数行のコードで実装できる。 We introduce exploration via linear loss perturbations (EVILL), a randomised exploration method for structured stochastic bandit problems that works by solving for the minimiser of a linearly perturbed regularised negative log-likelihood function. We show that, for the case of generalised linear bandits, EVILL reduces to perturbed history exploration (PHE), a method where exploration is done by training on randomly perturbed rewards. In doing so, we provide a simple and clean explanation of when and why random reward perturbations give rise to good bandit algorithms. With the data-dependent perturbations we propose, not present in previous PHE-type methods, EVILL is shown to match the performance of Thompson-sampling-style parameter-perturbation methods, both in theory and in practice. Moreover, we show an example outside of generalised linear bandits where PHE leads to inconsistent estimates, and thus linear regret, while EVILL remains performant. Like PHE, EVILL can be implemented in just a few lines of code. | 翻訳日:2023-11-14 12:57:37 公開日:2023-11-13 |
# 著者帰属モデルは音声文中の話者を区別できるか? Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? ( http://arxiv.org/abs/2311.07564v1 ) ライセンス: Link先を確認 | Cristina Aggazzotti, Nicholas Andrews, Elizabeth Allyn Smith | (参考訳) 著者検証は、2つの異なる文章サンプルが同じ著者を共有しているかどうかを判断する問題であり、典型的には文章の帰属に関係している。
本稿では,新たな課題を提起する書き起こし音声の属性について考察する。
主な課題は、句読点や資本化といった多くのスタイル的特徴が利用可能あるいは信頼性がないことである。
したがって,文字起こし音声は帰属のより困難な領域である,という優先順位が期待できる。
一方、他のスタイル的特徴、例えば音声不流動は、より成功した帰属を可能にするが、言語に特有であるために、特別な目的のモデルを必要とする。
この設定の課題をよりよく理解するために,音声認識のみに基づく話者帰属に関する最初の体系的研究を行った。
具体的には,会話音声の書き起こしに着目した話者属性のための新しいベンチマークを提案する。
話題を伴う話者の急激な関連性を制御するため,同じ会話に参加する話者の会話プロンプトと話者の双方を用いて,様々な難易度の検証試験を構築する。
我々は、ニューラルベースラインと非ニューラルベースラインのスイートを比較して、この新たなベンチマークにおける技術の現状を確立し、テキスト属性モデルが、特定の設定で驚くほど優れたパフォーマンスを達成するにもかかわらず、最も難しい設定で苦労していることを発見した。 Authorship verification is the problem of determining if two distinct writing samples share the same author and is typically concerned with the attribution of written text. In this paper, we explore the attribution of transcribed speech, which poses novel challenges. The main challenge is that many stylistic features, such as punctuation and capitalization, are not available or reliable. Therefore, we expect a priori that transcribed speech is a more challenging domain for attribution. On the other hand, other stylistic features, such as speech disfluencies, may enable more successful attribution but, being specific to speech, require special purpose models. To better understand the challenges of this setting, we contribute the first systematic study of speaker attribution based solely on transcribed speech. Specifically, we propose a new benchmark for speaker attribution focused on conversational speech transcripts. To control for spurious associations of speakers with topic, we employ both conversation prompts and speakers' participating in the same conversation to construct challenging verification trials of varying difficulties. We establish the state of the art on this new benchmark by comparing a suite of neural and non-neural baselines, finding that although written text attribution models achieve surprisingly good performance in certain settings, they struggle in the hardest settings we consider. | 翻訳日:2023-11-14 12:57:18 公開日:2023-11-13 |
# Hodgkin-Huxleyニューラルダイナミクスの学習制御 Learning Control Policies of Hodgkin-Huxley Neuronal Dynamics ( http://arxiv.org/abs/2311.07563v1 ) ライセンス: Link先を確認 | Malvern Madondo, Deepanshu Verma, Lars Ruthotto, Nicholas Au Yong | (参考訳) 閉ループ深部脳刺激(DBS)に対するニューラルネットワークアプローチを提案する。
我々は、制御問題として最適な神経刺激戦略を見出すという問題を提起した。
この設定では、コントロールポリシーは、患者の継続的な神経活動に基づいて、通常電気刺激によってDBSシステムのパラメータをリアルタイムで調整することで、治療結果の最適化を目的としている。
ニューラルネットワークを用いてオフラインで値関数を近似し,フィードバックフォームを介して制御(刺激)をリアルタイムで生成する。
神経活動は、Hodgkin-Huxleyモデルによって予測される微分方程式の非線形で硬い系によって特徴づけられる。
本実験では,ポントリャーギンの最大原理とハミルトン・ヤコビ・ベルマン方程式の関係を利用して,値関数推定を同時に更新する。
数値実験では,分布外試料に対するアプローチの精度と,システムの中程度の衝撃や外乱に対するロバスト性を示す。 We present a neural network approach for closed-loop deep brain stimulation (DBS). We cast the problem of finding an optimal neurostimulation strategy as a control problem. In this setting, control policies aim to optimize therapeutic outcomes by tailoring the parameters of a DBS system, typically via electrical stimulation, in real time based on the patient's ongoing neuronal activity. We approximate the value function offline using a neural network to enable generating controls (stimuli) in real time via the feedback form. The neuronal activity is characterized by a nonlinear, stiff system of differential equations as dictated by the Hodgkin-Huxley model. Our training process leverages the relationship between Pontryagin's maximum principle and Hamilton-Jacobi-Bellman equations to update the value function estimates simultaneously. Our numerical experiments illustrate the accuracy of our approach for out-of-distribution samples and the robustness to moderate shocks and disturbances in the system. | 翻訳日:2023-11-14 12:56:54 公開日:2023-11-13 |
# ワンダーランドにおけるGPT-4V:ゼロショットスマートフォンGUIナビゲーションのための大規模マルチモーダルモデル GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation ( http://arxiv.org/abs/2311.07562v1 ) ライセンス: Link先を確認 | An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang | (参考訳) スマートフォングラフィカルユーザインタフェース(GUI)ナビゲーションタスクのための GPT-4V ベースのエージェント MM-Navigator を提案する。
MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定する。
以上の結果から,大規模マルチモーダルモデル,特にGPT-4Vは,高度な画面解釈,アクション推論,高精度なアクションローカライゼーション機能を通じてゼロショットGUIナビゲーションに優れていた。
まず、収集したiOS画面データセット上でMM-Navigatorをベンチマークします。
ヒューマンアセスメントによると、システムは、合理的なアクション記述を生成するのに91\%の精度を示し、ios上のシングルステップ命令の正しいアクションを実行するのに75\%の精度を示した。
さらに,android画面ナビゲーションデータセットのサブセット上でモデルを評価した結果,従来のguiナビゲータをゼロショット方式で上回っている。
このベンチマークと詳細な分析は,GUIナビゲーションタスクの今後の研究のための堅牢な基盤を構築することを目的としている。
プロジェクトページはhttps://github.com/zzxslp/mm-navigatorにある。 We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical user interface (GUI) navigation task. MM-Navigator can interact with a smartphone screen as human users, and determine subsequent actions to fulfill given instructions. Our findings demonstrate that large multimodal models (LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its advanced screen interpretation, action reasoning, and precise action localization capabilities. We first benchmark MM-Navigator on our collected iOS screen dataset. According to human assessments, the system exhibited a 91\% accuracy rate in generating reasonable action descriptions and a 75\% accuracy rate in executing the correct actions for single-step instructions on iOS. Additionally, we evaluate the model on a subset of an Android screen navigation dataset, where the model outperforms previous GUI navigators in a zero-shot fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for future research into the GUI navigation task. The project page is at https://github.com/zzxslp/MM-Navigator. | 翻訳日:2023-11-14 12:56:38 公開日:2023-11-13 |
# 回転を伴うテンプレートマッチングのための高速正規化クロスコリレーション Fast Normalized Cross-Correlation for Template Matching with Rotations ( http://arxiv.org/abs/2311.07561v1 ) ライセンス: Link先を確認 | Jos\'e Mar\'ia Almira, Harold Phelippeau, Antonio Martinez-Sanchez | (参考訳) 正規化相互相関は、画像にテンプレートマッチングを実行するための参照アプローチである。
フーリエ空間で計算されると、効率的にテンプレート変換を処理できるが、テンプレート回転では処理できない。
回転を含む場合、回転の空間全体をサンプリングし、毎回相関の計算を繰り返す必要がある。
この記事では、回転と翻訳を効率的に扱うための代替数学的理論を開発する。
本提案は回転の空間を反復的にサンプリングする必要がないため,計算複雑性が減少する。
そのため、テンプレートの全回転バージョンに関する情報を、テンプレート毎に1回だけ計算されるユニークな対称テンソルテンプレートに統合する。
その後、テンソルテンプレートの独立テンソル成分と処理対象画像の相関関係が、テンプレートのインスタンス位置と回転を回復するのに十分な情報を含んでいることを示した。
提案手法は,従来のテンプレートマッチング計算を3次元画像の場合,数桁の精度で高速化する可能性を秘めている。 Normalized cross-correlation is the reference approach to carry out template matching on images. When it is computed in Fourier space, it can handle efficiently template translations but it cannot do so with template rotations. Including rotations requires sampling the whole space of rotations, repeating the computation of the correlation each time. This article develops an alternative mathematical theory to handle efficiently, at the same time, rotations and translations. Our proposal has a reduced computational complexity because it does not require to repeatedly sample the space of rotations. To do so, we integrate the information relative to all rotated versions of the template into a unique symmetric tensor template -which is computed only once per template-. Afterward, we demonstrate that the correlation between the image to be processed with the independent tensor components of the tensorial template contains enough information to recover template instance positions and rotations. Our proposed method has the potential to speed up conventional template matching computations by a factor of several magnitude orders for the case of 3D images. | 翻訳日:2023-11-14 12:56:18 公開日:2023-11-13 |
# 確率モデルに基づくメタ強化学習によるデータ効率の高いタスク一般化 Data-Efficient Task Generalization via Probabilistic Model-based Meta Reinforcement Learning ( http://arxiv.org/abs/2311.07558v1 ) ライセンス: Link先を確認 | Arjun Bhardwaj, Jonas Rothfuss, Bhavya Sukhija, Yarden As, Marco Hutter, Stelian Coros, Andreas Krause | (参考訳) 本稿では,モデルに基づくメタ強化学習(Meta-RL)アルゴリズムであるPACOH-RLを紹介する。
PACOH-RLメタ学習は動的モデルに先行し、最小の相互作用データを持つ新しい力学への迅速な適応を可能にする。
既存のメタrlメソッドは豊富なメタラーニングデータを必要とするため、データ取得にコストがかかるロボティクスなどの設定での適用性が制限される。
これを解決するため、PACOH-RLは、メタラーニングとタスク適応の段階において、正規化と疫学的不確実性の定量化を取り入れている。
新しいダイナミクスに直面するとき、探索とデータ収集を効果的に導くために、これらの不確実性推定を使用する。
全体として、以前のタスクや動的設定からのデータにアクセスしても、ポジティブな転送が可能になる。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応した。
最後に、実車上では、多種多様なデータスカース条件下での効率的なRLポリシー適応の可能性を示す。 We introduce PACOH-RL, a novel model-based Meta-Reinforcement Learning (Meta-RL) algorithm designed to efficiently adapt control policies to changing dynamics. PACOH-RL meta-learns priors for the dynamics model, allowing swift adaptation to new dynamics with minimal interaction data. Existing Meta-RL methods require abundant meta-learning data, limiting their applicability in settings such as robotics, where data is costly to obtain. To address this, PACOH-RL incorporates regularization and epistemic uncertainty quantification in both the meta-learning and task adaptation stages. When facing new dynamics, we use these uncertainty estimates to effectively guide exploration and data collection. Overall, this enables positive transfer, even when access to data from prior tasks or dynamic settings is severely limited. Our experiment results demonstrate that PACOH-RL outperforms model-based RL and model-based Meta-RL baselines in adapting to new dynamic conditions. Finally, on a real robotic car, we showcase the potential for efficient RL policy adaptation in diverse, data-scarce conditions. | 翻訳日:2023-11-14 12:56:04 公開日:2023-11-13 |
# 自然言語記述を用いた自然言語推論における文脈内学習のロバスト性向上 Using Natural Language Explanations to Improve Robustness of In-context Learning for Natural Language Inference ( http://arxiv.org/abs/2311.07556v1 ) ライセンス: Link先を確認 | Xuanli He, Yuxiang Wu, Oana-Maria Camburu, Pasquale Minervini, Pontus Stenetorp | (参考訳) 近年,大規模言語モデル (LLM) が,タスク固有のプロンプトや例によって促進されるインコンテキスト学習 (ICL) を通じて,多様なタスクに優れることが実証されている。
しかし, 既存の文献から, iclは逆入力により性能が低下することが示された。
ICLを自然言語説明法(NLE)で拡張すると性能が向上する(X-ICLと呼ぶ)。
そこで本研究では,7組の自然言語推論データセットにおいて,x-iclがllmのロバスト性を向上させることができるか検討する。
また,人間の生成NLEの少ないLCM(ChatGPT)にさらなるNLEの生成を促すことで,X-ICLに新たなアプローチを導入し,ChatGPTゼロショットと人為的NLEの双方よりも優れていることを示す。
我々は,5つのLLM (GPT3.5-turbo, LLaMa2, Vicuna, Zephyr, Mistral) を評価し,ChatGPTを用いたX-ICLはICLよりも6%以上向上することを示した。
さらに, 早期選択戦略は, 分散テストセットのICLを著しく改善することを示したが, これらの戦略はロバストネス指向評価におけるX-ICLパラダイムの有効性と一致しないことを示した。 Recent studies have demonstrated that large language models (LLMs) excel in diverse tasks through in-context learning (ICL) facilitated by task-specific prompts and examples. However, the existing literature shows that ICL encounters performance deterioration when exposed to adversarial inputs. Enhanced performance has been observed when ICL is augmented with natural language explanations (NLEs) (we refer to it as X-ICL). Thus, this work investigates whether X-ICL can improve the robustness of LLMs on a suite of seven adversarial and challenging natural language inference datasets. Moreover, we introduce a new approach to X-ICL by prompting an LLM (ChatGPT in our case) with few human-generated NLEs to produce further NLEs (we call it ChatGPT few-shot), which we show superior to both ChatGPT zero-shot and human-generated NLEs alone. We evaluate five popular LLMs (GPT3.5-turbo, LLaMa2, Vicuna, Zephyr, Mistral) and show that X-ICL with ChatGPT few-shot yields over 6% improvement over ICL. Furthermore, while prompt selection strategies were previously shown to significantly improve ICL on in-distribution test sets, we show that these strategies do not match the efficacy of the X-ICL paradigm in robustness-oriented evaluations. | 翻訳日:2023-11-14 12:55:44 公開日:2023-11-13 |
# 事前学習されたコードモデルに対する敵意攻撃に関する広範囲研究 An Extensive Study on Adversarial Attack against Pre-trained Models of Code ( http://arxiv.org/abs/2311.07553v1 ) ライセンス: Link先を確認 | Xiaohu Du, Ming Wen, Zichao Wei, Shangwen Wang, Hai Jin | (参考訳) Transformer-based pre-trained code (PTMC)は、多くのミッションクリティカルなアプリケーションで最先端のパフォーマンスを実現している。
しかし、識別子置換やコーディングスタイル変換による敵攻撃に対して脆弱であり、精度を著しく低下させ、さらにセキュリティ上の懸念を生じさせる可能性がある。
PTMCの逆例を生成するためのいくつかの手法が提案されているが、このような手法の有効性と効率性は、特に異なるコードインテリジェンスタスクにおいてよく理解されていない。
このギャップを埋めるために,本研究では,5つの最先端の敵攻撃アプローチを,有効性,効率,生成例の品質という3つの視点から体系的に分析した。
結果は、5つのアプローチのいずれもこれらの観点のバランスが取れていないことを示している。
特に攻撃成功率の高いアプローチは、時間を要する傾向がある。
この制限に対処するために、異なるコンテキスト下で識別子を摂動させることの影響を調べ、forおよびif文内の識別子置換が最も効果的であることを示す。
そこで本研究では,様々なタスクに対して異なる種類の文を優先し,さらにビーム探索を用いて逆例を生成する新しい手法を提案する。
評価結果から, ALERTは, 実例の自然性を保ちながら, 有効性と効率の両面で高い性能を示した。 Transformer-based pre-trained models of code (PTMC) have been widely utilized and have achieved state-of-the-art performance in many mission-critical applications. However, they can be vulnerable to adversarial attacks through identifier substitution or coding style transformation, which can significantly degrade accuracy and may further incur security concerns. Although several approaches have been proposed to generate adversarial examples for PTMC, the effectiveness and efficiency of such approaches, especially on different code intelligence tasks, has not been well understood. To bridge this gap, this study systematically analyzes five state-of-the-art adversarial attack approaches from three perspectives: effectiveness, efficiency, and the quality of generated examples. The results show that none of the five approaches balances all these perspectives. Particularly, approaches with a high attack success rate tend to be time-consuming; the adversarial code they generate often lack naturalness, and vice versa. To address this limitation, we explore the impact of perturbing identifiers under different contexts and find that identifier substitution within for and if statements is the most effective. Based on these findings, we propose a new approach that prioritizes different types of statements for various tasks and further utilizes beam search to generate adversarial examples. Evaluation results show that it outperforms the state-of-the-art ALERT in terms of both effectiveness and efficiency while preserving the naturalness of the generated adversarial examples. | 翻訳日:2023-11-14 12:55:18 公開日:2023-11-13 |
# tabdoor: 表データ用トランスフォーマーベースのニューラルネットワークのバックドア脆弱性 Tabdoor: Backdoor Vulnerabilities in Transformer-based Neural Networks for Tabular Data ( http://arxiv.org/abs/2311.07550v1 ) ライセンス: Link先を確認 | Bart Pleiter, Behrad Tajalli, Stefanos Koffas, Gorka Abad, Jing Xu, Martha Larson, Stjepan Picek | (参考訳) ディープニューラルネットワーク(DNN)は、さまざまな領域において大きな可能性を秘めている。
これらの開発に加えて、バックドアアタックなどのDNNトレーニングに関連する脆弱性も重大な懸念事項である。
これらの攻撃は、モデルトレーニング中にトリガーを微妙に挿入することで、操作された予測を可能にする。
近年,変圧器モデルの台頭により,表型データ用DNNが注目されている。
本研究では,DNNを用いた表層データに対するバックドア攻撃の包括的解析を行い,特にトランスフォーマーネットワークに着目した。
表データの本質的な複雑さを考えると、バックドアを埋め込むという課題を探求する。
ベンチマークデータセット間の系統的な実験を通じて、表データ用のトランスフォーマーベースのdnnが、最小限の機能値の変更でもバックドア攻撃に非常に影響を受けやすいことを明らかにする。
結果は,表データに新たなバックドア攻撃戦略を導入することで,ほぼ完全な攻撃成功率(約100%)を示している。
さらに,これらの攻撃に対する防御を複数評価し,スペクトルシグネチャを最も有効なシグネチャと同定した。
本研究は,このような脆弱性に対処する上での緊急性を強調し,表データのバックドアに対するDNNモデルのセキュリティ対策に関する知見を提供する。 Deep neural networks (DNNs) have shown great promise in various domains. Alongside these developments, vulnerabilities associated with DNN training, such as backdoor attacks, are a significant concern. These attacks involve the subtle insertion of triggers during model training, allowing for manipulated predictions. More recently, DNNs for tabular data have gained increasing attention due to the rise of transformer models. Our research presents a comprehensive analysis of backdoor attacks on tabular data using DNNs, particularly focusing on transformer-based networks. Given the inherent complexities of tabular data, we explore the challenges of embedding backdoors. Through systematic experimentation across benchmark datasets, we uncover that transformer-based DNNs for tabular data are highly susceptible to backdoor attacks, even with minimal feature value alterations. Our results indicate nearly perfect attack success rates (approx100%) by introducing novel backdoor attack strategies to tabular data. Furthermore, we evaluate several defenses against these attacks, identifying Spectral Signatures as the most effective one. Our findings highlight the urgency to address such vulnerabilities and provide insights into potential countermeasures for securing DNN models against backdoors on tabular data. | 翻訳日:2023-11-14 12:54:54 公開日:2023-11-13 |
# グラフニューラルネットワークサロゲートモデルの解釈可能な微調整 Interpretable Fine-Tuning for Graph Neural Network Surrogate Models ( http://arxiv.org/abs/2311.07548v1 ) ライセンス: Link先を確認 | Shivam Barwey and Romit Maulik | (参考訳) 近年、グラフニューラルネットワーク(GNN)の出現により、データベースのサロゲートモデリングは、メッシュベースのデータ表現を直接操作する能力が高まっている。
この研究の目標は、gnnの解釈可能な微調整戦略の導入と、非構造化メッシュベースの流体動力学モデリングへの応用である。
最終結果は、予測タスクに固有の物理空間内の領域を分離し、ベースラインの予測能力を維持しながら、適応的なサブグラフサンプリング戦略により、事前訓練されたベースラインGNNに解釈性を追加する微調整GNNである。
入力の明示的な関数としてフォワードパスで適応的に生成される微調整GNNによって識別される構造は、ベースラインモデルアーキテクチャ、最適化目標、既知の問題固有物理との間のアクセス可能なリンクとして機能する。
さらに、正規化手順を通じて、微調整されたGNNを使用して、予測される予測エラーの大多数に対応するグラフノードを推論時に識別し、ベースラインモデルに新たな解釈可能なエラータグ機能を追加することもできる。
高レイノルズ数での逆向きステップ上の流れから導出される非構造フローデータを用いてデモを行う。 Data-based surrogate modeling has surged in capability in recent years with the emergence of graph neural networks (GNNs), which can operate directly on mesh-based representations of data. The goal of this work is to introduce an interpretable fine-tuning strategy for GNNs, with application to unstructured mesh-based fluid dynamics modeling. The end result is a fine-tuned GNN that adds interpretability to a pre-trained baseline GNN through an adaptive sub-graph sampling strategy that isolates regions in physical space intrinsically linked to the forecasting task, while retaining the predictive capability of the baseline. The structures identified by the fine-tuned GNNs, which are adaptively produced in the forward pass as explicit functions of the input, serve as an accessible link between the baseline model architecture, the optimization goal, and known problem-specific physics. Additionally, through a regularization procedure, the fine-tuned GNNs can also be used to identify, during inference, graph nodes that correspond to a majority of the anticipated forecasting error, adding a novel interpretable error-tagging capability to baseline models. Demonstrations are performed using unstructured flow data sourced from flow over a backward-facing step at high Reynolds numbers. | 翻訳日:2023-11-14 12:54:34 公開日:2023-11-13 |
# ソーシャルメディア分析エンジンとしてのGPT-4V(ision) GPT-4V(ision) as A Social Media Analysis Engine ( http://arxiv.org/abs/2311.07547v1 ) ライセンス: Link先を確認 | Hanjia Lyu, Jinfa Huang, Daoan Zhang, Yongsheng Yu, Xinyi Mou, Jinsheng Pan, Zhengyuan Yang, Zhongyu Wei, Jiebo Luo | (参考訳) 近年,様々な視覚や言語タスクにおけるLMM(Large Multimodal Models)の異常な能力に関する知見が報告されている。
LMMがより専門的なドメインでどのように機能するか、という関心が高まっている。
ソーシャルメディアコンテンツは本質的にマルチモーダルであり、テキスト、画像、ビデオ、時にはオーディオをブレンドする。
ソーシャルマルチメディアコンテンツを理解することは、現代の機械学習フレームワークにとって難しい問題である。
本稿では,GPT-4V(ision)のソーシャルマルチメディア分析能力について検討する。
GPT-4Vを評価するために、感情分析、ヘイトスピーチ検出、フェイクニュース識別、人口統計分析、政治的イデオロギー検出を含む5つの代表的なタスクを選択した。
本研究は,既存のベンチマークデータセットを用いた各タスクの予備的定量的解析から始まり,その結果の精査と,マルチモーダルなソーシャルメディアコンテンツ理解におけるgpt-4vの可能性を示す質的サンプルの選定を行った。
gpt-4vはこれらのタスクにおいて顕著な効果を示し、画像テキストペアの理解、文脈的および文化的認識、広範な常識的知識といった強みを示す。
ソーシャルメディア分野におけるGPT-4Vの全体的な能力にもかかわらず、注目すべき課題は残る。
gpt-4vは多言語社会マルチメディア理解に関わる課題に苦慮しており、ソーシャルメディアの最新トレンドへの一般化に苦慮している。
また、既知の幻覚問題を反映して、著名人や政治家の知識の発展という文脈で誤った情報を生み出す傾向を示す。
この知見は,マルチモーダル情報の分析を通じて,ソーシャルメディアコンテンツとその利用者の理解を深める上で,LMMにとって有望な将来性を示している。 Recent research has offered insights into the extraordinary capabilities of Large Multimodal Models (LMMs) in various general vision and language tasks. There is growing interest in how LMMs perform in more specialized domains. Social media content, inherently multimodal, blends text, images, videos, and sometimes audio. Understanding social multimedia content remains a challenging problem for contemporary machine learning frameworks. In this paper, we explore GPT-4V(ision)'s capabilities for social multimedia analysis. We select five representative tasks, including sentiment analysis, hate speech detection, fake news identification, demographic inference, and political ideology detection, to evaluate GPT-4V. Our investigation begins with a preliminary quantitative analysis for each task using existing benchmark datasets, followed by a careful review of the results and a selection of qualitative samples that illustrate GPT-4V's potential in understanding multimodal social media content. GPT-4V demonstrates remarkable efficacy in these tasks, showcasing strengths such as joint understanding of image-text pairs, contextual and cultural awareness, and extensive commonsense knowledge. Despite the overall impressive capacity of GPT-4V in the social media domain, there remain notable challenges. GPT-4V struggles with tasks involving multilingual social multimedia comprehension and has difficulties in generalizing to the latest trends in social media. Additionally, it exhibits a tendency to generate erroneous information in the context of evolving celebrity and politician knowledge, reflecting the known hallucination problem. The insights gleaned from our findings underscore a promising future for LMMs in enhancing our comprehension of social media content and its users through the analysis of multimodal information. | 翻訳日:2023-11-14 12:54:12 公開日:2023-11-13 |
# 悪魔を召喚し、それを縛る: llm red teaming in the wild の根拠のある理論 Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the Wild ( http://arxiv.org/abs/2311.06237v2 ) ライセンス: Link先を確認 | Nanna Inie, Jonathan Stray, Leon Derczynski | (参考訳) 大規模言語モデル(llm)からの異常出力の意図的な生成に攻撃を加えることは、新しい人間の活動である。
本稿では、このような攻撃を行う方法と理由を詳細に解説する。
フォーマルな定性的な方法論を使用して、幅広いバックグラウンドを持つ数十人の実践者、すべてのコントリビュータにLLMを失敗させようとするこの新しい仕事についてインタビューしました。
私たちは、実践者のモチベーションと目標、それらが展開する戦略と技術、そしてコミュニティが果たす重要な役割を関連づけ、関連付けます。
その結果,大規模言語モデルに対してどのように,なぜ人々が攻撃するかという基礎的な理論が提示された: LLM Red Teaming in the wild。 Engaging in the deliberate generation of abnormal outputs from large language models (LLMs) by attacking them is a novel human activity. This paper presents a thorough exposition of how and why people perform such attacks. Using a formal qualitative methodology, we interviewed dozens of practitioners from a broad range of backgrounds, all contributors to this novel work of attempting to cause LLMs to fail. We relate and connect this activity between its practitioners' motivations and goals; the strategies and techniques they deploy; and the crucial role the community plays. As a result, this paper presents a grounded theory of how and why people attack large language models: LLM red teaming in the wild. | 翻訳日:2023-11-14 11:10:23 公開日:2023-11-13 |
# 精子自動評価フレームワークと精子映像認識に特化したニューラルネットワーク Automated Sperm Assessment Framework and Neural Network Specialized for Sperm Video Recognition ( http://arxiv.org/abs/2311.05927v2 ) ライセンス: Link先を確認 | Takuro Fujii, Hayato Nakagawa, Teppei Takeshima, Yasushi Yumura, Tomoki Hamagami | (参考訳) 不妊は世界的な健康問題であり、多くのカップルが生殖のために医療援助を求めており、その半分は男性によって引き起こされている。
補助生殖技術の成功率は、精子の形態と運動性に基づいて精子を生殖に使用できるかどうかを専門家が判断する精子アセスメントに依存する。
従来、深層学習を用いた精子評価研究では、精子の運動性やその他の精子の形態を考慮できない精子頭部のみを含む画像からなるデータセットを使用していた。
さらに、データセットのラベルは、専門家間の評価結果が一貫性がなく、絶対的な回答がないため、専門家に不十分なサポートを提供する。
そこで我々は,精子の頭部,頸部,尾部を含む精子評価のためのビデオデータセットを構築し,そのラベルにソフトラベルを付与した。
さらに,精子映像認識のための精子評価フレームワークとニューラルネットワークであるrostfineを提案した。
実験の結果、RoSTFineは既存のビデオ認識モデルと比較して精子評価性能を改善し、重要な精子部分(頭と首)に強く焦点を合わせることができた。 Infertility is a global health problem, and an increasing number of couples are seeking medical assistance to achieve reproduction, at least half of which are caused by men. The success rate of assisted reproductive technologies depends on sperm assessment, in which experts determine whether sperm can be used for reproduction based on morphology and motility of sperm. Previous sperm assessment studies with deep learning have used datasets comprising images that include only sperm heads, which cannot consider motility and other morphologies of sperm. Furthermore, the labels of the dataset are one-hot, which provides insufficient support for experts, because assessment results are inconsistent between experts, and they have no absolute answer. Therefore, we constructed the video dataset for sperm assessment whose videos include sperm head as well as neck and tail, and its labels were annotated with soft-label. Furthermore, we proposed the sperm assessment framework and the neural network, RoSTFine, for sperm video recognition. Experimental results showed that RoSTFine could improve the sperm assessment performances compared to existing video recognition models and focus strongly on important sperm parts (i.e., head and neck). | 翻訳日:2023-11-14 11:10:07 公開日:2023-11-13 |
# 室内シーン認識のための物体間識別グラフモデリング Inter-object Discriminative Graph Modeling for Indoor Scene Recognition ( http://arxiv.org/abs/2311.05919v2 ) ライセンス: Link先を確認 | Chuanxin Song, Hanbo Wu, Xin Ma | (参考訳) さまざまなシーンレイアウトや、シーン間のオブジェクトの共存によって、屋内シーン認識は依然として困難な課題となっている。
特徴表現の識別性を高めるために、シーン内でオブジェクト情報を活用することが、このドメインの重要なアプローチとして現れました。
現在、ほとんどのオブジェクトアシストメソッドは別々のブランチを使用してオブジェクト情報を処理する。
しかし、オブジェクト情報の中に隠された識別的知識を扱うために注意を払っているものはほとんどない。
本稿では,シーン特徴表現を強化するために識別対象知識を活用することを提案する。
まず,対象間の判別関係を確率論的視点から捉え,対象間識別プロトタイプ (iodp) へと変換する。
iodpからの豊富な事前知識を考慮し,画素レベルのシーン特徴をノードとして定義し,ノード特徴間の判別関係をエッジとして符号化する識別グラフネットワーク(dgn)を構築した。
dgnは、グラフ畳み込みを通じて対象間の識別知識を画像表現に組み込むことを目指している。
提案するiodpとdgnを用いて,広く使用されているシーンデータセットから最先端の結果を得るとともに,提案手法の有効性を示す。 Variable scene layouts and coexisting objects across scenes make indoor scene recognition still a challenging task. Leveraging object information within scenes to enhance the distinguishability of feature representations has emerged as a key approach in this domain. Currently, most object-assisted methods use a separate branch to process object information, combining object and scene features heuristically. However, few of them pay attention to interpretably handle the hidden discriminative knowledge within object information. In this paper, we propose to leverage discriminative object knowledge to enhance scene feature representations. Initially, we capture the object-scene discriminative relationships from a probabilistic perspective, which are transformed into an Inter-Object Discriminative Prototype (IODP). Given the abundant prior knowledge from IODP, we subsequently construct a Discriminative Graph Network (DGN), in which pixel-level scene features are defined as nodes and the discriminative relationships between node features are encoded as edges. DGN aims to incorporate inter-object discriminative knowledge into the image representation through graph convolution. With the proposed IODP and DGN, we obtain state-of-the-art results on several widely used scene datasets, demonstrating the effectiveness of the proposed approach. | 翻訳日:2023-11-14 11:09:49 公開日:2023-11-13 |
# mirasol3b:時間整合および文脈的モダリティのためのマルチモーダル自己回帰モデル Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities ( http://arxiv.org/abs/2311.05698v2 ) ライセンス: Link先を確認 | AJ Piergiovanni, Isaac Noble, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova | (参考訳) マルチモーダル学習の主な課題の1つは、異質なモダリティ(ビデオ、オーディオ、テキストなど)を組み合わせる必要があることである。
例えば、ビデオとオーディオはテキストよりもずっと高いレートで取得され、概ね時間的に一致します。
それらはしばしばテキストと同期しないが、これはグローバルな文脈、例えばタイトルや記述として現れる。
さらに、ビデオとオーディオの入力は、ビデオの長さが大きくなるにつれて大きくなり、これらのモダリティに専用の計算を必要とするようになり、長距離依存のモデリングが困難になる。
ここでは、マルチモーダルモデリングを分離し、個別に集中した自己回帰モデルに分割し、モダリティの特性に応じて入力を処理する。
我々はmirasol3bと呼ばれるマルチモーダルモデルを提案し、時間同期モダリティ(オーディオとビデオ)の自己回帰成分と、必ずしも時間的に整列するとは限らないが連続的なコンテキストモダリティの自己回帰成分からなる。
ビデオ音声入力の長いシーケンスに対処するため,ビデオと音声のシーケンスを逐次スニペットに分割し,その表現を自動回帰処理する手法を提案する。
そこで本研究では,時間枠内で音声・映像情報を協調的にモデル化するコンビネータ機構を提案する。
Combinerは、生の時空間信号から音声とビデオの特徴を抽出し、その後、スニペットごとにコンパクトだが表現力のある表現を生成するこれらの特徴を融合させる。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
コンパクトな表現を学習し、オーディオビデオの特徴表現のシーケンス長を制御し、それらの依存関係を時間内にモデル化することで、メディア入力の高い計算要求に効果的に対処する。 One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time. | 翻訳日:2023-11-14 11:09:28 公開日:2023-11-13 |
# フェデレーション学習におけるデータ評価と検出 Data Valuation and Detections in Federated Learning ( http://arxiv.org/abs/2311.05304v2 ) ライセンス: Link先を確認 | Wenqian Li, Shuran Fu, Fengrui Zhang, Yan Pang | (参考訳) Federated Learning (FL)は、生データのプライバシーを維持しながら協調的なモデルトレーニングを可能にする。
このフレームワークの課題は、データの公平で効率的な評価であり、クライアントにflタスクに高品質なデータを提供するインセンティブを与えるのに不可欠である。
FL内の多数のデータクライアントを含むシナリオでは、クライアントとデータセットのサブセットだけが特定の学習タスクに関係している場合がよくあります。
本稿では,FLタスクにおける事前学習アルゴリズムを使わずにクライアントのコントリビューションを評価し,関連するデータセットを選択するための新しいプライバシ保護手法を提案する。
本研究では,federated context内のwasserstein距離を利用したfederaryアプローチを提案し,flフレームワークにおけるデータバリュエーションのための新たなソリューションを提案する。
この方法では、Wasserstein Barycenterの透過的なデータバリュエーションと効率的な計算を保証し、検証データセットへの依存性を低減する。
実験実験と理論解析を通じて,このデータ評価手法の可能性をFL研究に期待できる道として示す。 Federated Learning (FL) enables collaborative model training while preserving the privacy of raw data. A challenge in this framework is the fair and efficient valuation of data, which is crucial for incentivizing clients to contribute high-quality data in the FL task. In scenarios involving numerous data clients within FL, it is often the case that only a subset of clients and datasets are pertinent to a specific learning task, while others might have either a negative or negligible impact on the model training process. This paper introduces a novel privacy-preserving method for evaluating client contributions and selecting relevant datasets without a pre-specified training algorithm in an FL task. Our proposed approach FedBary, utilizes Wasserstein distance within the federated context, offering a new solution for data valuation in the FL framework. This method ensures transparent data valuation and efficient computation of the Wasserstein barycenter and reduces the dependence on validation datasets. Through extensive empirical experiments and theoretical analyses, we demonstrate the potential of this data valuation method as a promising avenue for FL research. | 翻訳日:2023-11-14 11:08:37 公開日:2023-11-13 |
# NExT-Chat: チャット、検出、セグメンテーションのためのLMM NExT-Chat: An LMM for Chat, Detection and Segmentation ( http://arxiv.org/abs/2311.04498v3 ) ライセンス: Link先を確認 | Ao Zhang, Wei Ji, Tat-Seng Chua | (参考訳) 大規模言語モデル(LLM)の開発は、多モーダル理解の分野を大幅に進歩させ、大規模多モーダルモデル(LMM)の出現につながった。
視覚的理解のレベルを高めるため、近年の研究では、オブジェクト境界ボックス座標を一連のテキストシーケンス(ピクセル2seq)として表現することで、領域レベルの理解能力を備えたLMMを実装している。
本稿では,Pixel2emb法と呼ばれるオブジェクト位置モデリングのための新しいパラダイムを紹介し,LMMに位置埋め込みを出力させ,異なるデコーダでデコードする。
このパラダイムでは、異なる位置フォーマット(バウンディングボックスやマスクなど)をマルチモーダルな会話で使用できるだけでなく、このような組み込みベースのロケーションモデリングによって、検出やセグメンテーションといったローカライゼーションタスクにおける既存のプラクティスの活用が可能になる。
資源が限られているシナリオでは、我々のピクセル2embは、位置入力と出力タスクの両方において、既存のSOTA(State-of-the-art)アプローチよりも優れた性能を示す。
提案手法を活用することで,NExT-ChatというLMMを訓練し,視覚的接地,領域キャプション,接地推論などの複数のタスクを処理可能であることを示す。 The development of large language models (LLMs) has greatly advanced the field of multimodal understanding, leading to the emergence of large multimodal models (LMMs). In order to enhance the level of visual comprehension, recent studies have equipped LMMs with region-level understanding capabilities by representing object bounding box coordinates as a series of text sequences (pixel2seq). In this paper, we introduce a novel paradigm for object location modeling called pixel2emb method, where we ask the LMM to output the location embeddings and then decoded by different decoders. This paradigm allows for different location formats (such as bounding boxes and masks) to be used in multimodal conversations Furthermore, this kind of embedding based location modeling enables the utilization of existing practices in localization tasks, such as detection and segmentation. In scenarios with limited resources, our pixel2emb demonstrates superior performance compared to existing state-of-the-art (SOTA) approaches in both the location input and output tasks under fair comparison. Leveraging the proposed pixel2emb method, we train an LMM named NExT-Chat and demonstrate its capability of handling multiple tasks like visual grounding, region caption, and grounded reasoning. | 翻訳日:2023-11-14 11:08:20 公開日:2023-11-13 |
# 科学論文の臨場感による要約 Citance-Contextualized Summarization of Scientific Papers ( http://arxiv.org/abs/2311.02408v3 ) ライセンス: Link先を確認 | Shahbaz Syed, Ahmad Dawar Hakimi, Khalid Al-Khatib, Martin Potthast | (参考訳) 科学論文の自動要約への最近のアプローチは、抽象的な形で情報的な要約を生成する。
しかし、要約は論文と引用された参考文献の関係を示すものではない。
本稿では,参照の引用(いわゆる「アクセント」)を含む所定の文に条件付き情報的要約を生成できる新しい文脈的要約手法を提案する。
この要約では引用位置に関連する引用論文の内容について概説する。
そこで,本稿では,論文のクタンスを抽出・モデル化し,引用論文から関連する節を抽出し,各クタンスに合わせた要約要約を生成する。
我々は,540Kのコンピュータ科学論文と4.6Mのアクセントを含む新しいデータセットである$\textbf{Webis-Context-SciSumm-2023}$を用いて,我々のアプローチを評価する。 Current approaches to automatic summarization of scientific papers generate informative summaries in the form of abstracts. However, abstracts are not intended to show the relationship between a paper and the references cited in it. We propose a new contextualized summarization approach that can generate an informative summary conditioned on a given sentence containing the citation of a reference (a so-called "citance"). This summary outlines the content of the cited paper relevant to the citation location. Thus, our approach extracts and models the citances of a paper, retrieves relevant passages from cited papers, and generates abstractive summaries tailored to each citance. We evaluate our approach using $\textbf{Webis-Context-SciSumm-2023}$, a new dataset containing 540K~computer science papers and 4.6M~citances therein. | 翻訳日:2023-11-14 11:07:43 公開日:2023-11-13 |
# オフザシェルフ大言語モデルを用いた自動臨床コーディング Automated clinical coding using off-the-shelf large language models ( http://arxiv.org/abs/2310.06552v3 ) ライセンス: Link先を確認 | Joseph S. Boyle, Antanas Kascenas, Pat Lok, Maria Liakata, Alison Q. O'Neil | (参考訳) 診断用ICD符号を患者病院入院に割り当てる作業は、典型的には熟練した人間のコーダーによって行われる。
自動icdコーディングへの取り組みは、教師付きディープラーニングモデルによって支配されている。
しかし、多くの稀なコードを予測することの難しさは、臨床実践における導入の障壁となっている。
本研究では,既成の事前学習型大言語モデル(llms)を活用し,タスク固有のトレーニングを必要とせず,ゼロショットと少数ショットのコード割り当てに適した実用的なソリューションを開発する。
教師なし事前学習だけでは、ICDオントロジーの正確な知識と専門的な臨床コーディングタスクが保証されないため、タスクを情報抽出として枠づけ、各コード概念の説明を提供し、関連する言及の検索をモデルに依頼する。
効率性のために、すべてのコードを反復するのではなく、ICDオントロジーの階層的な性質を活用して、関連コードを探す。 The task of assigning diagnostic ICD codes to patient hospital admissions is typically performed by expert human coders. Efforts towards automated ICD coding are dominated by supervised deep learning models. However, difficulties in learning to predict the large number of rare codes remain a barrier to adoption in clinical practice. In this work, we leverage off-the-shelf pre-trained generative large language models (LLMs) to develop a practical solution that is suitable for zero-shot and few-shot code assignment, with no need for further task-specific training. Unsupervised pre-training alone does not guarantee precise knowledge of the ICD ontology and specialist clinical coding task, therefore we frame the task as information extraction, providing a description of each coded concept and asking the model to retrieve related mentions. For efficiency, rather than iterating over all codes, we leverage the hierarchical nature of the ICD ontology to sparsely search for relevant codes. | 翻訳日:2023-11-14 11:07:29 公開日:2023-11-13 |
# hoh: 大きなオブジェクト数を持つマーカーレスマルチモーダル人間-オブジェクト-ヒューマンハンドオーバデータセット HOH: Markerless Multimodal Human-Object-Human Handover Dataset with Large Object Count ( http://arxiv.org/abs/2310.00723v4 ) ライセンス: Link先を確認 | Noah Wiederhold, Ava Megyeri, DiMaggio Paris, Sean Banerjee, Natasha Kholgade Banerjee | (参考訳) 本研究では,136個のオブジェクトからなる大規模オブジェクトカウントデータセットであるhoh(human-object-human)ハンドオーバデータセットを提案し,ハンドオーバ研究,ヒューマンロボットハンドオーバ実装,ハンドオーバパラメータ推定におけるai(artificial intelligence)のデータ駆動研究を,人インタラクションの2dおよび3dデータから加速する。
HOHには、多視点RGBと深度データ、スケルトン、融合点雲、グリップタイプとハンドネスラベル、オブジェクト、ディペンダーハンド、レシーバハンド2Dと3Dセグメンテーション、ディペンダーとレシーバの快適性評価、および136個のオブジェクトと20個のディペンダー-レシーバペアからなる2,720個のハンドオーバインタラクションのためのペアリングオブジェクトメタデータとアライメント3Dモデルが含まれる。
また,hohを用いて学習したニューラルネットワークを用いて,把握,方向,軌道予測を行う実験結果を示す。
唯一の完全なマーカーレスハンドオーバキャプチャデータセットとして、HOHは自然な人間と人間のハンドオーバインタラクションを表し、身体追跡に特定の適合を必要とするマーカー付きデータセットによる課題を克服し、高解像度の手追跡を欠いている。
これまでのところ、hohはオブジェクト数、参加者数、役割反転を持つペア数、総相互作用において最大のハンドオーバデータセットである。 We present the HOH (Human-Object-Human) Handover Dataset, a large object count dataset with 136 objects, to accelerate data-driven research on handover studies, human-robot handover implementation, and artificial intelligence (AI) on handover parameter estimation from 2D and 3D data of person interactions. HOH contains multi-view RGB and depth data, skeletons, fused point clouds, grasp type and handedness labels, object, giver hand, and receiver hand 2D and 3D segmentations, giver and receiver comfort ratings, and paired object metadata and aligned 3D models for 2,720 handover interactions spanning 136 objects and 20 giver-receiver pairs-40 with role-reversal-organized from 40 participants. We also show experimental results of neural networks trained using HOH to perform grasp, orientation, and trajectory prediction. As the only fully markerless handover capture dataset, HOH represents natural human-human handover interactions, overcoming challenges with markered datasets that require specific suiting for body tracking, and lack high-resolution hand tracking. To date, HOH is the largest handover dataset in number of objects, participants, pairs with role reversal accounted for, and total interactions captured. | 翻訳日:2023-11-14 11:07:12 公開日:2023-11-13 |