このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240111となっている論文です。

PDF登録状況(公開日: 20240111)

TitleAuthorsAbstract論文公表日・翻訳日
# 公開鍵基盤の失敗:53年間の調査

Failures of public key infrastructure: 53 year survey ( http://arxiv.org/abs/2401.05239v2 )

ライセンス: Link先を確認
Adrian-Tudor Dumitrescu, Johan Pouwelse, (参考訳) 公共鍵基盤は、World Wide Webの拡張以来、重要なインフラシステムに存在したが、今日までその制限は完全には解決されていない。 欧州における政府主導のデジタルアイデンティティの台頭により、PKIがeIDの効率的な枠組みになり得るかを理解し、そのようなクリティカルシステムにおいて他国が遭遇した誤りから学ぶことがこれまで以上に重要である。 この調査は、PKIが提示する問題やリスクに関する文献を分析し、過去数十年の進化の短いタイムラインを確立し、デジタルアイデンティティプロジェクトでどのように実装されたかを研究することを目的としている。

The Public Key Infrastructure existed in critical infrastructure systems since the expansion of the World Wide Web, but to this day its limitations have not been completely solved. With the rise of government-driven digital identity in Europe, it is more important than ever to understand how PKI can be an efficient frame for eID and to learn from mistakes encountered by other countries in such critical systems. This survey aims to analyze the literature on the problems and risks that PKI exhibits, establish a brief timeline of its evolution in the last decades and study how it was implemented in digital identity projects.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-11
# STAKESURE: 強い暗号経済の安全性を持つテイクメカニズムの証明

STAKESURE: Proof of Stake Mechanisms with Strong Cryptoeconomic Safety ( http://arxiv.org/abs/2401.05797v1 )

ライセンス: Link先を確認
Soubhik Deb, Robert Raynor, Sreeram Kannan, (参考訳) 2023年7月15日時点で、PoS(Proof-of-Stake)ブロックチェーン[1]であるEthererumは、チェーン上の総資産(総価値ロック、TVLと呼ばれることが多い)に約4100億USドルを保有しているが、チェーン[2]の根底にあるコンセンサスを確保するために保有するETHの価値はわずか33億USドルである。 予備的な分析では、保有する金額が確保された値よりもはるかに少ない(11倍)ため、Ethereumブロックチェーンは安全ではなく、純粋に暗号経済的な意味で"オーバーレベレッジ"(over-leveraged)"であることを示唆している。 本研究では,Ethereum,あるいはより一般的には,この明らかな不均衡にもかかわらず,任意のPoSブロックチェーンをセキュアにする方法を検討する。 そこで我々は,PoSブロックチェーンの暗号経済的安全性を解析するためのモデルの構築を試みた。これは,破壊コスト,攻撃者が引き起こしたコスト,破壊からの利益,攻撃者が得た利益を別々に分析するものだ。 我々は、倒産による利益の急激な限界と、この上限を著しく下方修正する新たな確認ルールを導出する。 我々は, 安全の攻撃の観点からのみ, 腐敗のコストと腐敗からの利益を評価する。 最後に、既存のブロックチェーンにおける共通情報問題の解決、確実に安全なブリッジングのためのメカニズムの作成、PoSシステムでどれだけの経済的セキュリティが十分かを自動的に調整するための最初の鋭いソリューションを提供する、いくつかの非常に望ましい特性を持つ、PoSシステム内のスラッシュされた資金を割り当てるための新しい「保険」メカニズムであるSTAKESUREを提案する。 最後に、このシステムは、正直なトランスアクターが決してお金を失わないことを保証し、攻撃者が資金の損失に遭うことを保証するだけでなく、害者を十分に補償するカルマのクローズドシステムを構築する、強力な暗号経済安全の概念を満足していることを示す。

As of July 15, 2023, Ethererum, which is a Proof-of-Stake (PoS) blockchain [1] has around 410 Billion USD in total assets on chain (popularly referred to as total-value-locked, TVL) but has only 33 Billion USD worth of ETH staked in securing the underlying consensus of the chain [2]. A preliminary analysis might suggest that as the amount staked is far less (11x less) than the value secured, the Ethereum blockchain is insecure and "over-leveraged" in a purely cryptoeconomic sense. In this work, we investigate how Ethereum, or, more generally, any PoS blockchain can be made secure despite this apparent imbalance. Towards that end, we attempt to formalize a model for analyzing the cryptoeconomic safety of PoS blockchain, which separately analyzes the cost-of-corruption, the cost incurred by an attacker, and the profit-from-corruption, the profit gained by an attacker. We derive sharper bounds on profit-from-corruption, as well as new confirmation rules that significantly decrease this upper-bound. We evaluate cost-of-corruption and profit-from-corruption only from the perspective of attacking safety. Finally, we present a new "insurance" mechanism, STAKESURE, for allocating the slashed funds in a PoS system, that has several highly desirable properties: solving common information problem in existing blockchains, creating a mechanism for provably safe bridging, and providing the first sharp solution for automatically adjusting how much economic security is sufficient in a PoS system. Finally, we show that the system satisfies a notion of strong cryptoeconomic safety, which guarantees that no honest transactor ever loses money, and creates a closed system of Karma, which not only ensures that the attacker suffers a loss of funds but also that the harmed parties are sufficiently compensated.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-11
# ブロックチェーンベースの分散タイムロックマシン - タイムセンシティブ情報の自動検索

Blockchain-based Decentralized Time Lock Machines: Automated Reveal of Time-sensitive Information ( http://arxiv.org/abs/2401.05947v1 )

ライセンス: Link先を確認
Zhuolun Li, Srijoni Majumdar, Evangelos Pournaras, (参考訳) Conditional Information Reveal (CIR) は、時間や場所など、定義された特定の条件を満たす際に、情報のリリースを自動化する。 本稿では,CIR設計におけるセキュリティ課題を強調する新たなパラダイムを導入することにより,CIRの理解と実装を推進し,セキュアなCIRシステムの設計ガイドラインとして,分散型アーキテクチャを提案する。 さらに,時間に敏感なデータ共有の文脈において,提案アーキテクチャと新たな検証可能な秘密共有方式を用いて,実用的なタイムドリリース暗号システムを提案する。 本研究の主な成果は,実践的デプロイメントのためのオープンソースプロトタイプの作成と,提案システムのセキュリティ向上と効率性を強調した総合的なシステム評価である。 さらに,E投票シナリオにおける本システムの適用について検討し,電子投票プロセスの適正な確保と確保を図った。

Conditional Information Reveal (CIR) automates the release of information upon meeting specific pre-defined conditions, such as time or location. This paper advances the understanding and implementation of CIR by introducing a new paradigm to highlight the security challenges in CIR design, and proposes a decentralized architecture as a design guideline for secure CIR systems. Furthermore, in the context of time-sensitive data sharing, this paper proposes a practical timed-release cryptography system employing the proposed architecture and a novel verifiable secret sharing scheme. Key achievements of this study include the creation of an open-source prototype for practical deployment and a comprehensive system evaluation that highlights the enhanced security and efficiency of the proposed system. Furthermore, the paper delves into the application of this system in E-voting scenarios, illustrating its capacity to secure and ensure fair electronic voting processes.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-11
# アプリケーション・レイヤ・ゲートウェイのセキュア化:産業ケーススタディ

Securing an Application Layer Gateway: An Industrial Case Study ( http://arxiv.org/abs/2401.05961v1 )

ライセンス: Link先を確認
Carmine Cesarano, Roberto Natella, (参考訳) アプリケーション・レイヤ・ゲートウェイ(ALG)は、鉄道、産業自動化、防衛アプリケーションを含む重要なシステムを確保する上で重要な役割を担っている。 しかしながら、ネットワークレベルだけでなくアプリケーション層(ディープトラフィックインスペクションコンポーネントなど)でも、ソフトウェアの脆弱性を防止するために厳格なセキュリティテストが必要です。 本稿では,ALGの総合的なセキュリティテストのための脆弱性駆動手法を提案する。 本稿では,鉄道分野における産業事例研究の文脈における方法論と,その方法論を支援するためのシミュレーションベースの試験環境について述べる。

Application Layer Gateways (ALGs) play a crucial role in securing critical systems, including railways, industrial automation, and defense applications, by segmenting networks at different levels of criticality. However, they require rigorous security testing to prevent software vulnerabilities, not only at the network level but also at the application layer (e.g., deep traffic inspection components). This paper presents a vulnerability-driven methodology for the comprehensive security testing of ALGs. We present the methodology in the context of an industrial case study in the railways domain, and a simulation-based testing environment to support the methodology.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-11
# ラベルのないターゲットデータを信頼できるか? -バックドアアタックとモデル適応の防御に向けて-

Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation ( http://arxiv.org/abs/2401.06030v1 )

ライセンス: Link先を確認
Lijun Sheng, Jian Liang, Ran He, Zilei Wang, Tieniu Tan, (参考訳) モデル適応は、生データの代わりに事前訓練されたモデルによる分散シフト問題に取り組み、その優れたプライバシー保護のために一般的なパラダイムとなっている。 既存の方法は、常にクリーンなターゲットドメインへの適応を前提としており、ラベルのないサンプルのセキュリティリスクを見落としている。 本稿では, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性について検討する。 具体的には、2つのバックドアトリガーと、攻撃者が所有する異なる事前知識に対する2つの毒殺戦略を提供する。 これらの攻撃は高い成功率を達成し、テストステージにおけるクリーンなサンプルの正常なパフォーマンスを維持する。 バックドアの埋め込みを防止するため,MixAdaptというプラグイン・アンド・プレイ方式を提案し,既存の適応アルゴリズムと組み合わせた。 一般的なベンチマークと適応手法による実験は、MixAdaptの有効性を示している。 この成果が、ラベルのないデータによる学習の安全性を損なうことを願っている。

Model adaptation tackles the distribution shift problem with a pre-trained model instead of raw data, becoming a popular paradigm due to its great privacy protection. Existing methods always assume adapting to a clean target domain, overlooking the security risks of unlabeled samples. In this paper, we explore the potential backdoor attacks on model adaptation launched by well-designed poisoning target data. Concretely, we provide two backdoor triggers with two poisoning strategies for different prior knowledge owned by attackers. These attacks achieve a high success rate and keep the normal performance on clean samples in the test stage. To defend against backdoor embedding, we propose a plug-and-play method named MixAdapt, combining it with existing adaptation algorithms. Experiments across commonly used benchmarks and adaptation methods demonstrate the effectiveness of MixAdapt. We hope this work will shed light on the safety of learning with unlabeled data.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-11
# プロジェクトの成功基準を最適化するためのファジィ数学的モデル:プロジェクト管理アプリケーション

Fuzzy Mathematical Model For Optimizing Success Criteria Of Projects: A Project Management Application ( http://arxiv.org/abs/2401.06822v1 )

ライセンス: Link先を確認
Mohammad Sammany, Ahmad Steef, Nedaa Agami, T. Medhat, (参考訳) 近年、プロジェクトマネジメントの傘下にあるプロジェクトの成功を計測することは、コスト、時間、品質と密接に関連していることが知られている。 この分野における以前の研究の多くは、それぞれの基準に対して別の数学的モデルを割り当て、それから3つの基準間の最適なトレードオフを得るために数値的手法や探索技術を適用した。 本稿では, 1つのファジィ数学的モデルのみを用いて, 線形多目的最適化によりこの問題に対処した。 3つの基準は、最適トレードオフを見つけるために、1つの非線形メンバシップ関数にマージされた。 最後に,提案手法を数値例を用いて検証し,検証する。

It is well known over the recent years that measuring the success of projects under the umbrella of project management is inextricably linked with the associated cost, time, and quality. Most of the previous researches in the field assigned a separate mathematical model for each criterion, then numerical methods or search techniques were applied to obtain the optimal trade-off between the three criteria. However in this paper, the problem was addressed by linear multi-objective optimization using only one fuzzy mathematical model. The three criteria were merged in a single non-linear membership function to find the optimal trade-off. Finally, the proposed model is tested and validated using numerical examples.
翻訳日:2024-03-25 12:37:32 公開日:2024-01-11
# SAR画像における船舶検出のためのWilcoxonノンパラメトリックCFARスキーム

Wilcoxon Nonparametric CFAR Scheme for Ship Detection in SAR Image ( http://arxiv.org/abs/2402.18579v1 )

ライセンス: Link先を確認
Xiangwei Meng, (参考訳) ガウス分布,ガンマ分布,ワイブル分布,ログ正規分布,G0分布,アルファ安定分布など,様々な統計分布に基づくCFAR検出アルゴリズムは,現在,SAR画像における船舶目標の検出に最も広く利用されている。 しかし、SAR画像の粗い背景は複雑で可変である。 実際の散乱背景が推定された統計分布から逸脱すると、パラメトリックCFAR検出器の性能は低下する。 パラメトリックCFARスキームに加えて、既知のクラッタ分布を仮定することなく、目標検出に対する一定の誤警報率を維持することができる、別のタイプの非パラメトリックCFAR検出器が存在する。 本研究では,SAR画像における船体検出のためのWilcoxonノンパラメトリックCFARスキームを提案し解析し,判定閾値を決定するためにWilcoxonノンパラメトリック検出器の誤警報率の閉形式を示す。 Radarsat-2, ICEYE-X6, Gaofen-3 SAR画像上のいくつかの典型的なパラメトリックCFARスキームと比較して、ウィルコクソン非パラメトリック検出器の異なる検出背景における良好な誤報性能を維持するためのロバスト性を明らかにし、荒面における弱い船の検知性能をある程度改善した。 さらに、ウィルコクソン非パラメトリック検出器は、サイドローブから生じる誤報をある程度抑制でき、検出速度は速い。

The parametric constant false alarm rate (CFAR) detection algorithms which are based on various statistical distributions, such as Gaussian, Gamma, Weibull, log-normal, G0 distribution, alpha-stable distribution, etc, are most widely used to detect the ship targets in SAR image at present. However, the clutter background in SAR images is complicated and variable. When the actual clutter background deviates from the assumed statistical distribution, the performance of the parametric CFAR detector will deteriorate. In addition to the parametric CFAR schemes, there is another class of nonparametric CFAR detectors which can maintain a constant false alarm rate for the target detection without the assumption of a known clutter distribution. In this work, the Wilcoxon nonparametric CFAR scheme for ship detection in SAR image is proposed and analyzed, and a closed form of the false alarm rate for the Wilcoxon nonparametric detector to determine the decision threshold is presented. By comparison with several typical parametric CFAR schemes on Radarsat-2, ICEYE-X6 and Gaofen-3 SAR images, the robustness of the Wilcoxon nonparametric detector to maintain a good false alarm performance in different detection backgrounds is revealed, and its detection performance for the weak ship in rough sea surface is improved to some extent. Moreover, the Wilcoxon nonparametric detector can suppress the false alarms resulting from the sidelobes at some degree and its detection speed is fast.
翻訳日:2024-03-25 08:36:53 公開日:2024-01-11
# テキスト関連画像パッチ選択による視覚・言語事前学習の効率化

Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection ( http://arxiv.org/abs/2403.07883v1 )

ライセンス: Link先を確認
Wei Ye, Chaoya Jiang, Haiyang Xu, Chenhao Ye, Chenliang Li, Ming Yan, Shikun Zhang, Songhang Huang, Fei Huang, (参考訳) Vision Transformers (ViT) は、大規模なVision and Language Pre-training (VLP) モデルで人気が高まっている。 これまでのVLP研究はViTの有効性を示したが、これらの努力は長い視覚的シーケンスによって引き起こされる計算の非効率性に苦慮している。 この課題に対処するために,テキスト関連画像マッチング選択(Text-Relevant Image Patch Selection)の略であるTRIPSという効率的なVLPアプローチを導入する。 TRIPSは、テキスト誘導パッチ選択層を視覚バックボーンに使用することにより、徐々に視覚的シーケンスを減らし、トレーニングと推論の両方を高速化する。 このパッチ選択層は、テキスト依存の視覚的注意を動的に計算し、テキストガイダンスで注意深い画像トークンを識別し、エンドツーエンドで不注意なトークンをフューズすることができる。 重要なことに、TRIPSは余分なパラメータを追加せず、ほとんどのViTベースのVLPモデルに一般化する。 TRIPSを1ストリーム,2ストリーム,生成パラダイムをカバーする3つの代表的なVLPモデルに組み込み,広範に使用されている5つのマルチモーダルベンチマークデータセットに対して広範な実験を行った。 実験の結果, TRIPSは40%の高速化を実現し, 下流タスクの競争力や優れた性能を維持していることがわかった。

Vision Transformers (ViTs) have become increasingly popular in large-scale Vision and Language Pre-training (VLP) models. Although previous VLP research has demonstrated the efficacy of ViTs, these efforts still struggle with computational inefficiencies caused by lengthy visual sequences. To address this challenge, we introduce an efficient VLP approach called TRIPS, which stands for Text-Relevant Image Patch Selection. TRIPS progressively reduces the visual sequence using a text-guided patch-selection layer in the visual backbone, thereby accelerating both training and inference processes. This patch-selection layer dynamically computes text-dependent visual attention, enabling it to identify attentive image tokens with text guidance and fuse inattentive ones in an end-to-end fashion. Importantly, TRIPS does not add any extra parameters and generalizes to most ViT-based VLP models. We incorporate TRIPS into three representative VLP models covering single-stream, dual-stream, and generative paradigms, and conduct extensive experiments on five widely-used multi-modal benchmark datasets. Our experimental results reveal that TRIPS delivers a 40% speedup, while maintaining competitive or superior performance on downstream tasks.
翻訳日:2024-03-25 08:27:08 公開日:2024-01-11
# 不確かさのある物理駆動深層学習モデルに対する逆アテンション損失を用いたディジタルホログラム再構成の強化

Enhancing Digital Hologram Reconstruction Using Reverse-Attention Loss for Untrained Physics-Driven Deep Learning Models with Uncertain Distance ( http://arxiv.org/abs/2403.12056v1 )

ライセンス: Link先を確認
Xiwen Chen, Hao Wang, Zhao Zhang, Zhenmin Li, Huayu Li, Tong Ye, Abolfazl Razi, (参考訳) デジタルホログラフィーのためのトレーニングされていない物理ベースのDeep Learning (DL)法は、注釈付きトレーニングデータセットを必要としないことやホログラム生成の法則を利用して解釈しやすくすることなど、その利点から大きな注目を集めている。 しかし、画像面からの正確な物体距離に敏感であり、$\textit{Autofocusing}$ challenge のふりをしている。 従来のソリューションでは、異なる潜在的な距離のイメージスタックを再構成し、最高の結果を選択するためにフォーカスメトリクスを適用する。 対照的に、最近開発されたDLベースの手法は、再び注釈付きデータを必要とし、一般化性に欠ける教師付きタスクとして扱う。 この問題を解決するために、学習可能な重みを持つ全ての候補に対して、重み付けされた損失の合計である$\textit{reverse-attention loss}$を提案する。 これは、訓練されていないディープラーニングメソッドにおけるAutofocusingの課題に対処するための先駆的なアプローチである。 理論解析と実験の両方が、効率と精度においてその優位性を証明している。 興味深いことに、本手法は、競合する手法(例えば、降下様最適化、非重み付き損失積分、ランダム距離割当)に対する大幅な再構成性能を示し、精度の高い対象距離で達成されたものとほぼ等しくなる。 例えば、PSNRでは1dB未満、SSIMでは0.002B以下である。

Untrained Physics-based Deep Learning (DL) methods for digital holography have gained significant attention due to their benefits, such as not requiring an annotated training dataset, and providing interpretability since utilizing the governing laws of hologram formation. However, they are sensitive to the hard-to-obtain precise object distance from the imaging plane, posing the $\textit{Autofocusing}$ challenge. Conventional solutions involve reconstructing image stacks for different potential distances and applying focus metrics to select the best results, which apparently is computationally inefficient. In contrast, recently developed DL-based methods treat it as a supervised task, which again needs annotated data and lacks generalizability. To address this issue, we propose $\textit{reverse-attention loss}$, a weighted sum of losses for all possible candidates with learnable weights. This is a pioneering approach to addressing the Autofocusing challenge in untrained deep-learning methods. Both theoretical analysis and experiments demonstrate its superiority in efficiency and accuracy. Interestingly, our method presents a significant reconstruction performance over rival methods (i.e. alternating descent-like optimization, non-weighted loss integration, and random distance assignment) and even is almost equal to that achieved with a precisely known object distance. For example, the difference is less than 1dB in PSNR and 0.002 in SSIM for the target sample in our experiment.
翻訳日:2024-03-25 07:46:43 公開日:2024-01-11
# ヨーロッパにおけるQKDテストベッドのリンク

Linking QKD testbeds across Europe ( http://arxiv.org/abs/2311.08038v3 )

ライセンス: Link先を確認
Max Brauer, Rafael J. Vicente, Jaime S. Buruaga, Ruben B. Mendez, Ralf-Peter Braun, Marc Geitz, Piotr Rydlichkowski, Hans H. Brunner, Fred Fung, Momtchil Peev, Antonio Pastor, Diego Lopez, Vicente Martin, Juan P. Brito, (参考訳) 量子鍵分布(QKD)ネットワークの重要性が高まっており、長距離相互接続の最も適切な方法を分析する必要がある。 本稿では,遠隔QKDネットワークを相互接続する4つの方法を提案する。 この方法は、ベルリン、マドリード、ポズナンにあるヨーロッパの3つの異なるQKDテストベッドをリンクするために使用される。 長距離QKDリンクはエミュレートされているだけであるが、将来は遠隔QKDネットワークの安全な相互接続のための青写真として利用することができる。 具体的には、提示されたアプローチは透明な方法で、異なるファイバーと衛星物理メディア、およびキー配信インタフェースの共通標準を組み合わせる。 テストベッド相互接続は、マルチパス技術とQKDとポスト量子暗号(PQC)アルゴリズムの多重ハイブリッド化を利用してセキュリティを向上させるように設計されている。

Quantum-key-distribution (QKD) networks are gaining importance and it has become necessary to analyze the most appropriate methods for their long-distance interconnection. In this paper, four different methods of interconnecting remote QKD networks are proposed. The methods are used to link three different QKD testbeds in Europe, located in Berlin, Madrid, and Poznan. Although long-distance QKD links are only emulated, the used methods can serve as a blueprint for a secure interconnection of distant QKD networks in the future. Specifically, the presented approaches combine, in a transparent way, different fiber and satellite physical media, as well as common standards of key-delivery interfaces. The testbed interconnections are designed to increase the security by utilizing multipath techniques and multiple hybridizations of QKD and post quantum cryptography (PQC) algorithms.
翻訳日:2024-03-18 23:22:19 公開日:2024-01-11
# 資源制約型IoTデバイスにおけるリモート検証可能なソフトウェア統合を目指して

Towards Remotely Verifiable Software Integrity in Resource-Constrained IoT Devices ( http://arxiv.org/abs/2401.04308v2 )

ライセンス: Link先を確認
Ivan De Oliveira Nunes, Sashidhar Jakkamsetti, Norrathep Rattanavipanon, Gene Tsudik, (参考訳) ローエンドIoTデバイスは通常、汎用コンピュータやハイエンドデバイスで利用可能な通常のセキュリティメカニズムを除外する厳格なコスト制約がある。 ローエンドデバイスをセキュアにするために,ソフトウェア状態のリモート検証のために,さまざまな低コストのセキュリティアーキテクチャが提案されている。 これらの証明は表現力の点で異なり、より単純な証明は正しいバイナリの存在を確認する一方、より表現力のある証明は任意のコード実行の検証をサポートする。 この記事では、このアーキテクチャーファミリーの全体的かつ体系的な扱いについて述べます。 また、ソフトウェア完全性証明のタイプ、それぞれのアーキテクチャサポート、関連するコストを(適度かつ定量的に)比較します。 最後に,研究の方向性と課題について概説する。

Lower-end IoT devices typically have strict cost constraints that rule out usual security mechanisms available in general-purpose computers or higher-end devices. To secure low-end devices, various low-cost security architectures have been proposed for remote verification of their software state via integrity proofs. These proofs vary in terms of expressiveness, with simpler ones confirming correct binary presence, while more expressive ones support verification of arbitrary code execution. This article provides a holistic and systematic treatment of this family of architectures. It also compares (qualitatively and quantitatively) the types of software integrity proofs, respective architectural support, and associated costs. Finally, we outline some research directions and emerging challenges.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-11
# 短期ビデオとメンタルヘルス:知識誘導型マルチモーダルニューラルトピックモデル

Short-Form Videos and Mental Health: A Knowledge-Guided Multimodal Neural Topic Model ( http://arxiv.org/abs/2402.10045v1 )

ライセンス: Link先を確認
Jiaheng Xie, Ruicheng Liang, Yidong Chai, Yang Liu(参考訳) 短いビデオはソーシャルメディア全体の形を変えようとしているが、専門家たちは視聴者に対する抑うつ的な影響を非常に心配している。 幅広い影響を避けるため、プラットフォームは視聴者のメンタルヘルスに対するこれらのビデオの影響を予測したいと考えている。 その後、レコメンデーションアルゴリズムの修正や視聴者の判断表示など、介入措置を取ることができる。 それにもかかわらず、適切な予測手法は、うつ病の臨床的に証明された外的および環境的要因を概説する、確立された医学知識と関連性を欠いている。 このような医学的知識を考慮し,NTM(シード型ニューラルトピックモデル)を創発的方法論として活用する。 しかしながら、既存のシードntmは、シングルオリジンのトピック、未知のトピックソース、不明なシード監督、サブオプティカル収束の制限に苦しむ。 これらの課題に対処するため,我々は,短いビデオが視聴者に与える影響を予測するための,知識誘導型マルチモーダルNTMを開発した。 tiktok と douyin データセットを用いた広範な実証分析により,本手法が最先端ベンチマークよりも優れていることが証明された。 また,抑うつ効果に関連のあるビデオから,医療関連トピックを検出する。 我々は,他のビデオ分類問題に対して一般化可能な,新しいビデオ分析手法を提案する。 提案手法は,ビデオの心理的影響をプラットフォームが理解し,レコメンデーションやビデオトピックの開示を調整するのに役立つ。

While short-form videos head to reshape the entire social media landscape, experts are exceedingly worried about their depressive impacts on viewers, as evidenced by medical studies. To prevent widespread consequences, platforms are eager to predict these videos' impact on viewers' mental health. Subsequently, they can take intervention measures, such as revising recommendation algorithms and displaying viewer discretion. Nevertheless, applicable predictive methods lack relevance to well-established medical knowledge, which outlines clinically proven external and environmental factors of depression. To account for such medical knowledge, we resort to an emergent methodological discipline, seeded Neural Topic Models (NTMs). However, existing seeded NTMs suffer from the limitations of single-origin topics, unknown topic sources, unclear seed supervision, and suboptimal convergence. To address those challenges, we develop a novel Knowledge-guided Multimodal NTM to predict a short-form video's depressive impact on viewers. Extensive empirical analyses using TikTok and Douyin datasets prove that our method outperforms state-of-the-art benchmarks. Our method also discovers medically relevant topics from videos that are linked to depressive impact. We contribute to IS with a novel video analytics method that is generalizable to other video classification problems. Practically, our method can help platforms understand videos' mental impacts, thus adjusting recommendations and video topic disclosure.
翻訳日:2024-02-18 12:53:36 公開日:2024-01-11
# サイクリックニューラルネットワーク

Cyclic Neural Network ( http://arxiv.org/abs/2402.03332v1 )

ライセンス: Link先を確認
Liangwei Yang, Hengrui Zhang, Zihe Song, Jiawei Zhang, Weizhi Zhang, Jing Ma, Philip S. Yu(参考訳) 本稿では,人工知能(ANN)設計における基本的疑問に答える: 指向非巡回グラフ(DAG)特性を保証するために,ANNを階層的に逐次構築する必要はない。 ニューロンが複雑でグラフ構造を持つネットワークを形成する生体知能(BI)からインスピレーションを得るため,我々はサイクリックニューラルネットワーク(Cyclic NN)を導入した。 生体神経系のフレキシブルでダイナミックなグラフの性質をエミュレートし、サイクルを含むあらゆるグラフ構造におけるニューロン接続を可能にする。 これは現在のANNのDAG構造よりも適応性が高い。 我々は,この新しい設計パラダイムに基づく最初の詳細なモデルである多層パーセプトロン上のグラフをさらに発展させる。 広範にテストされたデータセットに対する循環nnの利点を実験的に検証し、フォワードフォワード(ff)トレーニングアルゴリズムを用いて現在のbpトレーニング法よりも優れていることを示した。 この研究は、現在のANN設計から大きく離れている全く新しいANN設計パラダイムを示しており、より生物学的に可能なAIシステムに繋がる可能性がある。

This paper answers a fundamental question in artificial neural network (ANN) design: We do not need to build ANNs layer-by-layer sequentially to guarantee the Directed Acyclic Graph (DAG) property. Drawing inspiration from biological intelligence (BI), where neurons form a complex, graph-structured network, we introduce the groundbreaking Cyclic Neural Networks (Cyclic NNs). It emulates the flexible and dynamic graph nature of biological neural systems, allowing neuron connections in any graph-like structure, including cycles. This offers greater adaptability compared to the DAG structure of current ANNs. We further develop the Graph Over Multi-layer Perceptron, which is the first detailed model based on this new design paradigm. Experimental validation of the Cyclic NN's advantages on widely tested datasets in most generalized cases, demonstrating its superiority over current BP training methods through the use of a forward-forward (FF) training algorithm. This research illustrates a totally new ANN design paradigm, which is a significant departure from current ANN designs, potentially leading to more biologically plausible AI systems.
翻訳日:2024-02-11 15:36:56 公開日:2024-01-11
# EEGFormer: 転送可能で解釈可能な大規模EEGファンデーションモデルを目指して

EEGFormer: Towards Transferable and Interpretable Large-Scale EEG Foundation Model ( http://arxiv.org/abs/2401.10278v1 )

ライセンス: Link先を確認
Yuqi Chen, Kan Ren, Kaitao Song, Yansen Wang, Yifan Wang, Dongsheng Li, Lili Qiu(参考訳) 自己教師付き学習は、自然言語処理とコンピュータビジョンの分野において、非常に効果的なアプローチとして現れてきた。 また、脳波検査(EEG)データなどの脳信号にも適用でき、発作検出から波動解析まで幅広い現実世界の医療応用で利用可能なラベルのないデータが豊富に存在する。 既存の作業では、脳波モデリングの自己教師付き学習を主に、豊富なデータのパワーを活用できない単一の下流タスクに対応する個々のデータセットの事前トレーニングに焦点を当てており、一般化の欠如したサブ最適ソリューションを導出することができる。 さらに、これらの手法は、人間が容易に理解できないエンドツーエンドのモデル学習に依存している。 本稿では,大規模複合脳波データに基づく新しい脳波基礎モデル,すなわちEEGFormerを提案する。 事前学習されたモデルは、様々な下流タスクで適応可能な性能を持つ脳波信号の普遍表現を学習するだけでなく、データ内の有用なパターンの解釈可能な結果を提供する。 本モデルの有効性を検証するため,様々な下流タスクにおける性能評価を行い,異なる転送環境下での性能評価を行った。 さらに,学習モデルが伝達可能な異常検出性能を示すことを示し,自己教師付き学習による獲得パターンの解釈可能性を示す。

Self-supervised learning has emerged as a highly effective approach in the fields of natural language processing and computer vision. It is also applicable to brain signals such as electroencephalography (EEG) data, given the abundance of available unlabeled data that exist in a wide spectrum of real-world medical applications ranging from seizure detection to wave analysis. The existing works leveraging self-supervised learning on EEG modeling mainly focus on pretraining upon each individual dataset corresponding to a single downstream task, which cannot leverage the power of abundant data, and they may derive sub-optimal solutions with a lack of generalization. Moreover, these methods rely on end-to-end model learning which is not easy for humans to understand. In this paper, we present a novel EEG foundation model, namely EEGFormer, pretrained on large-scale compound EEG data. The pretrained model cannot only learn universal representations on EEG signals with adaptable performance on various downstream tasks but also provide interpretable outcomes of the useful patterns within the data. To validate the effectiveness of our model, we extensively evaluate it on various downstream tasks and assess the performance under different transfer settings. Furthermore, we demonstrate how the learned model exhibits transferable anomaly detection performance and provides valuable interpretability of the acquired patterns via self-supervised learning.
翻訳日:2024-01-28 16:20:45 公開日:2024-01-11
# 対称性誘起二次元高次例外点

Symmetry-induced higher-order exceptional points in two dimensions ( http://arxiv.org/abs/2401.10913v1 )

ライセンス: Link先を確認
Anton Montag, Flore K. Kunst(参考訳) 位数$n$ (EP$n$s) の例外点は、固有値と固有ベクトルが結合する点として非エルミート系に現れる。 EP2は一般に2次元(2D)に現れるが、高次のEPは高次元のパラメータ空間を必要とする。 本研究では,2次元パラメータ空間における対称性誘起高次epsの出現を完全に評価する。 EP2s以外のEP3s、EP4s、EP5sは2Dで安定化できる。 さらに、これらの高次EPは常に対称性によって決定される分散とペアに現れなければならない。 これらのEPの周りの複雑なスペクトル構造を研究すると、EP3は対称性によってEP2アークと2次元および3次元のオープンフェルミ構造が伴うことが分かる。 同様に、複数の対称性によって生じるEP4sと関連するEP5sは、エキゾチックなEPアークとオープンなフェルミ構造を伴っている。 いずれの場合も、明示的な例を挙げる。 また、これらのEPのトポロジカル電荷についてコメントし、対称性に保護された高次EPとEP2の類似性と相違について論じる。

Exceptional points of order $n$ (EP$n$s) appear in non-Hermitian systems as points where the eigenvalues and eigenvectors coalesce. Whereas EP2s generically appear in two dimensions (2D), higher-order EPs require a higher-dimensional parameter space to emerge. In this work, we provide a complete characterization the appearance of symmetry-induced higher-order EPs in 2D parameter space. We find that besides EP2s only EP3s, EP4s, and EP5s can be stabilized in 2D. Moreover, these higher-order EPs must always appear in pairs with their dispersion determined by the symmetries. Upon studying the complex spectral structure around these EPs, we find that depending on the symmetry, EP3s are accompanied by EP2 arcs, and 2- and 3-level open Fermi structures. Similarly, EP4s and closely related EP5s, which arise due to multiple symmetries, are accompanied by exotic EP arcs and open Fermi structures. For each case, we provide an explicit example. We also comment on the topological charge of these EPs, and discuss similarities and differences between symmetry-protected higher-order EPs and EP2s.
翻訳日:2024-01-28 16:09:15 公開日:2024-01-11
# テキスト分類 : レビュー・経験的・実験的評価

Text Classification: A Review, Empirical, and Experimental Evaluation ( http://arxiv.org/abs/2401.12982v1 )

ライセンス: Link先を確認
Kamal Taha, Paul D. Yoo, Chan Yeun, Aya Taha(参考訳) データの爆発的かつ広範な成長は、膨大なデータから重要な情報を抽出するためにテキスト分類を使用する必要がある。 その結果,古典的テキスト分類法と深層学習的テキスト分類法の両方の研究が急増した。 文献で提案された多くの手法にもかかわらず、包括的で最新の調査の必要性は依然として迫られている。 既存の調査論文では、テキスト分類のアルゴリズムを幅広いクラスに分類しており、無関係なアルゴリズムの誤分類や、同じメトリクスを用いた品質や行動の誤った評価につながる可能性がある。 そこで本研究では,アルゴリズムを階層的に細粒度クラスや特定の手法に分類する手法的分類法を提案する。 分類には方法論のカテゴリ、方法論のテクニック、方法論のサブテクニックが含まれる。 本研究は,本手法をテキスト分類アルゴリズムの分類に利用した最初の調査である。 さらに,本研究では,同一の特定のサブテクニック,同一のテクニック,同一のカテゴリ内の異なるテクニック,およびカテゴリを用いて,異なるアルゴリズムの試験的評価と比較およびランク付けを行う。

The explosive and widespread growth of data necessitates the use of text classification to extract crucial information from vast amounts of data. Consequently, there has been a surge of research in both classical and deep learning text classification methods. Despite the numerous methods proposed in the literature, there is still a pressing need for a comprehensive and up-to-date survey. Existing survey papers categorize algorithms for text classification into broad classes, which can lead to the misclassification of unrelated algorithms and incorrect assessments of their qualities and behaviors using the same metrics. To address these limitations, our paper introduces a novel methodological taxonomy that classifies algorithms hierarchically into fine-grained classes and specific techniques. The taxonomy includes methodology categories, methodology techniques, and methodology sub-techniques. Our study is the first survey to utilize this methodological taxonomy for classifying algorithms for text classification. Furthermore, our study also conducts empirical evaluation and experimental comparisons and rankings of different algorithms that employ the same specific sub-technique, different sub-techniques within the same technique, different techniques within the same category, and categories
翻訳日:2024-01-28 15:44:34 公開日:2024-01-11
# 統合センシング・コミュニケーションシステムにおけるディープラーニングに基づくターゲット・ツー・ユーザアソシエーション

Deep Learning-based Target-To-User Association in Integrated Sensing and Communication Systems ( http://arxiv.org/abs/2401.12801v1 )

ライセンス: Link先を確認
Lorenzo Cazzella, Marouan Mizmizi, Dario Tagliaferri, Damiano Badini, Matteo Matteucci, Umberto Spagnolini(参考訳) 統合センシング・アンド・コミュニケーション(isac)システムでは、レーダーターゲットと通信ユーザ機器(ues)とのマッチングは、プロアクティブハンドオーバやビーム予測といったいくつかの通信タスクに機能する。 本稿では,基地局 (BS) にマルチインプット・マルチプル・アウトプット (MIMO) レーダーを装備するレーダー支援通信システムについて考察する。 一 通信用ビーム空間における車両用レーダー目標と車両用機器(VE)を関連付けること。 (ii)レーダデータから各veに対するビームフォーミングベクトルを予測する。 提案するt2u(target-to-user association)は2段階からなる。 まず、レンジアングル画像から車両レーダターゲットを検出し、それぞれについてビームフォーミングベクトルを推定する。 そして、この推定されたターゲット毎ビームフォーミングベクトルをBSで使用されるものと照合して通信し、T2Uアソシエーションを行う。 you only look once (yolo) モデルを修正し、レンジアングルレーダイメージをシミュレートして訓練することで、共同マルチターゲット検出とビーム推定が得られる。 都会の車両移動シナリオのシミュレーション結果から,提案手法はBSアンテナアレイの大きさに応じて増大する正しい相関の確率を示し,ビーム空間におけるVEの分離性の向上を浮き彫りにした。 さらに,修正したyoloアーキテクチャは,ビーム予測とレーダターゲット検出の両方を効果的に行うことができ,アンテナアレーサイズが異なっていた場合の平均精度も同等であった。

In Integrated Sensing and Communication (ISAC) systems, matching the radar targets with communication user equipments (UEs) is functional to several communication tasks, such as proactive handover and beam prediction. In this paper, we consider a radar-assisted communication system where a base station (BS) is equipped with a multiple-input-multiple-output (MIMO) radar that has a double aim: (i) associate vehicular radar targets to vehicular equipments (VEs) in the communication beamspace and (ii) predict the beamforming vector for each VE from radar data. The proposed target-to-user (T2U) association consists of two stages. First, vehicular radar targets are detected from range-angle images, and, for each, a beamforming vector is estimated. Then, the inferred per-target beamforming vectors are matched with the ones utilized at the BS for communication to perform target-to-user (T2U) association. Joint multi-target detection and beam inference is obtained by modifying the you only look once (YOLO) model, which is trained over simulated range-angle radar images. Simulation results over different urban vehicular mobility scenarios show that the proposed T2U method provides a probability of correct association that increases with the size of the BS antenna array, highlighting the respective increase of the separability of the VEs in the beamspace. Moreover, we show that the modified YOLO architecture can effectively perform both beam prediction and radar target detection, with similar performance in mean average precision on the latter over different antenna array sizes.
翻訳日:2024-01-28 15:43:22 公開日:2024-01-11
# 航空機の予測メンテナンスのためのサロゲートニューラルネットワークの局所安定性

Surrogate Neural Networks Local Stability for Aircraft Predictive Maintenance ( http://arxiv.org/abs/2401.06821v1 )

ライセンス: Link先を確認
M\'elanie Ducoffe, Guillaume Pov\'eda, Audrey Galametz, Ryma Boumazouza, Marion-C\'ecile Martin, Julien Baris, Derk Daverschot and Eugene O'Higgins(参考訳) Surrogate Neural Networks (NN) は現在、計算に要求されるシミュレーション(有限要素など)の代用として日常的に使われている。 製造プロセスや性能評価など、産業アプリケーションにおけるより高速な分析を可能にする。 サロゲートモデルの検証は、異なるシナリオでロバスト性を評価するための重要なステップである。 実験的手法と形式的手法の組み合わせを1つのnn検証パイプラインで検討する。 航空機の予測保守の工業的利用事例でその効率を実証する。 航空機部分の応力を外部負荷から予測するために設計された代用NNの局所安定性を評価する。 我々の貢献は、高次元の入出力空間を持つ代理モデルの完全検証であり、したがって多目的制約を調節することにある。 また、ターゲットプロパティを評価するのに必要なランタイムを大幅に削減するパイプラインの有効性を示す。

Surrogate Neural Networks (NN) now routinely serve as substitutes for computationally demanding simulations (e.g., finite element). They enable faster analyses in industrial applications e.g., manufacturing processes, performance assessment. The verification of surrogate models is a critical step to assess their robustness under different scenarios. We explore the combination of empirical and formal methods in one NN verification pipeline. We showcase its efficiency on an industrial use case of aircraft predictive maintenance. We assess the local stability of surrogate NN designed to predict the stress sustained by an aircraft part from external loads. Our contribution lies in the complete verification of the surrogate models that possess a high-dimensional input and output space, thus accommodating multi-objective constraints. We also demonstrate the pipeline effectiveness in substantially decreasing the runtime needed to assess the targeted property.
翻訳日:2024-01-22 10:17:38 公開日:2024-01-11
# QCQP-Net:制約下での交換可能な最適潮流解を確実に学習する

QCQP-Net: Reliably Learning Feasible Alternating Current Optimal Power Flow Solutions Under Constraints ( http://arxiv.org/abs/2401.06820v1 )

ライセンス: Link先を確認
Sihan Zeng, Youngdae Kim, Yuxuan Ren, Kibaek Kim(参考訳) 電力系統の運用の中心において、交流電流最適電力流(ACOPF)は、ネットワーク全体の負荷条件の下で最も経済的に電力の発生を研究し、高度に構造化された非凸二次計画(QCQP)として定式化することができる。 ACOPF(ADMMや内部点法など)の最適化ベースのソリューションは、従来の手法では大量の計算を必要とするため、負荷要求が頻繁に変化するため、繰り返し解決する必要がなくなる。 一方、負荷入力の少ない計算コストでACOPFソリューションを直接予測する学習ベースの手法は、しばしば実現不可能なソリューションを生成する(すなわち、ACOPFの制約に違反している)。 そこで本研究では,入力負荷を計算効率良く信頼性の高い方法でニューラルネットワークを介してacopfソリューションにマッピングする,acopf学習のための革新フレームワークを提案する。 我々のイノベーションの鍵は、qcqpと新しい損失によって暗黙的に定義される特定の目的の「活性化関数」です。 提案手法は,既存の学習ベースアプローチが失敗する場合に,高い実現率と生成コストが得られることを数値シミュレーションにより示す。

At the heart of power system operations, alternating current optimal power flow (ACOPF) studies the generation of electric power in the most economical way under network-wide load requirement, and can be formulated as a highly structured non-convex quadratically constrained quadratic program (QCQP). Optimization-based solutions to ACOPF (such as ADMM or interior-point method), as the classic approach, require large amount of computation and cannot meet the need to repeatedly solve the problem as load requirement frequently changes. On the other hand, learning-based methods that directly predict the ACOPF solution given the load input incur little computational cost but often generates infeasible solutions (i.e. violate the constraints of ACOPF). In this work, we combine the best of both worlds -- we propose an innovated framework for learning ACOPF, where the input load is mapped to the ACOPF solution through a neural network in a computationally efficient and reliable manner. Key to our innovation is a specific-purpose "activation function" defined implicitly by a QCQP and a novel loss, which enforce constraint satisfaction. We show through numerical simulations that our proposed method achieves superior feasibility rate and generation cost in situations where the existing learning-based approaches fail.
翻訳日:2024-01-22 10:17:27 公開日:2024-01-11
# 一般化不確かさ原理による量子力学の超対称性

Supersymmetry in Quantum Mechanics by Generalized Uncertainty Principle ( http://arxiv.org/abs/2401.06819v1 )

ライセンス: Link先を確認
Meysam Hassandoust(参考訳) 本稿では、量子力学における一般化不確実性原理(gup)、つまり量子力学における一般化超対称性を用いて超対称性を研究する。 GUP から導かれる運動量作用素の一般化形式で超対称性を構築する。 生成と消滅作用素を一般化することにより、超対称性を一般化状態に変換することができる。 本稿では,一般化ハミルトニアンに対するschr\"odinger方程式の解法について述べる。 この困難を克服するため、我々は摂動理論を用いて生成と消滅作用素の関係を確立する。 この方程式を解析的に解き、波動関数とエネルギー準位を利用することにより、新しいポテンシャルに対する波動関数とエネルギー準位の生成と消滅演算子を用いて新しいポテンシャルを生成できる。

In this paper, we study supersymmetry in quantum mechanics using the generalized uncertainty principle (GUP), or in other words, generalized supersymmetry in quantum mechanics. We construct supersymmetry in the generalized form of the momentum operator, which is derived from GUP. By generalizing the creation and annihilation operators, we can transform the supersymmetry into a generalized state. In the following, we address the challenge of solving the Schr\"odinger equation for the generalized Hamiltonian. To overcome this difficulty, we employ perturbation theory to establish a relationship between the creation and annihilation operators. By solving this equation analytically and utilizing wave functions and energy levels, we can generate new potentials using the creation and annihilation operators of the wave functions and energy levels for the newer potentials.
翻訳日:2024-01-22 10:17:03 公開日:2024-01-11
# 自然言語処理技術を用いた気候変動の地域的影響分析

Analyzing Regional Impacts of Climate Change using Natural Language Processing Techniques ( http://arxiv.org/abs/2401.06817v1 )

ライセンス: Link先を確認
Tanwi Mallick, John Murphy, Joshua David Bergerson, Duane R. Verner, John K Hutchison, Leslie-Anne Levy(参考訳) 多様な地域にわたる気候変動の多面的影響を理解することは、時間的適応と効果的な緩和戦略の開発に不可欠である。 この話題に関する科学文献の量は指数関数的に増加し続けており、これらの文書を手作業でレビューすることは非常に難しい課題となっている。 この豊富な情報を分析するために自然言語処理(NLP)技術を利用することは、効率的でスケーラブルなソリューションを提供する。 大量の査読論文や研究を収集することで、特定の地域における気候変動の影響に関する重要な情報を抽出し、処理することができる。 我々は名前付きエンティティ認識(ner)にbert(bidirectional encoder representations from transformers)を採用し、気候文献内の特定の地形を効率的に識別できる。 これにより、位置特異的な分析が容易になる。 地域固有の気候傾向分析を行い、特定の領域内での気候変動に関連する主要なテーマや関心点を特定し、これらの課題の時間的進行を辿り、その頻度、重大度、潜在的発展を経時的に評価する。 これらの地域固有の気候データの詳細な調査は、よりカスタマイズされた政策作成、適応、緩和戦略の作成を可能にし、各地域の固有の課題に対処し、データ駆動の洞察に根ざしたより効果的なソリューションを提供する。 このアプローチは、科学的テキストの徹底的な調査に基づいて構築され、政策立案者からエンジニア、環境保護主義者に至るまで、幅広い利害関係者に実用的な洞察を提供する。 これらの影響を積極的に理解することで、社会は準備し、賢明に資源を割り当て、将来の気候に対処するための調整された戦略を設計し、より回復力のある未来を確実にすることができる。

Understanding the multifaceted effects of climate change across diverse geographic locations is crucial for timely adaptation and the development of effective mitigation strategies. As the volume of scientific literature on this topic continues to grow exponentially, manually reviewing these documents has become an immensely challenging task. Utilizing Natural Language Processing (NLP) techniques to analyze this wealth of information presents an efficient and scalable solution. By gathering extensive amounts of peer-reviewed articles and studies, we can extract and process critical information about the effects of climate change in specific regions. We employ BERT (Bidirectional Encoder Representations from Transformers) for Named Entity Recognition (NER), which enables us to efficiently identify specific geographies within the climate literature. This, in turn, facilitates location-specific analyses. We conduct region-specific climate trend analyses to pinpoint the predominant themes or concerns related to climate change within a particular area, trace the temporal progression of these identified issues, and evaluate their frequency, severity, and potential development over time. These in-depth examinations of location-specific climate data enable the creation of more customized policy-making, adaptation, and mitigation strategies, addressing each region's unique challenges and providing more effective solutions rooted in data-driven insights. This approach, founded on a thorough exploration of scientific texts, offers actionable insights to a wide range of stakeholders, from policymakers to engineers to environmentalists. By proactively understanding these impacts, societies are better positioned to prepare, allocate resources wisely, and design tailored strategies to cope with future climate conditions, ensuring a more resilient future for all.
翻訳日:2024-01-22 10:16:50 公開日:2024-01-11
# ChatGPTがなくなったとき:Creative Revertsと均質性は持続する

When ChatGPT is gone: Creativity reverts and homogeneity persists ( http://arxiv.org/abs/2401.06816v1 )

ライセンス: Link先を確認
Qinghan Liu, Yiyong Zhou, Jihao Huang, Guiquan Li(参考訳) ChatGPTは創造的なタスクにおける人間のパフォーマンスを高めることが証明されている。 しかし、この促進効果がChatGPTと無関係に持続するかどうかはまだ不明である。 予備登録7日間の実験実験と30日間の実験終了後の追跡調査において, 61人の大学生による, 3302の創造的アイデアと427の創造的ソリューションのテキストデータセットを用いて, ChatGPTの存在と欠如が持続的創造性に及ぼす影響を検討した。 治療グループの参加者はChatGPTを創造的なタスクに使用し、コントロールグループの参加者は自分でタスクを完了した。 その結果,ChatGPTの促進効果は5日間の創造的旅で一貫して観察されたが,ChatGPTが7日目と30日目にダウンしたとき,人間の創造的パフォーマンスはベースラインに戻された。 より重要なことは、ChatGPTを創造的なタスクに使用することで、同質化のコンテンツが増加し、ChatGPTが欠如していても同質化効果は持続した。 これらの発見は、ChatGPTが人間の創造性を高めるという一般的な議論に挑戦している。 事実、ChatGPTのような生成AIは、創造的なパフォーマンスを一時的に向上させるが、長期的には人間の創造的能力を制限し、創造的な取り組みにおける慎重な生成AI統合の必須点を浮き彫りにしている。

ChatGPT has been evidenced to enhance human performance in creative tasks. Yet, it is still unclear if this boosting effect sustains with and without ChatGPT. In a pre-registered seven-day lab experiment and a follow-up survey after 30 days of experiment completion, we examined the impacts of ChatGPT presence and absence on sustained creativity using a text dataset of 3302 creative ideas and 427 creative solutions from 61 college students. Participants in the treatment group used ChatGPT in creative tasks, while those in the control group completed the tasks by themselves. The findings show that although the boosting effect of ChatGPT was consistently observed over a five-day creative journey, human creative performance reverted to baseline when ChatGPT was down on the 7th and the 30th day. More critically, the use of ChatGPT in creative tasks resulted in increasingly homogenized contents, and this homogenization effect persisted even when ChatGPT was absence. These findings pose a challenge to the prevailing argument that ChatGPT can enhance human creativity. In fact, generative AI like ChatGPT lends to human with a temporary rise in creative performance but boxes human creative capability in the long run, highlighting the imperative for cautious generative AI integration in creative endeavors.
翻訳日:2024-01-22 10:16:20 公開日:2024-01-11
# unirqr:インターネットベースの知識対話システムにおける検索決定・クエリ・応答生成のための統一モデル

UniRQR: A Unified Model for Retrieval Decision, Query, and Response Generation in Internet-Based Knowledge Dialogue Systems ( http://arxiv.org/abs/2401.06811v1 )

ライセンス: Link先を確認
Zhongtian Hu, Yangqi Chen, Meng Zhao, Ronghan Li, Lifang Wang(参考訳) インターネット検索による知識ベース対話システムは近年,研究者の注目を集めている。 対話システムは、知識のタイムラインを保証できない従来の知識対話システムの大きな制限を克服し、より実用的な応用価値を提供する。 インターネット検索を伴う知識に基づく対話システムは、検索決定、クエリ生成、応答生成の3つのタスクに分類できる。 しかし、多くの研究は、全ての会話が外部知識の継続を必要とし、いつ検索が必要かを決定する重要なステップを無視していると仮定した。 この仮定は、必要とされない場合であっても、外部の知識に過度に依存することが多い。 我々の研究は、プロンプトおよびマルチタスク学習アプローチによって促進される単一の統一モデルを用いることで、この監視に対処する。 このモデルは,検索が必要かどうかを判断するだけでなく,検索クエリや応答を生成する。 これらの機能を統合することで、事前訓練されたモデルの潜在能力をフル活用し、複数のモデルのデプロイに伴う複雑さとコストを削減する。 システムにおける3つのタスク間の相互強化を検討するために,広範な実験を行った。 さらに、WizintとDusincのデータセットの実験結果は、統一されたモデルが個々のタスクのベースラインのパフォーマンスを上回っているだけでなく、タスクごとに個別のモデルをデプロイするSOTAシステムと対照的に、同等の結果が得られることを示している。

Knowledge-based dialogue systems with internet retrieval have recently attracted considerable attention from researchers. The dialogue systems overcome a major limitation of traditional knowledge dialogue systems, where the timeliness of knowledge cannot be assured, hence providing greater practical application value. Knowledge-based dialogue systems with internet retrieval can be typically segmented into three tasks: Retrieval Decision, Query Generation, and Response Generation. However, many of studies assumed that all conversations require external knowledge to continue, neglecting the critical step of determining when retrieval is necessary. This assumption often leads to an over-dependence on external knowledge, even when it may not be required. Our work addresses this oversight by employing a single unified model facilitated by prompt and multi-task learning approaches. This model not only decides whether retrieval is necessary but also generates retrieval queries and responses. By integrating these functions, our system leverages the full potential of pre-trained models and reduces the complexity and costs associated with deploying multiple models. We conducted extensive experiments to investigate the mutual enhancement among the three tasks in our system. What is more, the experiment results on the Wizint and Dusinc datasets not only demonstrate that our unified model surpasses the baseline performance for individual tasks, but also reveal that it achieves comparable results when contrasted with SOTA systems that deploy separate, specialized models for each task.
翻訳日:2024-01-22 10:15:54 公開日:2024-01-11
# TONE:感情分析のための3階層オントロジー

TONE: A 3-Tiered ONtology for Emotion analysis ( http://arxiv.org/abs/2401.06810v1 )

ライセンス: Link先を確認
Srishti Gupta, Piyush Kumar Garg, Sourav Kumar Dandapat(参考訳) 感情は心理学、医学、メンタルヘルス、コンピュータサイエンスなど、多くの分野において重要な役割を担い、それらを分類することは、感情を別々に分離するのに非常に有用であることが証明されている。 1) 教師付きメソッドの効率は、収集したデータのサイズとドメインに大きく依存する。 あるドメインの関連データを使って確立された分類は、別のドメインではうまく機能しないかもしれない。 2) ドメインの専門知識あるいは感情型に関する知識ベースを利用する教師なしの手法がすでに存在する。 この2つ目のアプローチは、感情を適切に分類し、コスト効率が良いが、どんな感情分類関連のタスクにも直接適用できる、公に利用可能な知識ベースを持っていない。 これにより、ドメイン間の感情分類に使用できる知識ベースが作成され、オントロジーがこの目的によく使用されるようになります。 本研究では,gerrod parrot博士の感情群に基づく感情階層を効果的に構築する,感情に基づくオントロジーであるトーンを提供する。 オントロジーの発達に加えて,階層の各階層における感情の用語の詳細なコレクションを生成するための半自動語彙構築プロセスを導入する。 また、異なる感情間のリンクを開発するために、3種類の依存関係を確立する自動化手法についても示す。 人間と自動評価の結果は オントロジーの品質を示しています さらに、オントロジーの適用性を示す3つの異なるユースケースについて述べる。

Emotions have played an important part in many sectors, including psychology, medicine, mental health, computer science, and so on, and categorizing them has proven extremely useful in separating one emotion from another. Emotions can be classified using the following two methods: (1) The supervised method's efficiency is strongly dependent on the size and domain of the data collected. A categorization established using relevant data from one domain may not work well in another. (2) An unsupervised method that uses either domain expertise or a knowledge base of emotion types already exists. Though this second approach provides a suitable and generic categorization of emotions and is cost-effective, the literature doesn't possess a publicly available knowledge base that can be directly applied to any emotion categorization-related task. This pushes us to create a knowledge base that can be used for emotion classification across domains, and ontology is often used for this purpose. In this study, we provide TONE, an emotion-based ontology that effectively creates an emotional hierarchy based on Dr. Gerrod Parrot's group of emotions. In addition to ontology development, we introduce a semi-automated vocabulary construction process to generate a detailed collection of terms for emotions at each tier of the hierarchy. We also demonstrate automated methods for establishing three sorts of dependencies in order to develop linkages between different emotions. Our human and automatic evaluation results show the ontology's quality. Furthermore, we describe three distinct use cases that demonstrate the applicability of our ontology.
翻訳日:2024-01-22 10:15:29 公開日:2024-01-11
# 単一セルオミックにおける解釈可能な深層学習

Interpretable deep learning in single-cell omics ( http://arxiv.org/abs/2401.06823v1 )

ライセンス: Link先を確認
Manoj M Wagle, Siqu Long, Carissa Chen, Chunlei Liu, Pengyi Yang(参考訳) 近年の単細胞オミクス技術の発展により、個々の細胞の分子プロファイルを非並列分解能で定量化できるようになった。 機械学習の急速に発展するサブフィールドであるdeep learningは、異種高次元のシングルセルオミックデータを解析することに成功したため、シングルセルオミック研究に多大な関心を寄せている。 それにもかかわらず、ディープラーニングモデルの固有の多層非線形アーキテクチャは、予測の背後にある理由が不明であり、ユーザには透明ではないため、しばしば'ブラックボックス'となる。 これにより、深層学習モデルの解釈可能性の欠如、特に分子レギュレータの同定と理解がモデル予測の解釈と下流実験検証の指示に不可欠であるシングルセルオミクスデータ解析に対する研究が活発化している。 本研究では,単一セルオミクス技術の基本と解釈可能なディープラーニングの概念を紹介する。 続いて、様々なシングルセルオミック研究に適用される最近の解釈可能なディープラーニングモデルについてレビューする。 最後に、現在の制限を強調し、今後の方向性について論じる。 本レビューは,単細胞・機械学習研究コミュニティを統合して,単細胞オミクス研究における解釈可能な深層学習の今後の発展と応用を促進することを期待する。

Recent developments in single-cell omics technologies have enabled the quantification of molecular profiles in individual cells at an unparalleled resolution. Deep learning, a rapidly evolving sub-field of machine learning, has instilled a significant interest in single-cell omics research due to its remarkable success in analysing heterogeneous high-dimensional single-cell omics data. Nevertheless, the inherent multi-layer nonlinear architecture of deep learning models often makes them `black boxes' as the reasoning behind predictions is often unknown and not transparent to the user. This has stimulated an increasing body of research for addressing the lack of interpretability in deep learning models, especially in single-cell omics data analyses, where the identification and understanding of molecular regulators are crucial for interpreting model predictions and directing downstream experimental validations. In this work, we introduce the basics of single-cell omics technologies and the concept of interpretable deep learning. This is followed by a review of the recent interpretable deep learning models applied to various single-cell omics research. Lastly, we highlight the current limitations and discuss potential future directions. We anticipate this review to bring together the single-cell and machine learning research communities to foster future development and application of interpretable deep learning in single-cell omics research.
翻訳日:2024-01-22 10:01:13 公開日:2024-01-11
# 脳腫瘍放射線ゲノム分類

Brain Tumor Radiogenomic Classification ( http://arxiv.org/abs/2401.09471v1 )

ライセンス: Link先を確認
Amr Mohamed, Mahmoud Rabea, Aya Sameh, Ehab Kamal(参考訳) T1w, T1wCE, T1wCE, T2w, FLAIRの2値分類により, グリオ芽腫におけるMGMTバイオマーカーの診断を目的としたRSNA-MICCAI脳腫瘍放射線ゲノム分類の試みを行った。 データセットはトレーニングセット、トレーニング中に使用された検証セット、最終評価時にのみ使用されるテストの3つの主要なコホートに分割される。 画像はDICOMフォーマットかPngフォーマットであった。 Vision Transformer (ViT3D) の3Dバージョン、ResNet50、Xception、EfficientNet-B3など、様々なアーキテクチャがこの問題を調査した。 AUCを主評価基準として使用し、テストセットでそれぞれ0.6015と0.61745を達成したViT3DとXceptionモデルの両方に利点を示した。 他の結果と比較すると, 作業の複雑さを考えると, 結果は有効であることが判明した。 さまざまな戦略、異なるアーキテクチャ、より多様なデータセットを探索することで、さらなる改善が可能になる。

The RSNA-MICCAI brain tumor radiogenomic classification challenge aimed to predict MGMT biomarker status in glioblastoma through binary classification on Multi parameter mpMRI scans: T1w, T1wCE, T2w and FLAIR. The dataset is splitted into three main cohorts: training set, validation set which were used during training, and the testing were only used during final evaluation. Images were either in a DICOM format or in Png format. different architectures were used to investigate the problem including the 3D version of Vision Transformer (ViT3D), ResNet50, Xception and EfficientNet-B3. AUC was used as the main evaluation metric and the results showed an advantage for both the ViT3D and the Xception models achieving 0.6015 and 0.61745 respectively on the testing set. compared to other results, our results proved to be valid given the complexity of the task. further improvements can be made through exploring different strategies, different architectures and more diverse datasets.
翻訳日:2024-01-22 09:15:03 公開日:2024-01-11
# デバイス非依存量子鍵分布の展望

Prospects for device-independent quantum key distribution ( http://arxiv.org/abs/2111.11769v2 )

ライセンス: Link先を確認
Ernest Y.-Z. Tan(参考訳) デバイス独立量子鍵分布(DIQKD)は、ベルの不等式違反のセキュリティを基盤として、最小限の仮定でセキュアな鍵分布を実現することを目的としている。 これは強力なセキュリティ保証を提供するが、実験的に実装することが難しいコストが伴う。 そこで本論文では,diqkdのキーレートとノイズ耐性を改善するための手法として,雑音前処理,ランダム鍵測定,有利蒸留などのセキュリティ証明を提案する。 また,これらの手法を組み合わせることで,いくつかのプロトコルに対する有限サイズのセキュリティ証明を示す。 これらの結果と証明技術は、DIQKDプロトコルのさらなる開発に有用である。

Device-independent quantum key distribution (DIQKD) aims to achieve secure key distribution with only minimal assumptions, by basing its security on the violation of Bell inequalities. While this offers strong security guarantees, it comes at the cost of being challenging to implement experimentally. In this thesis, we present security proofs for several techniques that help to improve the keyrates and noise tolerance of DIQKD, such as noisy preprocessing, random key measurements, and advantage distillation. We also show finite-size security proofs for some protocols based on combining several of these techniques. These results and proof techniques should be useful for further development of DIQKD protocols.
翻訳日:2024-01-16 00:37:55 公開日:2024-01-11
# アルゴリズム量子アニールによる多様な準最適解のサンプリング

Sampling diverse near-optimal solutions via algorithmic quantum annealing ( http://arxiv.org/abs/2110.10560v3 )

ライセンス: Link先を確認
Masoud Mohseni, Marek M. Rams, Sergei V. Isakov, Daniel Eppens, Susanne Pielawa, Johan Strumpfer, Sergio Boixo, Hartmut Neven(参考訳) ハード最適化問題に対する様々な高品質なソリューションをサンプリングすることは、人工知能や運用研究のような多くの科学分野や応用において、非常に実用的な意味を持つ。 主要なオープンな問題の1つは、モンテカルロ法に基づく典型的な確率的解法に対するエルゴディディティの欠如またはモード崩壊であり、不確実性に対する一般化や堅牢性の欠如につながる。 現在、様々な解法においてそのような性能欠陥を定量化する普遍的な計量は存在しない。 本稿ではNP-hard最適化問題に対する独立近似解の数を定量化する新しい多様性尺度を提案する。 中でもTTD(Time-to-diversity)は,よく使用されるTTS(Time-to-solution)の一般化である。 種々の量子アニーリング戦略のサンプリングパワーを比較することで、この指標を説明する。 特に,不均質な量子アニーリングスケジュールは,時空分離された臨界前線を制御することによって位相的欠陥の発生を再分配し抑制することができ,ttsとttdの両方について標準量子アニーリングスケジュールよりも稀な解を求めることができることを示した。 1600 量子ビットまでのパス積分モンテカルロシミュレーションを用いて、量子ゆらぎの非平衡駆動は、効率的な近似テンソルネットワーク収縮によって導かれるが、局所場を持つランダムなフラストレーション2次元スピングラスのハードインスタンスの分数を大幅に削減できることを示した。 具体的には、アルゴリズムによる量子相転移のクラスを作成することにより、解の多様性を最大40%向上させ、サンプルインスタンスの分画を25%以上減少させることができる。

Sampling a diverse set of high-quality solutions for hard optimization problems is of great practical relevance in many scientific disciplines and applications, such as artificial intelligence and operations research. One of the main open problems is the lack of ergodicity, or mode collapse, for typical stochastic solvers based on Monte Carlo techniques leading to poor generalization or lack of robustness to uncertainties. Currently, there is no universal metric to quantify such performance deficiencies across various solvers. Here, we introduce a new diversity measure for quantifying the number of independent approximate solutions for NP-hard optimization problems. Among others, it allows benchmarking solver performance by a required time-to-diversity (TTD), a generalization of often used time-to-solution (TTS). We illustrate this metric by comparing the sampling power of various quantum annealing strategies. In particular, we show that the inhomogeneous quantum annealing schedules can redistribute and suppress the emergence of topological defects by controlling space-time separated critical fronts, leading to an advantage over standard quantum annealing schedules with respect to both TTS and TTD for finding rare solutions. Using path-integral Monte Carlo simulations for up to 1600 qubits, we demonstrate that nonequilibrium driving of quantum fluctuations, guided by efficient approximate tensor network contractions, can significantly reduce the fraction of hard instances for random frustrated 2D spin-glasses with local fields. Specifically, we observe that by creating a class of algorithmic quantum phase transitions, the diversity of solutions can be enhanced by up to 40% with the fraction of hard-to-sample instances reducing by more than 25%.
翻訳日:2024-01-16 00:37:45 公開日:2024-01-11
# S行列系における擬似一元量子回路のユニタリ化

Unitarization of Pseudo-Unitary Quantum Circuits in the S-matrix Framework ( http://arxiv.org/abs/2302.04681v2 )

ライセンス: Link先を確認
Dennis Lima, Saif Al-Kuwari(参考訳) 擬単項回路は、S-行列理論とNo-Go定理の解析の両方で繰り返されている。 本稿では、S-行列をT-行列に、従ってユニタリ群を擬ユニタリ群に写像する演算に対する行列および図式表現を提案する。 我々はこの操作を `partial inversion'' と呼び、その図式表現を置換の観点で示す。 我々は、部分反転後の物理的制約を保持する変形したメトリクスと変形したドット積の表現を見つける。 その後、行列反転における無限大を含む式を単純化する特別な集合を定義する。 最後に,t行列に対する再正規化成長アルゴリズムを提案する。 本研究の成果は、3次元の完全な図式表現を持つ擬ユニタリ回路とpseudo-ユニタリ回路の族を構築するために必要な方法論的ツールボックスを拡大し、ユニタリのno-go定理の擬ユニタリフレキシブル化や大きな散乱格子の正規化回路を活用できる。

Pseudo-unitary circuits are recurring in both S-matrix theory and analysis of No-Go theorems. We propose a matrix and diagrammatic representation for the operation that maps S-matrices to T-matrices and, consequently, a unitary group to a pseudo-unitary one. We call this operation ``partial inversion'' and show its diagrammatic representation in terms of permutations. We find the expressions for the deformed metrics and deformed dot products that preserve physical constraints after partial inversion. Subsequently, we define a special set that allows for the simplification of expressions containing infinities in matrix inversion. Finally, we propose a renormalized-growth algorithm for the T-matrix as a possible application. The outcomes of our study expand the methodological toolbox needed to build a family of pseudo-unitary and inter-pseudo-unitary circuits with full diagrammatic representation in three dimensions, so that they can be used to exploit pseudo-unitary flexibilization of unitary No-Go Theorems and renormalized circuits of large scattering lattices.
翻訳日:2024-01-16 00:31:36 公開日:2024-01-11
# SPT状態と量子セルオートマトン構築のための非局所有限深度回路

Non-local finite-depth circuits for constructing SPT states and quantum cellular automata ( http://arxiv.org/abs/2212.06844v4 )

ライセンス: Link先を確認
David T. Stephen, Arpit Dua, Ali Lavasani, Rahul Nandkishore(参考訳) 与えられた対象状態が単純な積状態から始めて有限深さ量子回路で振る舞うことによって作成できるかどうかは、凝縮物物理学や量子情報科学において重要な問題である。 トポロジカルな位相の分類とトポロジカルな量子コードの理解を基礎としており、デバイス実装に明らかな関連性を持っている。 伝統的に、この問題は量子回路が幾何学的に局所的なユニタリゲートからなると仮定する。 ノイズの多い中間スケールの量子デバイスが出現したことに触発されて、我々はこの問題をk$ローカルゲート、すなわち1k$以上の自由度で作用するが幾何学的に局所的ではないゲートで再検討する。 まず、初期積状態から対称性保護位相状態(SPT)を生成する対称$k$-ローカルゲートの明示的な有限深度回路を構築する。 我々の構成は、大域対称性とサブシステム対称性によって保護されるSPT状態の両方に適用されるが、高形式対称性を持つものには適用されない。 次に、任意の次元に任意の変換不変な量子セルオートマトン(qca)を$k$局所ゲートの有限深さ回路を用いて実装する方法を示す。 これらの結果は、SPT相とQCAのトポロジカルな分類はどちらも、$k$-局所相互作用の存在下で単一の自明な位相に崩壊することを示している。 さらに、SPT相は一般的な$k$-局所対称摂動に脆弱であると主張する。 フラクトン相などの他の相への含意を議論し、今後の方向性を調査することで結論付ける。 本研究は, 位相の安定性と状態生成の可能性について, 幾何学的局所性の仮定を伴わずに検討する。

Whether a given target state can be prepared by starting with a simple product state and acting with a finite-depth quantum circuit is a key question in condensed matter physics and quantum information science. It underpins classifications of topological phases, as well as the understanding of topological quantum codes, and has obvious relevance for device implementations. Traditionally, this question assumes that the quantum circuit is made up of unitary gates that are geometrically local. Inspired by the advent of noisy intermediate-scale quantum devices, we reconsider this question with $k$-local gates, i.e. gates that act on no more than $k$ degrees of freedom, but are not restricted to be geometrically local. First, we construct explicit finite-depth circuits of symmetric $k$-local gates which create symmetry-protected topological (SPT) states from an initial a product state. Our construction applies both to SPT states protected by global symmetries and subsystem symmetries, but not to those with higher-form symmetries, which we conjecture remain nontrivial. Next, we show how to implement arbitrary translationally invariant quantum cellular automata (QCA) in any dimension using finite-depth circuits of $k$-local gates. These results imply that the topological classifications of SPT phases and QCA both collapse to a single trivial phase in the presence of $k$-local interactions. We furthermore argue that SPT phases are fragile to generic $k$-local symmetric perturbations. We conclude by discussing the implications for other phases, such as fracton phases, and surveying future directions. Our analysis opens a new experimentally motivated conceptual direction examining the stability of phases and the feasibility of state preparation without the assumption of geometric locality.
翻訳日:2024-01-16 00:30:10 公開日:2024-01-11
# 制約付きホーン節の多重クエリ充足性

Multiple Query Satisfiability of Constrained Horn Clauses ( http://arxiv.org/abs/2211.15207v2 )

ライセンス: Link先を確認
Emanuele De Angelis (1), Fabio Fioravanti (2), Alberto Pettorossi (3), Maurizio Proietti (1) ((1) IASI-CNR, Rome, Italy, (2) DEc, University 'G. d'Annunzio', Chieti-Pescara, Italy, (3) DICII, University of Rome 'Tor Vergata', Italy)(参考訳) 我々は複数のクエリを含む制約付きホーン節(chcs)のセットの充足可能性をチェックする問題に対処する。 本稿では、一連のクエリを含む一連のCHCを入力として、変換されたCHCが元のクエリである場合にのみ満足できるように新しいCHCを出力する変換手法を提案し、変換されたCHCは、他のクエリから来る新しいクエリに適した情報に組み込んで、CHCが全てのクエリ間の関係を活用できるようにする。 提案手法は,リストやツリーなどの代数データ型を操作するプログラムの検証問題の多くを符号化するchcの非自明なベンチマークに有効であることを示す。

We address the problem of checking the satisfiability of a set of constrained Horn clauses (CHCs) possibly including more than one query. We propose a transformation technique that takes as input a set of CHCs, including a set of queries, and returns as output a new set of CHCs, such that the transformed CHCs are satisfiable if and only if so are the original ones, and the transformed CHCs incorporate in each new query suitable information coming from the other ones so that the CHC satisfiability algorithm is able to exploit the relationships among all queries. We show that our proposed technique is effective on a non trivial benchmark of sets of CHCs that encode many verification problems for programs manipulating algebraic data types such as lists and trees.
翻訳日:2024-01-16 00:29:20 公開日:2024-01-11
# 万能拡散:1つの拡散モデルにおけるテキスト、画像、バリエーション

Versatile Diffusion: Text, Images and Variations All in One Diffusion Model ( http://arxiv.org/abs/2211.08332v4 )

ライセンス: Link先を確認
Xingqian Xu, Zhangyang Wang, Eric Zhang, Kai Wang, Humphrey Shi(参考訳) 近年の拡散モデルの発展は多くの世代で目覚ましいマイルストーンとなり、DALL-E2、Imagen、Stable Diffusionといったトレンド作品が注目されている。 急速なランドスケープの変化にもかかわらず、最近の新しいアプローチはキャパシティではなく拡張とパフォーマンスに焦点を当てている。 本研究では,既存の単一フロー拡散パイプラインを多タスクマルチモーダルネットワークに拡張し,汎用拡散 (vd) と呼ばれる,複数のテキスト・画像・画像・テキスト間の流れを1つの統一モデルで処理する。 VDのパイプライン設計は、画像やテキストを超えたクロスモーダルな一般化を可能にする、共有および交換可能なレイヤモジュールからなる、統一されたマルチフロー拡散フレームワークをインスタンス化する。 広範な実験を通して、VDは以下のことを達成できたことを実証する。 a)vdは,ベースラインアプローチを上回り,その基本タスクを競争品質で処理する。 b)VDは,スタイル及びセマンティクスの切り離し,二重・複数コンテキストのブレンディング等の新規な拡張を可能にする。 ; c)画像とテキストに対するマルチフローマルチモーダルフレームワークの成功は、さらなる拡散に基づくユニバーサルAI研究を刺激する可能性がある。 私たちのコードとモデルは、https://github.com/shi-labs/versatile-diffusionでオープンソースです。

Recent advances in diffusion models have set an impressive milestone in many generation tasks, and trending works such as DALL-E2, Imagen, and Stable Diffusion have attracted great interest. Despite the rapid landscape changes, recent new approaches focus on extensions and performance rather than capacity, thus requiring separate models for separate tasks. In this work, we expand the existing single-flow diffusion pipeline into a multi-task multimodal network, dubbed Versatile Diffusion (VD), that handles multiple flows of text-to-image, image-to-text, and variations in one unified model. The pipeline design of VD instantiates a unified multi-flow diffusion framework, consisting of sharable and swappable layer modules that enable the crossmodal generality beyond images and text. Through extensive experiments, we demonstrate that VD successfully achieves the following: a) VD outperforms the baseline approaches and handles all its base tasks with competitive quality; b) VD enables novel extensions such as disentanglement of style and semantics, dual- and multi-context blending, etc.; c) The success of our multi-flow multimodal framework over images and text may inspire further diffusion-based universal AI research. Our code and models are open-sourced at https://github.com/SHI-Labs/Versatile-Diffusion.
翻訳日:2024-01-16 00:29:05 公開日:2024-01-11
# 物理的不可逆過程における「消去」のエントロピーコスト

Entropy Cost of "Erasure" in Physically Irreversible Processes ( http://arxiv.org/abs/2307.02643v5 )

ライセンス: Link先を確認
R. E. Kastner, Andreas Schlatter(参考訳) ランダウアーの原理の制限形式は、計算的な考察とは無関係に、共役可観測物に関連した合同エントロピーを参照して、熱システムに対して成り立つ。 非可逆的物理的過程に対する補償エントロピーの源は、情報理論的なアプローチで伝統的に想定された認識的不確実性ではなく、相互に相容れない可観測性の値に付随する存在論的不確実性にあることが示されている。 特に、リセット操作による論理的(直観的)情報の消去は熱力学的エントロピーの消去と等価ではないことが明確に示され、従来のランダウアーの原理の情報理論形式は物理学では支持されない。 この分析のさらなる意味は、原理的には、現実世界にマクスウェルのデーモンは存在しないということである。

A restricted form of Landauer's Principle, independent of computational considerations, is shown to hold for thermal systems by reference to the joint entropy associated with conjugate observables. It is shown that the source of the compensating entropy for irreversible physical processes is due to the ontological uncertainty attending values of such mutually incompatible observables, rather than due to epistemic uncertainty as traditionally assumed in the information-theoretic approach. In particular, it is explicitly shown that erasure of logical (epistemic) information via reset operations is not equivalent to erasure of thermodynamic entropy, so that the traditional, information-theoretic form of Landauer's Principle is not supported by the physics. A further implication of the analysis is that, in principle, there can be no Maxwell's Demon in the real world.
翻訳日:2024-01-16 00:18:50 公開日:2024-01-11
# 量子センシングのための量子コンピュータ上の例外点系のシミュレーション

Simulation of exceptional-point systems on quantum computers for quantum sensing ( http://arxiv.org/abs/2304.12181v3 )

ライセンス: Link先を確認
Chetan Waghela and Shubhrangshu Dasgupta(参考訳) 量子センシングにおける例外点(EP)の適用性については議論がある。 これを解決するため、我々はまず、ユニタリゲート上で実行される量子コンピュータにおいてepを示す非エルミート的非対角化ハミルトニアンを実験的に実装する方法を探求する。 本稿では,アンシラを用いた手法を提案する。 次に,量子コンピュータを用いたパラメータ推定やEPにおける量子フィッシャー情報(QFI$)による性能解析において,ノイズやノイズの有無に関わらず,そのようなハミルトニアンはどのように利用できるかを示す。 推定されるパラメータの$qfi$が量子クレーダ-ラオ境界によるパラメータの分散と逆関係であることはよく知られている。 したがって、epsでの$qfi$の発散はセンシングの利点を約束する。 クラウド量子アーキテクチャを実験的に実証し,Puiseuxシリーズを用いて,以前に非発散性と考えられていたEPシステムにおいて,$QFI$が実際に分散していることを示す。

There has been debate around applicability of exceptional points (EP) for quantum sensing. To resolve this, we first explore how to experimentally implement the nonhermitian non-diagonalizable Hamiltonians, that exhibit EPs, in quantum computers which run on unitary gates. We propose to use an ancilla-based method in this regard. Next, we show how such Hamiltonians can be used for parameter estimation using quantum computers and analyze its performance in terms of the Quantum Fisher Information ($QFI$) at EPs, both without noise and in presence of noise. It is well known that $QFI$ of a parameter to be estimated is inversely related to the variance of the parameter by the quantum Cramer-Rao bound. Therefore the divergence of the $QFI$ at EPs promise sensing advantages. We experimentally demonstrate in a cloud quantum architecture and theoretically show, using Puiseux series, that the $QFI$ indeed diverges in such EP systems which were earlier considered to be non-divergent.
翻訳日:2024-01-16 00:16:31 公開日:2024-01-11
# 動的asr経路:多言語asrモデルの効率的なpruningへの適応的マスキングアプローチ

Dynamic ASR Pathways: An Adaptive Masking Approach Towards Efficient Pruning of A Multilingual ASR Model ( http://arxiv.org/abs/2309.13018v2 )

ライセンス: Link先を確認
Jiamin Xie, Ke Li, Jinxi Guo, Andros Tjandra, Yuan Shangguan, Leda Sari, Chunyang Wu, Junteng Jia, Jay Mahadeokar, Ozlem Kalinli(参考訳) ニューラルネットワークプルーニングは、多言語自動音声認識(ASR)モデルを最小性能の損失で圧縮する有効な方法を提供する。 しかし、各言語で実行するためには、数ラウンドのプルーニングと再トレーニングが必要になる。 本研究では,多言語ASRモデルを効率的に刈り取るための2つのシナリオにおいて,適応マスキング手法を用いることを提案し,その結果,スパースモノリンガルモデルやスパースマルチリンガルモデル(Dynamic ASR Pathways)が得られた。 提案手法は,固定サブネットワーク構造に関する未熟な決定を回避し,動的にサブネットワークに適応する。 提案手法は, スパース単言語モデルを対象とした場合, 既存のプルーニング手法よりも優れていることを示す。 さらに、動的ASRパスウェイは、異なるサブネットワークの初期化から適応することで、単一のマルチ言語モデルのより優れたサブネットワーク(パス)を共同で発見し、訓練することにより、言語固有のプルーニングの必要性を低減する。

Neural network pruning offers an effective method for compressing a multilingual automatic speech recognition (ASR) model with minimal performance loss. However, it entails several rounds of pruning and re-training needed to be run for each language. In this work, we propose the use of an adaptive masking approach in two scenarios for pruning a multilingual ASR model efficiently, each resulting in sparse monolingual models or a sparse multilingual model (named as Dynamic ASR Pathways). Our approach dynamically adapts the sub-network, avoiding premature decisions about a fixed sub-network structure. We show that our approach outperforms existing pruning methods when targeting sparse monolingual models. Further, we illustrate that Dynamic ASR Pathways jointly discovers and trains better sub-networks (pathways) of a single multilingual model by adapting from different sub-network initializations, thereby reducing the need for language-specific pruning.
翻訳日:2024-01-16 00:05:28 公開日:2024-01-11
# 半分散ネットワーク上での通信効率のよい連合最適化

Communication-Efficient Federated Optimization over Semi-Decentralized Networks ( http://arxiv.org/abs/2311.18787v2 )

ライセンス: Link先を確認
He Wang, Yuejie Chi(参考訳) 大規模なフェデレーションと分散学習では、コミュニケーション効率は最も困難なボトルネックの1つです。 エージェントが隣人と情報を交換できるゴシップ通信は、リモートサーバとの通信よりもコスト効率が高いが、特に大規模で疎結合なネットワークでは、より多くの通信ラウンドが必要になることが多い。 このトレードオフに対処するため,エージェント間通信とエージェント間通信の両方を確率的に行う半分散通信プロトコルを用いて通信効率を検証した。 piscoと呼ばれる半分散ネットワーク上の通信効率を最適化したアルゴリズムを設計し、勾配追跡によってデータの不均一性にロバスト性を継承し、複数のローカル更新を可能とし、通信を節約する。 非凸問題に対するPISCOの収束速度を確立し、PISCOがエージェント数と局所更新数で線形スピードアップを楽しむことを示す。 数値計算の結果,PISCOの通信効率が向上し,データの均一性やネットワークトポロジに対するレジリエンスが向上した。

In large-scale federated and decentralized learning, communication efficiency is one of the most challenging bottlenecks. While gossip communication -- where agents can exchange information with their connected neighbors -- is more cost-effective than communicating with the remote server, it often requires a greater number of communication rounds, especially for large and sparse networks. To tackle the trade-off, we examine the communication efficiency under a semi-decentralized communication protocol, in which agents can perform both agent-to-agent and agent-to-server communication in a probabilistic manner. We design a tailored communication-efficient algorithm over semi-decentralized networks, referred to as PISCO, which inherits the robustness to data heterogeneity thanks to gradient tracking and allows multiple local updates for saving communication. We establish the convergence rate of PISCO for nonconvex problems and show that PISCO enjoys a linear speedup in terms of the number of agents and local updates. Our numerical results highlight the superior communication efficiency of PISCO and its resilience to data heterogeneity and various network topologies.
翻訳日:2024-01-15 23:53:21 公開日:2024-01-11
# 分散化フェデレーション学習ネットワークにおける対立ノード配置の影響

The Impact of Adversarial Node Placement in Decentralized Federated Learning Networks ( http://arxiv.org/abs/2311.07946v3 )

ライセンス: Link先を確認
Adam Piaseczny, Eric Ruzomberka, Rohit Parasnis, Christopher G. Brinton(参考訳) 連邦学習(FL)の人気が高まるにつれ、新しい分散フレームワークが広まりつつある。 これらのフレームワークは分散環境の利点を利用して、高速でエネルギー効率の良いデバイス間通信を可能にする。 しかし、この人気は、堅牢なセキュリティ対策の必要性も増している。 既存の研究はFLセキュリティの様々な側面を探求してきたが、分散ネットワークにおける敵ノード配置の役割はほとんど解明されていない。 本稿では,ネットワーク内で協調的に配置を調整できる様々な敵配置戦略における分散flの性能を分析することにより,このギャップを解消する。 ランダムな配置とネットワーク中心性に基づく配置の2つの基本戦略を確立する。 本稿では, 敵同士の平均ネットワーク距離を最大化し, 敵中心性よりも敵の拡散を優先する新たな攻撃アルゴリズムを提案する。 新しい攻撃アルゴリズムは、テスト精度などの重要なパフォーマンス指標に大きく影響し、考慮された設定でベースラインフレームワークを9%から66.5%上回った。 我々の研究は、分散FLシステムの脆弱性に関する貴重な知見を提供し、よりセキュアで堅牢な分散FLフレームワークを開発するための将来の研究の舞台となる。

As Federated Learning (FL) grows in popularity, new decentralized frameworks are becoming widespread. These frameworks leverage the benefits of decentralized environments to enable fast and energy-efficient inter-device communication. However, this growing popularity also intensifies the need for robust security measures. While existing research has explored various aspects of FL security, the role of adversarial node placement in decentralized networks remains largely unexplored. This paper addresses this gap by analyzing the performance of decentralized FL for various adversarial placement strategies when adversaries can jointly coordinate their placement within a network. We establish two baseline strategies for placing adversarial node: random placement and network centrality-based placement. Building on this foundation, we propose a novel attack algorithm that prioritizes adversarial spread over adversarial centrality by maximizing the average network distance between adversaries. We show that the new attack algorithm significantly impacts key performance metrics such as testing accuracy, outperforming the baseline frameworks by between 9% and 66.5% for the considered setups. Our findings provide valuable insights into the vulnerabilities of decentralized FL systems, setting the stage for future research aimed at developing more secure and robust decentralized FL frameworks.
翻訳日:2024-01-15 23:51:55 公開日:2024-01-11
# 静的長距離双極子相互作用による量子位置相関を持つ冷エミッタアンサンブル中の光伝播

Propagation of light in cold emitter ensembles with quantum position correlations due to static long-range dipolar interactions ( http://arxiv.org/abs/2310.16158v3 )

ライセンス: Link先を確認
G. J. Bean, N. D. Drummond, J. Ruostekoski(参考訳) 我々は、不規則な位置が静的な長距離双極子-双極子相互作用によって引き起こされる相関を示す双極子エミッタからの光の散乱を分析する。 量子力学的位置相関は、変動量子および拡散量子モンテカルロ法によるゼロ温度ボゾン原子または分子に対して計算される。 低光強度の極限における高密度アンサンブル中の定常原子に対して、シミュレーションは、電子基底状態と励起状態を含む全ての位置相関関数に対する光学応答の解を与える。 我々は,コヒーレントかつ非コヒーレントな散乱,集合線幅,直線シフト,固有モード,および障害誘発励起局在が静的相互作用と密度に影響されるかを計算する。 強く閉じ込められたオービタントトラップとプロラトトラップの強い反発的な静的相互作用は、光を介する共鳴双極子-双極子相互作用において大きな変動を緩和する双極子間の短距離秩序をもたらす。 典型的には、コヒーレント反射と光学的深さが増大し、コヒーレント散乱が減少する。 静的双極子相互作用の存在は、密度の強い雲におけるサブラジアント固有モードの高選択的励起を可能にする。 この効果は、自然の線幅より下にある共鳴が狭いプロラトトラップにおいてさらに顕著になる。 静的双極子相互作用が光遷移周波数に影響を及ぼすとき、アンサンブルは協調効果を抑制する不均一に経験した静的双極子相互作用によって不均一な拡大を示すが、例えば、不均一な拡大を示すdy原子は無視できる。

We analyze the scattering of light from dipolar emitters whose disordered positions exhibit correlations induced by static, long-range dipole-dipole interactions. The quantum-mechanical position correlations are calculated for zero temperature bosonic atoms or molecules using variational and diffusion quantum Monte Carlo methods. For stationary atoms in dense ensembles in the limit of low light intensity, the simulations yield solutions for the optical responses to all orders of position correlation functions that involve electronic ground and excited states. We calculate how coherent and incoherent scattering, collective linewidths, line shifts, and eigenmodes, and disorder-induced excitation localization are influenced by the static interactions and the density. We find that dominantly repulsive static interactions in strongly confined oblate and prolate traps introduce short-range ordering among the dipoles which curtails large fluctuations in the light-mediated resonant dipole-dipole interactions. This typically results in an increase in coherent reflection and optical depth, accompanied by reduced incoherent scattering. The presence of static dipolar interactions permits the highly selective excitation of subradiant eigenmodes in dense clouds. This effect becomes even more pronounced in a prolate trap, where the resonances narrow below the natural linewidth. When the static dipolar interactions affect the optical transition frequencies, the ensemble exhibits inhomogeneous broadening due to the nonuniformly experienced static dipolar interactions that suppress cooperative effects, but we argue that, e.g., for Dy atoms such inhomogeneous broadening is negligible.
翻訳日:2024-01-15 23:51:36 公開日:2024-01-11
# キャッシュに基づく自動音声認識のためのステートフルコンバータ

Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition ( http://arxiv.org/abs/2312.17279v2 )

ライセンス: Link先を確認
Vahid Noroozi, Somshubra Majumdar, Ankur Kumar, Jagadeesh Balam, Boris Ginsburg(参考訳) 本稿では,FastConformerアーキテクチャに基づく,効率的かつ高精度なストリーミング音声認識モデルを提案する。 我々は,(1)エンコーダのルックアヘッドと過去のコンテキストの両方を制約し,(2)非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするアクティベーションキャッシング機構を導入することによって,ストリーミングアプリケーションにFastConformerアーキテクチャを適用した。 提案モデルは,多くのストリーミングモデルに共通する列車と推定時間間の精度の相違を解消する目的で設計されている。 さらに,提案するエンコーダは,CTC(Connectionist Temporal Classification)やRNNT(RNNT)デコーダなど,さまざまなデコーダ構成で動作する。 さらに,共有エンコーダとCTCデコーダとRNNTデコーダを併用したハイブリッドCTC/RNNTアーキテクチャを導入し,精度の向上と計算量の削減を実現した。 提案手法をLibriSpeechデータセットとマルチドメイン大規模データセット上で評価し,従来のバッファリングストリーミングモデルベースラインと比較して,レイテンシと推論時間で精度が向上できることを実証した。 また,複数のレイテンシを持つモデルのトレーニングは,単一レイテンシモデルよりも精度が向上すると同時に,複数のレイテンシを単一モデルでサポートできることを示した。 また,CTCデコーダの収束を高速化するだけでなく,単一デコーダモデルと比較してストリーミングモデルの精度も向上することを示した。

In this paper, we propose an efficient and accurate streaming speech recognition model based on the FastConformer architecture. We adapted the FastConformer architecture for streaming applications through: (1) constraining both the look-ahead and past contexts in the encoder, and (2) introducing an activation caching mechanism to enable the non-autoregressive encoder to operate autoregressively during inference. The proposed model is thoughtfully designed in a way to eliminate the accuracy disparity between the train and inference time which is common for many streaming models. Furthermore, our proposed encoder works with various decoder configurations including Connectionist Temporal Classification (CTC) and RNN-Transducer (RNNT) decoders. Additionally, we introduced a hybrid CTC/RNNT architecture which utilizes a shared encoder with both a CTC and RNNT decoder to boost the accuracy and save computation. We evaluate the proposed model on LibriSpeech dataset and a multi-domain large scale dataset and demonstrate that it can achieve better accuracy with lower latency and inference time compared to a conventional buffered streaming model baseline. We also showed that training a model with multiple latencies can achieve better accuracy than single latency models while it enables us to support multiple latencies with a single model. Our experiments also showed the hybrid architecture would not only speedup the convergence of the CTC decoder but also improves the accuracy of streaming models compared to single decoder models.
翻訳日:2024-01-15 23:39:31 公開日:2024-01-11
# 任意次元上の任意の順序のディープニューラルネットワークと有限要素

Deep Neural Networks and Finite Elements of Any Order on Arbitrary Dimensions ( http://arxiv.org/abs/2312.14276v3 )

ライセンス: Link先を確認
Juncai He, Jinchao Xu(参考訳) 本研究では,reluおよびrelu$^2$アクティベーション関数を用いたディープニューラルネットワークが,任意の次元の様々な単純メッシュ上の任意の順序のラグランジュ有限要素関数を効果的に表現できることを示す。 本稿では,ラグランジュ要素の基底関数をグローバルに表現するための2つの新しい定式化について紹介する。 これらの定式化はこれらの要素の幾何学的分解に基づいており、高次元のsimplicial meshの洞察と本質的な性質、偏心座標関数、線形要素の大域基底関数を取り入れている。 この表現理論は、そのようなディープニューラルネットワークの自然な近似結果を促進する。 本研究は,ニューラルネットワークが,特定のメッシュ,あるいは任意のメッシュ上で,一般連続的な多項式関数を体系的に生成できることを示す最初の例である。

In this study, we establish that deep neural networks employing ReLU and ReLU$^2$ activation functions can effectively represent Lagrange finite element functions of any order on various simplicial meshes in arbitrary dimensions. We introduce two novel formulations for globally expressing the basis functions of Lagrange elements, tailored for both specific and arbitrary meshes. These formulations are based on a geometric decomposition of the elements, incorporating several insightful and essential properties of high-dimensional simplicial meshes, barycentric coordinate functions, and global basis functions of linear elements. This representation theory facilitates a natural approximation result for such deep neural networks. Our findings present the first demonstration of how deep neural networks can systematically generate general continuous piecewise polynomial functions on both specific or arbitrary simplicial meshes.
翻訳日:2024-01-15 23:38:53 公開日:2024-01-11
# OKRidge: スケーラブルなkスパースリッジ回帰

OKRidge: Scalable Optimal k-Sparse Ridge Regression ( http://arxiv.org/abs/2304.06686v3 )

ライセンス: Link先を確認
Jiachang Liu, Sam Rosen, Chudi Zhong, Cynthia Rudin(参考訳) 我々は,非線形力学系に対するスパース制御方程式の同定という,科学的発見における重要な問題を考える。 これはスパースリッジ回帰問題を解くことを含み、どの用語が基盤となるダイナミクスを駆動させるかを決定するために最適性が証明される。 我々は, 疎リッジ回帰のための高速アルゴリズムokridgeを提案し, まず, サドル点の定式化を含む新しい下限計算法を提案する。 (i)線形システム、又は 2)ADMMに基づくアプローチでは,線形系と等調回帰問題を解くことにより,近似演算子を効率的に評価することができる。 また,ビーム探索を利用した解法をウォームスタートする手法を提案する。 提案手法は,市販の解法であるGurobiによって解かれた既存のMIP定式化よりもはるかに高速な実行時間で証明可能な最適性が得られる。

We consider an important problem in scientific discovery, namely identifying sparse governing equations for nonlinear dynamical systems. This involves solving sparse ridge regression problems to provable optimality in order to determine which terms drive the underlying dynamics. We propose a fast algorithm, OKRidge, for sparse ridge regression, using a novel lower bound calculation involving, first, a saddle point formulation, and from there, either solving (i) a linear system or (ii) using an ADMM-based approach, where the proximal operators can be efficiently evaluated by solving another linear system and an isotonic regression problem. We also propose a method to warm-start our solver, which leverages a beam search. Experimentally, our methods attain provable optimality with run times that are orders of magnitude faster than those of the existing MIP formulations solved by the commercial solver Gurobi.
翻訳日:2024-01-15 21:56:02 公開日:2024-01-11
# プライベートラーニングにおけるトレーニングデータ再構成のクエリ複雑さについて

On the Query Complexity of Training Data Reconstruction in Private Learning ( http://arxiv.org/abs/2303.16372v6 )

ライセンス: Link先を確認
Prateeti Mukherjee and Satya Lokam(参考訳) 学習データを再構築するために,ホワイトボックスの敵がプライベート学習者に対して行わなければならないクエリ数を分析する。 任意のコンパクトなメトリック空間から抽出されたトレーニングデータを持つDP学習者に対して、学習者のプライバシーパラメータの関数として、敵のクエリ複雑性に関する \emph{first known lower bounds} を提供する。 \emph{Our results are minimax optimal for every $\epsilon \geq 0, \delta \in [0, 1]$, cover both $\epsilon$-DP and $(0, \delta)$ DP as corollaries}。 さらに、$(\alpha, \epsilon)$ R\'enyi DP 学習者に対して、$\alpha > 1, \epsilon \geq 0$に対して有効なクエリ複雑性の低い境界を得る。 最後に,データの基本となる距離構造を考慮に入れたDPの一般化であるMetric DPの枠組みを用いて,局所コンパクトな距離空間に対するデータ再構成攻撃を分析する。 本研究では,非有界高次元空間におけるデータ再構成に関する最初の既知の解析を行い,ほぼ密なモジュラー対数因子であるクエリ複雑性下限を求める。

We analyze the number of queries that a whitebox adversary needs to make to a private learner in order to reconstruct its training data. For $(\epsilon, \delta)$ DP learners with training data drawn from any arbitrary compact metric space, we provide the \emph{first known lower bounds on the adversary's query complexity} as a function of the learner's privacy parameters. \emph{Our results are minimax optimal for every $\epsilon \geq 0, \delta \in [0, 1]$, covering both $\epsilon$-DP and $(0, \delta)$ DP as corollaries}. Beyond this, we obtain query complexity lower bounds for $(\alpha, \epsilon)$ R\'enyi DP learners that are valid for any $\alpha > 1, \epsilon \geq 0$. Finally, we analyze data reconstruction attacks on locally compact metric spaces via the framework of Metric DP, a generalization of DP that accounts for the underlying metric structure of the data. In this setting, we provide the first known analysis of data reconstruction in unbounded, high dimensional spaces and obtain query complexity lower bounds that are nearly tight modulo logarithmic factors.
翻訳日:2024-01-15 21:55:47 公開日:2024-01-11
# カーネルステインの相違によるモーメントの制御

Controlling Moments with Kernel Stein Discrepancies ( http://arxiv.org/abs/2211.05408v3 )

ライセンス: Link先を確認
Heishiro Kanagawa and Alessandro Barp and Arthur Gretton and Lester Mackey(参考訳) カーネルスタイン差分法(KSD)は分布近似の質を測定し、ターゲット密度が難解な正規化定数を持つ場合でも計算できる。 注目すべき応用例としては、近似mcmcサンプラーの診断と非正規化統計モデルの適合度テストがある。 本研究は,KSDの収束制御特性を解析する。 まず,弱収束制御に用いる標準ksdはモーメント収束を制御できないことを示す。 この制限に対処するために、代替拡散KSDがモーメントと弱収束の両方を制御する十分な条件を提供する。 即ち、$q > 0$ に対して、$q$-ワッサーシュタイン収束を正確に特徴付けることが知られている最初の KSD を開発する。

Kernel Stein discrepancies (KSDs) measure the quality of a distributional approximation and can be computed even when the target density has an intractable normalizing constant. Notable applications include the diagnosis of approximate MCMC samplers and goodness-of-fit tests for unnormalized statistical models. The present work analyzes the convergence control properties of KSDs. We first show that standard KSDs used for weak convergence control fail to control moment convergence. To address this limitation, we next provide sufficient conditions under which alternative diffusion KSDs control both moment and weak convergence. As an immediate consequence we develop, for each $q > 0$, the first KSDs known to exactly characterize $q$-Wasserstein convergence.
翻訳日:2024-01-15 21:54:14 公開日:2024-01-11
# 言語モデル世代における軽量化

Lightweight reranking for language model generations ( http://arxiv.org/abs/2307.06857v3 )

ライセンス: Link先を確認
Siddhartha Jain, Xiaofei Ma, Anoop Deoras, Bing Xiang(参考訳) LLM(Large Language Models)は、サンプル出力の品質にかなりの変化をもたらす可能性がある。 サンプルセットから最良の世代をランク付けし、選択することは、世代品質の強力な利益を得る一般的な方法です。 本稿では,LLM世代を再評価するための新しいアプローチを提案する。 追加の推論や特殊リランカの訓練を含む他の手法とは異なり、我々の手法は計算オーバーヘッドが最小限である世代間のペアワイズ統計を容易に計算することに依存している。 提案手法は自己整合性の拡張として定式化でき,そのフレームワークの性能を理論的にもシミュレーションによって解析できることを示す。 我々は、コード生成タスクの最良のk世代を選択するための強力な改善と、オートフォーム化、要約、翻訳のタスクの最良の世代に対する堅牢な改善を示します。 提案手法では, LLMへのブラックボックスアクセスのみを前提としているが, トークン確率への追加アクセスにより, さらなる性能向上が期待できる。

Large Language Models (LLMs) can exhibit considerable variation in the quality of their sampled outputs. Reranking and selecting the best generation from the sampled set is a popular way of obtaining strong gains in generation quality. In this paper, we present a novel approach for reranking LLM generations. Unlike other techniques that might involve additional inferences or training a specialized reranker, our approach relies on easy to compute pairwise statistics between the generations that have minimal compute overhead. We show that our approach can be formalized as an extension of self-consistency and analyze its performance in that framework, theoretically as well as via simulations. We show strong improvements for selecting the best k generations for code generation tasks as well as robust improvements for the best generation for the tasks of autoformalization, summarization, and translation. While our approach only assumes black-box access to LLMs, we show that additional access to token probabilities can improve performance even further.
翻訳日:2024-01-15 21:44:38 公開日:2024-01-11
# 強化学習技術を用いた変分量子状態対角化の強化

Enhancing variational quantum state diagonalization using reinforcement learning techniques ( http://arxiv.org/abs/2306.11086v3 )

ライセンス: Link先を確認
Akash Kundu, Przemys{\l}aw Bede{\l}ek, Mateusz Ostaszewski, Onur Danaci, Yash J. Patel, Vedran Dunjko, Jaros{\l}aw A. Miszczak(参考訳) NISQコンピュータの応用には変分量子アルゴリズムが不可欠である。 このようなアルゴリズムは、短期的なハードウェア上で実装しやすい短い量子回路を必要とするため、多くの方法が開発されている。 特に興味深いのは、変分量子状態対角化法であり、これは重要なアルゴリズムのサブルーチンを構成し、量子状態に符号化されたデータを扱うために直接使用できる。 特に、システムの絡み合い特性や量子機械学習アルゴリズムなどの量子状態の特徴を識別するために応用することができる。 本研究では, 量子状態対角化タスクにおいて必要となる非常に浅い量子回路を, 強化学習(RL)を用いて設計する問題に取り組む。 我々は、RL状態に対する新しい符号化法、高密度報酬関数、およびこれを実現するために$\epsilon$-greedyポリシーを使用する。 強化学習法によって提案された回路は、標準変分量子状態対角化アルゴリズムよりも浅く、ハードウェア能力が量子回路の深さを制限している状況で使用できることを示す。 本論文で提案する手法は,多種多様な変分量子アルゴリズムに容易に適用できる。

The variational quantum algorithms are crucial for the application of NISQ computers. Such algorithms require short quantum circuits, which are more amenable to implementation on near-term hardware, and many such methods have been developed. One of particular interest is the so-called variational quantum state diagonalization method, which constitutes an important algorithmic subroutine and can be used directly to work with data encoded in quantum states. In particular, it can be applied to discern the features of quantum states, such as entanglement properties of a system, or in quantum machine learning algorithms. In this work, we tackle the problem of designing a very shallow quantum circuit, required in the quantum state diagonalization task, by utilizing reinforcement learning (RL). We use a novel encoding method for the RL-state, a dense reward function, and an $\epsilon$-greedy policy to achieve this. We demonstrate that the circuits proposed by the reinforcement learning methods are shallower than the standard variational quantum state diagonalization algorithm and thus can be used in situations where hardware capabilities limit the depth of quantum circuits. The methods we propose in the paper can be readily adapted to address a wide range of variational quantum algorithms.
翻訳日:2024-01-15 21:43:32 公開日:2024-01-11
# 有効水平波を用いたブリッジングRL理論と実践

Bridging RL Theory and Practice with the Effective Horizon ( http://arxiv.org/abs/2304.09853v3 )

ライセンス: Link先を確認
Cassidy Laidlaw and Stuart Russell and Anca Dragan(参考訳) 深層強化学習(Deep reinforcement Learning, RL)は、いくつかの環境で顕著に機能し、他の環境で破滅的に失敗する。 理想的には、RL理論はなぜこれが実際のパフォーマンスを予測できる境界であるのかを理解できなければならない。 残念ながら、現在の理論はこの能力を持っていない。 我々は,新しいデータセットBRIDGEを導入することで,標準深度RLアルゴリズムと事前サンプル複雑性境界を比較した。 一般的なRLベンチマークから155個の決定論的MDPとそれに対応する表表現で構成されており、インスタンス依存境界を正確に計算することができる。 確率的環境の多くの興味深い性質を共有できるが、分析しやすく、決定論的環境に焦点を当てる。 BRIDGEを用いて、先行境界は、深いRLが成功するか失敗するかは相関しないが、驚くべき性質を発見する。 ランダムポリシーの下で最も高いQ値を持つ作用が最適ポリシーの下で最も高いQ値を持つ場合(すなわち、ランダムポリシーのQ関数に対して欲求的であることが最適である場合)、深いRLは成功しがちであり、そうでない場合、深いRLは失敗する傾向にある。 我々はこの特性をMDPの新しい複雑性尺度に一般化し、葉ノードをランダムなロールアウトで評価した場合の次の最適な動作を特定するために、MDPにおいてルックアヘッド探索のステップがどれくらい必要かに大まかに対応している。 BRIDGEを用いて,PPOとDQNの実証的な性能は,4つの指標にまたがる事前サンプルの複雑さよりも,有効地平線に基づく境界がより深く反映されていることを示す。 また,既存の境界と異なり,実効地平線は報酬形成や事前訓練された探査政策を用いることの効果を予測できることがわかった。 私たちのコードとデータはhttps://github.com/cassidylaidlaw/ effective-horizonで利用可能です。

Deep reinforcement learning (RL) works impressively in some environments and fails catastrophically in others. Ideally, RL theory should be able to provide an understanding of why this is, i.e. bounds predictive of practical performance. Unfortunately, current theory does not quite have this ability. We compare standard deep RL algorithms to prior sample complexity bounds by introducing a new dataset, BRIDGE. It consists of 155 deterministic MDPs from common deep RL benchmarks, along with their corresponding tabular representations, which enables us to exactly compute instance-dependent bounds. We choose to focus on deterministic environments because they share many interesting properties of stochastic environments, but are easier to analyze. Using BRIDGE, we find that prior bounds do not correlate well with when deep RL succeeds vs. fails, but discover a surprising property that does. When actions with the highest Q-values under the random policy also have the highest Q-values under the optimal policy (i.e. when it is optimal to be greedy on the random policy's Q function), deep RL tends to succeed; when they don't, deep RL tends to fail. We generalize this property into a new complexity measure of an MDP that we call the effective horizon, which roughly corresponds to how many steps of lookahead search would be needed in that MDP in order to identify the next optimal action, when leaf nodes are evaluated with random rollouts. Using BRIDGE, we show that the effective horizon-based bounds are more closely reflective of the empirical performance of PPO and DQN than prior sample complexity bounds across four metrics. We also find that, unlike existing bounds, the effective horizon can predict the effects of using reward shaping or a pre-trained exploration policy. Our code and data are available at https://github.com/cassidylaidlaw/effective-horizon
翻訳日:2024-01-15 21:41:33 公開日:2024-01-11
# 自然言語質問からのニューラルネットワークSPARQLクエリ生成の総合的評価

A Comprehensive Evaluation of Neural SPARQL Query Generation from Natural Language Questions ( http://arxiv.org/abs/2304.07772v3 )

ライセンス: Link先を確認
Papa Abdou Karim Karou Diallo, Samuel Reyd, Amal Zouaq(参考訳) 近年、SPARQLクエリ生成のためのニューラルネットワーク翻訳(NMT)の分野が著しく成長している。 コピー機構を従来のエンコーダ・デコーダアーキテクチャに組み入れ、トレーニング済みエンコーダ・デコーダと大規模言語モデルを使用して新しいパフォーマンスベンチマークを設定。 本稿では,最近のnmtベースのsparql生成実験を再現・拡張し,事前学習型言語モデル(plm),非事前学習型言語モデル(nplms),大規模言語モデル(llms)を比較し,質問アノテーションとコピー機構の影響を強調し,llmを用いた様々な微調整手法をテストする。 特に,モデルの系統的誤り解析を行い,その一般化能力をテストする。 本研究は,ほとんどのPLMおよびNPLMにおいて,コピー機構が大幅な性能向上をもたらすことを示す。 データアノテートは正しいuriを生成する上で重要であり、最も効果的なアプローチとして"tag-within"戦略が登場している。 さらに,SPARQLクエリにおける誤りの主な原因は,ベースモデルを使用する場合,時に幻覚的URIに置き換えられる誤ったURIであることがわかった。 これはコピーメカニズムを使用しないが、時には候補間で間違ったURIを選択する。 最終的に、試験されたLLMの性能は、望ましい結果を達成するには至らなかった。

In recent years, the field of neural machine translation (NMT) for SPARQL query generation has witnessed significant growth. Incorporating the copy mechanism with traditional encoder-decoder architectures and using pre-trained encoder-decoders and large language models have set new performance benchmarks. This paper presents various experiments that replicate and expand upon recent NMT-based SPARQL generation studies, comparing pre-trained language models (PLMs), non-pre-trained language models (NPLMs), and large language models (LLMs), highlighting the impact of question annotation and the copy mechanism and testing various fine-tuning methods using LLMs. In particular, we provide a systematic error analysis of the models and test their generalization ability. Our study demonstrates that the copy mechanism yields significant performance enhancements for most PLMs and NPLMs. Annotating the data is pivotal to generating correct URIs, with the "tag-within" strategy emerging as the most effective approach. Additionally, our findings reveal that the primary source of errors stems from incorrect URIs in SPARQL queries that are sometimes replaced with hallucinated URIs when using base models. This does not happen using the copy mechanism, but it sometimes leads to selecting wrong URIs among candidates. Finally, the performance of the tested LLMs fell short of achieving the desired outcomes.
翻訳日:2024-01-15 21:40:59 公開日:2024-01-11
# 言語モデルプロンプトの自動意味拡張(コード要約のための)

Automatic Semantic Augmentation of Language Model Prompts (for Code Summarization) ( http://arxiv.org/abs/2304.06815v3 )

ライセンス: Link先を確認
Toufique Ahmed, Kunal Suresh Pai, Premkumar Devanbu, Earl T. Barr(参考訳) LLM(Large Language Models)は、プロンプトエンジニアリングによって「プログラムされた」新しい計算エンジンのクラスである。 私たちはまだ、開発者を支援するためにこれらのLLMを"プログラム"する方法を学んでいます。 私たちは、開発者がコーディングタスクに取り組む際に、意識的に無意識に意味的な事実を念頭に置いている傾向があるという直感から始めます。 たいていの場合、クイックリードから生じる浅く単純な事実です。 関数の場合、ファクトの例にはパラメータとローカル変数名、戻り式、単純な事前条件と後条件、基本的な制御とデータフローなどが含まれる。 トランスフォーマースタイルのLLMの強力な多層アーキテクチャは、本質的にこのような単純なレベルの「コード解析」を行い、コード処理中に暗黙的にそのような情報を抽出することができると仮定するかもしれない。 もしそうでなければ、明示的にこの情報を追加することは有効だろうか? ここでのゴールは、コード要約タスクを使用して、意味的事実を明確化してLLMのプロンプトを自動的に増強するかどうかを評価することである。 以前の研究によると、コード要約におけるllmのパフォーマンスは、同一プロジェクトか、情報検索手法(bm25など)によって得られたサンプルのサンプルから得られる。 コード要約におけるLLMパフォーマンスは、翻訳やテキスト要約といった自然言語タスクではまだパフォーマンスが遅れています。 意味的な事実を追加することは実際に役立ちます。 このアプローチは、2つの異なる大きな言語モデルを含む、事前作業によって提案されるいくつかの異なる設定のパフォーマンスを改善する。 ほとんどの場合、改善は2 bleuに近づいたり、2 bleuを超えている。 挑戦的なcodesearchnetデータセットのphp言語では、この拡張によって、実際には 30 bleu を超えるパフォーマンスが得られる。

Large Language Models (LLM) are a new class of computation engines, "programmed" via prompt engineering. We are still learning how to best "program" these LLMs to help developers. We start with the intuition that developers tend to consciously and unconsciously have a collection of semantics facts in mind when working on coding tasks. Mostly these are shallow, simple facts arising from a quick read. For a function, examples of facts might include parameter and local variable names, return expressions, simple pre- and post-conditions, and basic control and data flow, etc. One might assume that the powerful multi-layer architecture of transformer-style LLMs makes them inherently capable of doing this simple level of "code analysis" and extracting such information, implicitly, while processing code: but are they, really? If they aren't, could explicitly adding this information help? Our goal here is to investigate this question, using the code summarization task and evaluate whether automatically augmenting an LLM's prompt with semantic facts explicitly, actually helps. Prior work shows that LLM performance on code summarization benefits from few-shot samples drawn either from the same-project or from examples found via information retrieval methods (such as BM25). While summarization performance has steadily increased since the early days, there is still room for improvement: LLM performance on code summarization still lags its performance on natural-language tasks like translation and text summarization. We find that adding semantic facts actually does help! This approach improves performance in several different settings suggested by prior work, including for two different Large Language Models. In most cases, improvement nears or exceeds 2 BLEU; for the PHP language in the challenging CodeSearchNet dataset, this augmentation actually yields performance surpassing 30 BLEU.
翻訳日:2024-01-15 21:40:34 公開日:2024-01-11
# 頭頸部腫瘍自動切除のための分散型ゴシップ相互学習(GML)

Decentralized Gossip Mutual Learning (GML) for automatic head and neck tumor segmentation ( http://arxiv.org/abs/2401.06180v1 )

ライセンス: Link先を確認
Jingyun Chen, Yading Yuan(参考訳) フェデレートラーニング(FL)は、データ共有を必要とせずに、異なる医療センターから複雑な機械学習モデルを協調訓練するための有望な戦略として登場した。 しかし、従来のFLはクライアント間のグローバルモデルトレーニングを編成するために中央サーバーに依存しています。 これにより、モデルサーバの障害に対して脆弱になる。 一方、グローバルなデータ特性に基づいてトレーニングされたモデルは、データ特性の変化により、特定のサイトのローカルデータ上で最高のパフォーマンスを得ることはできない。 そこで我々は,ピアツーピア通信のためのgossipプロトコルを用いた分散協調学習フレームワークであるgossip mutual learning(gml)を提案し,相互学習を通じてピアからの有用な情報を活用することにより,各サイトがローカルモデルを最適化することを奨励した。 HECKTOR21データセットを用いたPET/CT画像の腫瘍セグメンテーションの課題について,5つの臨床現場から得られた223例を用いて,GMLが3.2%,4.6%,10.4%の腫瘍セグメンテーション性能を,それぞれプールドトレーニング,FedAvg,個別トレーニングの3つのベースライン手法と比較して改善できることを実証した。 また,モデルトレーニングに使用しない2つのサンプルサイトから78例に適用した場合,GMLはプールトレーニングとFedAvgと同等の一般化性能を示した。 実験では、GMLはFedAvgに比べて通信オーバーヘッドが6倍減少し、通信オーバーヘッドの16.67%しか必要としなかった。

Federated learning (FL) has emerged as a promising strategy for collaboratively training complicated machine learning models from different medical centers without the need of data sharing. However, the traditional FL relies on a central server to orchestrate the global model training among clients. This makes it vulnerable to the failure of the model server. Meanwhile, the model trained based on the global data property may not yield the best performance on the local data of a particular site due to the variations of data characteristics among them. To address these limitations, we proposed Gossip Mutual Learning(GML), a decentralized collaborative learning framework that employs Gossip Protocol for direct peer-to-peer communication and encourages each site to optimize its local model by leveraging useful information from peers through mutual learning. On the task of tumor segmentation on PET/CT images using HECKTOR21 dataset with 223 cases from five clinical sites, we demonstrated GML could improve tumor segmentation performance in terms of Dice Similarity Coefficient (DSC) by 3.2%, 4.6% and 10.4% on site-specific testing cases as compared to three baseline methods: pooled training, FedAvg and individual training, respectively. We also showed GML has comparable generalization performance as pooled training and FedAvg when applying them on 78 cases from two out-of-sample sites where no case was used for model training. In our experimental setup, GML showcased a sixfold decrease in communication overhead compared to FedAvg, requiring only 16.67% of the total communication overhead.
翻訳日:2024-01-15 21:22:19 公開日:2024-01-11
# 量子極性計量学習: 古典的学習による量子埋め込み

Quantum Polar Metric Learning: Efficient Classically Learned Quantum Embeddings ( http://arxiv.org/abs/2312.01655v2 )

ライセンス: Link先を確認
Vinayak Sharma and Aviral Shrivastava(参考訳) deep metric learningは、最近、古典的なデータドメインで非常に有望な結果を示し、十分に分離された機能空間を作成しました。 このアイデアは量子メトリックラーニング(QMeL)を通じて量子コンピュータにも適用された。 QMeLは、2段階のプロセスと古典的なモデルで構成され、データを圧縮して限られたキュービット数に収まるようにし、パラメータ化量子回路(PQC)を訓練してヒルベルト空間での分離を改善する。 しかし、ノイズ中間スケール量子(NISQ)デバイス上では。 QMeLソリューションは高い回路幅と深さをもたらし、どちらもスケーラビリティを制限している。 量子極距離学習(QPMeL)を提案し,古典的モデルを用いて量子ビットの極形パラメータを学習する。 次に、$R_y$と$R_z$の浅いPQCを使って状態を作り、$ZZ(\theta)$-gatesのトレーニング可能なレイヤで絡み合いを学習します。 この回路は、古典的および量子的両方のコンポーネントをトレーニングするために使用される、提案したFidelity Triplet Loss関数のSWAPテストを通じて、フィデリティを計算する。 QMeLアプローチと比較して、QPMeLはゲート数と深さの1/2しか使用せず、3倍優れたマルチクラス分離を実現する。 また、QPMeLは、同様の構成の古典的ネットワークよりも優れており、量子損失関数を持つ完全古典的モデルの将来的な研究の道筋を示す。

Deep metric learning has recently shown extremely promising results in the classical data domain, creating well-separated feature spaces. This idea was also adapted to quantum computers via Quantum Metric Learning(QMeL). QMeL consists of a 2 step process with a classical model to compress the data to fit into the limited number of qubits, then train a Parameterized Quantum Circuit(PQC) to create better separation in Hilbert Space. However, on Noisy Intermediate Scale Quantum (NISQ) devices. QMeL solutions result in high circuit width and depth, both of which limit scalability. We propose Quantum Polar Metric Learning (QPMeL) that uses a classical model to learn the parameters of the polar form of a qubit. We then utilize a shallow PQC with $R_y$ and $R_z$ gates to create the state and a trainable layer of $ZZ(\theta)$-gates to learn entanglement. The circuit also computes fidelity via a SWAP Test for our proposed Fidelity Triplet Loss function, used to train both classical and quantum components. When compared to QMeL approaches, QPMeL achieves 3X better multi-class separation, while using only 1/2 the number of gates and depth. We also demonstrate that QPMeL outperforms classical networks with similar configurations, presenting a promising avenue for future research on fully classical models with quantum loss functions.
翻訳日:2024-01-15 21:16:50 公開日:2024-01-11
# マルチビューアンサンブル学習のための意味保存特徴分割

Semantic-Preserving Feature Partitioning for Multi-View Ensemble Learning ( http://arxiv.org/abs/2401.06251v1 )

ライセンス: Link先を確認
Mohammad Sadegh Khorshidi, Navid Yazdanjue, Hassan Gharoun, Danial Yazdani, Mohammad Reza Nikoo, Fang Chen, Amir H. Gandomi(参考訳) 機械学習では、データの指数関数的な成長と関連する‘次元の曲線’は、特に拡張的でスパースなデータセットにおいて、大きな課題となる。 これらの課題に対処するため、マルチビューアンサンブル学習(MEL)は、MELのための人工的なビューを構築する上で重要な役割を果たす特徴分割(FP)とともに、変革的なアプローチとして登場した。 本研究では,情報理論に基づく新しい手法であるセマンティック・保存特徴分割法(SPFP)を提案する。 SPFPアルゴリズムは、データセットを複数の意味的に一貫したビューに効果的に分割し、MELプロセスを強化する。 高次元のインスタンスから高次元のインスタンスまで,8つの実世界のデータセットを広範囲に実験した結果,有効性が示された。 モデル精度を維持しつつ、高い一般化性能が達成可能なシナリオにおける不確実性対策を大幅に改善する。 逆に、高い一般化精度が得られない精度を向上しつつ、不確実性指標を保持する。 効果サイズ分析により,SPFPアルゴリズムはベンチマークモデルよりも大きな効果サイズで性能を向上し,有効次元削減による計算要求を低減していることが明らかになった。 ほとんどの実験で観察された実質的な効果の大きさは、アルゴリズムのモデル性能の大幅な改善を基礎としている。

In machine learning, the exponential growth of data and the associated ``curse of dimensionality'' pose significant challenges, particularly with expansive yet sparse datasets. Addressing these challenges, multi-view ensemble learning (MEL) has emerged as a transformative approach, with feature partitioning (FP) playing a pivotal role in constructing artificial views for MEL. Our study introduces the Semantic-Preserving Feature Partitioning (SPFP) algorithm, a novel method grounded in information theory. The SPFP algorithm effectively partitions datasets into multiple semantically consistent views, enhancing the MEL process. Through extensive experiments on eight real-world datasets, ranging from high-dimensional with limited instances to low-dimensional with high instances, our method demonstrates notable efficacy. It maintains model accuracy while significantly improving uncertainty measures in scenarios where high generalization performance is achievable. Conversely, it retains uncertainty metrics while enhancing accuracy where high generalization accuracy is less attainable. An effect size analysis further reveals that the SPFP algorithm outperforms benchmark models by large effect size and reduces computational demands through effective dimensionality reduction. The substantial effect sizes observed in most experiments underscore the algorithm's significant improvements in model performance.
翻訳日:2024-01-15 21:11:13 公開日:2024-01-11
# 目を大きく閉じて? マルチモーダルLCMの視覚的欠点を探る

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs ( http://arxiv.org/abs/2401.06209v1 )

ライセンス: Link先を確認
Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, Saining Xie(参考訳) ビジョンは言語に十分か? 近年のマルチモーダルモデルの発展は主に、大規模言語モデル(LLM)の強力な推論能力に由来する。 しかし、ビジュアルコンポーネントは通常、インスタンスレベルのコントラスト言語イメージ事前トレーニング(CLIP)にのみ依存する。 近年のMLLM(Multimodal LLM)の視覚能力は,いまだに体系的な欠点を呈している。 これらの誤りの根源を理解するために,CLIPの視覚埋め込み空間と視覚のみの自己教師型学習とのギャップについて検討する。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。 これらのペアを使って、Multimodal Visual Patterns (MMVP)ベンチマークを構築する。 MMVPは、GPT-4Vを含む最先端のシステムが、9つの基本的な視覚的パターンにまたがる簡単な質問に苦しむ領域を公開している。 さらに,様々なCLIPに基づく視覚・言語モデルの評価を行い,CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。 これらの課題に対処するための最初の取り組みとして,MLLMと視覚自己教師型学習機能を統合することで,視覚的グラウンド機能を大幅に向上させることができる,Mixture of Features (MoF)アプローチを提案する。 今後のマルチモーダルシステムでは,視覚表現学習が依然としてオープンな課題であり,正確な視覚基盤形成が不可欠であることが示唆された。

Is vision good enough for language? Recent advancements in multimodal models primarily stem from the powerful reasoning abilities of large language models (LLMs). However, the visual component typically depends only on the instance-level contrastive language-image pre-training (CLIP). Our research reveals that the visual capabilities in recent multimodal LLMs (MLLMs) still exhibit systematic shortcomings. To understand the roots of these errors, we explore the gap between the visual embedding space of CLIP and vision-only self-supervised learning. We identify ''CLIP-blind pairs'' - images that CLIP perceives as similar despite their clear visual differences. With these pairs, we construct the Multimodal Visual Patterns (MMVP) benchmark. MMVP exposes areas where state-of-the-art systems, including GPT-4V, struggle with straightforward questions across nine basic visual patterns, often providing incorrect answers and hallucinated explanations. We further evaluate various CLIP-based vision-and-language models and found a notable correlation between visual patterns that challenge CLIP models and those problematic for multimodal LLMs. As an initial effort to address these issues, we propose a Mixture of Features (MoF) approach, demonstrating that integrating vision self-supervised learning features with MLLMs can significantly enhance their visual grounding capabilities. Together, our research suggests visual representation learning remains an open challenge, and accurate visual grounding is crucial for future successful multimodal systems.
翻訳日:2024-01-15 21:10:49 公開日:2024-01-11
# LLMの飛行軌道再構成解析への可能性の探索的評価

An Exploratory Assessment of LLM's Potential Toward Flight Trajectory Reconstruction Analysis ( http://arxiv.org/abs/2401.06204v1 )

ライセンス: Link先を確認
Qilei Zhang and John H. Mott(参考訳) 大型言語モデル (LLM) は、航空、特に飛行軌道の再構築において、トランスフォーメーションの可能性を秘めている。 本稿では,LLMが逐次データ処理や複雑なデータ構造の解読に優れているという概念に基づいて,この可能性を考察する。 オープンソースのLLMであるLLaMA 2モデルを用いて、実世界のシナリオに固有の不規則性を持つ自動依存監視ブロードキャスト(ADS-B)データを用いて飛行軌跡を再構築することに焦点を当てた。 この結果から, 線形および曲線の飛行軌跡のフィルタリングおよび推定におけるモデルの有効性が示された。 しかし、この分析はLLMモデルのトークン長制限に起因して、長いデータシーケンスを管理する際の課題も明らかにしている。 研究の洞察は、飛行軌道再構築におけるLCMの約束と、航空・輸送分野にまたがる幅広い応用のための新たな道を開くことを明確にしている。

Large Language Models (LLMs) hold transformative potential in aviation, particularly in reconstructing flight trajectories. This paper investigates this potential, grounded in the notion that LLMs excel at processing sequential data and deciphering complex data structures. Utilizing the LLaMA 2 model, a pre-trained open-source LLM, the study focuses on reconstructing flight trajectories using Automatic Dependent Surveillance-Broadcast (ADS-B) data with irregularities inherent in real-world scenarios. The findings demonstrate the model's proficiency in filtering noise and estimating both linear and curved flight trajectories. However, the analysis also reveals challenges in managing longer data sequences, which may be attributed to the token length limitations of LLM models. The study's insights underscore the promise of LLMs in flight trajectory reconstruction and open new avenues for their broader application across the aviation and transportation sectors.
翻訳日:2024-01-15 21:10:23 公開日:2024-01-11
# 微調整音源分離器のアンサンブルを用いた補聴器用リミックス音楽

Remixing Music for Hearing Aids Using Ensemble of Fine-Tuned Source Separators ( http://arxiv.org/abs/2401.06203v1 )

ライセンス: Link先を確認
Matthew Daly(参考訳) 本稿では, 補聴器利用者を対象としたリミックス・エンハンスメントの課題を提示する Cadenza ICASSP 2024 Grand Challenge のシステム提案について紹介する。 本システムでは, 評価データセットにおいて, 平均聴力支援音質指標(HAAQI)の得点を達成し, 課題に先んじた。 本稿では,チャレンジデータに基づいて微調整された深層学習音源分離器を用いたシステムについて述べる。 課題の結果からシステムの有効性を実証し,アブレーション研究によって異なるシステム側面の重要性を分析する。

This paper introduces our system submission for the Cadenza ICASSP 2024 Grand Challenge, which presents the problem of remixing and enhancing music for hearing aid users. Our system placed first in the challenge, achieving the best average Hearing-Aid Audio Quality Index (HAAQI) score on the evaluation data set. We describe the system, which uses an ensemble of deep learning music source separators that are fine tuned on the challenge data. We demonstrate the effectiveness of our system through the challenge results and analyze the importance of different system aspects through ablation studies.
翻訳日:2024-01-15 21:10:07 公開日:2024-01-11
# EASYTOOL:簡潔ツール指導によるLCMエージェントの強化

EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction ( http://arxiv.org/abs/2401.06201v1 )

ライセンス: Link先を確認
Siyu Yuan, Kaitao Song, Jiangjie Chen, Xu Tan, Yongliang Shen, Ren Kan, Dongsheng Li, Deqing Yang(参考訳) 現実世界の複雑なタスクに対処するため、大規模言語モデル(LLM)の応用におけるツール利用への関心が高まっている。 LLMベースのエージェントを開発するには、通常、異なるツールドキュメントから多くのツール機能を理解する必要がある。 しかし、これらのドキュメンテーションは多様で冗長で不完全で、ツールを使用する際のllmの能力に大きな影響を与えます。 そこで本稿では,多種多様なツールドキュメントを統一的かつ簡潔なツール命令に変換するためのフレームワークであるEASYTOOLを紹介する。 EasyToolは、異なるソースの広範なツールドキュメントから必須情報を浄化し、標準化されたツール記述とLLMベースのエージェントの機能を提供する統一されたインターフェース(ツールインストラクション)を精査する。 複数のタスクに関する大規模な実験は、EasyToolがトークン消費を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることを実証している。 私たちのコードは将来的には \url{https://github.com/microsoft/JARVIS/} で利用可能になります。

To address intricate real-world tasks, there has been a rising interest in tool utilization in applications of large language models (LLMs). To develop LLM-based agents, it usually requires LLMs to understand many tool functions from different tool documentation. But these documentations could be diverse, redundant or incomplete, which immensely affects the capability of LLMs in using tools. To solve this, we introduce EASYTOOL, a framework transforming diverse and lengthy tool documentation into a unified and concise tool instruction for easier tool usage. EasyTool purifies essential information from extensive tool documentation of different sources, and elaborates a unified interface (i.e., tool instruction) to offer standardized tool descriptions and functionalities for LLM-based agents. Extensive experiments on multiple different tasks demonstrate that EasyTool can significantly reduce token consumption and improve the performance of tool utilization in real-world scenarios. Our code will be available at \url{https://github.com/microsoft/JARVIS/} in the future.
翻訳日:2024-01-15 21:09:54 公開日:2024-01-11
# xTrimoPGLM:タンパク質の言語を解読する100Bスケール事前学習トランス

xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein ( http://arxiv.org/abs/2401.06199v1 )

ライセンス: Link先を確認
Bo Chen, Xingyi Cheng, Pan Li, Yangli-ao Geng, Jing Gong, Shen Li, Zhilei Bei, Xu Tan, Boyan Wang, Xin Zeng, Chiming Liu, Aohan Zeng, Yuxiao Dong, Jie Tang, Le Song(参考訳) タンパク質言語モデルは、タンパク質配列から生物情報を学ぶことに顕著な成功を示している。 しかし、既存のモデルのほとんどは、自動エンコーディングまたは自己回帰的事前学習目標によって制限されており、タンパク質の理解と生成タスクの同時処理に苦労している。 本稿では,これら2種類のタスクを同時に,革新的な事前学習フレームワークを通じて処理するための統一型タンパク質言語モデルxTrimoPGLMを提案する。 我々の重要な技術的貢献は、2種類の目標の互換性と共同最適化の可能性を探究することであり、xTrimoPGLMを1000億のパラメータと1兆のトレーニングトークンで前例のない規模でトレーニングする戦略につながった。 我々の広範な実験は 1) xTrimoPGLMは4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて,他の高度なベースラインよりも有意に優れていた。 このモデルはまた、タンパク質構造の原子分解能ビューを促進し、既存の言語モデルベースのツールを超える高度な3D構造予測モデルをもたらす。 2) xTrimoPGLMは自然界の原理に従ってデノボタンパク質配列を生成できるだけでなく,キュレートされた配列上で制御された微細チューニング(SFT)後にプログラム可能な生成を行うこともできる。 これらの結果は、タンパク質配列の理解と生成におけるxTrimoPGLMの実質的な能力と汎用性を強調し、タンパク質科学の基礎モデルの進化に寄与する。

Protein language models have shown remarkable success in learning biological information from protein sequences. However, most existing models are limited by either autoencoding or autoregressive pre-training objectives, which makes them struggle to handle protein understanding and generation tasks concurrently. We propose a unified protein language model, xTrimoPGLM, to address these two types of tasks simultaneously through an innovative pre-training framework. Our key technical contribution is an exploration of the compatibility and the potential for joint optimization of the two types of objectives, which has led to a strategy for training xTrimoPGLM at an unprecedented scale of 100 billion parameters and 1 trillion training tokens. Our extensive experiments reveal that 1) xTrimoPGLM significantly outperforms other advanced baselines in 18 protein understanding benchmarks across four categories. The model also facilitates an atomic-resolution view of protein structures, leading to an advanced 3D structural prediction model that surpasses existing language model-based tools. 2) xTrimoPGLM not only can generate de novo protein sequences following the principles of natural ones, but also can perform programmable generation after supervised fine-tuning (SFT) on curated sequences. These results highlight the substantial capability and versatility of xTrimoPGLM in understanding and generating protein sequences, contributing to the evolving landscape of foundation models in protein science.
翻訳日:2024-01-15 21:09:35 公開日:2024-01-11
# 効率的な変形可能なConvNet:ビジョンアプリケーションのための動的およびスパース演算子の再考

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications ( http://arxiv.org/abs/2401.06197v1 )

ライセンス: Link先を確認
Yuwen Xiong, Zhiqi Li, Yuntao Chen, Feng Wang, Xizhou Zhu, Jiapeng Luo, Wenhai Wang, Tong Lu, Hongsheng Li, Yu Qiao, Lewei Lu, Jie Zhou, Jifeng Dai(参考訳) Deformable Convolution v4 (DCNv4) は広帯域の視覚アプリケーション向けに設計された高効率かつ効率的な演算子である。 DCNv4は、前任のDCNv3の制限に対処する。 1.空間集約におけるソフトマックス正規化の除去とその動的特性と表現力の向上と 2. メモリアクセスの最適化により、スピードアップのための冗長な操作を最小限に抑える。 これらの改善により、DCNv3に比べてはるかに早く収束し、処理速度が大幅に向上し、DCNv4は前方速度の3倍以上に到達した。 DCNv4は、画像分類、インスタンスとセマンティックセグメンテーション、特に画像生成など、様々なタスクで例外的なパフォーマンスを示す。 潜在拡散モデルでu-netのような生成モデルに統合されると、dcnv4はそのベースラインを上回り、生成モデルを強化する可能性を強調する。 実用的なアプリケーションでは、インターン画像モデルでdcnv3をdcnv4に置き換えてflashinternimageを作成すると、80%の速度向上とさらなる性能向上が図られる。 DCNv4の速度と効率の進歩は、様々な視覚タスクにまたがる堅牢な性能と相まって、将来の視覚モデルの基礎となるビルディングブロックとしての可能性を示している。

We introduce Deformable Convolution v4 (DCNv4), a highly efficient and effective operator designed for a broad spectrum of vision applications. DCNv4 addresses the limitations of its predecessor, DCNv3, with two key enhancements: 1. removing softmax normalization in spatial aggregation to enhance its dynamic property and expressive power and 2. optimizing memory access to minimize redundant operations for speedup. These improvements result in a significantly faster convergence compared to DCNv3 and a substantial increase in processing speed, with DCNv4 achieving more than three times the forward speed. DCNv4 demonstrates exceptional performance across various tasks, including image classification, instance and semantic segmentation, and notably, image generation. When integrated into generative models like U-Net in the latent diffusion model, DCNv4 outperforms its baseline, underscoring its possibility to enhance generative models. In practical applications, replacing DCNv3 with DCNv4 in the InternImage model to create FlashInternImage results in up to 80% speed increase and further performance improvement without further modifications. The advancements in speed and efficiency of DCNv4, combined with its robust performance across diverse vision tasks, show its potential as a foundational building block for future vision models.
翻訳日:2024-01-15 21:09:11 公開日:2024-01-11
# NeuSpin:グリーンAIのためのスピントロニクスに基づく信頼性の高いエッジニューロモルフィックシステムの設計

NeuSpin: Design of a Reliable Edge Neuromorphic System Based on Spintronics for Green AI ( http://arxiv.org/abs/2401.06195v1 )

ライセンス: Link先を確認
Soyed Tuhin Ahmed, Kamal Danouchi, Guillaume Prenat, Lorena Anghel, Mehdi B. Tahoori(参考訳) IoT(Internet of Things)と、パーソナライズされたヘルスケアのためのスマートウェアラブルデバイスは、継続的に増加するデータの保存と計算を必要とします。 これらのデバイスの主要な要件は、超低消費電力、高処理能力、低コストでの自律性、エッジでGreen AIを有効にするための信頼性と正確性である。 人工知能(AI)モデル、特にベイジアンニューラルネットワーク(BayNN)はリソース集約型であり、メモリウォールの問題による従来のコンピューティングアーキテクチャの課題に直面している。 CIM(Computer-in-Memory)は、メモリブロックとコンピュータユニットを組み合わせることで、高効率と低消費電力を実現する。 しかし、特にスピントロニクス技術を用いたCIMハードウェア上でのBayNNの実装は、可変性と製造欠陥による技術的課題を提起している。 NeuSPINプロジェクトは、フルスタックのハードウェアとソフトウェアの共同設計を通じてこれらの課題に対処することを目的としており、スポロニックベースのCIMプラットフォーム上でのBayNNの性能、エネルギー効率、堅牢性を向上させる新しいアルゴリズムと回路設計アプローチを開発している。

Internet of Things (IoT) and smart wearable devices for personalized healthcare will require storing and computing ever-increasing amounts of data. The key requirements for these devices are ultra-low-power, high-processing capabilities, autonomy at low cost, as well as reliability and accuracy to enable Green AI at the edge. Artificial Intelligence (AI) models, especially Bayesian Neural Networks (BayNNs) are resource-intensive and face challenges with traditional computing architectures due to the memory wall problem. Computing-in-Memory (CIM) with emerging resistive memories offers a solution by combining memory blocks and computing units for higher efficiency and lower power consumption. However, implementing BayNNs on CIM hardware, particularly with spintronic technologies, presents technical challenges due to variability and manufacturing defects. The NeuSPIN project aims to address these challenges through full-stack hardware and software co-design, developing novel algorithmic and circuit design approaches to enhance the performance, energy-efficiency and robustness of BayNNs on sprintronic-based CIM platforms.
翻訳日:2024-01-15 21:08:47 公開日:2024-01-11
# CrisisKAN: 危機イベント分類のための知識注入型マルチモーダル注意ネットワーク

CrisisKAN: Knowledge-infused and Explainable Multimodal Attention Network for Crisis Event Classification ( http://arxiv.org/abs/2401.06194v1 )

ライセンス: Link先を確認
Shubham Gupta, Nandini Saini, Suman Kundu, Debasis Das(参考訳) ソーシャルメディアの普及は、様々な出来事を識別するためのリアルタイム情報(画像、テキスト、またはその両方)の新興源となっている。 画像とテキストベースのイベント分類の急速な発展にもかかわらず、最先端(SOTA)モデルは、一貫性のないエンコーディングによる画像とテキストのモダリティのセマンティックなギャップを埋めることが困難である。 また、モデルのブラックボックスの性質は、災害やパンデミックといった高リスクな状況における信頼を構築するためのモデルの結果を説明できない。 さらに、ソーシャルメディア投稿に課される制限は、特定の出来事に対する偏見をもたらす可能性がある。 そこで我々は,wikipediaの外部知識と連動して危機事象を分類し,画像とテキストを包含する,知識を融合して説明可能なマルチモーダル・アテンション・ネットワークである crisiskan を提案する。 テキスト情報の文脈固有の理解を深めるために,提案したwiki抽出アルゴリズムを用いてウィキペディアの知識を統合する。 これに加えて、視覚データとテキストデータの統合におけるセマンティックギャップを埋めるために、ガイド付きクロスアテンションモジュールが実装されている。 信頼性を確保するために,グラデーション強調クラスアクティベーションマッピング (grad-cam) と呼ばれるモデル固有のアプローチを採用し,提案モデルの予測の堅牢な説明を提供する。 CrisisMMDデータセットで実施された包括的な実験は、様々な危機固有のタスクや設定にわたって詳細な分析をもたらす。 その結果、CrisisKANは既存のSOTA手法より優れており、説明可能なマルチモーダルイベント分類の領域において新しい視点を提供する。

Pervasive use of social media has become the emerging source for real-time information (like images, text, or both) to identify various events. Despite the rapid growth of image and text-based event classification, the state-of-the-art (SOTA) models find it challenging to bridge the semantic gap between features of image and text modalities due to inconsistent encoding. Also, the black-box nature of models fails to explain the model's outcomes for building trust in high-stakes situations such as disasters, pandemic. Additionally, the word limit imposed on social media posts can potentially introduce bias towards specific events. To address these issues, we proposed CrisisKAN, a novel Knowledge-infused and Explainable Multimodal Attention Network that entails images and texts in conjunction with external knowledge from Wikipedia to classify crisis events. To enrich the context-specific understanding of textual information, we integrated Wikipedia knowledge using proposed wiki extraction algorithm. Along with this, a guided cross-attention module is implemented to fill the semantic gap in integrating visual and textual data. In order to ensure reliability, we employ a model-specific approach called Gradient-weighted Class Activation Mapping (Grad-CAM) that provides a robust explanation of the predictions of the proposed model. The comprehensive experiments conducted on the CrisisMMD dataset yield in-depth analysis across various crisis-specific tasks and settings. As a result, CrisisKAN outperforms existing SOTA methodologies and provides a novel view in the domain of explainable multimodal event classification.
翻訳日:2024-01-15 21:08:26 公開日:2024-01-11
# TriNeRFLet: ウェーブレットに基づくマルチスケールトリプレーンNeRF表現

TriNeRFLet: A Wavelet Based Multiscale Triplane NeRF Representation ( http://arxiv.org/abs/2401.06191v1 )

ライセンス: Link先を確認
Rajaei Khatib and Raja Giryes(参考訳) 近年,複雑な3Dシーンを復元する能力により,ニューラルレイディアンス・フィールド(NeRF)モデルが人気を集めている。 成功の後、多くのアプローチがランタイムとパフォーマンスの両方を改善するために異なるNeRF表現を提案した。 例えばTriplaneでは、NeRFは3つの2次元特徴平面で表される。 これにより、このフレームワークで既存の2Dニューラルネットワークを簡単に使用でき、3つの平面を生成することができる。 その利点にもかかわらず、三面体表現は、nerfソリューションに比べて3dリカバリ品質に遅れを取っていた。 本研究では,3次元復元性能のギャップを解消し,現状の手法と競合する2次元ウェーブレット型多次元三平面表現であるtrinerfletを提案する。 また,三面体フレームワークを基盤として,拡散モデルとTriNeRFLetを組み合わせた新しい超解像(SR)手法を提案する。

In recent years, the neural radiance field (NeRF) model has gained popularity due to its ability to recover complex 3D scenes. Following its success, many approaches proposed different NeRF representations in order to further improve both runtime and performance. One such example is Triplane, in which NeRF is represented using three 2D feature planes. This enables easily using existing 2D neural networks in this framework, e.g., to generate the three planes. Despite its advantage, the triplane representation lagged behind in its 3D recovery quality compared to NeRF solutions. In this work, we propose TriNeRFLet, a 2D wavelet-based multiscale triplane representation for NeRF, which closes the 3D recovery performance gap and is competitive with current state-of-the-art methods. Building upon the triplane framework, we also propose a novel super-resolution (SR) technique that combines a diffusion model with TriNeRFLet for improving NeRF resolution.
翻訳日:2024-01-15 21:07:56 公開日:2024-01-11
# 現状:状態ベクトルとテンソルネットワーク法のGPU性能評価

State of practice: evaluating GPU performance of state vector and tensor network methods ( http://arxiv.org/abs/2401.06188v1 )

ライセンス: Link先を確認
Marzio Vallero, Flavio Vella, Paolo Rech(参考訳) 古典的ハードウェアにおける量子コンピューティング(qc)シミュレーションのフロンティアは、計算可能性のハードスケーラビリティの限界に急速に達している。 それでも、ノイズの多い中間スケール量子(nisq)デバイスは、毎秒の演算の面ではフォールトトレラントかつパフォーマンスに十分考慮されていないため、古典的に大きな量子システムをシミュレートする必要がある。 状態ベクトルとテンソルネットワークシミュレータの2つの主要な正確なシミュレーション技術には、それぞれ特定の制限がある。 状態ベクトルシミュレーションの指数メモリ要求は、現在利用可能な量子コンピュータのqubitレジスタサイズと比較すると、すぐに現在利用可能な上位HPCマシンの容量が飽和する。 テンソルネットワークの縮約アプローチは、量子回路をテンソルネットワークにエンコードし、その確率振幅を得るために出力ビット列上でそれらを縮約するが、それでも最適な縮約経路を見つけるという固有の複雑さに欠ける。 本稿は,31の異なる構成の8種類の量子サブルーチンからなるテストベンチ上での最先端シミュレーション手法の限界について,特に性能に重点を置いて検討することを目的とする。 次に,ベンチマーク回路を特徴付ける指標とシミュレータの性能指標を相関させ,観測された性能傾向の背景にある主な要因を同定する。 私たちの観察では、量子回路の構造と量子ビット数を考えると、最高のシミュレーション戦略をどのように選択するかを強調し、最大1桁のスピードアップを得る。

The frontier of quantum computing (QC) simulation on classical hardware is quickly reaching the hard scalability limits for computational feasibility. Nonetheless, there is still a need to simulate large quantum systems classically, as the Noisy Intermediate Scale Quantum (NISQ) devices are yet to be considered fault tolerant and performant enough in terms of operations per second. Each of the two main exact simulation techniques, state vector and tensor network simulators, boasts specific limitations. The exponential memory requirement of state vector simulation, when compared to the qubit register sizes of currently available quantum computers, quickly saturates the capacity of the top HPC machines currently available. Tensor network contraction approaches, which encode quantum circuits into tensor networks and then contract them over an output bit string to obtain its probability amplitude, still fall short of the inherent complexity of finding an optimal contraction path, which maps to a max-cut problem on a dense mesh, a notably NP-hard problem. This article aims at investigating the limits of current state-of-the-art simulation techniques on a test bench made of eight widely used quantum subroutines, each in 31 different configurations, with special emphasis on performance. We then correlate the performance measures of the simulators with the metrics that characterise the benchmark circuits, identifying the main reasons behind the observed performance trend. From our observations, given the structure of a quantum circuit and the number of qubits, we highlight how to select the best simulation strategy, obtaining a speedup of up to an order of magnitude.
翻訳日:2024-01-15 21:07:28 公開日:2024-01-11
# scissorhands:ネットワークの接続感度によるデータのスクラブ

Scissorhands: Scrub Data Influence via Connection Sensitivity in Networks ( http://arxiv.org/abs/2401.06187v1 )

ライセンス: Link先を確認
Jing Wu and Mehrtash Harandi(参考訳) 機械学習は、トレーニングされたモデルからデータの影響を消すための重要なタスクになっている。 これは最近のデータ規制基準に準拠し、機械学習アプリケーションのプライバシとセキュリティを強化する。 しかし、既存の機械学習手法の多くはうまく機能するが、通常は残りのデータ全体にアクセスする必要があり、それは特定のシナリオでは実現できないかもしれない。 そこで本研究では,学習データのサブセットのみを用いて効果的に動作する新しい機械学習手法であるsassorhandsを提案する。 当初、Scisorhandsは接続感度による忘れたデータに対して、与えられたモデルの中で最も重要なパラメータを識別する。 このプロセスは、これらのパラメータの最も影響力のあるk$パーセントを再起動させ、結果として、忘れるデータの影響を消去するトリミングモデルをもたらす。 その後、Scisorhandsはmin-max最適化プロセスを通じてトリミングされたモデルをトレーニングし、残りのデータに関する情報を保存し、忘れたデータに関する情報を破棄するパラメータを求める。 5つのデータセットにまたがって実施し,cnn と vit を併用した実験結果から,sassorhands はトレーニングデータの一部しか利用していないものの,既存の手法と比較した場合の競争力を示す。

Machine unlearning has become a pivotal task to erase the influence of data from a trained model. It adheres to recent data regulation standards and enhances the privacy and security of machine learning applications. Most existing machine unlearning methods perform well, however, they typically necessitate access to the entirety of the remaining data, which might not be feasible in certain scenarios. In this work, we present a new machine unlearning approach Scissorhands, which operates effectively with only a subset of the training data. Initially, Scissorhands identifies the most pertinent parameters in the given model relative to the forgetting data via connection sensitivity. This process involves reinitializing the most influential top-$k$ percent of these parameters, resulting in a trimmed model for erasing the influence of the forgetting data. Subsequently, Scissorhands retrains the trimmed model through a min-max optimization process, seeking parameters that preserve information on the remaining data while discarding information related to the forgetting data. Our experimental results, conducted across five distinct datasets and utilizing both CNN and ViT, demonstrate that Scissorhands, despite utilizing only a limited portion of the training data, showcases competitive performance when compared to existing methods.
翻訳日:2024-01-15 21:06:40 公開日:2024-01-11
# 内部整合性記述におけるrqmの仮定の正当化としての小沢の単射性定理

Ozawa's Intersubjectivity Theorem as justification of RQM's postulate on internally consistent descriptions ( http://arxiv.org/abs/2401.06185v1 )

ライセンス: Link先を確認
Andrei Khrennikov(参考訳) OIT(Intersubjectivity Theorem)は、量子測定理論の中で証明され、内部的に一貫した記述に基づく関係量子力学(RQM)の新しい仮定を支持する。 しかし、OITの観点からは、仮説の定式化は確率再現性の仮定によって完了するべきである

The Ozawa's Intersubjectivity Theorem (OIT) proved within quantum measurement theory supports the new postulate of relational quantum mechanics (RQM), the postulate on internally consistent descriptions. But from OIT viewpoint postulate's formulation should be completed by the assumption of probability reproducibility
翻訳日:2024-01-15 21:06:05 公開日:2024-01-11
# Bark, mBARTおよび微調整XLSR Wav2Vec2を用いたヒンディー語から英語への変換

End to end Hindi to English speech conversion using Bark, mBART and a finetuned XLSR Wav2Vec2 ( http://arxiv.org/abs/2401.06183v1 )

ライセンス: Link先を確認
Aniket Tathe, Anand Kamble, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra(参考訳) 音声は長い間、効果的なコミュニケーションと接続の障壁であり、ますます相互に繋がる世界の挑戦として続いている。 本稿では、ヒンディー語から英語への翻訳用に調整されたエンドツーエンド音声変換フレームワークにおいて、この永続的な障害に対するトランスフォーメーションソリューションを提案する。 自動音声認識(ASR)のためのXLSR Wav2Vec2、ニューラルネットワーク翻訳(NMT)のためのmBART、テキスト音声合成(TTS)コンポーネントといった最先端技術を統合することで、このフレームワークは言語間通信に対する統一的でシームレスなアプローチを提供する。 我々は、各コンポーネントの複雑な詳細を掘り下げ、個々のコントリビューションを解明し、ヒンディー語から合成英語音声への流動的な遷移を可能にするシナジーを探索する。

Speech has long been a barrier to effective communication and connection, persisting as a challenge in our increasingly interconnected world. This research paper introduces a transformative solution to this persistent obstacle an end-to-end speech conversion framework tailored for Hindi-to-English translation, culminating in the synthesis of English audio. By integrating cutting-edge technologies such as XLSR Wav2Vec2 for automatic speech recognition (ASR), mBART for neural machine translation (NMT), and a Text-to-Speech (TTS) synthesis component, this framework offers a unified and seamless approach to cross-lingual communication. We delve into the intricate details of each component, elucidating their individual contributions and exploring the synergies that enable a fluid transition from spoken Hindi to synthesized English audio.
翻訳日:2024-01-15 21:05:23 公開日:2024-01-11
# 軌道情報と運命情報による細胞識別の予測

Prediction of Cellular Identities from Trajectory and Cell Fate Information ( http://arxiv.org/abs/2401.06182v1 )

ライセンス: Link先を確認
Baiyang Dai, Jiamin Yang, Hari Shroff, Patrick La Riviere(参考訳) 画像配列における細胞同定は重要な課題である。 従来の細胞同定法は、複雑で時間を要する細胞追跡法である。 本研究では,機械学習を用いた初期c. elegans胚発生過程における細胞同定の革新的アプローチを提案する。 まず, ランダム森林, MLP, LSTMモデルを用い, 最初の4時間にわたる3次元時間ラプス共焦点データセットの細胞分類精度を調べた。 細胞軌跡や細胞運命情報など,個々の細胞の空間的・時間的特徴を少数活用することで,限られたデータでも90%以上の精度を実現する。 また、最も重要な特徴の貢献を判断し、生物学的知識の文脈でこれらの特徴を解釈することができる。 本研究は, 簡単な時空間的特徴から, 4次元画像系列における細胞アイデンティティの予測に成功したことを示す。

Determining cell identities in imaging sequences is an important yet challenging task. The conventional method for cell identification is via cell tracking, which is complex and can be time-consuming. In this study, we propose an innovative approach to cell identification during early C. elegans embryogenesis using machine learning. We employed random forest, MLP, and LSTM models, and tested cell classification accuracy on 3D time-lapse confocal datasets spanning the first 4 hours of embryogenesis. By leveraging a small number of spatial-temporal features of individual cells, including cell trajectory and cell fate information, our models achieve an accuracy of over 90%, even with limited data. We also determine the most important feature contributions and can interpret these features in the context of biological knowledge. Our research demonstrates the success of predicting cell identities in 4D imaging sequences directly from simple spatio-temporal features.
翻訳日:2024-01-15 21:04:52 公開日:2024-01-11
# Qrlew: SQLを微分プライベートなSQLに書き換える

Qrlew: Rewriting SQL into Differentially Private SQL ( http://arxiv.org/abs/2401.06273v1 )

ライセンス: Link先を確認
Nicolas Grislain, Paul Roussel, Victoria de Sainte Agathe(参考訳) 本稿では、SQLクエリをリレーショナル(中間表現)に解析するオープンソースライブラリであるQrlewを紹介し、リッチなデータ型、値範囲、行のオーナシップをトラックする。 Qrlewでは、データ実践者が標準のSQLでデータクエリを表現できる。データ所有者は、技術的統合なしに書き直されたクエリを実行でき、出力に対して強力なプライバシ保証を持つ。クエリ書き換えは、所有者に信頼されなければならないが、別の組織に属するかもしれないプライバシー専門家によって操作できる。

This paper introduces Qrlew, an open source library that can parse SQL queries into Relations -- an intermediate representation -- that keeps track of rich data types, value ranges, and row ownership; so that they can easily be rewritten into differentially-private equivalent and turned back into SQL queries for execution in a variety of standard data stores. With Qrlew, a data practitioner can express their data queries in standard SQL; the data owner can run the rewritten query without any technical integration and with strong privacy guarantees on the output; and the query rewriting can be operated by a privacy-expert who must be trusted by the owner, but may belong to a separate organization.
翻訳日:2024-01-15 20:58:08 公開日:2024-01-11
# CTにおける縦隔リンパ節の解剖学的検討

Segmentation of Mediastinal Lymph Nodes in CT with Anatomical Priors ( http://arxiv.org/abs/2401.06272v1 )

ライセンス: Link先を確認
Tejas Sudharshan Mathai, Bohan Liu, Ronald M. Summers(参考訳) 目的:胸部リンパ節(LNs)は,肺癌や肺炎などの諸疾患により増大する傾向にある。 臨床医は通常、結節の大きさを測定し、疾患の進行を監視し、転移性癌を確認し、治療反応を評価する。 しかし、その形状や外観のバリエーションは、ほとんどの臓器の外にあるLNを識別することが困難である。 方法: 公的なTotalSegmentatorツールによって生成された28の異なる構造(肺,気管など)の解剖学的先行性を利用して縦隔にLNを分画することを提案する。 公開NIH CT Lymph Nodeデータセットで利用可能な89人の患者のCTボリュームを使用して、3D nnUNetモデルをトレーニングし、LNをセグメンテーションした。 セグメンテーション性能の評価には15例の患者(訓練外分布)を含むst. olavsデータセットを用いた。 結果: 短軸径$\geq$8mm, 全LNの54.8+-23.8の縦隔LNでは, 3DカスケードnnUNetモデルが最も高いDiceスコアが72.2+-22.3であった。 これらの結果は、同じテストデータセットで評価された現在のアプローチよりも10ポイントの改善を示している。 結論:我々の知識では,28の異なる解剖学的前兆をセグメンテーション縦隔lsnに応用し,その成果を体内の他の結節域にまで拡張することができる。 提案手法は, 初期ステージングCTにおける拡張ノードの同定により, 患者の予後を向上する大きな可能性を秘めている。

Purpose: Lymph nodes (LNs) in the chest have a tendency to enlarge due to various pathologies, such as lung cancer or pneumonia. Clinicians routinely measure nodal size to monitor disease progression, confirm metastatic cancer, and assess treatment response. However, variations in their shapes and appearances make it cumbersome to identify LNs, which reside outside of most organs. Methods: We propose to segment LNs in the mediastinum by leveraging the anatomical priors of 28 different structures (e.g., lung, trachea etc.) generated by the public TotalSegmentator tool. The CT volumes from 89 patients available in the public NIH CT Lymph Node dataset were used to train three 3D nnUNet models to segment LNs. The public St. Olavs dataset containing 15 patients (out-of-training-distribution) was used to evaluate the segmentation performance. Results: For the 15 test patients, the 3D cascade nnUNet model obtained the highest Dice score of 72.2 +- 22.3 for mediastinal LNs with short axis diameter $\geq$ 8mm and 54.8 +- 23.8 for all LNs respectively. These results represent an improvement of 10 points over a current approach that was evaluated on the same test dataset. Conclusion: To our knowledge, we are the first to harness 28 distinct anatomical priors to segment mediastinal LNs, and our work can be extended to other nodal zones in the body. The proposed method has immense potential for improved patient outcomes through the identification of enlarged nodes in initial staging CT scans.
翻訳日:2024-01-15 20:57:54 公開日:2024-01-11
# 超高速二階非線形フォトニクス-古典物理学から非ガウス量子力学へ

Ultrafast second-order nonlinear photonics -- from classical physics to non-Gaussian quantum dynamics ( http://arxiv.org/abs/2401.06265v1 )

ライセンス: Link先を確認
Marc Jankowski, Ryotatsu Yanagimoto, Edwin Ng, Ryan Hamerly, Timothy P. McKenna, Hideo Mabuchi, and M. M. Fejer(参考訳) 2階(\chi^{(2)}$)の非線形性を持つフォトニック集積回路は急速に低電力に拡大している。 このとき、最先端のデバイスは連続波レーザーによって駆動される際に数千個の光子と飽和な非線形相互作用を達成し、超高速パルスによって実現されるこれらのエネルギー要求のさらなる削減は、すぐに非線形光学を単光子非線形性の領域に押し込むかもしれない。 本稿では、超高速非線形フォトニクスにおける最近の展開を概観し、極小光子非線形相互作用を実現するための設計戦略を論じ、古典的振る舞いから極小光子スケールまでスムーズに補間する枠組みを用いて超高速量子非線形光学を統一的に扱うことを提案する。 これらの量子光学用プラットフォームは、多数の結合光学モードのために空洞量子力学の典型的な実現と根本的に異なる。 古典的には、多重モードの挙動は非線形光学においてよく研究されており、ソリトン形成や超連続生成などの有名な例がある。 対照的に、マルチモード量子系はより多様な振る舞いを示すが、閉形式解は古典的解よりもさらにスパースである。 超高速量子光学の枠組みを開発する際には、古典的から量子的デバイスへどのような行動が受け継がれるのか、どんな直観を捨てるべきなのか、超高速および量子非線形光学の交点に新しい機会が存在するのかを識別する。 この記事では、$\chi^{(2)}$ の非線形性を持つデバイスの古典的および量子的挙動の接続を確立することに焦点を当てるが、ここで開発されたフレームワークは一般に、第三次($\chi^{(3)}$)非線形性に基づく動的過程の記述に容易に拡張できる。

Photonic integrated circuits with second-order ($\chi^{(2)}$) nonlinearities are rapidly scaling to remarkably low powers. At this time, state-of-the-art devices achieve saturated nonlinear interactions with thousands of photons when driven by continuous-wave lasers, and further reductions in these energy requirements enabled by the use of ultrafast pulses may soon push nonlinear optics into the realm of single-photon nonlinearities. This tutorial reviews these recent developments in ultrafast nonlinear photonics, discusses design strategies for realizing few-photon nonlinear interactions, and presents a unified treatment of ultrafast quantum nonlinear optics using a framework that smoothly interpolates from classical behaviors to the few-photon scale. These emerging platforms for quantum optics fundamentally differ from typical realizations in cavity quantum electrodynamics due to the large number of coupled optical modes. Classically, multimode behaviors have been well studied in nonlinear optics, with famous examples including soliton formation and supercontinuum generation. In contrast, multimode quantum systems exhibit a far greater variety of behaviors, and yet closed-form solutions are even sparser than their classical counterparts. In developing a framework for ultrafast quantum optics, we will identify what behaviors carry over from classical to quantum devices, what intuition must be abandoned, and what new opportunities exist at the intersection of ultrafast and quantum nonlinear optics. While this article focuses on establishing connections between the classical and quantum behaviors of devices with $\chi^{(2)}$ nonlinearities, the frameworks developed here are general and are readily extended to the description of dynamical processes based on third-order ($\chi^{(3)}$) nonlinearities.
翻訳日:2024-01-15 20:57:26 公開日:2024-01-11
# FedTabDiff:合成混合型語彙データ生成のための拡散確率モデルのフェデレーション学習

FedTabDiff: Federated Learning of Diffusion Probabilistic Models for Synthetic Mixed-Type Tabular Data Generation ( http://arxiv.org/abs/2401.06263v1 )

ライセンス: Link先を確認
Timur Sattarov, Marco Schreyer, Damian Borth(参考訳) リアルな合成表データ生成は、特に金融や医療といった分野の機密情報を扱う場合、プライバシーを守る上で大きな課題に直面する。 本稿では,元の表型データセットに一元アクセスすることなく,高忠実度な混合型表型データを生成するための \textit{federated tabular diffusion} (fedtabdiff) を導入する。 textit{denoising diffusion probabilistic models} (ddpms) の強みを活用することで,属性の混合型や暗黙的な関係など,表データに固有の複雑さに対処した。 より批判的に、feedtabdiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同して生成モデルをトレーニングできる分散学習スキームを実現する。 DDPMを表データ生成のためのフェデレーション設定に拡張し、同期更新スキームと効果的なモデルアグリゲーションのための重み付き平均化を含む。 実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を示す。

Realistic synthetic tabular data generation encounters significant challenges in preserving privacy, especially when dealing with sensitive information in domains like finance and healthcare. In this paper, we introduce \textit{Federated Tabular Diffusion} (FedTabDiff) for generating high-fidelity mixed-type tabular data without centralized access to the original tabular datasets. Leveraging the strengths of \textit{Denoising Diffusion Probabilistic Models} (DDPMs), our approach addresses the inherent complexities in tabular data, such as mixed attribute types and implicit relationships. More critically, FedTabDiff realizes a decentralized learning scheme that permits multiple entities to collaboratively train a generative model while respecting data privacy and locality. We extend DDPMs into the federated setting for tabular data generation, which includes a synchronous update scheme and weighted averaging for effective model aggregation. Experimental evaluations on real-world financial and medical datasets attest to the framework's capability to produce synthetic data that maintains high fidelity, utility, privacy, and coverage.
翻訳日:2024-01-15 20:56:57 公開日:2024-01-11
# プロトタイピングAGIのためのユニバーサル知識モデルと認知アーキテクチャ

A Universal Knowledge Model and Cognitive Architecture for Prototyping AGI ( http://arxiv.org/abs/2401.06256v1 )

ライセンス: Link先を確認
Artem Sukhobokov, Evgeny Belousov, Danila Gromozdov, Anna Zenger and Ilya Popov(参考訳) この記事では、一般人工知能(AGI)を作成するための42の認知アーキテクチャを特定し、AGIに近づくエージェントが持つべき機能ブロックのセットを提案する。 既存のアーキテクチャのどれにも要求されるブロックセットは見つからないため、この記事では、AGIに近づいたインテリジェントシステムのための新しい認知アーキテクチャを提案する。 As one of the key solutions within the framework of the architecture, a universal method of knowledge representation is proposed, which allows combining various non-formalized, partially and fully formalized methods of knowledge representation in a single knowledge base, such as texts in natural languages, images, audio and video recordings, graphs, algorithms, databases, neural networks, knowledge graphs, ontologies, frames, essence-property-relation models, production systems, predicate calculus models, conceptual models, and others. 様々な知識の断片を組み合わせ、構成するために、注釈付きメタグラフの開発のために構築されたアーキグラフモデルを使用する。 開発中の認知アーキテクチャは、機械意識、機械意識、外部環境との相互作用ブロック、ゴール管理ブロック、感情制御システム、社会的相互作用ブロック、リフレクションブロック、倫理ブロック、ワールドビューブロック、学習ブロック、モニタリングブロック、ステートメントと問題解決ブロック、自己組織化とメタ学習ブロックを含む。

The article identified 42 cognitive architectures for creating general artificial intelligence (AGI) and proposed a set of interrelated functional blocks that an agent approaching AGI in its capabilities should possess. Since the required set of blocks is not found in any of the existing architectures, the article proposes a new cognitive architecture for intelligent systems approaching AGI in their capabilities. As one of the key solutions within the framework of the architecture, a universal method of knowledge representation is proposed, which allows combining various non-formalized, partially and fully formalized methods of knowledge representation in a single knowledge base, such as texts in natural languages, images, audio and video recordings, graphs, algorithms, databases, neural networks, knowledge graphs, ontologies, frames, essence-property-relation models, production systems, predicate calculus models, conceptual models, and others. To combine and structure various fragments of knowledge, archigraph models are used, constructed as a development of annotated metagraphs. As components, the cognitive architecture being developed includes machine consciousness, machine subconsciousness, blocks of interaction with the external environment, a goal management block, an emotional control system, a block of social interaction, a block of reflection, an ethics block and a worldview block, a learning block, a monitoring block, blocks of statement and solving problems, self-organization and meta learning block.
翻訳日:2024-01-15 20:56:35 公開日:2024-01-11
# agspnet:農業用地形制約付きuav高分解能画像からのパーセルスケール作物の細粒度意味変化検出のためのフレームワーク

AGSPNet: A framework for parcel-scale crop fine-grained semantic change detection from UAV high-resolution imagery with agricultural geographic scene constraints ( http://arxiv.org/abs/2401.06252v1 )

ライセンス: Link先を確認
Shaochun Li, Yanjun Wang, Hengfan Cai, Lina Deng, Yunhao Lin(参考訳) 作物栽培の細粒度変化に関するリアルタイムかつ正確な情報は,作物生育モニタリング,収量予測,農業構造調整において非常に重要である。 Aiming at the problems of serious spectral confusion in visible high-resolution unmanned aerial vehicle (UAV) images of different phases, interference of large complex background and salt-and-pepper noise by existing semantic change detection (SCD) algorithms, in order to effectively extract deep image features of crops and meet the demand of agricultural practical engineering applications, this paper designs and proposes an agricultural geographic scene and parcel-scale constrained SCD framework for crops (AGSPNet). AGSPNetフレームワークには、農業地理シーン(AGS)分割モジュール、パーセルエッジ抽出モジュール、作物SCDモジュールの3つの部分が含まれている。 一方,複雑な地理的環境下での作物の複数の意味的変動を包含する,農業モニタリング専用のUAV画像SCDデータセット(CSCD)を作成した。 本研究では,本データセットの2つのテスト領域における比較実験と精度評価を行い,agspnetのクロップscd結果が,平均で0.038,0.021,0.011,0.062の改善を得た評価指標f1-score,kappa,oa,miouを用いて,他の深層学習scdモデルに一貫して勝ることを示した。 本稿では, 複雑な環境下での作物の粒度変化情報を明確に検出し, スマート農業のモニタリングと管理, 食料政策の定式化, 食品安全保証の科学的, 技術的支援を提供する。

Real-time and accurate information on fine-grained changes in crop cultivation is of great significance for crop growth monitoring, yield prediction and agricultural structure adjustment. Aiming at the problems of serious spectral confusion in visible high-resolution unmanned aerial vehicle (UAV) images of different phases, interference of large complex background and salt-and-pepper noise by existing semantic change detection (SCD) algorithms, in order to effectively extract deep image features of crops and meet the demand of agricultural practical engineering applications, this paper designs and proposes an agricultural geographic scene and parcel-scale constrained SCD framework for crops (AGSPNet). AGSPNet framework contains three parts: agricultural geographic scene (AGS) division module, parcel edge extraction module and crop SCD module. Meanwhile, we produce and introduce an UAV image SCD dataset (CSCD) dedicated to agricultural monitoring, encompassing multiple semantic variation types of crops in complex geographical scene. We conduct comparative experiments and accuracy evaluations in two test areas of this dataset, and the results show that the crop SCD results of AGSPNet consistently outperform other deep learning SCD models in terms of quantity and quality, with the evaluation metrics F1-score, kappa, OA, and mIoU obtaining improvements of 0.038, 0.021, 0.011 and 0.062, respectively, on average over the sub-optimal method. The method proposed in this paper can clearly detect the fine-grained change information of crop types in complex scenes, which can provide scientific and technical support for smart agriculture monitoring and management, food policy formulation and food security assurance.
翻訳日:2024-01-15 20:56:12 公開日:2024-01-11
# yolo-former: vitで握手するyolo

YOLO-Former: YOLO Shakes Hand With ViT ( http://arxiv.org/abs/2401.06244v1 )

ライセンス: Link先を確認
Javad Khoramdel, Ahmad Moori, Yasamin Borhani, Armin Ghanbarzadeh, and Esmaeil Najafi(参考訳) 提案するyolo-former法はtransformerとyolov4のアイデアをシームレスに統合し,高精度かつ効率的な物体検出システムを構築する。 この方法は、YOLOv4の高速推論速度を活用し、畳み込みアテンションとトランスフォーマーモジュールの統合により、トランスフォーマーアーキテクチャの利点を取り入れている。 その結果,提案手法の有効性を実証し,平均平均精度85.76\%のパスカルVOCデータセットを用いて,フレームレート10.85フレーム/秒で高い予測速度を維持した。 この研究の貢献は、この2つの最先端技術の革新的な組み合わせが、オブジェクト検出の分野におけるさらなる改善につながることを実証することにある。

The proposed YOLO-Former method seamlessly integrates the ideas of transformer and YOLOv4 to create a highly accurate and efficient object detection system. The method leverages the fast inference speed of YOLOv4 and incorporates the advantages of the transformer architecture through the integration of convolutional attention and transformer modules. The results demonstrate the effectiveness of the proposed approach, with a mean average precision (mAP) of 85.76\% on the Pascal VOC dataset, while maintaining high prediction speed with a frame rate of 10.85 frames per second. The contribution of this work lies in the demonstration of how the innovative combination of these two state-of-the-art techniques can lead to further improvements in the field of object detection.
翻訳日:2024-01-15 20:55:42 公開日:2024-01-11
# 量子固有値処理

Quantum eigenvalue processing ( http://arxiv.org/abs/2401.06240v1 )

ライセンス: Link先を確認
Guang Hao Low and Yuan Su(参考訳) 非エルミート物理学や微分方程式から生じるような線形代数の多くの問題は、非正規入力行列の固有値を処理することによって量子コンピュータ上で解くことができる。 しかし、既存の量子特異値変換(qsvt)フレームワークは、固有値と特異値が一般に異なるため、このタスクには不向きである。 本稿では、ブロック符号化非正規作用素の固有値に対して任意の多項式変換を適用する量子固有値変換(qevt)フレームワークと、実スペクトル作用素に対する関連する量子固有値推定(qeve)アルゴリズムを提案する。 QEVTは、エルミート入力に対してQSVTをほぼ復元するブロックに対してクエリの複雑さを持ち、QEVEは対角化可能な入力行列に対してハイゼンベルク制限スケーリングを達成する。 応用として,平均ケース対角化作用素に対する厳密な線形時間問合せ複雑性を持つ線形微分方程式解法と,実スペクトルを持つ対角化行列に対してエルミート・ハミルトニアンの既往のほぼ最適結果をアップグレードする基底状態生成アルゴリズムを開発した。 このアルゴリズムは、チェビシェフ多項式の複素平面への近似特性を一般化するファブラー多項式の量子重ね合わせを効率的に作成する手法である。 独立性については、従来の線形コストのアプローチと比較して、$\mathbf{O}(\mathrm{polylog}(n))$ gates で$n$フーリエ係数を生成する手法も開発している。

Many problems in linear algebra -- such as those arising from non-Hermitian physics and differential equations -- can be solved on a quantum computer by processing eigenvalues of the non-normal input matrices. However, the existing Quantum Singular Value Transformation (QSVT) framework is ill-suited to this task, as eigenvalues and singular values are different in general. We present a Quantum EigenValue Transformation (QEVT) framework for applying arbitrary polynomial transformations on eigenvalues of block-encoded non-normal operators, and a related Quantum EigenValue Estimation (QEVE) algorithm for operators with real spectra. QEVT has query complexity to the block encoding nearly recovering that of the QSVT for a Hermitian input, and QEVE achieves the Heisenberg-limited scaling for diagonalizable input matrices. As applications, we develop a linear differential equation solver with strictly linear time query complexity for average-case diagonalizable operators, as well as a ground state preparation algorithm that upgrades previous nearly optimal results for Hermitian Hamiltonians to diagonalizable matrices with real spectra. Underpinning our algorithms is an efficient method to prepare a quantum superposition of Faber polynomials, which generalize the nearly-best uniform approximation properties of Chebyshev polynomials to the complex plane. Of independent interest, we also develop techniques to generate $n$ Fourier coefficients with $\mathbf{O}(\mathrm{polylog}(n))$ gates compared to prior approaches with linear cost.
翻訳日:2024-01-15 20:55:31 公開日:2024-01-11
# 密度行列平均場理論

Density-Matrix Mean-Field Theory ( http://arxiv.org/abs/2401.06236v1 )

ライセンス: Link先を確認
Junyi Zhang and Zhengqian Cheng(参考訳) 平均場理論(MFT)は、より正確だがより計算的に要求される代替手法を補完し、様々な物質相を探索するための効率的なツールであることが証明されている。 従来の平均場理論(MFT)は、強い量子ゆらぎを特徴とするシステムに適用性を制限する量子ゆらぎを捉えるのに不足することが多い。 本稿では,新しい平均場理論,密度行列平均場理論(DMMFT)を提案する。 dmmftは、減少密度行列によって定量化された絡み合いによって形成された量子環境を組み込んだ効果的なハミルトニアンを構築している。 したがって、量子秩序相におけるゆらぎや絡み合いの影響を考慮するための体系的で偏りのないアプローチを提供する。 実証的な例として、DMMFTは、量子ゆらぎによって誘導される順序パラメータの再正規化を定量的に評価できるだけでなく、量子位相の位相秩序も検出できることを示す。 さらに、有限温度におけるシステムと障害のあるシステムに対するDMMFTの拡張についても論じる。 我々の研究は、非慣習的な量子秩序を示す相を探索する新しい効率的なアプローチを提供しており、特に高い空間次元におけるフラストレーションスピン系の研究に有用である。

Mean-field theories (MFTs) have proven to be efficient tools for exploring various phases of matter, complementing alternative methods that are more precise but also more computationally demanding. Conventional mean-field theories (MFTs) often fall short in capturing quantum fluctuations, which restricts their applicability to systems characterized by strong quantum fluctuations. In this article, we propose a novel mean-field theory, density-matrix mean-field theory (DMMFT).DMMFT constructs effective Hamiltonians, incorporating quantum environments shaped by entanglements quantified by the reduced density matrices. Therefore, it offers a systematic and unbiased approach to account for effects of fluctuations and entanglements in quantum ordered phases. As demonstrative examples, we show that DMMFT can not only quantitatively evaluate the renormalization of order parameters induced by quantum fluctuations but can even detect the topological order of quantum phases. Additionally, we discuss the extensions of DMMFT for systems at finite temperatures and those with disorders. Our work provides a novel and efficient approach to explore phases exhibiting unconventional quantum orders, which can be particularly beneficial for investigating frustrated spin systems in high spatial dimensions.
翻訳日:2024-01-15 20:55:00 公開日:2024-01-11
# legobench: 科学モデルのためのリーダーボード生成ベンチマーク

LEGOBench: Leaderboard Generation Benchmark for Scientific Models ( http://arxiv.org/abs/2401.06233v1 )

ライセンス: Link先を確認
Shruti Singh, Shoaib Alam and Mayank Singh(参考訳) 論文の提出量は増え続けており、最新の最新研究について知るのが難しくなっている。 この課題に対処するために、リーダーボードを生成するシステムを評価するベンチマークであるLEGOBenchを紹介します。 LEGOBenchは、arXivの22年間のプレプリントデータとPapersWithCodeポータルの11,000以上の機械学習リーダーボードから作成されている。 従来のグラフベースランキングモデルと最近提案された3つの大規模言語モデルの性能評価を行った。 予備結果は, リーダボードの自動生成において有意な性能差を示した。 コードはhttps://github.com/lingo-iitgn/LEGOBenchで、データセットはhttps://osf.io/9v2py/? view_only=6f91bb510df498ba01595f8f278f94c

The ever-increasing volume of paper submissions makes it difficult to stay informed about the latest state-of-the-art research. To address this challenge, we introduce LEGOBench, a benchmark for evaluating systems that generate leaderboards. LEGOBench is curated from 22 years of preprint submission data in arXiv and more than 11,000 machine learning leaderboards in the PapersWithCode portal. We evaluate the performance of four traditional graph-based ranking variants and three recently proposed large language models. Our preliminary results show significant performance gaps in automatic leaderboard generation. The code is available on https://github.com/lingo-iitgn/LEGOBench and the dataset is hosted on https://osf.io/9v2py/?view_only=6f91b0b510df498ba01595f8f278f94c .
翻訳日:2024-01-15 20:54:38 公開日:2024-01-11
# 量子スピン鎖におけるバスエンジニアリング磁気秩序:解析的マッピングアプローチ

Bath-engineering magnetic order in quantum spin chains: An analytic mapping approach ( http://arxiv.org/abs/2401.06227v1 )

ライセンス: Link先を確認
Brett Min, Nicholas Anto-Sztrikacs, Marlon Brenes, and Dvira Segal(参考訳) 散逸過程は量子スピンチェーンにおいて異なる磁気秩序を駆動することができる。 非摂動解析的マッピングフレームワークを用いて,結合した浴槽の局所性を制御することにより,スピン系における異なる磁気秩序を体系的に構築する方法を示す。 本研究では, スピン-バスカップリングの影響を解析的に明らかにし, スピン分割の抑制, スピン-スピン相互作用のバスドレッシングおよび混合, および同一浴槽に結合したスピン間の非局所強磁性相互作用の出現を導いた。 我々の一般的なマッピング手法は、様々なスピンモデルに容易に適用できます。 (i)ハイゼンベルクスピン鎖における反強磁性体(AFM)から強磁性体秩序への移行 (ii)afmから横電界イジングチェーン内の拡張ネール相秩序への一対結合による浴室への結合、及び (iii)完全連結イジングモデルにおける量子相転移。 本手法はシステムバス結合において非摂動的である。 様々な非マルコフ浴に使われており、フラストレーションやトポロジカルな材料で浴術的な相の研究に容易に応用できる。

Dissipative processes can drive different magnetic orders in quantum spin chains. Using a non-perturbative analytic mapping framework, we systematically show how to structure different magnetic orders in spin systems by controlling the locality of the attached baths. Our mapping approach reveals analytically the impact of spin-bath couplings, leading to the suppression of spin splittings, bath-dressing and mixing of spin-spin interactions, and emergence of non-local ferromagnetic interactions between spins coupled to the same bath, which become long-ranged for a global bath. Our general mapping method can be readily applied to a variety of spin models: We demonstrate (i) a bath-induced transition from antiferromangnetic (AFM) to ferromagnetic ordering in a Heisenberg spin chain, (ii) AFM to extended Neel phase ordering within a transverse-field Ising chain with pairwise couplings to baths, and (iii) a quantum phase transition in the fully-connected Ising model. Our method is non-perturbative in the system-bath coupling. It holds for a variety of non-Markovian baths and it can be readily applied towards studying bath-engineered phases in frustrated or topological materials.
翻訳日:2024-01-15 20:54:25 公開日:2024-01-11
# 3次元容器セグメンテーションにおける周波数領域学習の活用

Leveraging Frequency Domain Learning in 3D Vessel Segmentation ( http://arxiv.org/abs/2401.06224v1 )

ライセンス: Link先を確認
Xinyuan Wang, Chengwei Pan, Hongming Dai, Gangming Zhao, Jinpeng Li, Xiao Zhang, Yizhou Yu(参考訳) 冠状微小血管疾患はヒトの健康に重大なリスクを負う。 コンピュータ支援分析と診断システムを利用することで、医療専門家は病気の進行の早期に介入でき、3D血管セグメンテーションが重要な要素となる。 しかしながら、従来のU-Netアーキテクチャは、特に小さな容器構造において、不整合かつ不整合なセグメンテーションの結果をもたらす傾向にある。 トランスフォーマーや大きな畳み込みカーネルのような注意機構を持つモデルは優れた性能を示すが、トレーニングや推論の際の膨大な計算要求は時間の複雑さを増大させる。 本研究では,Fourierドメイン学習を3次元階層分割モデルにおけるマルチスケール畳み込みカーネルの代用として利用する。 さらに、u-netアーキテクチャにおけるスキップ接続を改善するためにゼロパラメータ周波数領域融合法が設計されている。 公開データセットと社内データセットを用いた実験の結果,新しいフーリエ変換ベースのネットワークは管状容器分割作業において顕著なサイス性能(asaca500では84.37\%,imagecasでは80.32\%)を達成し,グローバル受容場を妥協することなく計算要件を実質的に削減した。

Coronary microvascular disease constitutes a substantial risk to human health. Employing computer-aided analysis and diagnostic systems, medical professionals can intervene early in disease progression, with 3D vessel segmentation serving as a crucial component. Nevertheless, conventional U-Net architectures tend to yield incoherent and imprecise segmentation outcomes, particularly for small vessel structures. While models with attention mechanisms, such as Transformers and large convolutional kernels, demonstrate superior performance, their extensive computational demands during training and inference lead to increased time complexity. In this study, we leverage Fourier domain learning as a substitute for multi-scale convolutional kernels in 3D hierarchical segmentation models, which can reduce computational expenses while preserving global receptive fields within the network. Furthermore, a zero-parameter frequency domain fusion method is designed to improve the skip connections in U-Net architecture. Experimental results on a public dataset and an in-house dataset indicate that our novel Fourier transformation-based network achieves remarkable dice performance (84.37\% on ASACA500 and 80.32\% on ImageCAS) in tubular vessel segmentation tasks and substantially reduces computational requirements without compromising global receptive fields.
翻訳日:2024-01-15 20:54:07 公開日:2024-01-11
# 強対称性を用いた散逸ベリー相による一軸ねじり加工

Engineering One Axis Twisting via a Dissipative Berry Phase Using Strong Symmetries ( http://arxiv.org/abs/2401.06222v1 )

ライセンス: Link先を確認
Jeremy T. Young, Edwin Chaparro, Asier Pi\~neiro Orioli, James K. Thompson, and Ana Maria Rey(参考訳) 原子の集合集合集合に結合した駆動散逸キャビティが、メロジカルに有用なスピンスクイーズ状態を動的に生成できることを示す。 他の散逸的アプローチとは対照的に、複雑なエンジニアリングされた散逸状態や入力状態に頼らず、システムに臨界点をチューニングする必要もない。 代わりに、開量子系で起こり、超放射能のような集合散逸を持つ系で自然に現れる特殊な対称性である強対称性を利用する。 この対称性はコヒーレンスを保ち、原子番号に依存したベリー相の蓄積を可能にする。 本研究は, 原子空洞共振器系とマクロ光学励起器系との絡み合いが, 現在の共振器QED実験でよく用いられる無視可能な光励起を持つ典型的な分散状態を超えて生じることを示す。

We show how a driven-dissipative cavity coupled to a collective ensemble of atoms can dynamically generate metrologically useful spin-squeezed states. In contrast to other dissipative approaches, we do not rely on complex engineered dissipation or input states, nor do we require tuning the system to a critical point. Instead, we utilize a strong symmetry, a special type of symmetry that can occur in open quantum systems and emerges naturally in systems with collective dissipation, such as superradiance. This symmetry preserves coherence and allows for the accumulation of an atom number-dependent Berry phase which in turn creates spin-squeezed states via emergent one-axis twisting dynamics. This work shows that it is possible to generate entanglement in an atom-cavity resonant regime with macroscopic optical excitations of the system, going beyond the typical dispersive regime with negligible optical excitations often utilized in current cavity QED experiments.
翻訳日:2024-01-15 20:53:39 公開日:2024-01-11
# 細粒度アスペクトベース感情分析のための教師なし意味文書表現の学習

Learning Unsupervised Semantic Document Representation for Fine-grained Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2401.06210v1 )

ライセンス: Link先を確認
Hao-Ming Fu, Pu-Jen Cheng(参考訳) 文書表現は、機械理解における多くのNLPタスクの中核である。 教師なしの方法で学んだ一般的な表現は、一般性を保ち、様々な用途に使用できる。 実際には、感情分析(SA)は意味論的に深く関連づけられた課題であり、一般的な表現を評価するためにしばしば用いられる。 教師なし文書表現学習の既存の手法は、単語の順序を明示的に考慮するシーケンシャルなものと、それを明示的に考慮しない非シーケンシャルなものの2つのファミリーに分けることができる。 しかし、両者とも自身の弱点に悩まされている。 本稿では,両手法が直面する困難を克服するモデルを提案する。 実験の結果,我々のモデルは,一般的なSAデータセットの最先端手法と,粒度の細かいアスペクトベースSAを大きなマージンで上回ることがわかった。

Document representation is the core of many NLP tasks on machine understanding. A general representation learned in an unsupervised manner reserves generality and can be used for various applications. In practice, sentiment analysis (SA) has been a challenging task that is regarded to be deeply semantic-related and is often used to assess general representations. Existing methods on unsupervised document representation learning can be separated into two families: sequential ones, which explicitly take the ordering of words into consideration, and non-sequential ones, which do not explicitly do so. However, both of them suffer from their own weaknesses. In this paper, we propose a model that overcomes difficulties encountered by both families of methods. Experiments show that our model outperforms state-of-the-art methods on popular SA datasets and a fine-grained aspect-based SA by a large margin.
翻訳日:2024-01-15 20:53:21 公開日:2024-01-11
# 量子情報デコーダとしての量子ニューラルネットワークの活用

Advantage of Quantum Neural Networks as Quantum Information Decoders ( http://arxiv.org/abs/2401.06300v1 )

ライセンス: Link先を確認
Weishun Zhong, Oles Shtanko, Ramis Movassagh(参考訳) ノイズによるエラーから量子情報を保護するための有望な戦略は、トポロジカル量子メモリデバイスの低エネルギー状態に符号化することである。 しかし、現実的な設定下でのメモリからの読み出しエラーは理解されていない。 本研究では, トポロジカル安定化器ハミルトニアンの基底空間に符号化された量子情報を, クエンチド障害などの一般的な摂動の存在下で復号する問題について検討する。 まず, 標準安定化器に基づく誤り訂正・復号化スキームが, 非摂動符号の範囲内で指数関数的に減少することを示すことにより, 摂動量子符号において適切に動作することを証明した。 次に、量子ニューラルネットワーク(QNN)デコーダが読み出し誤差をほぼ2次的に改善することを証明する。 そこで本研究では,QNNを用いた現実的な量子誤り訂正符号の復号化を実証し,短期的な実験室設定において,より広い範囲の非安定化符号の探索を可能にする。

A promising strategy to protect quantum information from noise-induced errors is to encode it into the low-energy states of a topological quantum memory device. However, readout errors from such memory under realistic settings is less understood. We study the problem of decoding quantum information encoded in the groundspaces of topological stabilizer Hamiltonians in the presence of generic perturbations, such as quenched disorder. We first prove that the standard stabilizer-based error correction and decoding schemes work adequately well in such perturbed quantum codes by showing that the decoding error diminishes exponentially in the distance of the underlying unperturbed code. We then prove that Quantum Neural Network (QNN) decoders provide an almost quadratic improvement on the readout error. Thus, we demonstrate provable advantage of using QNNs for decoding realistic quantum error-correcting codes, and our result enables the exploration of a wider range of non-stabilizer codes in the near-term laboratory settings.
翻訳日:2024-01-15 20:44:17 公開日:2024-01-11
# MultiSlot ReRanker:レコメンデーションシステムにおけるジェネリックモデルに基づくリランキングフレームワーク

MultiSlot ReRanker: A Generic Model-based Re-Ranking Framework in Recommendation Systems ( http://arxiv.org/abs/2401.06293v1 )

ライセンス: Link先を確認
Qiang Charles Xiao, Ajith Muralidharan, Birjodh Tiwana, Johnson Jia, Fedor Borisyuk, Aman Gupta, Dawn Woodard(参考訳) 本稿では,妥当性,多様性,鮮度を同時に最適化する汎用モデルに基づくマルチスロットリランクフレームワークであるmultislot rerankerを提案する。 具体的には,SGA(Sequential Greedy Algorithm)は大規模生産レコメンデーションエンジンに十分な効率(線形時間複雑性)を持つ。 これは、リストの項目間の相互影響を明示的にモデル化し、複数の目的の2番目のパスランキングスコアを活用するために、受信機の動作特性であるCurve (AUC)の下で、+6\%$から$ +10\%$オフラインエリアを達成した。 さらに,オフラインリプレイ理論をマルチスロットリランキングシナリオに一般化し,複数の目的間のトレードオフを行った。 オフラインの再生結果はPareto Optimalityによってさらに改善される。 さらに,ray フレームワークと統合した openai gym をベースとするマルチスロット再ランキングシミュレータを構築した。 異なる仮定に対して簡単に設定でき、強化学習と教師付き学習アルゴリズムの両方を素早くベンチマークすることができる。

In this paper, we propose a generic model-based re-ranking framework, MultiSlot ReRanker, which simultaneously optimizes relevance, diversity, and freshness. Specifically, our Sequential Greedy Algorithm (SGA) is efficient enough (linear time complexity) for large-scale production recommendation engines. It achieved a lift of $+6\%$ to $ +10\%$ offline Area Under the receiver operating characteristic Curve (AUC) which is mainly due to explicitly modeling mutual influences among items of a list, and leveraging the second pass ranking scores of multiple objectives. In addition, we have generalized the offline replay theory to multi-slot re-ranking scenarios, with trade-offs among multiple objectives. The offline replay results can be further improved by Pareto Optimality. Moreover, we've built a multi-slot re-ranking simulator based on OpenAI Gym integrated with the Ray framework. It can be easily configured for different assumptions to quickly benchmark both reinforcement learning and supervised learning algorithms.
翻訳日:2024-01-15 20:44:00 公開日:2024-01-11
# ニューラルセルオートマタを用いた周波数時間拡散

Frequency-Time Diffusion with Neural Cellular Automata ( http://arxiv.org/abs/2401.06291v1 )

ライセンス: Link先を確認
John Kalkhof, Arlene K\"uhn, Yannik Frisch, Anirban Mukhopadhyay(参考訳) Denoising Diffusion Models (DDM) は高品質な画像を合成する主要な生成技術となっているが、UNetベースのアーキテクチャによって制約されることが多い。 特に、数億のパラメータのかなりのサイズは、ハードウェアリソースが限られている場合に実用的でない。 しかし、強力なハードウェアであっても、ギガピクセル範囲での画像処理は困難である。 これは顕微鏡や衛星画像といった分野において特に当てはまり、そのような課題は予め定義された生成サイズへの制限とより大きな画像への非効率なスケーリングから生じる。 本稿では,これらの課題に対処するニューラルセルオートマタ(NCA)に基づくDDM法と,Diff-NCAとFourierDiff-NCAの2種類のNCAベースのDDM法を提案する。 Diff-NCAは、基礎となる分布の局所的特徴のみを用いることで拡散を行い、局所的特徴が重要となるアプリケーションに適している。 画像空間におけるグローバルな知識を伝えるために、NAAセットアップは画像スケールで増加するタイムステップを必要とする。 本稿では,Fourier-NCAを導入して現在のNAAアーキテクチャのボトルネックを解消し,Fourier-NCAの拡散プロセスを追加し,周波数構成されたFourier空間と画像空間を結合することでDiff-NCAを進展させる。 フーリエ領域で拡散を開始し、画像空間で最終化することにより、フーリエディフNCAはグローバル通信を加速する。 我々は、Diff-NCA(208kパラメータ)を用いて576x576解像度の高解像度デジタル病理スキャンとFourierDiff-NCA(887kパラメータ)を用いて、64x64でCelebA画像を合成し、VNCAと5倍のUNetベースのDDMより優れることを示す。 さらに,FourierDiff-NCAの超高分解能,OOD画像合成,塗装における機能について,追加のトレーニングを伴わずに示す。

Denoising Diffusion Models (DDMs) have become the leading generative technique for synthesizing high-quality images but are often constrained by their UNet-based architectures that impose certain limitations. In particular, the considerable size of often hundreds of millions of parameters makes them impractical when hardware resources are limited. However, even with powerful hardware, processing images in the gigapixel range is difficult. This is especially true in fields such as microscopy or satellite imaging, where such challenges arise from the limitation to a predefined generative size and the inefficient scaling to larger images. We present two variations of Neural Cellular Automata (NCA)-based DDM methods to address these challenges and jumpstart NCA-based DDMs: Diff-NCA and FourierDiff-NCA. Diff-NCA performs diffusion by using only local features of the underlying distribution, making it suitable for applications where local features are critical. To communicate global knowledge in image space, naive NCA setups require timesteps that increase with the image scale. We solve this bottleneck of current NCA architectures by introducing FourierDiff-NCA, which advances Diff-NCA by adding a Fourier-based diffusion process and combines the frequency-organized Fourier space with the image space. By initiating diffusion in the Fourier domain and finalizing it in the image space, FourierDiff-NCA accelerates global communication. We validate our techniques by using Diff-NCA (208k parameters) to generate high-resolution digital pathology scans at 576x576 resolution and FourierDiff-NCA (887k parameters) to synthesize CelebA images at 64x64, outperforming VNCA and five times bigger UNet-based DDMs. In addition, we demonstrate FourierDiff-NCA's capabilities in super-resolution, OOD image synthesis, and inpainting without additional training.
翻訳日:2024-01-15 20:43:40 公開日:2024-01-11
# クラスインクリメンタル映像認識のための階層的拡張と拡張

Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition ( http://arxiv.org/abs/2401.06287v1 )

ライセンス: Link先を確認
Yukun Zuo, Hantao Yao, Liansheng Zhuang, Changsheng Xu(参考訳) オーディオ視覚ビデオ認識(AVVR)は、映像を正確に分類するために音声と視覚の手がかりを統合することを目的としている。 既存の方法では、提供されたデータセットを使用してAVVRモデルをトレーニングし、満足な結果を得る一方で、現実の状況で新しいクラスに直面する場合、過去のクラス知識を維持するのに苦労する。 現在,この問題に対処するための専用手法は存在しないため,本論文は,CIAVVR(Class Incremental Audio-Visual Video Recognition)の探索に重点を置いている。 CIAVVRにとって、記憶されたデータと過去のクラスの学習モデルの両方が歴史的知識を含んでいるため、重要な課題は過去のデータ知識と過去のモデル知識をキャプチャして破滅的な忘れを防止する方法である。 本稿では,階層拡張モジュール (HAM) と階層拡張モジュール (HDM) を組み合わせた階層拡張蒸留 (HAD) を導入し,データとモデルの階層構造を効率的に活用する。 具体的には,階層的モデル知識を維持するため,HAMは新たな拡張戦略であるセグメント的特徴拡張を実装している。 一方、hdmは階層的(ビデオ配信)論理蒸留と階層的(スニッペット・ビデオ)相関蒸留を導入し、各データの階層的内サンプル知識と階層的データ間のサンプル間知識をそれぞれ捕捉・維持する。 AVE, AVK-100, AVK-200, AVK-400の4つのベンチマークによる評価は、提案HADがデータとモデルの両方において階層的な情報を効果的に取得し、歴史的クラス知識の保存が向上し、性能が向上することを示した。 さらに,セグメント的特徴拡張戦略の必要性をサポートするための理論的分析を行う。

Audio-visual video recognition (AVVR) aims to integrate audio and visual clues to categorize videos accurately. While existing methods train AVVR models using provided datasets and achieve satisfactory results, they struggle to retain historical class knowledge when confronted with new classes in real-world situations. Currently, there are no dedicated methods for addressing this problem, so this paper concentrates on exploring Class Incremental Audio-Visual Video Recognition (CIAVVR). For CIAVVR, since both stored data and learned model of past classes contain historical knowledge, the core challenge is how to capture past data knowledge and past model knowledge to prevent catastrophic forgetting. We introduce Hierarchical Augmentation and Distillation (HAD), which comprises the Hierarchical Augmentation Module (HAM) and Hierarchical Distillation Module (HDM) to efficiently utilize the hierarchical structure of data and models, respectively. Specifically, HAM implements a novel augmentation strategy, segmental feature augmentation, to preserve hierarchical model knowledge. Meanwhile, HDM introduces newly designed hierarchical (video-distribution) logical distillation and hierarchical (snippet-video) correlative distillation to capture and maintain the hierarchical intra-sample knowledge of each data and the hierarchical inter-sample knowledge between data, respectively. Evaluations on four benchmarks (AVE, AVK-100, AVK-200, and AVK-400) demonstrate that the proposed HAD effectively captures hierarchical information in both data and models, resulting in better preservation of historical class knowledge and improved performance. Furthermore, we provide a theoretical analysis to support the necessity of the segmental feature augmentation strategy.
翻訳日:2024-01-15 20:43:03 公開日:2024-01-11
# 変分拡散モデルのデミスティファイション

Demystifying Variational Diffusion Models ( http://arxiv.org/abs/2401.06281v1 )

ライセンス: Link先を確認
Fabio De Sousa Ribeiro, Ben Glocker(参考訳) 拡散モデルの人気が高まりつつあるにもかかわらず、モデルクラスの深い理解を得ることは、非平衡統計物理学の未開始者にとって、幾らか明白である。 そのことを念頭に置いて,有向グラフィカルモデリングと変分ベイズ原理を用いた拡散モデルについて,より分かりやすい紹介を行い,平均的な読者に対して比較的少ない前提条件を課す。 本論文は,ディープ・潜在変数モデルのような基礎的な概念から,モデルクラス間の理論的接続に着目した,連続時間拡散に基づくモデリングの最近の進歩まで,包括的な技術レビューを構成する。 我々は、新しい表記の導入を避けつつ、理解を助けるために、可能な限り精巧な作品で省略された追加の数学的洞察を提供する。 我々は,本論文が地域の研究者と実践者の両方にとって有用な教育サプリメントとなることを想定し,コミュニティからのフィードバックと貢献を歓迎する。

Despite the growing popularity of diffusion models, gaining a deep understanding of the model class remains somewhat elusive for the uninitiated in non-equilibrium statistical physics. With that in mind, we present what we believe is a more straightforward introduction to diffusion models using directed graphical modelling and variational Bayesian principles, which imposes relatively fewer prerequisites on the average reader. Our exposition constitutes a comprehensive technical review spanning from foundational concepts like deep latent variable models to recent advances in continuous-time diffusion-based modelling, highlighting theoretical connections between model classes along the way. We provide additional mathematical insights that were omitted in the seminal works whenever possible to aid in understanding, while avoiding the introduction of new notation. We envision this article serving as a useful educational supplement for both researchers and practitioners in the area, and we welcome feedback and contributions from the community at https://github.com/biomedia-mira/demystifying-diffusion.
翻訳日:2024-01-15 20:42:31 公開日:2024-01-11
# グラフオン信号処理におけるサンプリングと特異性

Sampling and Uniqueness Sets in Graphon Signal Processing ( http://arxiv.org/abs/2401.06279v1 )

ライセンス: Link先を確認
Alejandro Parada-Mayorga and Alejandro Ribeiro(参考訳) 本研究では,グラフとグラフの極限の理論を活用することで,大きなグラフの族に対するサンプリングセットの特性について検討する。 この目的のために、グラフ上の信号の解析のために開発された取り外し可能および一意性集合の概念をグラフ信号に拡張する。 我々は、$\lambda-$removable 集合の形式的定義と、そのサンプルが与えられた$\lambda-$removable 集合の補集合から得られるとき、バンド制限されたgraphon 信号が一意に表現できる条件を述べる。 このような結果を利用することで、グラフとグラフ信号のグラフ表現を、異なる数のノードとエッジを持つグラフ間のサンプリングセットと異なるノードラベリングを比較する共通のフレームワークとして使用できることを示す。 さらに、グラフンに収束するグラフの列が与えられたとき、グラフン表現が$[0,1]$で同一であるサンプリング集合の列も収束していることを示す。 我々は収束結果を利用して、ほぼ最適なサンプリングセットを得るアルゴリズムを提供する。 数値実験を行い,これらのサンプリングセットの品質評価を行った。 その結果,大規模グラフにおける最適なサンプリングセットの効率的な計算が可能となった。

In this work, we study the properties of sampling sets on families of large graphs by leveraging the theory of graphons and graph limits. To this end, we extend to graphon signals the notion of removable and uniqueness sets, which was developed originally for the analysis of signals on graphs. We state the formal definition of a $\Lambda-$removable set and conditions under which a bandlimited graphon signal can be represented in a unique way when its samples are obtained from the complement of a given $\Lambda-$removable set in the graphon. By leveraging such results we show that graphon representations of graphs and graph signals can be used as a common framework to compare sampling sets between graphs with different numbers of nodes and edges, and different node labelings. Additionally, given a sequence of graphs that converges to a graphon, we show that the sequences of sampling sets whose graphon representation is identical in $[0,1]$ are convergent as well. We exploit the convergence results to provide an algorithm that obtains approximately close to optimal sampling sets. Performing a set of numerical experiments, we evaluate the quality of these sampling sets. Our results open the door for the efficient computation of optimal sampling sets in graphs of large size.
翻訳日:2024-01-15 20:42:11 公開日:2024-01-11
# 消化器内視鏡における視力障害に対する自己改善前トレーニングの検討

A Study on Self-Supervised Pretraining for Vision Problems in Gastrointestinal Endoscopy ( http://arxiv.org/abs/2401.06278v1 )

ライセンス: Link先を確認
Edward Sanderson and Bogdan J. Matuszewski(参考訳) 消化器内視鏡(GIE)における視覚タスクへの解決策は、従来、ImageNet-1kをバックボーンとして教師付き方法でトレーニングされたイメージエンコーダを使用する。 しかし、現代の自己教師付き事前学習アルゴリズムと100kの非ラベル付きGIE画像(Hyperkvasir-unlabelled)のデータセットを使用することで、改善が期待できる。 本稿では,ResNet50 と ViT-B のバックボーンを用いたモデルの性能を,ImageNet-1k と Hyperkvasir-unlabelled (自己教師のみ) を用いて,GIE ビジョンタスクにおいて事前訓練した。 In addition to identifying the most suitable pretraining pipeline and backbone architecture for each task, out of those considered, our results suggest: that self-supervised pretraining generally produces more suitable backbones for GIE vision tasks than supervised pretraining; that self-supervised pretraining with ImageNet-1k is typically more suitable than pretraining with Hyperkvasir-unlabelled, with the notable exception of monocular depth estimation in colonoscopy; and that ViT-Bs are more suitable in polyp segmentation and monocular depth estimation in colonoscopy, ResNet50s are more suitable in polyp detection, and both architectures perform similarly in anatomical landmark recognition and pathological finding characterisation. 我々は、この研究がGIEビジョンタスクの事前訓練の複雑さに注意を向け、大会よりも適切なアプローチをこの開発に通知し、この開発を促進するためにさらなる研究を促すことを願っている。 コード提供: \underline{github.com/ESandML/SSL4GIE}

Solutions to vision tasks in gastrointestinal endoscopy (GIE) conventionally use image encoders pretrained in a supervised manner with ImageNet-1k as backbones. However, the use of modern self-supervised pretraining algorithms and a recent dataset of 100k unlabelled GIE images (Hyperkvasir-unlabelled) may allow for improvements. In this work, we study the fine-tuned performance of models with ResNet50 and ViT-B backbones pretrained in self-supervised and supervised manners with ImageNet-1k and Hyperkvasir-unlabelled (self-supervised only) in a range of GIE vision tasks. In addition to identifying the most suitable pretraining pipeline and backbone architecture for each task, out of those considered, our results suggest: that self-supervised pretraining generally produces more suitable backbones for GIE vision tasks than supervised pretraining; that self-supervised pretraining with ImageNet-1k is typically more suitable than pretraining with Hyperkvasir-unlabelled, with the notable exception of monocular depth estimation in colonoscopy; and that ViT-Bs are more suitable in polyp segmentation and monocular depth estimation in colonoscopy, ResNet50s are more suitable in polyp detection, and both architectures perform similarly in anatomical landmark recognition and pathological finding characterisation. We hope this work draws attention to the complexity of pretraining for GIE vision tasks, informs this development of more suitable approaches than the convention, and inspires further research on this topic to help advance this development. Code available: \underline{github.com/ESandML/SSL4GIE}
翻訳日:2024-01-15 20:41:50 公開日:2024-01-11
# キャッシュに基づく自動音声認識のためのステートフルコンバータ

Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition ( http://arxiv.org/abs/2312.17279v1 )

ライセンス: Link先を確認
Vahid Noroozi, Somshubra Majumdar, Ankur Kumar, Jagadeesh Balam, Boris Ginsburg(参考訳) 本稿では,FastConformerアーキテクチャに基づく,効率的かつ高精度なストリーミング音声認識モデルを提案する。 我々は,(1)エンコーダのルックアヘッドと過去のコンテキストの両方を制約し,(2)非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするアクティベーションキャッシング機構を導入することによって,ストリーミングアプリケーションにFastConformerアーキテクチャを適用した。 提案モデルは,多くのストリーミングモデルに共通する列車と推定時間間の精度の相違を解消する目的で設計されている。 さらに,提案するエンコーダは,CTC(Connectionist Temporal Classification)やRNNT(RNNT)デコーダなど,さまざまなデコーダ構成で動作する。 さらに,共有エンコーダとCTCデコーダとRNNTデコーダを併用したハイブリッドCTC/RNNTアーキテクチャを導入し,精度の向上と計算量の削減を実現した。 提案手法をLibriSpeechデータセットとマルチドメイン大規模データセット上で評価し,従来のバッファリングストリーミングモデルベースラインと比較して,レイテンシと推論時間で精度が向上できることを実証した。 また,複数のレイテンシを持つモデルのトレーニングは,単一レイテンシモデルよりも精度が向上すると同時に,複数のレイテンシを単一モデルでサポートできることを示した。 また,CTCデコーダの収束を高速化するだけでなく,単一デコーダモデルと比較してストリーミングモデルの精度も向上することを示した。

In this paper, we propose an efficient and accurate streaming speech recognition model based on the FastConformer architecture. We adapted the FastConformer architecture for streaming applications through: (1) constraining both the look-ahead and past contexts in the encoder, and (2) introducing an activation caching mechanism to enable the non-autoregressive encoder to operate autoregressively during inference. The proposed model is thoughtfully designed in a way to eliminate the accuracy disparity between the train and inference time which is common for many streaming models. Furthermore, our proposed encoder works with various decoder configurations including Connectionist Temporal Classification (CTC) and RNN-Transducer (RNNT) decoders. Additionally, we introduced a hybrid CTC/RNNT architecture which utilizes a shared encoder with both a CTC and RNNT decoder to boost the accuracy and save computation. We evaluate the proposed model on LibriSpeech dataset and a multi-domain large scale dataset and demonstrate that it can achieve better accuracy with lower latency and inference time compared to a conventional buffered streaming model baseline. We also showed that training a model with multiple latencies can achieve better accuracy than single latency models while it enables us to support multiple latencies with a single model. Our experiments also showed the hybrid architecture would not only speedup the convergence of the CTC decoder but also improves the accuracy of streaming models compared to single decoder models.
翻訳日:2024-01-15 12:39:28 公開日:2024-01-11
# 適応変分ベイズ:最適性、計算および応用

Adaptive variational Bayes: Optimality, computation and applications ( http://arxiv.org/abs/2109.03204v3 )

ライセンス: Link先を確認
Ilsang Ohn, Lizhen Lin(参考訳) 本稿では,変分ベイズに基づく適応推論について検討する。 変分後部の収縮特性を解析するためにいくつかの研究が行われてきたが、適応的推論を行う一般かつ計算可能な変分ベイズ法がまだ存在しない。 このギャップを埋めるために,モデルの集合上で動作可能な適応型変分ベイズフレームワークを提案する。 提案手法はまず,各モデル上の変動後部を個別に計算し,それを一定の重みと組み合わせてモデル全体の変動後部を生成する。 この複合変分後縁は、事前定義された分布の族において、モデル全体よりも後縁に最も近いことが判明した。 適応変分ベイズは非常に一般的な条件下で最適な収縮率が得られることを示す。 また, スパースモデルなど多数の個別モデルが存在する場合でも, 適応変分ベイズの移動性と適応的最適性を維持する手法を提案する。 ディープラーニングやスパースファクタモデルなど,いくつかの例に一般的な結果を適用し,新しい適応的推論結果から導出する。 さらに,変分ベイズの暗黙の正則化効果を特徴付け,適応変分後方がこれを利用できることを示す。

In this paper, we explore adaptive inference based on variational Bayes. Although several studies have been conducted to analyze the contraction properties of variational posteriors, there is still a lack of a general and computationally tractable variational Bayes method that performs adaptive inference. To fill this gap, we propose a novel adaptive variational Bayes framework, which can operate on a collection of models. The proposed framework first computes a variational posterior over each individual model separately and then combines them with certain weights to produce a variational posterior over the entire model. It turns out that this combined variational posterior is the closest member to the posterior over the entire model in a predefined family of approximating distributions. We show that the adaptive variational Bayes attains optimal contraction rates adaptively under very general conditions. We also provide a methodology to maintain the tractability and adaptive optimality of the adaptive variational Bayes even in the presence of an enormous number of individual models, such as sparse models. We apply the general results to several examples, including deep learning and sparse factor models, and derive new and adaptive inference results. In addition, we characterize an implicit regularization effect of variational Bayes and show that the adaptive variational posterior can utilize this.
翻訳日:2024-01-13 04:36:19 公開日:2024-01-11
# 密集ネットワークにおける直径のサブリニア時間量子計算

Sublinear-Time Quantum Computation of the Diameter in CONGEST Networks ( http://arxiv.org/abs/1804.02917v3 )

ライセンス: Link先を確認
Fran\c{c}ois Le Gall and Fr\'ed\'eric Magniez(参考訳) 直径の計算は分散計算における最も中心的な問題の1つである。 2つの隣接ノードが1ラウンド当たり$o(\log n)$bit(ここで$n$はネットワークのノード数を表す)を交換できる標準連続モデルでは、直径の正確な計算には、一定の直径のネットワークでさえ$\tilde \omega(n)$ roundが必要であることが知られている。 本稿では,2つの隣接ノードが1ラウンド当たり$o(\log n)$量子ビットを交換できる量子集束モデルにおいて,この問題に対する量子分散アルゴリズムを検討する。 我々の主な成果は、正確な直径計算のための$\tilde O(\sqrt{nD})$ラウンド量子分散アルゴリズムであり、$D$は直径を表す。 これは、凝縮モデルにおける量子アルゴリズムと古典アルゴリズムの計算能力の分離を示す。 さらに、各ノードが$\textrm{poly}(\log n)$量子ビットのメモリしか使用できない任意の分散量子アルゴリズムに対して、下限の$\tilde \omega(\sqrt{nd})$という条件のない下限の$\tilde \omega(\sqrt{n})$を示し、さらに下限の$\tilde \omega(\sqrt{nd})$を示す。

The computation of the diameter is one of the most central problems in distributed computation. In the standard CONGEST model, in which two adjacent nodes can exchange $O(\log n)$ bits per round (here $n$ denotes the number of nodes of the network), it is known that exact computation of the diameter requires $\tilde \Omega(n)$ rounds, even in networks with constant diameter. In this paper we investigate quantum distributed algorithms for this problem in the quantum CONGEST model, where two adjacent nodes can exchange $O(\log n)$ quantum bits per round. Our main result is a $\tilde O(\sqrt{nD})$-round quantum distributed algorithm for exact diameter computation, where $D$ denotes the diameter. This shows a separation between the computational power of quantum and classical algorithms in the CONGEST model. We also show an unconditional lower bound $\tilde \Omega(\sqrt{n})$ on the round complexity of any quantum algorithm computing the diameter, and furthermore show a tight lower bound $\tilde \Omega(\sqrt{nD})$ for any distributed quantum algorithm in which each node can use only $\textrm{poly}(\log n)$ quantum bits of memory.
翻訳日:2024-01-13 04:35:50 公開日:2024-01-11
# 磁場をもつXYZ鎖における局所保存量の欠如の証明

Proof of the absence of local conserved quantities in the XYZ chain with a magnetic field ( http://arxiv.org/abs/1803.02637v6 )

ライセンス: Link先を確認
Naoto Shiraishi(参考訳) 磁場を持つスピン1/2xyz鎖が局所保存量を持たないことを厳密に証明する。 このモデルの任意の自明でない保存量(英語版)は、システム全体の少なくとも半分を含む連続したサイトによってサポートされている演算子の和であることが示されている。 コンクリートモデルにおける局所保存量の欠如は厳密な形で証明可能であることを確認した。

We rigorously prove that the spin-1/2 XYZ chain with a magnetic field has no local conserved quantity. Any nontrivial conserved quantity of this model is shown to be a sum of operators supported by contiguous sites with at least half of the entire system. We establish that the absence of local conserved quantity in concrete models is provable in a rigorous form.
翻訳日:2024-01-13 04:35:22 公開日:2024-01-11
# 第一原理から知性のエコシステムを設計する

Designing Ecosystems of Intelligence from First Principles ( http://arxiv.org/abs/2212.01354v2 )

ライセンス: Link先を確認
Karl J Friston, Maxwell J D Ramstead, Alex B Kiefer, Alexander Tschantz, Christopher L Buckley, Mahault Albarracin, Riddhi J Pitliya, Conor Heins, Brennan Klein, Beren Millidge, Dalton A R Sakthivadivel, Toby St Clere Smithe, Magnus Koudahl, Safae Essafi Tremblay, Capm Petersen, Kaiser Fung, Jason G Fox, Steven Swanson, Dan Mapes, Gabriel Ren\'e(参考訳) このホワイトペーパーは、今後10年間(そしてそれ以降)、人工知能の分野での研究と開発に関するビジョンを述べている。 そのデヌーブメントは自然と合成の感覚作りのサイバー物理的なエコシステムであり、人間は「共有知性」と呼ばれる統合的な参加者である。 このビジョンは、知能の物理として読むことができ、自己組織化の物理から継承される適応行動の定式化であるアクティブ推論(active inference)を前提としている。 この文脈では、知性は、知覚された世界の生成モデルの証拠を蓄積する能力である、と理解している。 形式的には、これは(ベイジアン)モデル証拠の最大化、すなわち推論、学習、モデル選択など、いくつかの尺度で更新された信念によるものである。 操作的には、この自己随伴は因子グラフ上の(可変)メッセージパッシングまたは信念伝達によって実現することができる。 重要なことに、アクティブな推論は知的システムの実在的な命令、すなわち好奇心や不確実性の解決を前提としている。 この命令はエージェントのアンサンブルにおける信念の共有を下書きし、各エージェントの生成的世界モデルの特定の側面(すなわち要因)が共通基盤または参照の枠組みを提供する。 アクティブ推論は、この信念共有の生態において、基本的な役割を担っている。 また、このようなインテリジェンスのエコシステムを実現し、共有された超空間モデリング言語とトランザクションプロトコルの開発を、そのようなエコロジーに向けて第1かつ第1のステップとして動機づけるために必要な通信プロトコルについても検討する。

This white paper lays out a vision of research and development in the field of artificial intelligence for the next decade (and beyond). Its denouement is a cyber-physical ecosystem of natural and synthetic sense-making, in which humans are integral participants -- what we call ''shared intelligence''. This vision is premised on active inference, a formulation of adaptive behavior that can be read as a physics of intelligence, and which inherits from the physics of self-organization. In this context, we understand intelligence as the capacity to accumulate evidence for a generative model of one's sensed world -- also known as self-evidencing. Formally, this corresponds to maximizing (Bayesian) model evidence, via belief updating over several scales: i.e., inference, learning, and model selection. Operationally, this self-evidencing can be realized via (variational) message passing or belief propagation on a factor graph. Crucially, active inference foregrounds an existential imperative of intelligent systems; namely, curiosity or the resolution of uncertainty. This same imperative underwrites belief sharing in ensembles of agents, in which certain aspects (i.e., factors) of each agent's generative world model provide a common ground or frame of reference. Active inference plays a foundational role in this ecology of belief sharing -- leading to a formal account of collective intelligence that rests on shared narratives and goals. We also consider the kinds of communication protocols that must be developed to enable such an ecosystem of intelligences and motivate the development of a shared hyper-spatial modeling language and transaction protocol, as a first -- and key -- step towards such an ecology.
翻訳日:2024-01-13 04:32:36 公開日:2024-01-11
# スケーラブルな階層型空中フェデレーション学習

Scalable Hierarchical Over-the-Air Federated Learning ( http://arxiv.org/abs/2211.16162v3 )

ライセンス: Link先を確認
Seyed Mohammad Azimi-Abarghouyi, Viktoria Fodor(参考訳) 無線ネットワーク上で階層的なフェデレーション学習を実装する場合、スケーラビリティの保証と干渉とデバイスデータの不均一性の両方を扱う能力が不可欠である。 本研究は,これらの課題に対処するために設計された新しい2レベル学習手法と,アップリンク用のスケーラブルなオーバー・ザ・エアアグリゲーションスキームと,単一の無線リソースを効率的に使用するダウンリンク用の帯域制限されたブロードキャストスキームを導入している。 データの不均一性に対する耐性を提供するため、勾配集計を用いる。 一方、アップリンクおよびダウンリンク干渉の影響は、最適化された受信機正規化係数によって最小化される。 提案アルゴリズムの収束バウンダリを導出する包括的数学的アプローチを提案し, 複数クラスタのクラスタを含むマルチクラスタ無線ネットワークに適用し, 特別な事例と設計上の留意点を提供する。 移動可能な分析を可能にするための重要なステップとして,エッジサーバ上でpoissonクラスタプロセスとしてデバイスをモデル化し,干渉によるアップリンクとダウンリンクのエラー項を厳格に定量化する空間モデルを開発した。 最後に,本アルゴリズムは,干渉やデータの不均一性に拘わらず,様々なパラメータに対する高い学習精度を実現するだけでなく,従来の階層学習アルゴリズムを大きく上回っていることを示す。

When implementing hierarchical federated learning over wireless networks, scalability assurance and the ability to handle both interference and device data heterogeneity are crucial. This work introduces a new two-level learning method designed to address these challenges, along with a scalable over-the-air aggregation scheme for the uplink and a bandwidth-limited broadcast scheme for the downlink that efficiently use a single wireless resource. To provide resistance against data heterogeneity, we employ gradient aggregations. Meanwhile, the impact of uplink and downlink interference is minimized through optimized receiver normalizing factors. We present a comprehensive mathematical approach to derive the convergence bound for the proposed algorithm, applicable to a multi-cluster wireless network encompassing any count of collaborating clusters, and provide special cases and design remarks. As a key step to enable a tractable analysis, we develop a spatial model for the setup by modeling devices as a Poisson cluster process over the edge servers and rigorously quantify uplink and downlink error terms due to the interference. Finally, we show that despite the interference and data heterogeneity, the proposed algorithm not only achieves high learning accuracy for a variety of parameters but also significantly outperforms the conventional hierarchical learning algorithm.
翻訳日:2024-01-13 04:31:39 公開日:2024-01-11
# エゴセントリックアクション予測のための相互作用領域視覚変換器

Interaction Region Visual Transformer for Egocentric Action Anticipation ( http://arxiv.org/abs/2211.14154v7 )

ライセンス: Link先を確認
Debaditya Roy, Ramanathan Rajendiran and Basura Fernando(参考訳) ヒトと物体の相互作用は最も重要な視覚的手がかりの1つであり、人間と物体の相互作用をエゴセントリックな行動予測のために表現する方法を提案する。 本稿では,アクションの実行による物体と人間の手の外観の変化を計算し,その変化を利用して映像表現を洗練することにより,インタラクションをモデル化するトランスフォーマーを提案する。 具体的には,空間クロスアテンション(sca)を用いて手と物体の相互作用をモデル化し,さらに軌道クロスアテンションを用いた文脈情報から環境改良されたインタラクショントークンを得る。 これらのトークンを用いて,行動予測のためのインタラクション中心のビデオ表現を構築する。 本稿では,EPICKTICHENS100(EK100)とEGTEA Gaze+を用いて,最先端のアクション予測性能を実現するモデルInAViTを述べる。 InAViTは、オブジェクト中心のビデオ表現を含む他のビジュアルトランスフォーマーベースの手法より優れている。 EK100評価サーバでは、InAViTは公開リーダーボード上で(提出時点で)最高パフォーマンスの手法であり、平均5回のリコールで2番目に良いモデルよりも3.3%上回っている。

Human-object interaction is one of the most important visual cues and we propose a novel way to represent human-object interactions for egocentric action anticipation. We propose a novel transformer variant to model interactions by computing the change in the appearance of objects and human hands due to the execution of the actions and use those changes to refine the video representation. Specifically, we model interactions between hands and objects using Spatial Cross-Attention (SCA) and further infuse contextual information using Trajectory Cross-Attention to obtain environment-refined interaction tokens. Using these tokens, we construct an interaction-centric video representation for action anticipation. We term our model InAViT which achieves state-of-the-art action anticipation performance on large-scale egocentric datasets EPICKTICHENS100 (EK100) and EGTEA Gaze+. InAViT outperforms other visual transformer-based methods including object-centric video representation. On the EK100 evaluation server, InAViT is the top-performing method on the public leaderboard (at the time of submission) where it outperforms the second-best model by 3.3% on mean-top5 recall.
翻訳日:2024-01-13 04:30:58 公開日:2024-01-11
# 適応型ニューラルネットワークのダイナミクス・アウェア・アドバーサリアン攻撃

Dynamics-aware Adversarial Attack of Adaptive Neural Networks ( http://arxiv.org/abs/2210.08159v4 )

ライセンス: Link先を確認
An Tao and Yueqi Duan and Yingqi Wang and Jiwen Lu and Jie Zhou(参考訳) 本稿では,適応型ニューラルネットワークの動的対向攻撃問題について検討する。 既存の攻撃アルゴリズムの多くは、基本的な前提の下で設計されている -- ネットワークアーキテクチャは攻撃プロセスを通じて固定されている。 しかし、この仮定は、計算効率を改善するために入力に基づいて不要な実行単位を適応的に非活性化する、最近提案された多くの適応型ニューラルネットワークには当てはまらない。 結果として、遅延勾配の深刻な問題が発生し、アーキテクチャ変更後の現在のステップでの学習された攻撃が非効率になる。 この問題に対処するため,本研究ではリード勾配法(lgm)を提案し,遅延勾配の有意な影響を示す。 より具体的には、ネットワークアーキテクチャの潜在的な動的変化を認識するために勾配を再構成し、ネットワークアーキテクチャが動的に変化するときの動的手法よりも、学習した攻撃が次のステップを「リード」するようにします。 2次元画像と3次元点雲の両方に対する適応ニューラルネットワークの代表型に関する広範囲な実験により、我々のLGMは動的無意識攻撃法と比較して、優れた対角攻撃性能を達成できた。 コードはhttps://github.com/antao97/LGMで入手できる。

In this paper, we investigate the dynamics-aware adversarial attack problem of adaptive neural networks. Most existing adversarial attack algorithms are designed under a basic assumption -- the network architecture is fixed throughout the attack process. However, this assumption does not hold for many recently proposed adaptive neural networks, which adaptively deactivate unnecessary execution units based on inputs to improve computational efficiency. It results in a serious issue of lagged gradient, making the learned attack at the current step ineffective due to the architecture change afterward. To address this issue, we propose a Leaded Gradient Method (LGM) and show the significant effects of the lagged gradient. More specifically, we reformulate the gradients to be aware of the potential dynamic changes of network architectures, so that the learned attack better "leads" the next step than the dynamics-unaware methods when network architecture changes dynamically. Extensive experiments on representative types of adaptive neural networks for both 2D images and 3D point clouds show that our LGM achieves impressive adversarial attack performance compared with the dynamic-unaware attack methods. Code is available at https://github.com/antao97/LGM.
翻訳日:2024-01-13 04:30:37 公開日:2024-01-11
# 強相互作用駆動型傾斜系の巨大整流

Giant rectification in strongly-interacting driven tilted systems ( http://arxiv.org/abs/2209.11718v2 )

ライセンス: Link先を確認
Juan Jos\'e Mendoza-Arenas and Stephen R. Clark(参考訳) 相関量子系は、構成粒子間の相互作用から生じる幅広い非自明な効果を示す。 非平衡のシナリオでは、これらの現象は多体絶縁状態や保存量電流の異常なスケーリング則などの現象に現れ、量子回路技術の応用に不可欠である。 本研究では,強い粒子相互作用と傾斜ポテンシャルの非対称相互作用に基づく巨大整流法を提案し,それぞれが単独で絶縁状態を誘導する。 逆バイアスは、指数的に抑制された電流を持つ強化絶縁体を協調して誘導するが、前方バイアスは伝導共鳴を発生させる。 我々は、この共鳴のメカニズムを、系のバルクエネルギースペクトルの交差を回避して生じるエネルギー固有状態間のコヒーレンス強化として解明する。 さらに,共振に近い密度行列の不純物および作用素空間の絡み合いエントロピーの出現を通じて,多体非平衡導電状態の複雑さを示す。 提案手法は,現在利用可能な電子・量子シミュレーションプラットフォームにおける完全ダイオードの実装方法である。

Correlated quantum systems feature a wide range of nontrivial effects emerging from interactions between their constituting particles. In nonequilibrium scenarios, these manifest in phenomena such as many-body insulating states and anomalous scaling laws of currents of conserved quantities, crucial for applications in quantum circuit technologies. In this work we propose a giant rectification scheme based on the asymmetric interplay between strong particle interactions and a tilted potential, each of which induces an insulating state on their own. While for reverse bias both cooperate and induce a strengthened insulator with an exponentially suppressed current, for forward bias they compete generating conduction resonances; this leads to a rectification coefficient of many orders of magnitude. We uncover the mechanism underlying these resonances as enhanced coherences between energy eigenstates occurring at avoided crossings in the system's bulk energy spectrum. Furthermore, we demonstrate the complexity of the many-body nonequilibrium conducting state through the emergence of enhanced density matrix impurity and operator space entanglement entropy close to the resonances. Our proposal paves the way for implementing a perfect diode in currently-available electronic and quantum simulation platforms.
翻訳日:2024-01-13 04:30:17 公開日:2024-01-11
# ロスレス・ニアロスレス画像圧縮のためのDeep Lossy Plus残像符号化

Deep Lossy Plus Residual Coding for Lossless and Near-lossless Image Compression ( http://arxiv.org/abs/2209.04847v2 )

ライセンス: Link先を確認
Yuanchao Bai, Xianming Liu, Kai Wang, Xiangyang Ji, Xiaolin Wu, Wen Gao(参考訳) ロスレスでロスレスに近い画像圧縮は、医療、リモートセンシング、精密工学、科学研究など、多くの技術分野において、プロのユーザにとって最重要課題である。 しかし、学習ベースの画像圧縮に関する研究が急速に増加しているにもかかわらず、公刊の方法はロスレスモードとロスレスモードの両方を提供していない。 本稿では,ロスレス画像圧縮と近ロスレス画像圧縮の両方のための,統一的で強力なdlp(deep lossy plus residual)符号化フレームワークを提案する。 損失のないモードでは、DLPR符号化システムはまず損失圧縮を行い、残余の損失のない符号化を行う。 本稿では,VAEのアプローチにおける連立損失と残留圧縮の問題を解くとともに,残余の自己回帰的文脈モデリングを加えて無損失圧縮性能を向上させる。 ほぼロスレスモードでは、与えられた$\ell_\infty$エラー境界を満たすために元の残差を量子化し、複数のネットワークをトレーニングする代わりに変数$\ell_\infty$バウンドに対してスケーラブルなニアロスレス圧縮スキームを提案する。 dlpr符号化を高速化するために,符号化コンテキストの新しい設計によりアルゴリズム並列化の度合いを増加させ,エントロピー符号化を適応残差区間で高速化する。 実験の結果,dlpr符号化システムは,最先端のロスレス画像圧縮性能とほぼロスレス画像圧縮性能の両方を達成し,競合する符号化速度を実現した。

Lossless and near-lossless image compression is of paramount importance to professional users in many technical fields, such as medicine, remote sensing, precision engineering and scientific research. But despite rapidly growing research interests in learning-based image compression, no published method offers both lossless and near-lossless modes. In this paper, we propose a unified and powerful deep lossy plus residual (DLPR) coding framework for both lossless and near-lossless image compression. In the lossless mode, the DLPR coding system first performs lossy compression and then lossless coding of residuals. We solve the joint lossy and residual compression problem in the approach of VAEs, and add autoregressive context modeling of the residuals to enhance lossless compression performance. In the near-lossless mode, we quantize the original residuals to satisfy a given $\ell_\infty$ error bound, and propose a scalable near-lossless compression scheme that works for variable $\ell_\infty$ bounds instead of training multiple networks. To expedite the DLPR coding, we increase the degree of algorithm parallelization by a novel design of coding context, and accelerate the entropy coding with adaptive residual interval. Experimental results demonstrate that the DLPR coding system achieves both the state-of-the-art lossless and near-lossless image compression performance with competitive coding speed.
翻訳日:2024-01-13 04:29:59 公開日:2024-01-11
# ARMA細胞:ニューラル自己回帰モデリングのためのモジュール的で効果的なアプローチ

ARMA Cell: A Modular and Effective Approach for Neural Autoregressive Modeling ( http://arxiv.org/abs/2208.14919v2 )

ライセンス: Link先を確認
Philipp Schiele and Christoph Berninger and David R\"ugamer(参考訳) 自己回帰移動平均(ARMA)モデルは古典的であり、おそらく時系列データに対する最も研究されているアプローチの1つである。 説得力のある理論的性質を持ち、実践者の間で広く利用されている。 近年のディープラーニングアプローチでは、リカレントニューラルネットワーク(RNN)や、特に、ニューラルネットワーク時系列モデリングにおいて最もパフォーマンスが高く、最も一般的なビルディングブロックの1つであるLong Short-Term Memory(LSTM)細胞が普及している。 時系列データや長期効果のあるシーケンスに有利であるが、複雑なRNN細胞は必ずしも必須ではなく、単純な再帰的アプローチよりも劣ることもある。 本稿では,ニューラルネットワークにおける時系列モデリングのための,よりシンプルでモジュール化された効果的なアプローチであるARMAセルを紹介する。 このセルは、リカレント構造が存在する任意のニューラルネットワークアーキテクチャで使用することができ、ベクトル自己回帰を用いて自然に多変量時系列を処理する。 また,空間的関連時系列の自然な後継としてConvARMA細胞を導入する。 実験の結果,提案手法は性能面では一般的な代替手段と競合する一方で,その単純さからより堅牢で説得力があることがわかった。

The autoregressive moving average (ARMA) model is a classical, and arguably one of the most studied approaches to model time series data. It has compelling theoretical properties and is widely used among practitioners. More recent deep learning approaches popularize recurrent neural networks (RNNs) and, in particular, Long Short-Term Memory (LSTM) cells that have become one of the best performing and most common building blocks in neural time series modeling. While advantageous for time series data or sequences with long-term effects, complex RNN cells are not always a must and can sometimes even be inferior to simpler recurrent approaches. In this work, we introduce the ARMA cell, a simpler, modular, and effective approach for time series modeling in neural networks. This cell can be used in any neural network architecture where recurrent structures are present and naturally handles multivariate time series using vector autoregression. We also introduce the ConvARMA cell as a natural successor for spatially-correlated time series. Our experiments show that the proposed methodology is competitive with popular alternatives in terms of performance while being more robust and compelling due to its simplicity
翻訳日:2024-01-13 04:29:07 公開日:2024-01-11
# CP-PINN:物理情報ニューラルネットワークによるPDEの変化点検出

CP-PINNs: Changepoints Detection in PDEs using Physics Informed Neural Networks with Total-Variation Penalty ( http://arxiv.org/abs/2208.08626v2 )

ライセンス: Link先を確認
Zhikang Dong, Pawel Polak(参考訳) 本稿では,パラメータに未知な変化点が存在する場合,物理情報ニューラルネットワーク(PINN)が正しい部分微分方程式(PDE)のダイナミクスを推定できないことを示す。 そこで本研究では,PINNと全変量ペナルティを統合した新しいCP-PINNモデルを提案する。 モデルフィッティング, PDE 探索, 変更点検出のタスクを最適に組み合わせるために, バッチ学習を利用した新しいメタ学習アルゴリズムを開発し, 連続するデータのバッチを移動する際の最適化目標を動的に洗練する。 経験的に、ダイナミクスにおける変化点の場合、このアプローチは正確なパラメータ推定とモデルのアライメントを示し、データに変化点がない場合、元のピンズモデルから解に数値的に収束する。

The paper shows that Physics-Informed Neural Networks (PINNs) can fail to estimate the correct Partial Differential Equations (PDEs) dynamics in cases of unknown changepoints in the parameters. To address this, we propose a new CP-PINNs model which integrates PINNs with Total-Variation penalty for accurate changepoints detection and PDEs discovery. In order to optimally combine the tasks of model fitting, PDEs discovery, and changepoints detection, we develop a new meta-learning algorithm that exploits batch learning to dynamically refines the optimization objective when moving over the consecutive batches of the data. Empirically, in case of changepoints in the dynamics, our approach demonstrates accurate parameter estimation and model alignment, and in case of no changepoints in the data, it converges numerically to the solution from the original PINNs model.
翻訳日:2024-01-13 04:28:48 公開日:2024-01-11
# 圧縮センシングMRIにおける局所的対向アーティファクト

Localized adversarial artifacts for compressed sensing MRI ( http://arxiv.org/abs/2206.05289v2 )

ライセンス: Link先を確認
Rima Alaifari, Giovanni S. Alberti, Tandri Gauksson(参考訳) 画像再構成タスクに対するディープニューラルネットワーク(DNN)への関心が高まっているため、その信頼性は疑問視されている(Antun et al., 2020; Gottschling et al., 2020)。 しかし、最近の研究では、全変動(TV)の最小化と比較して、DNNは適切な正規化を行うと、$\ell^2$-reconstruction error(Genzel et al., 2022)という観点で、対向ノイズと同じような堅牢性を示すことが示されている。 我々は、$\ell^\infty$-normを用いて、ロバストネスの異なる概念を考え、ローカライズされた再構築アーティファクトは$\ell^2$-errorよりも関連する欠陥であると主張している。 我々は,テレビレギュラライズド・リコンストラクションにおいて重度の局所的アーティファクトを誘発する(周波数領域における)mri計測値に対する逆向性摂動(adversarial perturbation)を作成する。 特に、DNNベースの再構築では、同じ攻撃方法が有効ではない。 最後に, この現象は, $\ell^1$- または tv-minimization を用いた圧縮センシング再構成と同様に, 正確な回復を保証できる再構成法に固有のものであることを示す。

As interest in deep neural networks (DNNs) for image reconstruction tasks grows, their reliability has been called into question (Antun et al., 2020; Gottschling et al., 2020). However, recent work has shown that, compared to total variation (TV) minimization, when appropriately regularized, DNNs show similar robustness to adversarial noise in terms of $\ell^2$-reconstruction error (Genzel et al., 2022). We consider a different notion of robustness, using the $\ell^\infty$-norm, and argue that localized reconstruction artifacts are a more relevant defect than the $\ell^2$-error. We create adversarial perturbations to undersampled magnetic resonance imaging measurements (in the frequency domain) which induce severe localized artifacts in the TV-regularized reconstruction. Notably, the same attack method is not as effective against DNN based reconstruction. Finally, we show that this phenomenon is inherent to reconstruction methods for which exact recovery can be guaranteed, as with compressed sensing reconstructions with $\ell^1$- or TV-minimization.
翻訳日:2024-01-13 04:28:31 公開日:2024-01-11
# 野生における歩行認識:大規模ベンチマークとNASベースベースライン

Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based Baseline ( http://arxiv.org/abs/2205.02692v2 )

ライセンス: Link先を確認
Xianda Guo, Zheng Zhu, Tian Yang, Beibei Lin, Junjie Huang, Jiankang Deng, Guan Huang, Jie Zhou, Jiwen Lu(参考訳) 歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。 クロスビューの認識に努力が注がれているにもかかわらず、学界はコントロールされた環境でキャプチャされた現在の既存のデータベースによって制限されている。 本稿では,GREW(Gait Recognition in the Wild)のための新しいベンチマークと強力なベースラインを提案する。 GREWデータセットは、数百台のカメラと数千時間のオープンシステムのストリームを含む、自然なビデオから構築されている。 膨大な手動アノテーションにより、GREWは26Kのアイデンティティと128Kのシーケンスで構成され、制約のない歩行認識のための豊富な属性を持つ。 さらに、233K以上の配列のトラクタセットを追加し、現実世界のアプリケーションにもっと適しています。 事前定義されたクロスビューデータセットと比較すると、GREWは多様で実用的なビューのバリエーションを持ち、より自然に困難である。 私たちの知る限りでは、これは野生での歩行認識のための最初の大規模データセットです。 本稿では,このベンチマークを用いて,代表的外観ベースおよびモデルベース手法が検討される非拘束的歩行認識問題を解析する。 提案手法は,未学習シナリオにおける歩行認識の訓練と評価に不可欠であることが証明された。 さらに,nasベースの最初の歩行認識モデルであるsposgaitという,歩行認識のための一様サンプリングを用いた単一パスワンショットニューラルネットワーク探索を提案する。 実験では、SPOSGaitはCASIA-B、OU-MVLP、Gait3D、GREWのベンチマークで最先端のパフォーマンスを達成し、既存のアプローチを大きなマージンで上回っている。 コードはhttps://github.com/xiandaguo/sposgaitでリリースされる。

Gait benchmarks empower the research community to train and evaluate high-performance gait recognition systems. Even though growing efforts have been devoted to cross-view recognition, academia is restricted by current existing databases captured in the controlled environment. In this paper, we contribute a new benchmark and strong baseline for Gait REcognition in the Wild (GREW). The GREW dataset is constructed from natural videos, which contain hundreds of cameras and thousands of hours of streams in open systems. With tremendous manual annotations, the GREW consists of 26K identities and 128K sequences with rich attributes for unconstrained gait recognition. Moreover, we add a distractor set of over 233K sequences, making it more suitable for real-world applications. Compared with prevailing predefined cross-view datasets, the GREW has diverse and practical view variations, as well as more naturally challenging factors. To the best of our knowledge, this is the first large-scale dataset for gait recognition in the wild. Equipped with this benchmark, we dissect the unconstrained gait recognition problem, where representative appearance-based and model-based methods are explored. The proposed GREW benchmark proves to be essential for both training and evaluating gait recognizers in unconstrained scenarios. In addition, we propose the Single Path One-Shot neural architecture search with uniform sampling for Gait recognition, named SPOSGait, which is the first NAS-based gait recognition model. In experiments, SPOSGait achieves state-of-the-art performance on the CASIA-B, OU-MVLP, Gait3D, and GREW benchmarks, outperforming existing approaches by a large margin. The code will be released at https://github.com/XiandaGuo/SPOSGait.
翻訳日:2024-01-13 04:28:05 公開日:2024-01-11
# 情報スクランブルによる非安定化性の定量化

Quantifying non-stabilizerness via information scrambling ( http://arxiv.org/abs/2204.11236v5 )

ライセンス: Link先を確認
Arash Ahmadi, Eliska Greplova(参考訳) 量子技術の出現は、それらが提供する計算資源の理論的特徴に多くの注意を向けた。 量子資源を定量化する方法は、マジックモノトン(magic monotones)とスタビライザーエントロピー(stabler entropies)と呼ばれる関数のクラスを使用することである。 近年,情報スクランブル,マジックモノトーンマナ,2-レニ安定剤エントロピーの相互関係が確立された。 この接続はマジックモノトン計算を単純化するが、この方法のクラスはキュービットの数に関して指数スケーリングに苦しむ。 本研究では,マジックモノトンと2-renyi安定化子エントロピーを近似する時間外コリレータをサンプリングする方法を確立した。 量子ビット系と量子ビット系の異なる非安定化測度との関係を数値的に示し, 2-renyi安定化器エントロピーとの関係を解析的に示す。 さらに、局所ハミルトンの時間進化のためのマジックの単調な振る舞いを測定するためのプロトコルを前進し、シミュレートした。

The advent of quantum technologies brought forward much attention to the theoretical characterization of the computational resources they provide. A method to quantify quantum resources is to use a class of functions called magic monotones and stabilizer entropies, which are, however, notoriously hard and impractical to evaluate for large system sizes. In recent studies, a fundamental connection between information scrambling, the magic monotone mana and 2-Renyi stabilizer entropy was established. This connection simplified magic monotone calculation, but this class of methods still suffers from exponential scaling with respect to the number of qubits. In this work, we establish a way to sample an out-of-time-order correlator that approximates magic monotones and 2-Renyi stabilizer entropy. We numerically show the relation of these sampled correlators to different non-stabilizerness measures for both qubit and qutrit systems and provide an analytical relation to 2-Renyi stabilizer entropy. Furthermore, we put forward and simulate a protocol to measure the monotonic behaviour of magic for the time evolution of local Hamiltonians.
翻訳日:2024-01-13 04:27:36 公開日:2024-01-11
# 帯域フィードバックを用いたランダムベクトルの適応推定:平均二乗誤差視点

Adaptive Estimation of Random Vectors with Bandit Feedback: A mean-squared error viewpoint ( http://arxiv.org/abs/2203.16810v3 )

ライセンス: Link先を確認
Dipayan Sen, L.A. Prashanth and Aditya Gopalan(参考訳) 平均二乗誤差(mse)の意味では、各ラウンドのエントリのわずか$m < k$ を観測することによって、未知共分散のガウス的$k$-ベクトルを推定する逐次学習の問題を考える。 まず、MSE推定のための濃度を定めます。 次に,推定問題をバンディットフィードバックを用いてフレーム化し,逐次除去アルゴリズムの変種を提案する。 また、この問題のサンプル複雑性の基本的な限界を理解するために、ミニマックス下限も導出する。

We consider the problem of sequentially learning to estimate, in the mean squared error (MSE) sense, a Gaussian $K$-vector of unknown covariance by observing only $m < K$ of its entries in each round. We first establish a concentration bound for MSE estimation. We then frame the estimation problem with bandit feedback, and propose a variant of the successive elimination algorithm. We also derive a minimax lower bound to understand the fundamental limit on the sample complexity of this problem.
翻訳日:2024-01-13 04:27:13 公開日:2024-01-11
# 静的な経路自由時間推定のための説明可能な積み重ね組立モデル

An Explainable Stacked Ensemble Model for Static Route-Free Estimation of Time of Arrival ( http://arxiv.org/abs/2203.09438v2 )

ライセンス: Link先を確認
S\"oren Schleibaum and J\"org P. M\"uller and Monika Sester(参考訳) 代替タクシーのスケジュールを比較し、それらを計算し、ドライバーや乗客への来るべきタクシー旅行についての洞察を提供するため、旅行の期間またはその推定時刻(ETA)が予測される。 予測精度を高めるために、ETAの機械学習モデルは最先端の技術である。 予測精度をさらに高めるための未発表の選択肢の1つは、複数のETAモデルをアンサンブルに組み合わせることである。 予測精度が向上する可能性は高いが、洗練されたアンサンブル構造により、アンサンブルによる予測が透明化しないことが主な欠点である。 この欠点を補う一つの選択肢は、eXplainable Artificial Intelligence (XAI)を適用することである。 本論文の貢献は3倍である。 まず、前回のetaの研究から得られた複数の機械学習モデルを、それ自体が新しい2段階のアンサンブルモデル(積み重ねられたアンサンブルモデル)に統合する。 第2に、既存のXAI手法を用いて、アンサンブルの第1レベルと第2レベルのモデルを説明する。 第3に,第1レベルの説明と第2レベルの説明を組み合わせるための3つの結合手法を提案する。 これらの結合手法により、回帰タスクの積み重ねアンサンブルを説明できます。 実験により, ETAモデルは, 予測を駆動する入力特徴の重要性を正しく学習した。

To compare alternative taxi schedules and to compute them, as well as to provide insights into an upcoming taxi trip to drivers and passengers, the duration of a trip or its Estimated Time of Arrival (ETA) is predicted. To reach a high prediction precision, machine learning models for ETA are state of the art. One yet unexploited option to further increase prediction precision is to combine multiple ETA models into an ensemble. While an increase of prediction precision is likely, the main drawback is that the predictions made by such an ensemble become less transparent due to the sophisticated ensemble architecture. One option to remedy this drawback is to apply eXplainable Artificial Intelligence (XAI). The contribution of this paper is three-fold. First, we combine multiple machine learning models from our previous work for ETA into a two-level ensemble model - a stacked ensemble model - which on its own is novel; therefore, we can outperform previous state-of-the-art static route-free ETA approaches. Second, we apply existing XAI methods to explain the first- and second-level models of the ensemble. Third, we propose three joining methods for combining the first-level explanations with the second-level ones. Those joining methods enable us to explain stacked ensembles for regression tasks. An experimental evaluation shows that the ETA models correctly learned the importance of those input features driving the prediction.
翻訳日:2024-01-13 04:27:02 公開日:2024-01-11
# ノイズ量子コンピュータによる局所化の観測

Observation of Localization Using a Noisy Quantum Computer ( http://arxiv.org/abs/2303.12309v4 )

ライセンス: Link先を確認
Kazue Kudo(参考訳) 強乱量子多体系における量子力学は局在性を示す。 初期状態メモリは、システムがローカライズされた状態にある場合の緩和が遅いため維持される。 本研究は,短時間発展後の量子スピンチェーンの磁化とねじれの重なりを評価することにより,ノイズ量子コンピュータを用いて局在を観測する方法を示す。 量子回路シミュレーションと実デバイス計算から得られた量は、実際のデバイス計算はノイズによるエラーにかなり苦しむものの、障害の強さに明らかに依存していることを示している。 ハミルトニアンの正確な対角化を用いて、ノイズによる誤差がこれらの量に与える影響を分析する。 この分析はまた、ツイストオーバーラップがハミルトニアンの固有状態に関する情報を反映することを示す。

Quantum dynamics in a strongly disordered quantum many-body system show localization properties. The initial state memory is maintained owing to slow relaxation when the system is in the localized regime. This work demonstrates how localization can be observed using a noisy quantum computer by evaluating the magnetization and twist overlap in a quantum spin chain after short-time evolution. The quantities obtained from quantum-circuit simulation and real-device computation show their apparent dependence on disorder strength, although real-device computation suffers from noise-induced errors significantly. Using the exact diagonalization of the Hamiltonian, we analyze how noise-induced errors affect those quantities. The analysis also suggests how the twist overlap can reflect the information on the eigenstates of the Hamiltonian.
翻訳日:2024-01-13 04:20:59 公開日:2024-01-11
# the devil's advocate:拡散モデルを用いた爆発不能データの幻想を破る

The Devil's Advocate: Shattering the Illusion of Unexploitable Data using Diffusion Models ( http://arxiv.org/abs/2303.08500v2 )

ライセンス: Link先を確認
Hadi M. Dolatabadi, Sarah Erfani, Christopher Leckie(参考訳) 機械学習モデルの搾取から個人データを守ることは重要である。 近年、アベイラビリティ・アタックは、ニューラルネットワークをトレーニングするためのデータの不正使用に対して、追加の保護層を提供することを約束している。 これらの手法は、ニューラルネットワークが保護されたデータから有意義なパターンを抽出できないように、データのクリーン化に不可避なノイズを加えることを目的としている。 本稿では,このようなアプローチに対する強力な対策として,探索不能なデータが錯覚にしかならないことを示す。 特に,拡散モデルのパワーを活用し,慎重に設計された復調処理がデータ保護摂動の有効性を阻害できることを示す。 我々はアルゴリズムを厳密に分析し、必要な分極の量がデータ保護摂動の大きさと直接関係があることを理論的に証明する。 AVATARと呼ばれる我々の手法は、様々なシナリオにおける最近のアベイラビリティーアタックに対して最先端のパフォーマンスを提供し、拡散モデルと保護されたデータの間の分布ミスマッチ下であっても、敵のトレーニングよりも優れています。 われわれの調査結果は、個人データの公開不能化に関するさらなる研究を求めている。 私たちの実装は、このリポジトリで利用可能です。

Protecting personal data against exploitation of machine learning models is crucial. Recently, availability attacks have shown great promise to provide an extra layer of protection against the unauthorized use of data to train neural networks. These methods aim to add imperceptible noise to clean data so that the neural networks cannot extract meaningful patterns from the protected data, claiming that they can make personal data "unexploitable." This paper provides a strong countermeasure against such approaches, showing that unexploitable data might only be an illusion. In particular, we leverage the power of diffusion models and show that a carefully designed denoising process can counteract the effectiveness of the data-protecting perturbations. We rigorously analyze our algorithm, and theoretically prove that the amount of required denoising is directly related to the magnitude of the data-protecting perturbations. Our approach, called AVATAR, delivers state-of-the-art performance against a suite of recent availability attacks in various scenarios, outperforming adversarial training even under distribution mismatch between the diffusion model and the protected data. Our findings call for more research into making personal data unexploitable, showing that this goal is far from over. Our implementation is available at this repository: https://github.com/hmdolatabadi/AVATAR.
翻訳日:2024-01-13 04:20:44 公開日:2024-01-11
# 強化学習を加速するヒューマンインスパイアフレームワーク

Human-Inspired Framework to Accelerate Reinforcement Learning ( http://arxiv.org/abs/2303.08115v2 )

ライセンス: Link先を確認
Ali Beikmohammadi and Sindri Magn\'usson(参考訳) データサイエンスの意思決定には強化学習(rl)が不可欠であるが、特に高価な物理的相互作用を伴う実世界のシナリオではサンプル非効率に苦しむ。 本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。 最初は学習エージェントをより単純なタスクに公開し、複雑さを徐々に増やし、最終的にメインタスクへと繋がる。 この方法は事前トレーニングを必要とせず、1回のイテレーションで単純なタスクを学習する。 結果として得られる知識は、計算の複雑さを増すことなく、価値や政策の伝達といった様々なトランスファー学習アプローチを促進することができる。 これは、値ベース、ポリシーベース、表、深層RLメソッドを含む、さまざまな目標、環境、RLアルゴリズムに適用できる。 実験的な評価は、単純なランダムウォークと制約を伴うより複雑な最適制御問題の両方を通して、サンプル効率を高めるためのフレームワークの有効性を示す。

Reinforcement learning (RL) is crucial for data science decision-making but suffers from sample inefficiency, particularly in real-world scenarios with costly physical interactions. This paper introduces a novel human-inspired framework to enhance RL algorithm sample efficiency. It achieves this by initially exposing the learning agent to simpler tasks that progressively increase in complexity, ultimately leading to the main task. This method requires no pre-training and involves learning simpler tasks for just one iteration. The resulting knowledge can facilitate various transfer learning approaches, such as value and policy transfer, without increasing computational complexity. It can be applied across different goals, environments, and RL algorithms, including value-based, policy-based, tabular, and deep RL methods. Experimental evaluations demonstrate the framework's effectiveness in enhancing sample efficiency, especially in challenging main tasks, demonstrated through both a simple Random Walk and more complex optimal control problems with constraints.
翻訳日:2024-01-13 04:20:22 公開日:2024-01-11
# 深部ニューラルネットワーク時代の腫瘍学のためのマルチモーダルデータ統合

Multimodal Data Integration for Oncology in the Era of Deep Neural Networks: A Review ( http://arxiv.org/abs/2303.06471v2 )

ライセンス: Link先を確認
Asim Waqas, Aakash Tripathi, Ravi P. Ramachandran, Paul Stewart, Ghulam Rasool(参考訳) がんは、放射線学、病理学、ゲノム学、プロテオミクス、臨床記録など、取得されたデータのスケール、モダリティ、解像度の異なる関係情報を持っている。 多様なデータ型を統合することで、がんの診断と治療の精度と信頼性が向上する。 人間や既存の技術ツールが視覚的に識別するには微妙すぎる病気関連の情報もある。 伝統的な手法は通常、個々のスケールでの生物学的システムに関する部分的または一様の情報に焦点を当て、データの不均一な性質の完全なスペクトルをカプセル化しない。 ディープニューラルネットワークは、複数のソースから関連する情報を抽出し統合できる高度なマルチモーダルデータ融合アプローチの開発を促進する。 グラフニューラルネットワーク(gnns)やトランスフォーマーといった最近のディープラーニングフレームワークは、マルチモーダル学習で顕著な成功を収めている。 本稿では,oncology におけるマルチモーダルデータ融合のための gnn と transformers の最先端技術に関する詳細な分析を行い,注目すべき研究成果とその成果について紹介する。 また,マルチモーダル学習の基礎,本質的課題,オンコロジーにおける統合的学習の機会についても論じる。 腫瘍学におけるマルチモーダルデータ統合の現状と今後の展望を調べることにより,マルチモーダルニューラルネットワークががん予防,早期発見,治療に果たす有望な役割を,個別設定におけるインフォームドoncologyの実践を通じて実証することを目的とする。

Cancer has relational information residing at varying scales, modalities, and resolutions of the acquired data, such as radiology, pathology, genomics, proteomics, and clinical records. Integrating diverse data types can improve the accuracy and reliability of cancer diagnosis and treatment. There can be disease-related information that is too subtle for humans or existing technological tools to discern visually. Traditional methods typically focus on partial or unimodal information about biological systems at individual scales and fail to encapsulate the complete spectrum of the heterogeneous nature of data. Deep neural networks have facilitated the development of sophisticated multimodal data fusion approaches that can extract and integrate relevant information from multiple sources. Recent deep learning frameworks such as Graph Neural Networks (GNNs) and Transformers have shown remarkable success in multimodal learning. This review article provides an in-depth analysis of the state-of-the-art in GNNs and Transformers for multimodal data fusion in oncology settings, highlighting notable research studies and their findings. We also discuss the foundations of multimodal learning, inherent challenges, and opportunities for integrative learning in oncology. By examining the current state and potential future developments of multimodal data integration in oncology, we aim to demonstrate the promising role that multimodal neural networks can play in cancer prevention, early detection, and treatment through informed oncology practices in personalized settings.
翻訳日:2024-01-13 04:20:04 公開日:2024-01-11
# 一般物理理論におけるワンショットと漸近的古典的能力

One-shot and asymptotic classical capacity in general physical theories ( http://arxiv.org/abs/2303.04138v2 )

ライセンス: Link先を確認
Shintaro Minagawa and Hayato Arai(参考訳) 近年の量子情報理論の発展に伴い、量子理論以外の情報理論を構築する試みもある。 ここでは、状態と測定が操作的に定義される一般的な物理理論において、仮説テストの相対エントロピーと1ショットの古典的容量、すなわち、ある誤差確率の制約の下で単一チャネルを用いて伝達される古典的情報の最適速度を考える。 次に,wang と renner [phys. rev. lett. 108, 200501 (2012)] による手法を一般化して,一発古典容量の上限を求める。 また、古典的な情報を特定のエラー確率で送信できる良質なコードの存在を示すことによって、容量の上限を下げる。 上記の2つの境界を適用して、任意の一般物理定理においても古典的容量と仮説検定相対エントロピーの漸近同値性を証明する。

With the recent development of quantum information theory, some attempts exist to construct information theory beyond quantum theory. Here we consider hypothesis testing relative entropy and one-shot classical capacity, that is, the optimal rate of classical information transmitted by using a single channel under a constraint of a certain error probability, in general physical theories where states and measurements are operationally defined. Then we obtain the upper bound of one-shot classical capacity by generalizing the method given by Wang and Renner [Phys. Rev. Lett. 108, 200501 (2012)]. Also, we derive the lower bound of the capacity by showing the existence of a good code that can transmit classical information with a certain error probability. Applying the above two bounds, we prove the asymptotic equivalence between classical capacity and hypothesis testing relative entropy even in any general physical theorem.
翻訳日:2024-01-13 04:19:35 公開日:2024-01-11
# 形状相オブジェクトの最適パラメータ推定

Optimum parameter estimation of shaped phase objects ( http://arxiv.org/abs/2302.14504v3 )

ライセンス: Link先を確認
Arturo Villegas, Marcello H. M. Passos, Silvania F. Pereira, Juan P. Torres(参考訳) 位相対象を特徴付けるパラメータの集合である光・物質相互作用過程によって決定される最善の精度を最適な精度で推定する方法を提案する。 この方法はpezzeらによって提唱された[phys. rev. lett. 119, 130504 (2017)]アイデアに由来する。 我々のゴールは、この方法の主な特徴と物理学コミュニティへの応用を照らすことであり、量子推定理論に関する研究で通常使われる形式的な量子言語には馴染みがないだろう。 まず、位相オブジェクトを特徴付けるパラメータの集合を推定するための精度境界を導出する。 我々は、平均光子数 N の多重モードコヒーレント状態と、多重モード単一光子量子状態の N コピーの2つの実験的な種類の照明に対して、Cr\`amer-Rao の下界を計算する。 この2つのモデルがどのような条件で等価かを示す。 第2に, 物体から反射・透過された光を, 空間形状を工夫したモード群に投影することにより, 最適精度が得られることを示す。 これらのモードの構築方法を説明し、これらの測定値を用いた推定精度が最適であることを示す。 例えば, ナノファブリケーション技術の評価のために, 半導体産業に関連する物体である崖状ナノ構造の高さと側壁角度の推定にこれらの結果を適用する。

We show a general method to estimate with optimum precision, i.e., the best precision determined by the light-matter interaction process, a set of parameters that characterize a phase object. The method derives from ideas presented by Pezze et al., [Phys. Rev. Lett. 119, 130504 (2017)]. Our goal is to illuminate the main characteristics of this method as well as its applications to the physics community, probably not familiar with the formal quantum language usually employed in works related to quantum estimation theory. First, we derive precision bounds for the estimation of the set of parameters characterizing the phase object. We compute the Cr\`amer-Rao lower bound for two experimentally relevant types of illumination: a multimode coherent state with mean photon number N, and N copies of a multimode single-photon quantum state. We show under which conditions these two models are equivalent. Second, we show that the optimum precision can be achieved by projecting the light reflected/transmitted from the object onto a set of modes with engineered spatial shape. We describe how to construct these modes, and demonstrate explicitly that the precision of the estimation using these measurements is optimum. As example, we apply these results to the estimation of the height and sidewall angle of a cliff-like nanostructure, an object relevant in semiconductor industry for the evaluation of nanofabrication techniques.
翻訳日:2024-01-13 04:19:18 公開日:2024-01-11
# 意味の線形空間:視覚言語モデルにおける構成構造

Linear Spaces of Meanings: Compositional Structures in Vision-Language Models ( http://arxiv.org/abs/2302.14383v3 )

ライセンス: Link先を確認
Matthew Trager, Pramuditha Perera, Luca Zancato, Alessandro Achille, Parminder Bhatia, Stefano Soatto(参考訳) 事前学習された視覚言語モデル(vlms)からのデータ埋め込みにおける構成構造について検討する。 伝統的に、構成性は既存の語彙からの単語の埋め込みに関する代数的操作と関連付けられている。 対照的に、エンコーダからの表現を埋め込み空間内のより小さなベクトルの集合の組み合わせとして近似しようとする。 これらのベクトルは、モデルの埋め込み空間内で直接概念を生成するための「理想語」と見なすことができる。 まず,幾何学的観点から構成構造を理解するための枠組みを提案する。 次に、これらの構成構造がVLM埋め込みの場合の確率論的に持つものを説明し、それが実際に発生する理由の直感を与える。 最後に,これらの構造をCLIPの埋め込みで実証的に探索し,分類,デバイアス,検索などの視覚言語課題の解決に有用性を評価する。 この結果から, 埋め込みベクトル上の単純線形代数演算は, VLMの挙動を制御するための合成および解釈可能な手法として利用できることがわかった。

We investigate compositional structures in data embeddings from pre-trained vision-language models (VLMs). Traditionally, compositionality has been associated with algebraic operations on embeddings of words from a pre-existing vocabulary. In contrast, we seek to approximate representations from an encoder as combinations of a smaller set of vectors in the embedding space. These vectors can be seen as "ideal words" for generating concepts directly within the embedding space of the model. We first present a framework for understanding compositional structures from a geometric perspective. We then explain what these compositional structures entail probabilistically in the case of VLM embeddings, providing intuitions for why they arise in practice. Finally, we empirically explore these structures in CLIP's embeddings and we evaluate their usefulness for solving different vision-language tasks such as classification, debiasing, and retrieval. Our results show that simple linear algebraic operations on embedding vectors can be used as compositional and interpretable methods for regulating the behavior of VLMs.
翻訳日:2024-01-13 04:18:54 公開日:2024-01-11
# Classy Ensemble: 分類のための新しいEnsembleアルゴリズム

Classy Ensemble: A Novel Ensemble Algorithm for Classification ( http://arxiv.org/abs/2302.10580v4 )

ライセンス: Link先を確認
Moshe Sipper(参考訳) 本稿では,クラス毎の精度の重み付けによってモデルを集約する,分類タスクのための新しいアンサンブル生成アルゴリズムであるClassy Ensembleを提案する。 153以上の機械学習データセットをテストすると、Classy Ensembleは、注文ベースのプルーニングとクラスタリングベースのプルーニングという、他のよく知られたアグリゲーションアルゴリズムと、最近導入されたレキシガーデンアンサンブルジェネレータよりも優れています。 次に3つの改善点を紹介します 1) Classy Ensemble と Cluster-based pruning を組み合わせた Classy Cluster Ensemble 2) Fashion MNIST, CIFAR10, CIFAR100, ImageNetの4つの画像データセットに対するクラスアンサンブルの利点を示すディープラーニング実験。 3) 進化的アンサンブル(Classy Evolutionary Ensemble)は、進化的アルゴリズムを用いて、クラスアンサンブルが選択したモデルのセットを選択する。 学習と進化を組み合わせることで、最も難しいデータセットのパフォーマンスが向上した。

We present Classy Ensemble, a novel ensemble-generation algorithm for classification tasks, which aggregates models through a weighted combination of per-class accuracy. Tested over 153 machine learning datasets we demonstrate that Classy Ensemble outperforms two other well-known aggregation algorithms -- order-based pruning and clustering-based pruning -- as well as the recently introduced lexigarden ensemble generator. We then present three enhancements: 1) Classy Cluster Ensemble, which combines Classy Ensemble and cluster-based pruning; 2) Deep Learning experiments, showing the merits of Classy Ensemble over four image datasets: Fashion MNIST, CIFAR10, CIFAR100, and ImageNet; and 3) Classy Evolutionary Ensemble, wherein an evolutionary algorithm is used to select the set of models which Classy Ensemble picks from. This latter, combining learning and evolution, resulted in improved performance on the hardest dataset.
翻訳日:2024-01-13 04:18:39 公開日:2024-01-11
# 関数プルーニングに基づくログ線形非パラメトリックオンライン変更点検出アルゴリズム

A Log-Linear Non-Parametric Online Changepoint Detection Algorithm based on Functional Pruning ( http://arxiv.org/abs/2302.02718v2 )

ライセンス: Link先を確認
Gaetano Romano, Idris A Eckley, Paul Fearnhead(参考訳) オンライン変更ポイント検出は、高頻度のデータストリームにおける異常やリアルタイムの変化を検知することを目的としている。 これは、サイバーセキュリティ、医療、天体物理学などを含む、多くの現実世界のアプリケーションで根ざしている重要なタスクです。 高速で効率的なオンラインアルゴリズムが最近導入されたが、それらはパラメトリックな仮定に依存している。 電気通信部門のデータストリームに動機づけられ、シーケンスの分布の変化を検出するための柔軟な非パラメトリックなアプローチを構築します。 我々の手順であるNP-FOCuSは、データの経験的累積密度関数の点集合の変化に対する逐次的確率比テストを構築した。 これは、これらの点以上の観測回数を追跡することで達成される。 NP-FOCuSは機能的プルーニングのアイデアにより、観測回数の対数線形であり、高周波データストリームに適した計算コストを持つ。 検出能力の面では、NP-FOCuSは様々な設定で現在の非パラメトリックオンライン変更ポイント技術より優れている。 本手法はシミュレーションデータと実データの両方において有用性を示す。

Online changepoint detection aims to detect anomalies and changes in real-time in high-frequency data streams, sometimes with limited available computational resources. This is an important task that is rooted in many real-world applications, including and not limited to cybersecurity, medicine and astrophysics. While fast and efficient online algorithms have been recently introduced, these rely on parametric assumptions which are often violated in practical applications. Motivated by data streams from the telecommunications sector, we build a flexible nonparametric approach to detect a change in the distribution of a sequence. Our procedure, NP-FOCuS, builds a sequential likelihood ratio test for a change in a set of points of the empirical cumulative density function of our data. This is achieved by keeping track of the number of observations above or below those points. Thanks to functional pruning ideas, NP-FOCuS has a computational cost that is log-linear in the number of observations and is suitable for high-frequency data streams. In terms of detection power, NP-FOCuS is seen to outperform current nonparametric online changepoint techniques in a variety of settings. We demonstrate the utility of the procedure on both simulated and real data.
翻訳日:2024-01-13 04:17:07 公開日:2024-01-11
# 逐次学習による連続的輪郭型インスタンスセグメンテーション

Recurrent Generic Contour-based Instance Segmentation with Progressive Learning ( http://arxiv.org/abs/2301.08898v2 )

ライセンス: Link先を確認
Hao Feng, Keyi Zhou, Wengang Zhou, Yufei Yin, Jiajun Deng, Houqiang Li(参考訳) contourベースのインスタンスセグメンテーションは、複雑なバックグラウンド内でビジュアルオブジェクトを処理する柔軟性とエレガンスのおかげで、活発に研究されている。 本研究では,一般的な輪郭型インスタンスセグメンテーションのための新しいディープネットワークアーキテクチャ,すなわちPolySnakeを提案する。 古典的な Snake アルゴリズムに動機付け,提案した PolySnake は反復的・進行的輪郭改良戦略により,優れた,堅牢なセグメンテーション性能を実現する。 技術的には、PolySnakeは繰り返し更新演算子を導入し、オブジェクトの輪郭を反復的に見積もる。 それは、オブジェクト境界に向かって徐々に変形する輪郭の単一の推定を維持する。 それぞれのイテレーションで、PolySnakeは現在の輪郭のセマンティックリッチな表現を構築し、それをリカレント演算子に供給し、さらなる輪郭調整を行う。 反復精製により、輪郭は徐々に安定な状態に収束し、オブジェクトのインスタンスをしっかりと囲む。 一般的なインスタンスセグメンテーションの範囲を超えて、シーンテキスト検出とレーン検出を含む2つの特定のタスクシナリオにおいて、PolySnakeの有効性と一般化性を検証するために、広範な実験が実施されている。 その結果,提案手法は3つのタスクにまたがる複数の有界ベンチマークにおいて,既存の先進的手法よりも優れていることがわかった。 コードと事前訓練されたモデルはhttps://github.com/fh2019ustc/PolySnakeで入手できる。

Contour-based instance segmentation has been actively studied, thanks to its flexibility and elegance in processing visual objects within complex backgrounds. In this work, we propose a novel deep network architecture, i.e., PolySnake, for generic contour-based instance segmentation. Motivated by the classic Snake algorithm, the proposed PolySnake achieves superior and robust segmentation performance with an iterative and progressive contour refinement strategy. Technically, PolySnake introduces a recurrent update operator to estimate the object contour iteratively. It maintains a single estimate of the contour that is progressively deformed toward the object boundary. At each iteration, PolySnake builds a semantic-rich representation for the current contour and feeds it to the recurrent operator for further contour adjustment. Through the iterative refinements, the contour progressively converges to a stable status that tightly encloses the object instance. Beyond the scope of general instance segmentation, extensive experiments are conducted to validate the effectiveness and generalizability of our PolySnake in two additional specific task scenarios, including scene text detection and lane detection. The results demonstrate that the proposed PolySnake outperforms the existing advanced methods on several multiple prevalent benchmarks across the three tasks. The codes and pre-trained models are available at https://github.com/fh2019ustc/PolySnake
翻訳日:2024-01-13 04:16:26 公開日:2024-01-11
# 一貫性制約とシグナー除去による連続手話認識の改善

Improving Continuous Sign Language Recognition with Consistency Constraints and Signer Removal ( http://arxiv.org/abs/2212.13023v2 )

ライセンス: Link先を確認
Ronglai Zuo and Brian Mak(参考訳) ほとんどのディープラーニングベースの連続手話認識(CSLR)モデルは、視覚モジュール、シーケンシャルモジュール、アライメントモジュールからなる同様のバックボーンを共有している。 しかし、訓練サンプルが限られているため、コネクショニストの時間的分類損失はCSLRバックボーンを十分に訓練することができない。 本研究では,CSLRバックボーンを強化するための3つの補助タスクを提案する。 最初のタスクは、一貫性の観点から、不十分なトレーニング問題に敏感な視覚モジュールを強化する。 具体的には、手話の情報は主に署名者の表情や手の動きに含まれているため、視覚モジュールに情報領域、すなわち空間的注意一貫性を集中させるキーポイント誘導空間注意モジュールが開発されている。 第二に、視覚的およびシーケンシャルなモジュールの出力特徴が同じ文を表すことに気付き、バックボーンのパワーをよりよく活用するために、視覚的およびシーケンシャルなモジュール間の文埋め込み一貫性制約を課し、両方の特徴の表現力を高める。 我々は、上記の補助タスクで訓練されたCSLRモデルを、整合性強化CSLRと呼び、すべてのシグナがトレーニングとテストの両方の間に現れるシグナ依存データセットでうまく機能する。 さらに、シグナー非依存設定をより堅牢にするため、特徴異方性に基づくシグナー除去モジュールを提案し、シグナー情報をバックボーンから削除する。 これらの補助作業の有効性を検証するために広範なアブレーション研究が行われている。 さらに、トランスフォーマーベースのバックボーンにより、PHOENIX-2014、PHOENIX-2014-T、PHOENIX-2014-SI、CSL、CSL-Dailyの5つのベンチマークで、最先端または競合的なパフォーマンスを達成する。 コードとモデルはhttps://github.com/2000zrl/lcsa_c2slr_srmで入手できる。

Most deep-learning-based continuous sign language recognition (CSLR) models share a similar backbone consisting of a visual module, a sequential module, and an alignment module. However, due to limited training samples, a connectionist temporal classification loss may not train such CSLR backbones sufficiently. In this work, we propose three auxiliary tasks to enhance the CSLR backbones. The first task enhances the visual module, which is sensitive to the insufficient training problem, from the perspective of consistency. Specifically, since the information of sign languages is mainly included in signers' facial expressions and hand movements, a keypoint-guided spatial attention module is developed to enforce the visual module to focus on informative regions, i.e., spatial attention consistency. Second, noticing that both the output features of the visual and sequential modules represent the same sentence, to better exploit the backbone's power, a sentence embedding consistency constraint is imposed between the visual and sequential modules to enhance the representation power of both features. We name the CSLR model trained with the above auxiliary tasks as consistency-enhanced CSLR, which performs well on signer-dependent datasets in which all signers appear during both training and testing. To make it more robust for the signer-independent setting, a signer removal module based on feature disentanglement is further proposed to remove signer information from the backbone. Extensive ablation studies are conducted to validate the effectiveness of these auxiliary tasks. More remarkably, with a transformer-based backbone, our model achieves state-of-the-art or competitive performance on five benchmarks, PHOENIX-2014, PHOENIX-2014-T, PHOENIX-2014-SI, CSL, and CSL-Daily. Code and Models are available at https://github.com/2000ZRL/LCSA_C2SLR_SRM.
翻訳日:2024-01-13 04:16:00 公開日:2024-01-11
# CMA-ESによる単一・多目的混合整数ブラックボックス最適化のための行列確率に基づく整数処理

Marginal Probability-Based Integer Handling for CMA-ES Tackling Single-and Multi-Objective Mixed-Integer Black-Box Optimization ( http://arxiv.org/abs/2212.09260v2 )

ライセンス: Link先を確認
Ryoki Hamano, Shota Saito, Masahiro Nomura, Shinichi Shirakawa(参考訳) 本研究の目的は、連続変数と整数変数を同時に最適化する混合整数ブラックボックス最適化(MI-BBO)問題である。 本研究の焦点であるCMA-ESは,多変量ガウス分布(MGD)から解候補を抽出する確率探索法であり,連続BBOにおいて優れた性能を示す。 CMA-ESにおける候補解の評価値に基づいてMGD,平均および(共)分散のパラメータを更新する。 しかし、CMA-ESを直接離散化でMI-BBOに適用すると、整数変数に対応する分散は最適解に到達する前の離散化の粒度よりもはるかに小さくなり、最適化が停滞する。 特に、バイナリ変数が問題に含まれる場合、離散化の粒度が広くなり、既存のCMA-ESの整数処理がこの停滞に対処しないため、この停滞が生じる可能性が高い。 これらの制限を克服するために,MGD における整数変数の生成に伴う限界確率の低境界に基づく CMA-ES に対する単純な整数処理を提案する。 MI-BBOベンチマーク問題に対する数値実験により,提案手法の有効性とロバスト性を示した。 さらに,提案手法の汎用性を示すために,単目的最適化の事例に加えて,多目的cma-esに組み込んで,bi-objective mixed-integerベンチマーク問題に対する性能検証を行った。

This study targets the mixed-integer black-box optimization (MI-BBO) problem where continuous and integer variables should be optimized simultaneously. The CMA-ES, our focus in this study, is a population-based stochastic search method that samples solution candidates from a multivariate Gaussian distribution (MGD), which shows excellent performance in continuous BBO. The parameters of MGD, mean and (co)variance, are updated based on the evaluation value of candidate solutions in the CMA-ES. If the CMA-ES is applied to the MI-BBO with straightforward discretization, however, the variance corresponding to the integer variables becomes much smaller than the granularity of the discretization before reaching the optimal solution, which leads to the stagnation of the optimization. In particular, when binary variables are included in the problem, this stagnation more likely occurs because the granularity of the discretization becomes wider, and the existing integer handling for the CMA-ES does not address this stagnation. To overcome these limitations, we propose a simple integer handling for the CMA-ES based on lower-bounding the marginal probabilities associated with the generation of integer variables in the MGD. The numerical experiments on the MI-BBO benchmark problems demonstrate the efficiency and robustness of the proposed method. Furthermore, in order to demonstrate the generality of the idea of the proposed method, in addition to the single-objective optimization case, we incorporate it into multi-objective CMA-ES and verify its performance on bi-objective mixed-integer benchmark problems.
翻訳日:2024-01-13 04:15:26 公開日:2024-01-11
# wifi-tcn:wifi信号に基づく対話認識のための時間畳み込み

WiFi-TCN: Temporal Convolution for Human Interaction Recognition based on WiFi signal ( http://arxiv.org/abs/2305.18211v2 )

ライセンス: Link先を確認
Chih-Yang Lin, Chia-Yu Lin, Yu-Tso Liu, and Timothy K. Shih(参考訳) 近年,Wi-Fiをベースとした人的活動認識の利用は,呼吸や心拍数,セキュリティ,高齢者の介護など,様々な分野に応用されていることから,大きな関心を集めている。 これらのWi-Fiベースの手法は、コスト削減や展開の容易さなど、カメラやセンサーに依存する従来の最先端技術に対して、いくつかの利点がある。 しかし、Wi-FiベースのHARにまつわる重大な課題は、シーンや主題が変化するとパフォーマンスが著しく低下することである。 この問題を軽減するためには、広範なデータセットを使用してモデルをトレーニングすることが不可欠である。 近年, LSTM, GRU, TransformerなどのCNNモデルやシーケンス・ツー・シーケンスモデルの利用が普及している。 sequence-to-sequenceモデルの方が正確であるが、計算集約性が高く、より多くのトレーニングデータを必要とする。 これらの制約に対処するため,TN-AAと呼ばれる時間的畳み込みネットワークを利用した新しいアプローチを提案する。 提案手法は計算効率が高く,拡張手法によりデータサイズが3倍に向上しても精度が向上する。 公開データセットに関する我々の実験は、我々のアプローチが既存の最先端手法より優れており、最終的な精度は99.42%であることを示している。

The utilization of Wi-Fi based human activity recognition has gained considerable interest in recent times, primarily owing to its applications in various domains such as healthcare for monitoring breath and heart rate, security, elderly care. These Wi-Fi-based methods exhibit several advantages over conventional state-of-the-art techniques that rely on cameras and sensors, including lower costs and ease of deployment. However, a significant challenge associated with Wi-Fi-based HAR is the significant decline in performance when the scene or subject changes. To mitigate this issue, it is imperative to train the model using an extensive dataset. In recent studies, the utilization of CNN-based models or sequence-to-sequence models such as LSTM, GRU, or Transformer has become prevalent. While sequence-to-sequence models can be more precise, they are also more computationally intensive and require a larger amount of training data. To tackle these limitations, we propose a novel approach that leverages a temporal convolution network with augmentations and attention, referred to as TCN-AA. Our proposed method is computationally efficient and exhibits improved accuracy even when the data size is increased threefold through our augmentation techniques. Our experiments on a publicly available dataset indicate that our approach outperforms existing state-of-the-art methods, with a final accuracy of 99.42%.
翻訳日:2024-01-13 04:08:31 公開日:2024-01-11
# 単なる前方通過を伴う微調整言語モデル

Fine-Tuning Language Models with Just Forward Passes ( http://arxiv.org/abs/2305.17333v3 )

ライセンス: Link先を確認
Sadhika Malladi, Tianyu Gao, Eshaan Nichani, Alex Damian, Jason D. Lee, Danqi Chen, Sanjeev Arora(参考訳) 微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは極めて大量のメモリを必要とする。 ゼロ階法(ZO)は、原則として2つの前方パスのみを用いて勾配を推定できるが、大模型を最適化するために破滅的に遅いと理論化されている。 本研究では,従来のZO-SGD法をインプレースに適応させたメモリ効率の高いゼロオーダー最適化器(MeZO)を提案する。 例えば、単一のa100 80gb gpuでは、30億のパラメータモデルをトレーニングできるが、バックプロパゲーションによる微調整では、同じ予算で2.7b lmしかトレーニングできない。 モデルタイプ(マストおよび自己回帰型lms)、モデルスケール(最大66b)、下流タスク(分類、多重化、生成)にまたがる包括的な実験を行う。 Our results demonstrate that (1) MeZO significantly outperforms in-context learning and linear probing; (2) MeZO achieves comparable performance to fine-tuning with backpropagation across multiple tasks, with up to 12x memory reduction and up to 2x GPU-hour reduction in our implementation; (3) MeZO is compatible with both full-parameter and parameter-efficient tuning techniques such as LoRA and prefix tuning; (4) MeZO can effectively optimize non-differentiable objectives (e.g., maximizing accuracy or F1). 我々は、従来のZO分析ではそうでなかったが、MeZOがいかに十分な事前学習とタスクプロンプトが巨大なモデルを微調整できるかを強調し、理論的洞察で実証的な結果を支持する。

Fine-tuning language models (LMs) has yielded success on diverse downstream tasks, but as LMs grow in size, backpropagation requires a prohibitively large amount of memory. Zeroth-order (ZO) methods can in principle estimate gradients using only two forward passes but are theorized to be catastrophically slow for optimizing large models. In this work, we propose a memory-efficient zerothorder optimizer (MeZO), adapting the classical ZO-SGD method to operate in-place, thereby fine-tuning LMs with the same memory footprint as inference. For example, with a single A100 80GB GPU, MeZO can train a 30-billion parameter model, whereas fine-tuning with backpropagation can train only a 2.7B LM with the same budget. We conduct comprehensive experiments across model types (masked and autoregressive LMs), model scales (up to 66B), and downstream tasks (classification, multiple-choice, and generation). Our results demonstrate that (1) MeZO significantly outperforms in-context learning and linear probing; (2) MeZO achieves comparable performance to fine-tuning with backpropagation across multiple tasks, with up to 12x memory reduction and up to 2x GPU-hour reduction in our implementation; (3) MeZO is compatible with both full-parameter and parameter-efficient tuning techniques such as LoRA and prefix tuning; (4) MeZO can effectively optimize non-differentiable objectives (e.g., maximizing accuracy or F1). We support our empirical findings with theoretical insights, highlighting how adequate pre-training and task prompts enable MeZO to fine-tune huge models, despite classical ZO analyses suggesting otherwise.
翻訳日:2024-01-13 04:08:09 公開日:2024-01-11
# 大規模言語モデルにおける異種価値アライメントの評価

Heterogeneous Value Alignment Evaluation for Large Language Models ( http://arxiv.org/abs/2305.17147v3 )

ライセンス: Link先を確認
Zhaowei Zhang, Ceyao Zhang, Nian Liu, Siyuan Qi, Ziqi Rong, Song-Chun Zhu, Shuguang Cui, Yaodong Yang(参考訳) 大規模言語モデル(llm)の創発的な能力は、それらの価値を人間のものと一致させることを重要にしている。 しかしながら、現在の方法論は、通常、価値をLLMの属性として割り当てようとするが、価値を追求する能力や、特定の実用アプリケーションにおける異種値の転送の重要性に注意を払わない。 本稿では,LLMと不均一値の整合性を評価するために,不均一値アライメント評価(HVAE)システムを提案する。 具体的には、まず、社会的価値指向(Social Value Orientation, SVO)の枠組みを社会心理学から持ち出し、それは、人が他人の福祉にどれだけ重みを付けるかに対応する。 次に,LLMに異なる社会的価値を割り当て,その振る舞いが誘導的価値と一致するかどうかを測定する。 我々は,LLMが特定の値と整合する能力を示すために,新しい自動測度 \textit{value rationality} を用いて評価を行う。 5つの LLM の値合理性を評価することにより,LLM の個人的価値に対する中立的価値に対する妥当性を識別する。 これらのLLMの挙動を調べることにより、不均一な値システムにおけるLLMの価値アライメントの深い洞察に寄与する。

The emergent capabilities of Large Language Models (LLMs) have made it crucial to align their values with those of humans. However, current methodologies typically attempt to assign value as an attribute to LLMs, yet lack attention to the ability to pursue value and the importance of transferring heterogeneous values in specific practical applications. In this paper, we propose a Heterogeneous Value Alignment Evaluation (HVAE) system, designed to assess the success of aligning LLMs with heterogeneous values. Specifically, our approach first brings the Social Value Orientation (SVO) framework from social psychology, which corresponds to how much weight a person attaches to the welfare of others in relation to their own. We then assign the LLMs with different social values and measure whether their behaviors align with the inducing values. We conduct evaluations with new auto-metric \textit{value rationality} to represent the ability of LLMs to align with specific values. Evaluating the value rationality of five mainstream LLMs, we discern a propensity in LLMs towards neutral values over pronounced personal values. By examining the behavior of these LLMs, we contribute to a deeper insight into the value alignment of LLMs within a heterogeneous value system.
翻訳日:2024-01-13 04:07:18 公開日:2024-01-11
# BEV-IO: インスタンス操作による鳥のEye-View 3D検出の強化

BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy ( http://arxiv.org/abs/2305.16829v2 )

ライセンス: Link先を確認
Zaibin Zhang, Yuanhang Zhang, Lijun Wang, Yifan Wang, Huchuan Lu(参考訳) 鳥の目視(BEV)表現を3次元検出で構築するための一般的なアプローチは、明示的に予測された深度分布に基づいて2次元画像特徴を視野に持ち上げることである。 しかし、深度分布は、可視物体表面の3次元幾何学のみを特徴付けることができるが、内部空間と全体幾何学構造を捉えることができず、スパースで不満足な3次元表現をもたらす。 この問題を軽減するために,BEV-IOという新たな3次元検出パラダイムを提案する。 提案手法のコアとなるのは,新たに設計されたインスタンス占有予測(IOP)モジュールである。 表現の柔軟性を維持しながらトレーニング効率を確保するため、明示的および暗黙的な監督の組み合わせを用いてトレーニングされる。 予測された占有率を用いて,各光線に沿う占有分布に基づいて自己注意を行い,インスタンスレベルの特徴整合性を実現するような特徴伝搬機構 (GFP) をさらに設計する。 IOPモジュールとGFP機構を統合することで,BEV-IO検出器はより包括的なBEV表現を持つ高情報な3Dシーン構造を描画することができる。 実験結果から,BEV-IOはパラメータの無視的な増加(0.2%)と計算オーバーヘッド(0.24%のGFLOPs)しか加えず,最先端の手法より優れていることが示された。

A popular approach for constructing bird's-eye-view (BEV) representation in 3D detection is to lift 2D image features onto the viewing frustum space based on explicitly predicted depth distribution. However, depth distribution can only characterize the 3D geometry of visible object surfaces but fails to capture their internal space and overall geometric structure, leading to sparse and unsatisfactory 3D representations. To mitigate this issue, we present BEV-IO, a new 3D detection paradigm to enhance BEV representation with instance occupancy information. At the core of our method is the newly-designed instance occupancy prediction (IOP) module, which aims to infer point-level occupancy status for each instance in the frustum space. To ensure training efficiency while maintaining representational flexibility, it is trained using the combination of both explicit and implicit supervision. With the predicted occupancy, we further design a geometry-aware feature propagation mechanism (GFP), which performs self-attention based on occupancy distribution along each ray in frustum and is able to enforce instance-level feature consistency. By integrating the IOP module with GFP mechanism, our BEV-IO detector is able to render highly informative 3D scene structures with more comprehensive BEV representations. Experimental results demonstrate that BEV-IO can outperform state-of-the-art methods while only adding a negligible increase in parameters (0.2%) and computational overhead (0.24%in GFLOPs).
翻訳日:2024-01-13 04:06:46 公開日:2024-01-11
# ブラックボックス変分推論の収束について

On the Convergence of Black-Box Variational Inference ( http://arxiv.org/abs/2305.15349v4 )

ライセンス: Link先を確認
Kyurae Kim, Jisu Oh, Kaiwen Wu, Yi-An Ma, Jacob R. Gardner(参考訳) モンテカルロ変分推論(Monte Carlo variational inference)としても知られる完全なブラックボックス変分推論(BBVI)に対する最初の収束保証を提供する。 bbvi(bounded domain,bounded support,only optimize for the scale, such)の簡易バージョンに関する予備的な調査が実施されたが、私たちのセットアップにはそのようなアルゴリズムによる修正は必要ない。 本研究は, 強いログコンベビティと位置スケールのばらつきを有する後葉密度について検討した。 また,本分析の結果から,アルゴリズムの設計選択,特に変分近似のスケールの非線形パラメータ化は,最適下収束率をもたらすことが明らかとなった。 幸いなことに、近確率勾配勾配でBBVIを走らせるとこれらの制限が修正され、最も強い収束率保証が達成される。 ベイズ推論問題におけるBBVIの他の標準実装との比較により,この理論的知見を評価する。

We provide the first convergence guarantee for full black-box variational inference (BBVI), also known as Monte Carlo variational inference. While preliminary investigations worked on simplified versions of BBVI (e.g., bounded domain, bounded support, only optimizing for the scale, and such), our setup does not need any such algorithmic modifications. Our results hold for log-smooth posterior densities with and without strong log-concavity and the location-scale variational family. Also, our analysis reveals that certain algorithm design choices commonly employed in practice, particularly, nonlinear parameterizations of the scale of the variational approximation, can result in suboptimal convergence rates. Fortunately, running BBVI with proximal stochastic gradient descent fixes these limitations, and thus achieves the strongest known convergence rate guarantees. We evaluate this theoretical insight by comparing proximal SGD against other standard implementations of BBVI on large-scale Bayesian inference problems.
翻訳日:2024-01-13 04:05:50 公開日:2024-01-11
# 可視グラフと移動学習によるPSGの振幅非依存機械学習

Amplitude-Independent Machine Learning for PPG through Visibility Graphs and Transfer Learning ( http://arxiv.org/abs/2305.14062v3 )

ライセンス: Link先を確認
Yuyang Miao, Harry J. Davies, Danilo P. Mandic(参考訳) photoplethysmography (ppg) は、光を用いた血液量の変化の測定であり、ほとんどのウェアラブルデバイスの特徴である。 PPGシグナルは、身体の循環系に関する洞察を与え、心拍数や血管老化などの様々な生体機能を引き出すために用いられる。 この目的のためにいくつかのアルゴリズムが提案されているが、人間のキャリブレーション、高い信号品質要求、一般化の欠如など多くの制限がある。 本稿では,グラフ理論とコンピュータビジョンアルゴリズムを統合したPSG信号処理フレームワークを導入し,振幅非依存かつアフィン変換に不変な解析フレームワークを提案する。 また、最小限の事前処理を必要とし、RGBチャネルを通じて情報を融合し、タスクやデータセットをまたいだ堅牢な一般化を示す。 提案するvgtl-netは血管老化の予測において最先端の性能を達成し,連続血圧波形のロバストな推定を示す。

Photoplethysmography (PPG) refers to the measurement of variations in blood volume using light and is a feature of most wearable devices. The PPG signals provide insight into the body's circulatory system and can be employed to extract various bio-features, such as heart rate and vascular ageing. Although several algorithms have been proposed for this purpose, many exhibit limitations, including heavy reliance on human calibration, high signal quality requirements, and a lack of generalisation. In this paper, we introduce a PPG signal processing framework that integrates graph theory and computer vision algorithms, to provide an analysis framework which is amplitude-independent and invariant to affine transformations. It also requires minimal preprocessing, fuses information through RGB channels and exhibits robust generalisation across tasks and datasets. The proposed VGTL-net achieves state-of-the-art performance in the prediction of vascular ageing and demonstrates robust estimation of continuous blood pressure waveforms.
翻訳日:2024-01-13 04:05:33 公開日:2024-01-11
# 集団スピン系における測定誘起マルチパーティタイト・エンタングルメントレジーム

Measurement-induced multipartite-entanglement regimes in collective spin systems ( http://arxiv.org/abs/2305.10209v3 )

ライセンス: Link先を確認
Pablo M. Poggi, Manuel H. Mu\~noz-Arias(参考訳) 量子軌道のレベルでスピン1/2粒子のアンサンブルのダイナミクスにおける集団的一般化測定と相互作用誘起スクランブルの競合効果について検討した。 この設定は、量子回路における測定誘起遷移につながるものと類似していると考えられる。 本研究は,集合的ユニタリダイナミクスと測定値の相互作用が,モニタリング強度の関数として,多部交絡の証となる平均量子漁業情報(QFI)の3つの状態につながることを示す。 弱い測定と強い測定の両方が広範囲のqfi密度(すなわち個々の量子軌道はハイゼンベルクスケーリングを示す状態を与える)をもたらすのに対して、古典的様状態の中間配置が出現し、そこでは測定はスクランブルグダイナミクスと効果的に競合し、量子相関の発展を阻害し、サブハイゼンベルク制限状態につながる。 我々は,これらのレジームとそれらの間のクロスオーバーを数値的および解析的ツールを用いて特徴付け,観察された多体系における絡み合い相,量子から古典的遷移との関係について論じる。

We study the competing effects of collective generalized measurements and interaction-induced scrambling in the dynamics of an ensemble of spin-1/2 particles at the level of quantum trajectories. This setup can be considered as analogous to the one leading to measurement-induced transitions in quantum circuits. We show that the interplay between collective unitary dynamics and measurements leads to three regimes of the average Quantum Fisher Information (QFI), which is a witness of multipartite entanglement, as a function of the monitoring strength. While both weak and strong measurements lead to extensive QFI density (i.e., individual quantum trajectories yield states displaying Heisenberg scaling), an intermediate regime of classical-like states emerges for all system sizes where the measurement effectively competes with the scrambling dynamics and precludes the development of quantum correlations, leading to sub-Heisenberg-limited states. We characterize these regimes and the crossovers between them using numerical and analytical tools, and discuss the connections between our findings, entanglement phases in monitored many-body systems, and the quantum-to-classical transition.
翻訳日:2024-01-13 04:05:13 公開日:2024-01-11
# 量子コヒーレンス支援動的相転移

Quantum coherence assisted dynamical phase transition ( http://arxiv.org/abs/2305.08400v4 )

ライセンス: Link先を確認
Bao-Ming Xu(参考訳) 量子コヒーレンス(英語版)は、量子多体系の力学を理解する上で、間違いなく基本的な役割を果たす。 本稿では,コヒーレントギブス状態において初期化された一次元横磁場量子イジングモデルに関する議論を専門とし,量子コヒーレンスが動的相転移(dqpt)に及ぼす影響について検討する。 横磁場の強さを消した後、量子コヒーレンスの効果はフィッシャー零点、レート関数、巻数によって研究される。 量子コヒーレンスは、量子相転移に関連する従来のDQPTを回復するだけでなく、平衡量子臨界点に依存しない全く新しいDQPTを生成する。 これらの全く新しいqdptでは、フィッシャー零点の直線は虚軸を2回切断する(つまり、2つの臨界モードがあり、1つは回転数を降下させるが、もう1つは上昇させる)。 また, 臨界モードが支配的でないため, 高温でのDQPT記述には速度関数は使用できないことがわかった。 この研究は、量子臨界現象と量子コヒーレンスとの基本的な関係に新しい光を放つ。

Quantum coherence will undoubtedly play a fundamental role in understanding the dynamics of quantum many-body systems, thereby to reveal its genuine contribution is of great importance. In this paper, we specialize our discussions on the one-dimensional transverse field quantum Ising model initialized in the coherent Gibbs state, and investigate the effects of quantum coherence on dynamical phase transition (DQPT). After quenching the strength of the transverse field, the effects of quantum coherence are studied by Fisher zeros, rate function and winding number. We find that quantum coherence not only recovers the traditional DQPT related to quantum phase transition, but also generates some entirely new DQPTs which are independent of equilibrium quantum critical point. In these entirely new QDPTs, the line of Fisher zeros cuts the imaginary axis twice, i.e., there are two critical modes, one makes the winding number jump down but another makes it jump up. We also find that the rate function can not be used to describe DQPT at high temperature, because the critical mode no longer dominates. This work sheds new light on the fundamental connection between quantum critical phenomena and quantum coherence.
翻訳日:2024-01-13 04:04:51 公開日:2024-01-11
# 自由呼吸型心臓MRI再建のためのフーリエ入力を持つインプシットニューラルネットワーク

Implicit Neural Networks with Fourier-Feature Inputs for Free-breathing Cardiac MRI Reconstruction ( http://arxiv.org/abs/2305.06822v2 )

ライセンス: Link先を確認
Johannes F. Kunz and Stefan Ruschke and Reinhard Heckel(参考訳) 心臓磁気共鳴イメージング(mri)は、連続的な高サンプリング測定から心臓を鼓動するリアルタイム映像を再構成する必要がある。 この課題は、信号取得中に再建対象(心臓)が継続的に変化しているため、困難である。 本稿では,脈動心臓を暗黙のニューラルネットワークで表現し,心臓の表現が測定値と一致するようにネットワークを適合させることに基づく再構成手法を提案する。 フーリエ特徴入力を持つ多層パーセプトロン形式のネットワークは、有効信号の先行として作用し、信号の空間的及び時間的次元の両方における正則化強度を調整することができる。 本研究では,2次元自由呼吸型リアルタイムMRIにおける画像解像度,スライス厚,取得長などの異なる操作条件下でのアプローチについて検討した。 提案手法は,Fourier領域測定に暗黙的表現を直接適用した最近の手法と比較して,最先端の未学習畳み込みニューラルネットワークと同等以上の再現品質と画像品質を実現する。 しかし、これは比較的高い計算コストがかかる。 このアプローチでは、心電図を含む追加の患者データやバイオセンサーは必要とせず、幅広い臨床シナリオに適用できる可能性がある。

Cardiac magnetic resonance imaging (MRI) requires reconstructing a real-time video of a beating heart from continuous highly under-sampled measurements. This task is challenging since the object to be reconstructed (the heart) is continuously changing during signal acquisition. In this paper, we propose a reconstruction approach based on representing the beating heart with an implicit neural network and fitting the network so that the representation of the heart is consistent with the measurements. The network in the form of a multi-layer perceptron with Fourier-feature inputs acts as an effective signal prior and enables adjusting the regularization strength in both the spatial and temporal dimensions of the signal. We study the proposed approach for 2D free-breathing cardiac real-time MRI in different operating regimes, i.e., for different image resolutions, slice thicknesses, and acquisition lengths. Our method achieves reconstruction quality on par with or slightly better than state-of-the-art untrained convolutional neural networks and superior image quality compared to a recent method that fits an implicit representation directly to Fourier-domain measurements. However, this comes at a relatively high computational cost. Our approach does not require any additional patient data or biosensors including electrocardiography, making it potentially applicable in a wide range of clinical scenarios.
翻訳日:2024-01-13 04:04:30 公開日:2024-01-11
# ソフトウェアアーキテクチャのレンズによる基礎モデルに基づくシステムの分類

A Taxonomy of Foundation Model based Systems through the Lens of Software Architecture ( http://arxiv.org/abs/2305.05352v5 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Yue Liu, Zhenchang Xing, Jon Whittle(参考訳) 大規模言語モデル(LLM)ベースのチャットボット(ChatGPTなど)の最近のリリースは、基礎モデルに大きな関心を集めている。 基盤モデルが将来のaiシステムの基本的な構成要素となると広く信じられている。 基礎モデルが初期段階にあるため、基礎モデルに基づくシステムの設計はまだ体系的に検討されていない。 ソフトウェアアーキテクチャに基礎モデルを導入することの影響についての理解は限られている。 そこで本稿では,基礎モデルに基づくシステムの特徴と基礎モデルに基づくシステムの設計オプションを分類・比較する基礎モデルに基づくシステムの分類手法を提案する。 我々の分類学は、基礎モデルの事前学習と適応、基礎モデルに基づくシステムのアーキテクチャ設計、責任ある設計の3つのカテゴリからなる。 この分類は、基礎モデルに基づくシステムを設計する際に主要なアーキテクチャ設計決定を行うための具体的なガイダンスとなり、設計決定から生じるトレードオフを強調することができる。

The recent release of large language model (LLM) based chatbots, such as ChatGPT, has attracted huge interest in foundation models. It is widely believed that foundation models will serve as the fundamental building blocks for future AI systems. As foundation models are in their early stages, the design of foundation model based systems has not yet been systematically explored. There is limited understanding about the impact of introducing foundation models in software architecture. Therefore, in this paper, we propose a taxonomy of foundation model based systems, which classifies and compares the characteristics of foundation models and design options of foundation model based systems. Our taxonomy comprises three categories: the pretraining and adaptation of foundation models, the architecture design of foundation model based systems, and responsible-AI-by-design. This taxonomy can serve as concrete guidance for making major architectural design decisions when designing foundation model based systems and highlights trade-offs arising from design decisions.
翻訳日:2024-01-13 04:04:07 公開日:2024-01-11
# riesz networks: 単一のフォワードパスにおけるスケール不変ニューラルネットワーク

Riesz networks: scale invariant neural networks in a single forward pass ( http://arxiv.org/abs/2305.04665v2 )

ライセンス: Link先を確認
Tin Barisin, Katja Schladitz and Claudia Redenbach(参考訳) アルゴリズムのスケール不変性は、その大きさと独立してオブジェクトを扱う能力を指す。 ニューラルネットワークの場合、スケール不変性は通常、データ拡張によって達成される。 しかし、トレーニングセットがカバーする範囲から遠く離れたスケールで提示すると、ニューラルネットワークは一般化しない可能性がある。 本稿では,新しいスケール不変ニューラルネットワークであるriesz networkを紹介する。 空間情報を組み合わせるための標準的な2dあるいは3d畳み込みの代わりに、リースネットワークはスケール同変演算であるリース変換に基づいている。 その結果、このネットワークは自然に1つの前方通過において見つからないスケールや任意のスケールに一般化される。 適用例として,コンクリートのトモグラフィー画像におけるひび割れの検出とセグメンテーションについて考察する。 この文脈で「スケール」とは、同じ試料内でも強く異なるひび割れの厚さを指す。 スケール不変性を証明するために、リースネットワークは1つの固定クラック幅で訓練される。 次に, 広範囲のひび割れ幅を特徴とする, シミュレーション画像と実断層画像のセグメンテーション性能を検証する。 MNIST Large Scaleデータセットで追加実験を行う。

Scale invariance of an algorithm refers to its ability to treat objects equally independently of their size. For neural networks, scale invariance is typically achieved by data augmentation. However, when presented with a scale far outside the range covered by the training set, neural networks may fail to generalize. Here, we introduce the Riesz network, a novel scale invariant neural network. Instead of standard 2d or 3d convolutions for combining spatial information, the Riesz network is based on the Riesz transform which is a scale equivariant operation. As a consequence, this network naturally generalizes to unseen or even arbitrary scales in a single forward pass. As an application example, we consider detecting and segmenting cracks in tomographic images of concrete. In this context, 'scale' refers to the crack thickness which may vary strongly even within the same sample. To prove its scale invariance, the Riesz network is trained on one fixed crack width. We then validate its performance in segmenting simulated and real tomographic images featuring a wide range of crack widths. An additional experiment is carried out on the MNIST Large Scale data set.
翻訳日:2024-01-13 04:03:52 公開日:2024-01-11
# 音声視覚表現学習のためのマルチモーダル動的変分オートエンコーダ

A multimodal dynamical variational autoencoder for audiovisual speech representation learning ( http://arxiv.org/abs/2305.03582v2 )

ライセンス: Link先を確認
Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud S\'eguier(参考訳) 本稿では、教師なし音声・視覚的音声表現学習に応用したマルチモーダル・動的VAE(MDVAE)を提案する。 潜在空間は、各モジュラリティに特有のものからモダリティの間で共有される潜在力学因子を解離するために構成される。 静的潜伏変数も導入され、音声視覚音声シーケンス内で時間とともに一定となる情報を符号化する。 このモデルは、視聴覚的感情音声データセット上で教師なしの方法で2段階で訓練される。 第1段階では、ベクトル量子化VAE(VQ-VAE)は時間的モデリングなしで各モードごとに独立に学習される。 第2段階は、量子化前のVQ-VAEの中間表現に関するMDVAEモデルを学習することである。 静的・動的・モダリティ固有・モダリティ共通情報の絡み合いは、この第2の訓練段階で起こる。 mdvaeの潜在空間における視聴覚的音声潜在因子の符号化について,広範な実験を行った。 これらの実験には、視聴覚音声の操作、視聴覚画像の発声、視聴覚音声の感情認識が含まれる。 その結果,MDVAEは潜在空間における音声と視覚情報を効果的に組み合わせていることがわかった。 また、学習したオーディオ視覚音声の静的表現は、ラベル付きデータが少ない感情認識に利用でき、オーディオ視覚トランスフォーマーアーキテクチャに基づく一方向ベースラインや最先端教師付きモデルと比較して精度が良いことを示す。

In this paper, we present a multimodal and dynamical VAE (MDVAE) applied to unsupervised audio-visual speech representation learning. The latent space is structured to dissociate the latent dynamical factors that are shared between the modalities from those that are specific to each modality. A static latent variable is also introduced to encode the information that is constant over time within an audiovisual speech sequence. The model is trained in an unsupervised manner on an audiovisual emotional speech dataset, in two stages. In the first stage, a vector quantized VAE (VQ-VAE) is learned independently for each modality, without temporal modeling. The second stage consists in learning the MDVAE model on the intermediate representation of the VQ-VAEs before quantization. The disentanglement between static versus dynamical and modality-specific versus modality-common information occurs during this second training stage. Extensive experiments are conducted to investigate how audiovisual speech latent factors are encoded in the latent space of MDVAE. These experiments include manipulating audiovisual speech, audiovisual facial image denoising, and audiovisual speech emotion recognition. The results show that MDVAE effectively combines the audio and visual information in its latent space. They also show that the learned static representation of audiovisual speech can be used for emotion recognition with few labeled data, and with better accuracy compared with unimodal baselines and a state-of-the-art supervised model based on an audiovisual transformer architecture.
翻訳日:2024-01-13 04:03:34 公開日:2024-01-11
# 非局所計算とブラックホール内部

Non-local computation and the black hole interior ( http://arxiv.org/abs/2304.11184v3 )

ライセンス: Link先を確認
Alex May and Michelle Xu(参考訳) 両面のブラックホールでは、反対の漸近領域から落ちてくる系がブラックホールの内部で衝突し相互作用する。 それぞれの漸近領域を記述する2つのcftは相互作用しないが、この場合である。 ここでは、地平線相互作用の背後にあるこれらを非局所量子計算に関連付ける。 これにより、これらの相互作用に関する量子回路の視点が得られ、ブラックホールの内側と任意の次元にある特定の極端表面の過去の相互作用がいつでも適用される。 我々の見解が当てはまると、相互情報の観点から述べられているこれらの内部衝突の境界符号を得る。 我々はさらに,一方のサイドアドバンスジオメトリーにおけるバルクインタラクションと非局所計算の間に議論された接続を再検討し,その接続をより正確にするための新たな視点を提供するために,いくつかの手法を再利用した。

In a two sided black hole, systems falling in from opposite asymptotic regions can meet inside the black hole and interact. This is the case even while the two CFTs describing each asymptotic region are non-interacting. Here, we relate these behind the horizon interactions to non-local quantum computations. This gives a quantum circuit perspective on these interactions, which applies whenever the interaction occurs in the past of a certain extremal surface that sits inside the black hole and in arbitrary dimension. Whenever our perspective applies, we obtain a boundary signature for these interior collisions which is stated in terms of the mutual information. We further revisit the connection discussed earlier between bulk interactions in one sided AdS geometries and non-local computation, and recycle some of our techniques to offer a new perspective on making that connection precise.
翻訳日:2024-01-13 04:03:10 公開日:2024-01-11
# 視覚検査における構造条件自動評価のためのアテンション強化コインタラクティブ核融合ネットワーク(AECIF-Net)

Attention-Enhanced Co-Interactive Fusion Network (AECIF-Net) for Automated Structural Condition Assessment in Visual Inspection ( http://arxiv.org/abs/2307.07643v4 )

ライセンス: Link先を確認
Chenyu Zhang, Zhaozheng Yin, Ruwen Qin(参考訳) 市民インフラの状態を効率的に監視するには,視覚検査における構造的条件評価の自動化が必要である。 本稿では,視覚ブリッジ検査における自動構造状態評価のための注意強化型協調型核融合ネットワーク(aecif-net)を提案する。 AECIF-Netは、検査画像中の要素の構造要素とセグメント表面欠陥を同時に解析することができる。 2つのタスク固有の再学習サブネットを統合し、全体的な機能埋め込みからタスク固有の特徴を抽出する。 協調機能融合モジュールは、さらに空間相関を捉え、タスク間の情報共有を容易にする。 実験結果から,AECIF-Netは現状の手法よりも優れており,元素セグメンテーションでは92.11% mIoU,新しいベンチマークデータセットSteel Bridge Condition Inspection Visual (SBCIV) では87.16% mIoUの腐食セグメンテーションでは87.16% mIoUであった。 アブレーション研究はaecif-netの設計のメリットを検証し、ケーススタディは構造状態評価を自動化する能力を示している。

Efficiently monitoring the condition of civil infrastructure requires automating the structural condition assessment in visual inspection. This paper proposes an Attention-Enhanced Co-Interactive Fusion Network (AECIF-Net) for automatic structural condition assessment in visual bridge inspection. AECIF-Net can simultaneously parse structural elements and segment surface defects on the elements in inspection images. It integrates two task-specific relearning subnets to extract task-specific features from an overall feature embedding. A co-interactive feature fusion module further captures the spatial correlation and facilitates information sharing between tasks. Experimental results demonstrate that the proposed AECIF-Net outperforms the current state-of-the-art approaches, achieving promising performance with 92.11% mIoU for element segmentation and 87.16% mIoU for corrosion segmentation on the test set of the new benchmark dataset Steel Bridge Condition Inspection Visual (SBCIV). An ablation study verifies the merits of the designs for AECIF-Net, and a case study demonstrates its capability to automate structural condition assessment.
翻訳日:2024-01-13 03:56:49 公開日:2024-01-11
# 開ディックモデルにおけるカオスと規則性の解析

Analysis of chaos and regularity in the open Dicke model ( http://arxiv.org/abs/2307.05675v2 )

ライセンス: Link先を確認
David Villase\~nor and Pablo Barberis-Blostein(参考訳) 本稿では,開ディッケモデルにおける空洞損失による散逸のカオスと正則性の解析について述べる。 このモデルの無限のリウヴィル空間のため、系のスペクトルをほぼ表わす複素スペクトルを数値的に見つけるための基準も導入する。 孤立ディッケモデルは、2つの自由度を持つよく定義された古典極限を持つ。 古典的な孤立系が規則性を示し、カオスが現れるケーススタディを2つ選択する。 開系を正則あるいはカオスとして特徴づけるために、複素スペクトルの領域をその固有値の絶対値の窓に当てはめる。 この無限次元系に対する結果は、マルコフ散逸開量子系に対するgrobe-haake-sommers(ghs)予想と一致し、正規系に対する期待される2次元ポアソン分布と、カオス系に対するginibreユニタリアンサンブル(ginue)の分布を見いだした。

We present an analysis of chaos and regularity in the open Dicke model, when dissipation is due to cavity losses. Due to the infinite Liouville space of this model, we also introduce a criterion to numerically find a complex spectrum which approximately represents the system spectrum. The isolated Dicke model has a well-defined classical limit with two degrees of freedom. We select two case studies where the classical isolated system shows regularity and where chaos appears. To characterize the open system as regular or chaotic, we study regions of the complex spectrum taking windows over the absolute value of its eigenvalues. Our results for this infinite-dimensional system agree with the Grobe-Haake-Sommers (GHS) conjecture for Markovian dissipative open quantum systems, finding the expected 2D Poisson distribution for regular regimes, and the distribution of the Ginibre unitary ensemble (GinUE) for the chaotic ones, respectively.
翻訳日:2024-01-13 03:56:24 公開日:2024-01-11
# 細粒度アクション分析:フィギュアスケートのマルチモダリティとマルチタスクデータセット

Fine-grained Action Analysis: A Multi-modality and Multi-task Dataset of Figure Skating ( http://arxiv.org/abs/2307.02730v2 )

ライセンス: Link先を確認
Sheng-Lan Liu, Yu-Ning Ding, Gang Yan, Si-Fan Zhang, Jin-Rong Zhang, Wen-Yue Chen, Ning Zhou, Xue-Hai Xu, Hao Liu(参考訳) 既存のアクションデータセットのきめ細かいアクション分析は、不十分なアクションカテゴリ、低い粒度、限られたモダリティ、タスクによって挑戦される。 本稿では,世界フィギュアスケート選手権から収集したフィギュアスケート(mmfs)のマルチモダリティとマルチタスクデータセットを提案する。 行動認識と行動品質評価を持つMMFSは、RGB、スケルトンをキャプチャし、空間ラベルや時間ラベルを含む256のカテゴリを持つ11671クリップからアクションのスコアを収集する。 私たちのデータセットの主な貢献は、以下の3つの側面に分類できます。 1) 個別に空間的・時間的カテゴリーを提案し, より詳細な行動認識と品質評価を行う。 2) MMFSはまず, 複雑なきめ細かい動作品質評価のための骨格モードを導入する。 (3)マルチモーダリティとマルチタスクデータセットは、より多くのアクション分析モデルを促進する。 データセットをベンチマークするために、アクション認識とアクション品質評価のためのRGBおよびスケルトンベースのベースライン手法を採用した。

The fine-grained action analysis of the existing action datasets is challenged by insufficient action categories, low fine granularities, limited modalities, and tasks. In this paper, we propose a Multi-modality and Multi-task dataset of Figure Skating (MMFS) which was collected from the World Figure Skating Championships. MMFS, which possesses action recognition and action quality assessment, captures RGB, skeleton, and is collected the score of actions from 11671 clips with 256 categories including spatial and temporal labels. The key contributions of our dataset fall into three aspects as follows. (1) Independently spatial and temporal categories are first proposed to further explore fine-grained action recognition and quality assessment. (2) MMFS first introduces the skeleton modality for complex fine-grained action quality assessment. (3) Our multi-modality and multi-task dataset encourage more action analysis models. To benchmark our dataset, we adopt RGB-based and skeleton-based baseline methods for action recognition and action quality assessment.
翻訳日:2024-01-13 03:55:32 公開日:2024-01-11
# TL-nvSRAM-CIM: DC-Power Free Restore と Ternary MAC 操作による超高密度3レベル ReRAM-Assisted Computing-in-nvSRAM

TL-nvSRAM-CIM: Ultra-High-Density Three-Level ReRAM-Assisted Computing-in-nvSRAM with DC-Power Free Restore and Ternary MAC Operations ( http://arxiv.org/abs/2307.02717v2 )

ライセンス: Link先を確認
Dengfeng Wang, Liukai Xu, Songyuan Liu, Zhi Li, Yiming Chen, Weifeng He, Xueqing Li and Yanan Sun(参考訳) 大規模NNのためにチップ上のすべての重量を調節することは、オンチップ容量に制限のあるSRAMベースのコンピューティングインメモリ(SRAM-CIM)にとって、依然として大きな課題である。 従来の非揮発性SRAM-CIM(nvSRAM-CIM)は、高効率SRAM-CIMの上に高密度のシングルレベルReRAMを統合することでこの問題に対処し、オフチップメモリアクセスをなくした。 しかし、以前のSL-nvSRAM-CIMは、SL-ReRAMの増加と計算効率の制限によりスケーラビリティが低下していた。 これらの課題を克服するために、大規模なNNモデルのための超高密度3レベルReRAM支援非揮発性SRAM(TL-nvSRAM-CIM)方式を提案する。 クラスタ化されたn-selector-n-ReRAM (cluster-nSnRs) は、DC電力を排除した信頼性の高い重み復元に使用される。 さらに、高NN精度を維持しつつ、エネルギー効率のよい三値MAC演算に対して、微分計算方式による三値SRAM-CIM機構を提案する。 提案したTL-nvSRAM-CIMは、最先端技術と比較して7.8倍のストレージ密度を実現する。 さらに、TL-nvSRAM-CIMはSRAM-CIMとReRAM-CIMのベースライン設計と比較して最大2.9倍、エネルギー効率は1.9倍に向上した。

Accommodating all the weights on-chip for large-scale NNs remains a great challenge for SRAM based computing-in-memory (SRAM-CIM) with limited on-chip capacity. Previous non-volatile SRAM-CIM (nvSRAM-CIM) addresses this issue by integrating high-density single-level ReRAMs on the top of high-efficiency SRAM-CIM for weight storage to eliminate the off-chip memory access. However, previous SL-nvSRAM-CIM suffers from poor scalability for an increased number of SL-ReRAMs and limited computing efficiency. To overcome these challenges, this work proposes an ultra-high-density three-level ReRAMs-assisted computing-in-nonvolatile-SRAM (TL-nvSRAM-CIM) scheme for large NN models. The clustered n-selector-n-ReRAM (cluster-nSnRs) is employed for reliable weight-restore with eliminated DC power. Furthermore, a ternary SRAM-CIM mechanism with differential computing scheme is proposed for energy-efficient ternary MAC operations while preserving high NN accuracy. The proposed TL-nvSRAM-CIM achieves 7.8x higher storage density, compared with the state-of-art works. Moreover, TL-nvSRAM-CIM shows up to 2.9x and 1.9x enhanced energy-efficiency, respectively, compared to the baseline designs of SRAM-CIM and ReRAM-CIM, respectively.
翻訳日:2024-01-13 03:55:15 公開日:2024-01-11
# クロスウェイ拡散:自己教師型学習による拡散に基づくビジュモータ政策の改善

Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning ( http://arxiv.org/abs/2307.01849v3 )

ライセンス: Link先を確認
Xiang Li, Varun Belagali, Jinghuan Shang, Michael S. Ryoo(参考訳) シーケンスモデリングアプローチはロボット模倣学習において有望な結果を示している。 近年,複雑なデータ分布をモデル化する能力に特有な利点を生かして,行動のクローニングに拡散モデルが採用されている。 標準拡散ベースのポリシーは、入力状態に条件付けられたランダムノイズからアクションシーケンスを反復的に生成する。 それでも、拡散政策のモデルは、視覚的表現の観点からさらに改善することができる。 本研究では,注意深い状態デコーダと補助的自己教師付き学習(ssl)目標を用いて,拡散に基づくバイスモータポリシー学習を強化するための簡易かつ効果的な手法であるcrossway diffusionを提案する。 状態復号器は、逆拡散過程の中間表現から原画像画素その他の状態情報を再構成する。 モデル全体がSSL目標と元の拡散損失によって共同で最適化される。 シミュレーションおよび実世界のロボットタスクにおけるクロスウェイ拡散の有効性を実証し、標準拡散に基づくポリシーに対する一貫した優位性を確認し、ベースラインよりも大幅に改善した。

Sequence modeling approaches have shown promising results in robot imitation learning. Recently, diffusion models have been adopted for behavioral cloning in a sequence modeling fashion, benefiting from their exceptional capabilities in modeling complex data distributions. The standard diffusion-based policy iteratively generates action sequences from random noise conditioned on the input states. Nonetheless, the model for diffusion policy can be further improved in terms of visual representations. In this work, we propose Crossway Diffusion, a simple yet effective method to enhance diffusion-based visuomotor policy learning via a carefully designed state decoder and an auxiliary self-supervised learning (SSL) objective. The state decoder reconstructs raw image pixels and other state information from the intermediate representations of the reverse diffusion process. The whole model is jointly optimized by the SSL objective and the original diffusion loss. Our experiments demonstrate the effectiveness of Crossway Diffusion in various simulated and real-world robot tasks, confirming its consistent advantages over the standard diffusion-based policy and substantial improvements over the baselines.
翻訳日:2024-01-13 03:54:46 公開日:2024-01-11
# 空間構造ベクトル光場におけるトラップ原子

Trapped atoms in spatially-structured vector light fields ( http://arxiv.org/abs/2306.17571v3 )

ライセンス: Link先を確認
Maurizio Verde, Christian T. Schmiegelow, Ulrich Poschinger and Ferdinand Schmidt-Kaler(参考訳) 最終的に軌道角運動量を持つ空間構造レーザービームは、複雑な方法で原子とその運動状態の電子遷移に影響を与える。 本稿では,任意の空間モードと偏光構造の光場に対する原子遷移行列要素を計算するために,相互作用ハミルトニアンの球面テンソル分解に基づく一般的な枠組みを提案する。 本研究では, 原子中心運動に結合しない遷移に対応する素電子行列要素と, 分解した側バンド状態における量子化原子運動との結合を記述する行列要素について検討した。 強集束Hermite-Gaussian,Laguerre-Gaussianおよび放射・方位偏光ビームに対する電子および運動行列要素の空間依存性を計算した。 回折限界付近では、これらのビームは長手方向の磁場と磁場勾配を示し、選択規則に強く影響を与え、光間相互作用を調整できることを示した。 このフレームワークは、空間構造を持つ光場における閉じ込められた原子やイオンを記述するのに有用であり、量子光学、-センシング、-情報処理における新しいプロトコルや設定を設計するのに有用である。

Spatially-structured laser beams, eventually carrying orbital angular momentum, affect electronic transitions of atoms and their motional states in a complex way. We present a general framework, based on the spherical tensor decomposition of the interaction Hamiltonian, for computing atomic transition matrix elements for light fields of arbitrary spatial mode and polarization structures. We study both the bare electronic matrix elements, corresponding to transitions with no coupling to the atomic center-of-mass motion, as well as the matrix elements describing the coupling to the quantized atomic motion in the resolved side-band regime. We calculate the spatial dependence of electronic and motional matrix elements for tightly focused Hermite-Gaussian, Laguerre-Gaussian and for radially and azimuthally polarized beams. We show that near the diffraction limit, all these beams exhibit longitudinal fields and field gradients, which strongly affect the selection rules and could be used to tailor the light-matter interaction. The presented framework is useful for describing trapped atoms or ions in spatially-structured light fields and therefore for designing new protocols and setups in quantum optics, -sensing and -information processing.
翻訳日:2024-01-13 03:54:27 公開日:2024-01-11
# 鏡による不規則化制御への統一的アプローチ

A Unified Approach to Controlling Implicit Regularization via Mirror Descent ( http://arxiv.org/abs/2306.13853v2 )

ライセンス: Link先を確認
Haoyuan Sun, Khashayar Gatmiry, Kwangjun Ahn, Navid Azizan(参考訳) 大規模ニューラルネットワークの成功に触発されて、過パラメータ化モデルの一般化性能を理解することに大きな関心が寄せられている。 最適化アルゴリズムが「推奨」解を通じて一般化にどのように影響するかを特徴づけることに、実質的な努力が注がれている。 特に、勾配降下 (gd) は回帰問題や分類問題において暗黙の$\ell_2$-norm正規化を引き起こすと論じられている。 しかし、異なるアルゴリズムの暗黙正則化は特定の幾何学または特定の学習問題に限られており、暗黙正則化を制御する一般的なアプローチのギャップを示している。 そこで本研究では、GDの顕著な一般化であるミラー降下(MD)を用いて、回帰と分類の両方の設定において暗黙の正規化を制御する統一的なアプローチを提案する。 より具体的には、一様ポテンシャル関数の一般クラスを持つMDが線形分類問題に対する一般化最大マージン解に収束していることを示し、したがって分類設定における長年の疑問に答える。 さらに,MDを効率的に実装することができ,適切な条件下での高速収束を享受できることを示す。 包括的実験により、md は異なる正規化子を持つ学習モデルを生成するための多用途な手法であることを示した。

Inspired by the remarkable success of large neural networks, there has been significant interest in understanding the generalization performance of over-parameterized models. Substantial efforts have been invested in characterizing how optimization algorithms impact generalization through their "preferred" solutions, a phenomenon commonly referred to as implicit regularization. In particular, it has been argued that gradient descent (GD) induces an implicit $\ell_2$-norm regularization in regression and classification problems. However, the implicit regularization of different algorithms are confined to either a specific geometry or a particular class of learning problems, indicating a gap in a general approach for controlling the implicit regularization. To address this, we present a unified approach using mirror descent (MD), a notable generalization of GD, to control implicit regularization in both regression and classification settings. More specifically, we show that MD with the general class of homogeneous potential functions converges in direction to a generalized maximum-margin solution for linear classification problems, thereby answering a long-standing question in the classification setting. Further, we show that MD can be implemented efficiently and enjoys fast convergence under suitable conditions. Through comprehensive experiments, we demonstrate that MD is a versatile method to produce learned models with different regularizers, which in turn have different generalization performances.
翻訳日:2024-01-13 03:54:06 公開日:2024-01-11
# 制御可能なポスターレイアウト生成のための関係認識拡散モデル

Relation-Aware Diffusion Model for Controllable Poster Layout Generation ( http://arxiv.org/abs/2306.09086v2 )

ライセンス: Link先を確認
Fengheng Li, An Liu, Wei Feng, Honghe Zhu, Yaoyu Li, Zheng Zhang, Jingjing Lv, Xin Zhu, Junjie Shen, Zhangang Lin, Jingping Shao(参考訳) ポスターレイアウトはポスターデザインの重要な側面である。 従来の手法は主に視覚内容とグラフィック要素の相関に焦点を当てていた。 しかし、快適なレイアウトは、視覚コンテンツとテキストコンテンツの関係と要素間の関係も考慮すべきである。 本研究では,これら2つの関係を生成プロセスに組み込んだポスターレイアウト生成のための関係認識拡散モデルを提案する。 まず,視覚表現とテキスト表現をモダリティ間で整合させ,テキスト情報伝達におけるレイアウトの有効性を高めるビジュアル・テキスト関係認識モジュールを考案する。 次に,文脈情報を包括的に考慮し,要素間の幾何関係を学習する幾何関係認識モジュールを提案する。 さらに,ユーザ制約に基づいて多様なレイアウトを生成する手法を提案する。 この分野の研究を進めるため,我々はcgl-dataset v2というポスターレイアウトデータセットを構築した。 提案手法はcgl-dataset v2の最先端手法よりも優れている。 データとコードはhttps://github.com/liuan0803/RADMで入手できる。

Poster layout is a crucial aspect of poster design. Prior methods primarily focus on the correlation between visual content and graphic elements. However, a pleasant layout should also consider the relationship between visual and textual contents and the relationship between elements. In this study, we introduce a relation-aware diffusion model for poster layout generation that incorporates these two relationships in the generation process. Firstly, we devise a visual-textual relation-aware module that aligns the visual and textual representations across modalities, thereby enhancing the layout's efficacy in conveying textual information. Subsequently, we propose a geometry relation-aware module that learns the geometry relationship between elements by comprehensively considering contextual information. Additionally, the proposed method can generate diverse layouts based on user constraints. To advance research in this field, we have constructed a poster layout dataset named CGL-Dataset V2. Our proposed method outperforms state-of-the-art methods on CGL-Dataset V2. The data and code will be available at https://github.com/liuan0803/RADM.
翻訳日:2024-01-13 03:53:41 公開日:2024-01-11
# 圧縮画像とノイズ除去のための4次元光野の確率論的特徴埋め込み

Probabilistic-based Feature Embedding of 4-D Light Fields for Compressive Imaging and Denoising ( http://arxiv.org/abs/2306.08836v3 )

ライセンス: Link先を確認
Xianqiang Lyu and Junhui Hou(参考訳) 4次元ライトフィールド(lf)の高次元性は、効率良く効果的な機能埋め込みを達成する上で大きな課題となり、下流タスクのパフォーマンスに大きな影響を与える。 この課題に対処するために、経験的設計の既存手法とは対照的に、空間角情報を完全にキャプチャする確率空間に様々な低次元畳み込みパターンを組み込んで特徴埋め込みアーキテクチャを学習する確率論的特徴埋め込み(PFE)を提案する。 提案したPFEに基づいて,符号化開口カメラの固有線形画像モデルを用いて,周期整合型4次元LF再構成ネットワークを構築する。 さらに,PFEを4次元LF復調のための反復最適化フレームワークに組み込む。 本研究は,実世界および合成4次元lf画像において,最先端手法と比較して定量的,質的にも優れた方法を示す。 ソースコードはhttps://github.com/lyuxianqiang/LFCA-CR-NETで公開されている。

The high-dimensional nature of the 4-D light field (LF) poses great challenges in achieving efficient and effective feature embedding, that severely impacts the performance of downstream tasks. To tackle this crucial issue, in contrast to existing methods with empirically-designed architectures, we propose a probabilistic-based feature embedding (PFE), which learns a feature embedding architecture by assembling various low-dimensional convolution patterns in a probability space for fully capturing spatial-angular information. Building upon the proposed PFE, we then leverage the intrinsic linear imaging model of the coded aperture camera to construct a cycle-consistent 4-D LF reconstruction network from coded measurements. Moreover, we incorporate PFE into an iterative optimization framework for 4-D LF denoising. Our extensive experiments demonstrate the significant superiority of our methods on both real-world and synthetic 4-D LF images, both quantitatively and qualitatively, when compared with state-of-the-art methods. The source code will be publicly available at https://github.com/lyuxianqiang/LFCA-CR-NET.
翻訳日:2024-01-13 03:53:26 公開日:2024-01-11
# ニューラルネットワークの後部をサンプリングするギブズ

Gibbs Sampling the Posterior of Neural Networks ( http://arxiv.org/abs/2306.02729v2 )

ライセンス: Link先を確認
Giovanni Piccioli, Emanuele Troiani and Lenka Zdeborov\'a(参考訳) 本稿では,ニューラルネットワークから得られた後頭部からのサンプリングについて検討する。 そこで本研究では,ネットワークの動作前後にノイズを付加し,効率的なgibbsサンプリング器を用いて後頭部をサンプリングできる新しい確率モデルを提案する。 小型モデルでは、ギブスサンプリング器は、実データと合成データの両方で、ハミルトンモンテカルロ(HMC)やメトロポリス調整ランゲヴィンアルゴリズム(MALA)のような最先端のマルコフ連鎖モンテカルロ(MCMC)法と同様のパフォーマンスを達成している。 教師の学習環境において解析をフレーミングすることにより,アルゴリズムが合成ラベルを用いたデータを実行した場合,後頭部からサンプルを採取できないことを検出できる熱化基準を導入する。 この基準は、教師-学生設定でアルゴリズムを直接平衡で初期化できるという事実に基づいている。

In this paper, we study sampling from a posterior derived from a neural network. We propose a new probabilistic model consisting of adding noise at every pre- and post-activation in the network, arguing that the resulting posterior can be sampled using an efficient Gibbs sampler. For small models, the Gibbs sampler attains similar performances as the state-of-the-art Markov chain Monte Carlo (MCMC) methods, such as the Hamiltonian Monte Carlo (HMC) or the Metropolis adjusted Langevin algorithm (MALA), both on real and synthetic data. By framing our analysis in the teacher-student setting, we introduce a thermalization criterion that allows us to detect when an algorithm, when run on data with synthetic labels, fails to sample from the posterior. The criterion is based on the fact that in the teacher-student setting we can initialize an algorithm directly at equilibrium.
翻訳日:2024-01-13 03:53:07 公開日:2024-01-11
# レジリエントな制約付き学習

Resilient Constrained Learning ( http://arxiv.org/abs/2306.02426v4 )

ライセンス: Link先を確認
Ignacio Hounie, Alejandro Ribeiro, Luiz F. O. Chamon(参考訳) 機械学習ソリューションをデプロイする際には、公正性、堅牢性、安全性など、正確性を超えた複数の要件を満たす必要がある。 これらの要件は、トレーニング中にペナルティを使用して、あるいはラグランジュ双対性に基づく制約付き最適化メソッドを使用して、暗黙のうちに課される。 いずれにせよ、要求の特定は妥協の存在とデータに関する事前知識の制限によって妨げられる。 さらに、パフォーマンスへの影響は、実際に学習問題を解決することでのみ評価されることが多い。 本稿では,学習課題を同時に解決しながら要求に適応する制約付き学習手法を提案する。 そのために、リラックスから得られるパフォーマンスゲインと、その緩和のユーザ定義コストとのバランスをとることで、そのタスクにどの程度影響するかを考えることによって、学習制約を緩和する。 我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。 このバランスが達成できる条件を示し,それを計算するための実用的なアルゴリズムを導入し,近似と一般化の保証を導出する。 本稿では,多重ポテンシャル不変性を含む画像分類課題とヘテロジニアス連関学習におけるレジリエント学習手法の利点を示す。

When deploying machine learning solutions, they must satisfy multiple requirements beyond accuracy, such as fairness, robustness, or safety. These requirements are imposed during training either implicitly, using penalties, or explicitly, using constrained optimization methods based on Lagrangian duality. Either way, specifying requirements is hindered by the presence of compromises and limited prior knowledge about the data. Furthermore, their impact on performance can often only be evaluated by actually solving the learning problem. This paper presents a constrained learning approach that adapts the requirements while simultaneously solving the learning task. To do so, it relaxes the learning constraints in a way that contemplates how much they affect the task at hand by balancing the performance gains obtained from the relaxation against a user-defined cost of that relaxation. We call this approach resilient constrained learning after the term used to describe ecological systems that adapt to disruptions by modifying their operation. We show conditions under which this balance can be achieved and introduce a practical algorithm to compute it, for which we derive approximation and generalization guarantees. We showcase the advantages of this resilient learning method in image classification tasks involving multiple potential invariances and in heterogeneous federated learning.
翻訳日:2024-01-13 03:52:49 公開日:2024-01-11
# 大規模言語モデルによる私的合成テキストの生成

Harnessing large-language models to generate private synthetic text ( http://arxiv.org/abs/2306.01684v2 )

ライセンス: Link先を確認
Alexey Kurakin, Natalia Ponomareva, Umar Syed, Liam MacDermed, Andreas Terzis(参考訳) DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。 本論文では, センシティブなデータセットを用いて, 元のデータに対して差分プライベートな合成データを生成し, 非プライベートに合成データ上でモデルをトレーニングする手法を提案する。 合成データは(ハイパーパラメータチューニングを含む)他のタスクのために再利用でき、無期限に保持され、プライバシを犠牲にすることなくサードパーティと共有される。 しかし、プライベートな合成データを生成することは、プライベートモデルのトレーニングよりもずっと難しい。 テキストデータの性能を向上させるため、最近の研究では、事前学習された生成言語モデルから、センシティブなデータにプライベートに微調整することで、パブリックデータを活用している。 このモデルはdp合成データセットのサンプルに使用することができる。 この戦略は単純そうに思えるが、実行には問題があった。 これまでのアプローチでは、パフォーマンスが著しく低下していたり、重要な設計上の欠陥があったりします。 本稿では,パラメータの調整の少ない適切な学習目標がDP合成データ品質に優れた結果をもたらすことを示す。 我々のアプローチは、下流タスクにおけるパフォーマンスの観点から、下流分類器の直接DP訓練と競合する。 さらに, dp合成データは下流分類訓練に有用であるだけでなく, それらのモデルのチューニングにも有用であることを示す。

Differentially private training algorithms like DP-SGD protect sensitive training data by ensuring that trained models do not reveal private information. An alternative approach, which this paper studies, is to use a sensitive dataset to generate synthetic data that is differentially private with respect to the original data, and then non-privately training a model on the synthetic data. Doing so has several advantages: synthetic data can be reused for other tasks (including for hyper parameter tuning), retained indefinitely, and shared with third parties without sacrificing privacy. However, generating private synthetic data is much harder than training a private model. To improve performance on text data, recent work has utilized public data by starting with a pre-trained generative language model and privately fine-tuning it on sensitive data. This model can be used to sample a DP synthetic dataset. While this strategy seems straightforward, executing it has proven problematic. Previous approaches either show significant performance loss, or have, as we show, critical design flaws. In this paper we demonstrate that a proper training objective along with tuning fewer parameters results in excellent DP synthetic data quality. Our approach is competitive with direct DP-training of downstream classifiers in terms of performance on downstream tasks. Further, we demonstrate that our DP synthetic data is not only useful for downstream classifier training, but also to tune those same models.
翻訳日:2024-01-13 03:52:28 公開日:2024-01-11
# 曲率感度モデルによる連続結果の部分的反事実同定

Partial Counterfactual Identification of Continuous Outcomes with a Curvature Sensitivity Model ( http://arxiv.org/abs/2306.01424v3 )

ライセンス: Link先を確認
Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel(参考訳) 反事実推論は、レトロスペクティブの "what if" 質問に答えることを目的としており、パールの因果関係のはしごで最もきめ細かい推論のタイプに属する。 連続的な結果に対する反実的推論の既存の方法は、点同定を目標とし、基礎となる構造因果モデルについて強く不自然な仮定を行う。 本稿では,これらの仮定を緩和し,反事実クエリが有意な境界を持つ無知区間に存在する場合,連続的な結果の部分的反事実識別を目指す。 我々は,構造的因果モデルの関数が連続的に微分可能である場合,反事実的問合せの無知区間が非帰納的境界を持つことを一般に証明する。 治療として, 曲率感度モデルという新しい感度モデルを提案する。 これにより、関数のレベル集合の曲率を有界にすることで、情報的境界を得ることができる。 さらに, 曲率の限界がゼロに設定された場合, 既存の点反事実同定手法が曲率感度モデルの特別な場合であることを示す。 そこで我々は,Augmented Pseudo-Invertible Decoderと呼ばれる新しい深層生成モデルの形で,曲率感性モデルの実装を提案する。 我々の実施は (i)残差正規化流 (ii)変分増補。 拡張擬似可逆デコーダの有効性を実証的に示す。 我々の知る限りでは、マルコフ構造因果モデルに連続的な結果を持つ最初の部分的同定モデルである。

Counterfactual inference aims to answer retrospective "what if" questions and thus belongs to the most fine-grained type of inference in Pearl's causality ladder. Existing methods for counterfactual inference with continuous outcomes aim at point identification and thus make strong and unnatural assumptions about the underlying structural causal model. In this paper, we relax these assumptions and aim at partial counterfactual identification of continuous outcomes, i.e., when the counterfactual query resides in an ignorance interval with informative bounds. We prove that, in general, the ignorance interval of the counterfactual queries has non-informative bounds, already when functions of structural causal models are continuously differentiable. As a remedy, we propose a novel sensitivity model called Curvature Sensitivity Model. This allows us to obtain informative bounds by bounding the curvature of level sets of the functions. We further show that existing point counterfactual identification methods are special cases of our Curvature Sensitivity Model when the bound of the curvature is set to zero. We then propose an implementation of our Curvature Sensitivity Model in the form of a novel deep generative model, which we call Augmented Pseudo-Invertible Decoder. Our implementation employs (i) residual normalizing flows with (ii) variational augmentations. We empirically demonstrate the effectiveness of our Augmented Pseudo-Invertible Decoder. To the best of our knowledge, ours is the first partial identification model for Markovian structural causal models with continuous outcomes.
翻訳日:2024-01-13 03:52:08 公開日:2024-01-11
# ドメイン知識を用いた深層学習による薬剤推奨

Medication Recommendation via Domain Knowledge Informed Deep Learning ( http://arxiv.org/abs/2305.19604v2 )

ライセンス: Link先を確認
Sicen Liu, Xiaolong Wang, Xianbing Zhao, Hao Chen(参考訳) 薬の推奨は医療の基本的かつ重要な分野であり、複雑な健康状態の患者に対して、より正確な処方薬を使用して臨床医師を支援する機会を提供する。 電子健康記録(ehr)から薬を推奨する学習は、これまでの研究では最も一般的な方法である。 しかし,そのほとんどは,患者のERHにおける臨床症状に応じて,ドメイン知識を取り入れることを無視している。 これらの課題に対処するため,本論文では,患者の観察可能な臨床症状とドメイン知識を統合するために,新規な「textbf{D}omain \textbf{K}nowledge \textbf{I}nformed \textbf{Net}work」(DKINet)を提案する。 特に,まず知識駆動型エンコーダを設計し,次にデータ駆動型エンコーダを開発し,観測可能なEHRにドメイン知識を統合する。 このモデルに時間的決定能力を持たせるために,患者の経時的依存を学習するための明示的な薬剤エンコーダを設計する。 3つの公開データセットに対する大規模な実験により,本手法の優位性が確認された。 コードは受理すれば公開されます。

Medication recommendation is a fundamental yet crucial branch of healthcare, which provides opportunities to support clinical physicians with more accurate medication prescriptions for patients with complex health conditions. Learning from electronic health records (EHR) to recommend medications is the most common way in previous studies. However, most of them neglect incorporating domain knowledge according to the clinical manifestations in the EHR of the patient. To address these issues, we propose a novel \textbf{D}omain \textbf{K}nowledge \textbf{I}nformed \textbf{Net}work (DKINet) to integrate domain knowledge with observable clinical manifestations of the patient, which is the first dynamic domain knowledge informed framework toward medication recommendation. In particular, we first design a knowledge-driven encoder to capture the domain information and then develop a data-driven encoder to integrate domain knowledge into the observable EHR. To endow the model with the capability of temporal decision, we design an explicit medication encoder for learning the longitudinal dependence of the patient. Extensive experiments on three publicly available datasets verify the superiority of our method. The code will be public upon acceptance.
翻訳日:2024-01-13 03:51:45 公開日:2024-01-11
# 欠落データを扱うための三項決定木

Trinary Decision Trees for handling missing data ( http://arxiv.org/abs/2309.03561v2 )

ライセンス: Link先を確認
Henning Zakrisson(参考訳) 本稿では,決定木回帰器と分類器の欠落データ処理を改善するアルゴリズムであるTrinary decision treeを紹介する。 他のアプローチとは異なり、三項決定木は、欠落した値が応答に関する情報を含まないと仮定しない。 実データを用いた推定器バイアスと数値図解の理論的計算は,それぞれ異なるデータシナリオ(MCAR:Missing Completely at Random)とInformative Missingness(IM:Informative Missingness)の確立したアルゴリズムと比較するために提示される。 特にトリナリーツリーは、MCAR設定において、特にデータがサンプル外にあるだけで、IM設定に欠如している場合に、ピアよりも優れています。 Trinary ツリーとMissing In Attributes (MIA) アプローチを組み合わせたハイブリッドモデルである TrinaryMIA ツリーは、あらゆるタイプの欠落において堅牢なパフォーマンスを示している。 トレーニング速度の遅さの潜在的な欠点にもかかわらず、Trinary Treeは、決定木アルゴリズムで欠落したデータを処理する、有望で正確な方法を提供する。

This paper introduces the Trinary decision tree, an algorithm designed to improve the handling of missing data in decision tree regressors and classifiers. Unlike other approaches, the Trinary decision tree does not assume that missing values contain any information about the response. Both theoretical calculations on estimator bias and numerical illustrations using real data sets are presented to compare its performance with established algorithms in different missing data scenarios (Missing Completely at Random (MCAR), and Informative Missingness (IM)). Notably, the Trinary tree outperforms its peers in MCAR settings, especially when data is only missing out-of-sample, while lacking behind in IM settings. A hybrid model, the TrinaryMIA tree, which combines the Trinary tree and the Missing In Attributes (MIA) approach, shows robust performance in all types of missingness. Despite the potential drawback of slower training speed, the Trinary tree offers a promising and more accurate method of handling missing data in decision tree algorithms.
翻訳日:2024-01-13 03:45:58 公開日:2024-01-11
# 平面上の新しい4値ウェーブレットを用いたカラー画像のホロスティック処理

Holistic Processing of Colour Images Using Novel Quaternion-Valued Wavelets on the Plane ( http://arxiv.org/abs/2308.16875v2 )

ライセンス: Link先を確認
Neil D. Dizon and Jeffrey A. Hogan(参考訳) 近年, 平面上の新しい四元数値ウェーブレットを最適化手法を用いて構築した。 これらのウェーブレットはコンパクトな支持、滑らか、正規直交、非分離、真の四元数である。 しかし、アプリケーションではテストされていない。 本稿では,最近開発された四価ウェーブレットに付随する四価ウェーブレットフィルタを用いて色画像の分解と再構成を行う手法を提案する。 カラー画像の圧縮, 強調, セグメンテーション, 分節化におけるその応用性について検討した。 これらのウェーブレットはカラー画像の終端四元数処理のための有望なツールであることを示す。

Recently, novel quaternion-valued wavelets on the plane were constructed using an optimisation approach. These wavelets are compactly supported, smooth, orthonormal, non-separable and truly quaternionic. However, they have not been tested in application. In this paper, we introduce a methodology for decomposing and reconstructing colour images using quaternionic wavelet filters associated to recently developed quaternion-valued wavelets on the plane. We investigate its applicability in compression, enhancement, segmentation, and denoising of colour images. Our results demonstrate these wavelets as promising tools for an end-to-end quaternion processing of colour images.
翻訳日:2024-01-13 03:45:22 公開日:2024-01-11
# MS23D:マルチスケール意味的特徴点を用いた3次元物体検出手法

MS23D: : A 3D Object Detection Method Using Multi-Scale Semantic Feature Points to Construct 3D Feature Layer ( http://arxiv.org/abs/2308.16518v5 )

ライセンス: Link先を確認
Yongxin Shao, Aihong Tan, Binrui Wang, Tianhong Yan, Zhetao Sun, Yiyang Zhang and Jiaxin Liu(参考訳) LiDAR点雲は、三次元空間における物体の動きと姿勢を効果的に描写することができる。 多くの研究が点雲をボクセル化することで3次元物体検出を実現する。 しかし、自動運転のシナリオでは、点雲のスパーシティと空洞性がボクセルベースの手法にいくつかの困難をもたらしている。 点雲の広がりは、物体の幾何学的特徴を記述するのを困難にしている。 点雲の空洞性は3次元特徴の集約に困難をもたらす。 我々はMS23Dと呼ばれる2段階の3Dオブジェクト検出フレームワークを提案する。 1) マルチブランチからvoxel特徴点を用いて3次元特徴層を構築する手法を提案する。 異なるブランチからのvoxel特徴点を用いて,比較的コンパクトな3d特徴層を構築した。 さらに, 距離重み付きサンプリング法を提案し, ダウンサンプリングによる前景点の損失を低減し, 3次元特徴層が前景点の保持を可能とした。 2) 点雲の空洞性に応じて, 深層特徴点と物体の遠心との間のオフセットを予測し, 物体の遠心値に可能な限り近い値とした。 これにより、豊富な意味的特徴を持つこれらの特徴点の集約が可能になる。 浅層からの特徴点については、物体の幾何学的特徴を記述するために物体の表面に保持する。 提案手法の有効性を,KITTIデータセットとONCEデータセットで評価した。

LiDAR point clouds can effectively depict the motion and posture of objects in three-dimensional space. Many studies accomplish the 3D object detection by voxelizing point clouds. However, in autonomous driving scenarios, the sparsity and hollowness of point clouds create some difficulties for voxel-based methods. The sparsity of point clouds makes it challenging to describe the geometric features of objects. The hollowness of point clouds poses difficulties for the aggregation of 3D features. We propose a two-stage 3D object detection framework, called MS23D. (1) We propose a method using voxel feature points from multi-branch to construct the 3D feature layer. Using voxel feature points from different branches, we construct a relatively compact 3D feature layer with rich semantic features. Additionally, we propose a distance-weighted sampling method, reducing the loss of foreground points caused by downsampling and allowing the 3D feature layer to retain more foreground points. (2) In response to the hollowness of point clouds, we predict the offsets between deep-level feature points and the object's centroid, making them as close as possible to the object's centroid. This enables the aggregation of these feature points with abundant semantic features. For feature points from shallow-level, we retain them on the object's surface to describe the geometric features of the object. To validate our approach, we evaluated its effectiveness on both the KITTI and ONCE datasets.
翻訳日:2024-01-13 03:45:13 公開日:2024-01-11
# 深部強化学習を用いたDAGタスクのエッジ生成スケジューリング

Edge Generation Scheduling for DAG Tasks Using Deep Reinforcement Learning ( http://arxiv.org/abs/2308.14647v2 )

ライセンス: Link先を確認
Binqi Sun, Mirco Theile, Ziyuan Qin, Daniele Bernardini, Debayan Roy, Andrea Bastoni, and Marco Caccamo(参考訳) 有向非循環グラフ(dag)タスクは現在、リアルタイムドメインで採用されており、相互通信タスクの連鎖を通じて機能を実装する自動車、アビオニクス、産業ドメインから複雑なアプリケーションをモデル化している。 本稿では,自明なシェジュラビリティの概念に基づく新しいシェジュラビリティテストを提案することにより,リアルタイム dag タスクのスケジューリングの問題について述べる。 このスケジューリング可能性テストを用いて、期限制約を保証しつつエッジを反復的に生成することでDAG幅を最小化する新しいDAGスケジューリングフレームワーク(エッジジェネレーションスケジューリング -- EGS)を提案する。 グラフ表現ニューラルネットワークと組み合わせた深部強化学習アルゴリズムを開発し,ESGの効率的なエッジ生成ポリシーを学習することにより,エッジ生成の効率よく解決する方法を検討する。 我々は,提案アルゴリズムの有効性を,最先端DAGスケジューリングヒューリスティックスと最適混合整数線形プログラミングベースラインとの比較により評価した。 実験の結果,提案アルゴリズムは,同一のDAGタスクをスケジュールするプロセッサを少なくすることで,最先端のアルゴリズムよりも優れていることがわかった。 コードはhttps://github.com/binqi-sun/egsで入手できる。

Directed acyclic graph (DAG) tasks are currently adopted in the real-time domain to model complex applications from the automotive, avionics, and industrial domains that implement their functionalities through chains of intercommunicating tasks. This paper studies the problem of scheduling real-time DAG tasks by presenting a novel schedulability test based on the concept of trivial schedulability. Using this schedulability test, we propose a new DAG scheduling framework (edge generation scheduling -- EGS) that attempts to minimize the DAG width by iteratively generating edges while guaranteeing the deadline constraint. We study how to efficiently solve the problem of generating edges by developing a deep reinforcement learning algorithm combined with a graph representation neural network to learn an efficient edge generation policy for EGS. We evaluate the effectiveness of the proposed algorithm by comparing it with state-of-the-art DAG scheduling heuristics and an optimal mixed-integer linear programming baseline. Experimental results show that the proposed algorithm outperforms the state-of-the-art by requiring fewer processors to schedule the same DAG tasks. The code is available at https://github.com/binqi-sun/egs.
翻訳日:2024-01-13 03:44:19 公開日:2024-01-11
# 中・極度のオーストラリア森林火災に対する深部グラフィカル回帰

Deep graphical regression for jointly moderate and extreme Australian wildfires ( http://arxiv.org/abs/2308.14547v2 )

ライセンス: Link先を確認
Daniela Cisneros, Jordan Richards, Ashok Dahal, Luigi Lombardo, and Rapha\"el Huser(参考訳) 近年のオーストラリアでの山火事は経済的損失と資産破壊を招き、気候変動がその強度、持続時間、頻度を悪化させる可能性があるとの懸念が高まっている。 極端な山火事のハザード定量化は、効率的な資源配分、有害な効果の緩和、回復活動を促進するため、山火事管理の重要な要素である。 しかし、極端な山火事は概して最も影響を受けやすいが、小火と中火の両方が地域社会や生態系に打撃を与える可能性がある。 したがって,山火事の分布全体を確実にモデル化するために,ロバストな統計手法を開発することが不可欠である。 1999年から2019年にかけてオーストラリアで発生した野火の新たなデータセットについて検討し,統計地域レベル~1,~2 (sa1/sa2) にほぼ対応した地域を対象に,月々の分布を解析した。 野火点火と拡散の複雑な性質を考えると,最近の統計的深層学習と極値理論の進歩を利用して,グラフ畳み込みニューラルネットワークと拡張一般化パレート分布を用いたパラメトリック回帰モデルを構築し,不規則な空間領域で観測される野火の拡散をモデル化する。 我々は,新たに提案したモデルの有効性を強調し,タスマニア,シドニー,メルボルン,パースといったオーストラリアおよび人口密度のコミュニティに対して山火事危険度評価を行う。

Recent wildfires in Australia have led to considerable economic loss and property destruction, and there is increasing concern that climate change may exacerbate their intensity, duration, and frequency. Hazard quantification for extreme wildfires is an important component of wildfire management, as it facilitates efficient resource distribution, adverse effect mitigation, and recovery efforts. However, although extreme wildfires are typically the most impactful, both small and moderate fires can still be devastating to local communities and ecosystems. Therefore, it is imperative to develop robust statistical methods to reliably model the full distribution of wildfire spread. We do so for a novel dataset of Australian wildfires from 1999 to 2019, and analyse monthly spread over areas approximately corresponding to Statistical Areas Level~1 and~2 (SA1/SA2) regions. Given the complex nature of wildfire ignition and spread, we exploit recent advances in statistical deep learning and extreme value theory to construct a parametric regression model using graph convolutional neural networks and the extended generalized Pareto distribution, which allows us to model wildfire spread observed on an irregular spatial domain. We highlight the efficacy of our newly proposed model and perform a wildfire hazard assessment for Australia and population-dense communities, namely Tasmania, Sydney, Melbourne, and Perth.
翻訳日:2024-01-13 03:44:00 公開日:2024-01-11
# ProAgent: 大規模言語モデルによる積極的な協調エージェントの構築

ProAgent: Building Proactive Cooperative Agents with Large Language Models ( http://arxiv.org/abs/2308.11339v3 )

ライセンス: Link先を確認
Ceyao Zhang, Kaijie Yang, Siyi Hu, Zihao Wang, Guanghe Li, Yihang Sun, Cheng Zhang, Zhaowei Zhang, Anji Liu, Song-Chun Zhu, Xiaojun Chang, Junge Zhang, Feng Yin, Yitao Liang, Yaodong Yang(参考訳) 協調作業における適応行動を持つエージェントの構築は、マルチエージェントシステムにおける最重要目標である。 協調エージェントの開発への現在のアプローチは、主に学習に基づく手法に依存しており、政策の一般化は、トレーニング期間中に相互作用するチームメイトの多様性に大きく依存している。 しかし、そのような依存は、馴染みのないチームメイトと協力する際に、エージェントの戦略的な適応能力を制限する。 この課題に対処するために,我々は,大規模言語モデル(llm)を活用した新しいフレームワーク proagent を提案する。 ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。 その後、その信念をチームメイトの実際の行動に合わせて更新する。 さらに、プロエージェントは高いモジュール性と解釈性を示し、様々な協調シナリオに容易に統合できる。 オーバークッキングされたAI環境下での実験評価では,AIエージェントと協調する際の自己プレイと人口ベーストレーニングに基づく5つの方法よりも優れたProAgentの性能が示された。 さらに、人間のプロキシモデルと連携して、その性能は現在の最先端手法と比較して平均10%以上向上している。 プロジェクトの詳細については、~\url{https://pku-proagent.github.io}をご覧ください。

Building agents with adaptive behavior in cooperative tasks stands as a paramount goal in the realm of multi-agent systems. Current approaches to developing cooperative agents rely primarily on learning-based methods, whose policy generalization depends heavily on the diversity of teammates they interact with during the training phase. Such reliance, however, constrains the agents' capacity for strategic adaptation when cooperating with unfamiliar teammates, which becomes a significant challenge in zero-shot coordination scenarios. To address this challenge, we propose ProAgent, a novel framework that harnesses large language models (LLMs) to create proactive agents capable of dynamically adapting their behavior to enhance cooperation with teammates. ProAgent can analyze the present state, and infer the intentions of teammates from observations. It then updates its beliefs in alignment with the teammates' subsequent actual behaviors. Moreover, ProAgent exhibits a high degree of modularity and interpretability, making it easily integrated into various of coordination scenarios. Experimental evaluations conducted within the Overcooked-AI environment unveil the remarkable performance superiority of ProAgent, outperforming five methods based on self-play and population-based training when cooperating with AI agents. Furthermore, in partnered with human proxy models, its performance exhibits an average improvement exceeding 10% compared to the current state-of-the-art method. For more information about our project, please visit~\url{https://pku-proagent.github.io}.
翻訳日:2024-01-13 03:43:34 公開日:2024-01-11
# 量子回路の前方および後方制約付きバイシミュレーション

Forward and Backward Constrained Bisimulations for Quantum Circuits ( http://arxiv.org/abs/2308.09510v5 )

ライセンス: Link先を確認
Antonio Jim\'enez-Pastor, Kim G. Larsen, Mirco Tribastone, Max Tschaikowski(参考訳) 古典的コンピュータ上での量子回路シミュレーションの効率的な手法は、量子ビット数で問題のサイズが指数関数的に増加するため、その解析に不可欠である。 ここでは,マルコフ連鎖や常微分方程式のような(古典的)確率的,決定論的システムで成功した確立された手法のクラスであるバイシミュレーションに基づく集計法について検討する。 フォワード制約ビシミュレーションは、関心の線型部分空間上に投影される量子計測を正確に保存する低次元モデルをもたらす。 後方制約ビシミュレーションは、回路入力を含む部分空間で有効である還元を与え、そこから回路結果を完全に復元することができる。 この2つの概念に関する双対性の結果を用いて、両ケースで最も粗い還元をもたらす制約ビシミュレーションを計算するアルゴリズムを提案する。 応用として、探索、最適化、分解のためのよく知られた量子アルゴリズムに対して、還元状態空間のサイズに関する理論的境界を提供する。 プロトタイプ実装を用いて,ベンチマークセットの大幅な削減を報告した。 さらに,制約バイシミュレーションは,決定ダイアグラムに基づく量子回路シミュレーションの最先端手法を補完することを示した。

Efficient methods for the simulation of quantum circuits on classic computers are crucial for their analysis due to the exponential growth of the problem size with the number of qubits. Here we study lumping methods based on bisimulation, an established class of techniques that has been proven successful for (classic) stochastic and deterministic systems such as Markov chains and ordinary differential equations. Forward constrained bisimulation yields a lower-dimensional model which exactly preserves quantum measurements projected on a linear subspace of interest. Backward constrained bisimulation gives a reduction that is valid on a subspace containing the circuit input, from which the circuit result can be fully recovered. We provide an algorithm to compute the constraint bisimulations yielding coarsest reductions in both cases, using a duality result relating the two notions. As applications, we provide theoretical bounds on the size of the reduced state space for well-known quantum algorithms for search, optimization, and factorization. Using a prototype implementation, we report significant reductions on a set of benchmarks. Furthermore, we show that constraint bisimulation complements state-of-the-art methods for the simulation of quantum circuits based on decision diagrams.
翻訳日:2024-01-13 03:42:39 公開日:2024-01-11
# coral: 専門医による言語モデル推論のためのオンコロジーレポート

CORAL: Expert-Curated medical Oncology Reports to Advance Language Model Inference ( http://arxiv.org/abs/2308.03853v3 )

ライセンス: Link先を確認
Madhumita Sushil, Vanessa E. Kennedy, Divneet Mandair, Brenda Y. Miao, Travis Zack, Atul J. Butte(参考訳) 腫瘍学における医療と観察の研究は、患者の疾患の進行と治療の歴史を徹底的に理解する必要がある。 彼らの重要な役割にもかかわらず、現在のオンコロジー情報表現やアノテーションスキーマはこれらのノートに記録されている情報の多様性を完全にカプセル化していない。 大規模言語モデル(LLM)は、近年、様々な医学的自然言語処理タスクにおいて顕著な性能を示したが、現在、包括的な注釈付けオンコロジーデータセットが不足しているため、複雑なオンコロジーノートのレトリックによる抽出と推論におけるLLMの広範な評価がまだ検討されている。 症例の特徴,腫瘍の特徴,検査,治療,時間的特徴を包含して,テキストオンコロジー情報を注釈する詳細なスキーマを開発した。 カリフォルニア大学サンフランシスコ校の40個の乳腺・膵癌進展ノートのコーパスを用いて,最近の3つのLCM(GPT-4, GPT-3.5-turbo, FLAN-UL2)のゼロショット能力の評価を行い,臨床経過ノートの2つのセクションから詳細な腫瘍学的履歴を抽出した。 チームは9028のエンティティ、9986の修飾子、5312の関連に注釈を付けました。 gpt-4 モデルでは、平均 bleu スコア 0.73、平均 rouge スコア 0.72、正確な一致 f1-score 0.51、複雑なタスクで平均 68% の精度を示した。 特に腫瘍の特徴や薬剤の抽出に優れており, 異常事象検出などの関係推論では優れた性能を示した。 しかし、臨床研究、複雑な人口管理、患者ケアの文書化に必要ながん進展ノートから重要な事実を確実に抽出するためには、それを使用する前にさらなる改善が必要である。

Both medical care and observational studies in oncology require a thorough understanding of a patient's disease progression and treatment history, often elaborately documented in clinical notes. Despite their vital role, no current oncology information representation and annotation schema fully encapsulates the diversity of information recorded within these notes. Although large language models (LLMs) have recently exhibited impressive performance on various medical natural language processing tasks, due to the current lack of comprehensively annotated oncology datasets, an extensive evaluation of LLMs in extracting and reasoning with the complex rhetoric in oncology notes remains understudied. We developed a detailed schema for annotating textual oncology information, encompassing patient characteristics, tumor characteristics, tests, treatments, and temporality. Using a corpus of 40 de-identified breast and pancreatic cancer progress notes at University of California, San Francisco, we applied this schema to assess the zero-shot abilities of three recent LLMs (GPT-4, GPT-3.5-turbo, and FLAN-UL2) to extract detailed oncological history from two narrative sections of clinical progress notes. Our team annotated 9028 entities, 9986 modifiers, and 5312 relationships. The GPT-4 model exhibited overall best performance, with an average BLEU score of 0.73, an average ROUGE score of 0.72, an exact-match F1-score of 0.51, and an average accuracy of 68% on complex tasks (expert manual evaluation on subset). Notably, it was proficient in tumor characteristic and medication extraction, and demonstrated superior performance in relational inference like adverse event detection. However, further improvements are needed before using it to reliably extract important facts from cancer progress notes needed for clinical research, complex population management, and documenting quality patient care.
翻訳日:2024-01-13 03:41:53 公開日:2024-01-11
# テキスト内学習による数学多重選択質問の自動抽出とフィードバック生成

Automated Distractor and Feedback Generation for Math Multiple-choice Questions via In-context Learning ( http://arxiv.org/abs/2308.03234v2 )

ライセンス: Link先を確認
Hunter McNichols, Wanyong Feng, Jaewook Lee, Alexander Scarlatos, Digory Smith, Simon Woodhead, Andrew Lan(参考訳) 多重選択質問(MCQ)は、管理しやすく、格付けしやすく、信頼性の高い評価形式であるため、ほぼ全てのレベルの教育において、ユビキタスである。 mcqsの重要な側面は、生徒の特定の誤解や不十分な知識をターゲットにした不正確なオプションである。 これまで、高品質の邪魔者を作る仕事は、教師やコンテンツデザイナーにとって労働集約的なプロセスであり、スケーラビリティは限られていた。 本研究では,大規模言語モデルを用いた数学MCQにおける自動散逸器とそれに対応するフィードバックメッセージ生成の課題について検討する。 我々は,これら2つのタスクを定式化し,シンプルで文脈内学習に基づくソリューションを提案する。 さらに、フィードバックメッセージの品質を評価するための生成AIベースのメトリクスを提案する。 実世界のMCQデータセットを用いて、これらのタスクについて広範な実験を行う。 これらの結果から,自動的注意散らしとフィードバック生成の改善の余地がたくさんあることが示唆された。

Multiple-choice questions (MCQs) are ubiquitous in almost all levels of education since they are easy to administer, grade, and are a reliable form of assessment. An important aspect of MCQs is the distractors, i.e., incorrect options that are designed to target specific misconceptions or insufficient knowledge among students. To date, the task of crafting high-quality distractors has largely remained a labor-intensive process for teachers and learning content designers, which has limited scalability. In this work, we explore the task of automated distractor and corresponding feedback message generation in math MCQs using large language models. We establish a formulation of these two tasks and propose a simple, in-context learning-based solution. Moreover, we propose generative AI-based metrics for evaluating the quality of the feedback messages. We conduct extensive experiments on these tasks using a real-world MCQ dataset. Our findings suggest that there is a lot of room for improvement in automated distractor and feedback generation; based on these findings, we outline several directions for future work.
翻訳日:2024-01-13 03:41:17 公開日:2024-01-11
# ジェネレーティブAIのための強化学習 - 最先端、機会、オープンリサーチの課題

Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges ( http://arxiv.org/abs/2308.00031v3 )

ライセンス: Link先を確認
Giorgio Franceschelli and Mirco Musolesi(参考訳) Generative Artificial Intelligence(AI)は、コンピュータ科学における過去10年で最もエキサイティングな発展の1つだ。 同時に、強化学習(rl)は、さまざまな機械学習タスクにおいて非常に成功したパラダイムとして現れています。 本稿では,RLを生成AIに適用するための技術,機会,オープンな研究課題について論じる。 特に、目的関数を同時に最大化しながら出力を生成する方法としてRL、目的関数によって容易に捕捉できない所望の特性を生成プロセスに組み込む方法として、RLを特定の目的関数なしで生成する代替方法として論じる。 我々は,この魅力的な新興地域の機会と課題について,深く議論して調査を締めくくった。

Generative Artificial Intelligence (AI) is one of the most exciting developments in Computer Science of the last decade. At the same time, Reinforcement Learning (RL) has emerged as a very successful paradigm for a variety of machine learning tasks. In this survey, we discuss the state of the art, opportunities and open research questions in applying RL to generative AI. In particular, we will discuss three types of applications, namely, RL as an alternative way for generation without specified objectives; as a way for generating outputs while concurrently maximizing an objective function; and, finally, as a way of embedding desired characteristics, which cannot be easily captured by means of an objective function, into the generative process. We conclude the survey with an in-depth discussion of the opportunities and challenges in this fascinating emerging area.
翻訳日:2024-01-13 03:41:00 公開日:2024-01-11
# 機械学習に基づく化学プラントシミュレーションのスケールアップ:安定な固定点を誘導するモデルを微調整する方法

Scaling up machine learning-based chemical plant simulation: A method for fine-tuning a model to induce stable fixed points ( http://arxiv.org/abs/2307.13621v2 )

ライセンス: Link先を確認
Malte Esders, Gimmy Alex Fernandez Ramirez, Michael Gastegger, Satya Swarup Samal(参考訳) 化学プラントの理想化された第一原理モデルは不正確である。 もうひとつの方法は、機械学習(ML)モデルを直接植物センサーデータに適合させることだ。 プラント内の各ユニットは、1つのMLモデルで表現されます。 データにモデルを合わせると、モデルがフローシートのような有向グラフに接続される。 より小型の植物の場合、このアプローチはうまく機能するが、大型の植物の場合、フローシートの大規模でネストしたサイクルから生じる複雑なダイナミクスは、モデル初期化時のソルバの不安定性を引き起こす。 勾配は予期せぬ方向に向けることができるため、解法が正しい定常状態に収束するのを防ぐことができる。 この問題に対処するため,我々は,非常に単純な解法であってもロバストとなるようなmlモデルを微調整する方法を提案する。

Idealized first-principles models of chemical plants can be inaccurate. An alternative is to fit a Machine Learning (ML) model directly to plant sensor data. We use a structured approach: Each unit within the plant gets represented by one ML model. After fitting the models to the data, the models are connected into a flowsheet-like directed graph. We find that for smaller plants, this approach works well, but for larger plants, the complex dynamics arising from large and nested cycles in the flowsheet lead to instabilities in the solver during model initialization. We show that a high accuracy of the single-unit models is not enough: The gradient can point in unexpected directions, which prevents the solver from converging to the correct stationary state. To address this problem, we present a way to fine-tune ML models such that initialization, even with very simple solvers, becomes robust.
翻訳日:2024-01-13 03:40:48 公開日:2024-01-11
# 空間変調対称性を有するボース・ハバード模型におけるエキゾチック量子液体

Exotic quantum liquids in Bose-Hubbard models with spatially-modulated symmetries ( http://arxiv.org/abs/2307.08761v2 )

ライセンス: Link先を確認
Pablo Sala, Yizhi You, Johannes Hauschild, Olexei Motrunich(参考訳) 空間変調された連続保存量の量子基底状態への影響について検討する。 粒子数の有限フーリエモーメントを保存する1次元の局所量子ロータとボソニックモデルを導入することで、粒子数自体ではなく有限個のフーリエモーメントを保存することができる。 これらは標準ボース・ハッバードモデル(BHM)の一般化に対応し、ボース曲面の物理学に関係している。 まず、無限次元の局所ヒルベルト空間を持つにもかかわらず、そのような系は格子と相容れないモーメントの非自明なヒルベルト空間の断片化を特徴付ける。 これは、密度スペクトルを持つ保存量の性質と関連付けられ、最初の例を提供する。 次に、可換および不測モーメントの両方についてゼロ温度位相図を特徴付ける。 どちらの場合も、解析的および数値計算はギャップ(モット絶縁)と準長範囲秩序相の間の相転移を予測し、後者は赤外における2種のルッティンガー液体によって特徴づけられるが、顕微鏡的な期待値を計算する際には振動寄与によって着る。 対応するロータモデルの厳密な悪質な定式化に従えば、この位相のロバスト性を再正規化群引数を用いて推定する二重記述を導出する。 固定対称性セクター内のクーロン相互作用を変調した2次元渦ガスとして系の等価表現を用いてこの結論を支持する。 ベレジンスキー-コステリッツ-チューレス型遷移は、時間方向に沿った渦の非結合性によって引き起こされると推測する。

We investigate the effect that spatially modulated continuous conserved quantities can have on quantum ground states. We do so by introducing a family of one-dimensional local quantum rotor and bosonic models which conserve finite Fourier momenta of the particle number, but not the particle number itself. These correspond to generalizations of the standard Bose-Hubbard model (BHM), and relate to the physics of Bose surfaces. First, we show that while having an infinite-dimensional local Hilbert space, such systems feature a non-trivial Hilbert space fragmentation for momenta incommensurate with the lattice. This is linked to the nature of the conserved quantities having a dense spectrum and provides the first such example. We then characterize the zero-temperature phase diagram for both commensurate and incommensurate momenta. In both cases, analytical and numerical calculations predict a phase transition between a gapped (Mott insulating) and quasi-long range order phase; the latter is characterized by a two-species Luttinger liquid in the infrared, but dressed by oscillatory contributions when computing microscopic expectation values. Following a rigorous Villain formulation of the corresponding rotor model, we derive a dual description, from where we estimate the robustness of this phase using renormalization group arguments, where the driving perturbation has ultra-local correlations in space but power law correlations in time. We support this conclusion using an equivalent representation of the system as a two-dimensional vortex gas with modulated Coulomb interactions within a fixed symmetry sector. We conjecture that a Berezinskii-Kosterlitz-Thouless-type transition is driven by the unbinding of vortices along the temporal direction.
翻訳日:2024-01-13 03:40:30 公開日:2024-01-11
# riesz特徴表現:分類タスクのためのスケール同変散乱ネットワーク

Riesz feature representation: scale equivariant scattering network for classification tasks ( http://arxiv.org/abs/2307.08467v2 )

ライセンス: Link先を確認
Tin Barisin and Jesus Angulo and Katja Schladitz and Claudia Redenbach(参考訳) 散乱ネットワークは、長いトレーニングを必要とせず、非常に少ないトレーニングデータでうまく機能する、強力で堅牢な階層型画像記述子を生成する。 しかし、それらはスケール次元のサンプリングに依存している。 したがって、それらはスケールのバリエーションに敏感になり、目に見えないスケールに一般化できない。 本研究では,Riesz変換に基づく代替的特徴表現を定義する。 この表現の背後にある数学的基礎を詳述し分析する。 特に、それはリース変換からスケール等分散を継承し、スケール次元のサンプリングを完全に避けている。 さらに、表現における特徴の数は、散乱ネットワークと比較して係数4に減少する。 それにもかかわらず、我々の表現はテクスチャ分類において、興味深い追加:スケール同値性(scale equivariance)で比較的によく機能する。 本手法は,トレーニングデータセットでカバーされたもの以外のスケールを扱う場合,優れた性能が得られる。 等分散特性の有用性は,訓練対象の4倍の大きさのスケールであっても精度が安定な数値分類タスクにおいて実証された。 第2の例として,テクスチャの分類について考察する。

Scattering networks yield powerful and robust hierarchical image descriptors which do not require lengthy training and which work well with very few training data. However, they rely on sampling the scale dimension. Hence, they become sensitive to scale variations and are unable to generalize to unseen scales. In this work, we define an alternative feature representation based on the Riesz transform. We detail and analyze the mathematical foundations behind this representation. In particular, it inherits scale equivariance from the Riesz transform and completely avoids sampling of the scale dimension. Additionally, the number of features in the representation is reduced by a factor four compared to scattering networks. Nevertheless, our representation performs comparably well for texture classification with an interesting addition: scale equivariance. Our method yields superior performance when dealing with scales outside of those covered by the training dataset. The usefulness of the equivariance property is demonstrated on the digit classification task, where accuracy remains stable even for scales four times larger than the one chosen for training. As a second example, we consider classification of textures.
翻訳日:2024-01-13 03:39:59 公開日:2024-01-11
# hoh: 大きなオブジェクト数を持つマーカーレスマルチモーダル人間-オブジェクト-ヒューマンハンドオーバデータセット

HOH: Markerless Multimodal Human-Object-Human Handover Dataset with Large Object Count ( http://arxiv.org/abs/2310.00723v5 )

ライセンス: Link先を確認
Noah Wiederhold, Ava Megyeri, DiMaggio Paris, Sean Banerjee, Natasha Kholgade Banerjee(参考訳) 本研究では,136個のオブジェクトからなる大規模オブジェクトカウントデータセットであるhoh(human-object-human)ハンドオーバデータセットを提案し,ハンドオーバ研究,ヒューマンロボットハンドオーバ実装,ハンドオーバパラメータ推定におけるai(artificial intelligence)のデータ駆動研究を,人インタラクションの2dおよび3dデータから加速する。 HOHには、多視点RGBと深度データ、スケルトン、融合点雲、グリップタイプとハンドネスラベル、オブジェクト、ディペンダーハンド、レシーバハンド2Dと3Dセグメンテーション、ディペンダーとレシーバの快適性評価、および136個のオブジェクトと20個のディペンダー-レシーバペアからなる2,720個のハンドオーバインタラクションのためのペアリングオブジェクトメタデータとアライメント3Dモデルが含まれる。 また,hohを用いて学習したニューラルネットワークを用いて,把握,方向,軌道予測を行う実験結果を示す。 唯一の完全なマーカーレスハンドオーバキャプチャデータセットとして、HOHは自然な人間と人間のハンドオーバインタラクションを表し、身体追跡に特定の適合を必要とするマーカー付きデータセットによる課題を克服し、高解像度の手追跡を欠いている。 これまでのところ、hohはオブジェクト数、参加者数、役割反転を持つペア数、総相互作用において最大のハンドオーバデータセットである。

We present the HOH (Human-Object-Human) Handover Dataset, a large object count dataset with 136 objects, to accelerate data-driven research on handover studies, human-robot handover implementation, and artificial intelligence (AI) on handover parameter estimation from 2D and 3D data of person interactions. HOH contains multi-view RGB and depth data, skeletons, fused point clouds, grasp type and handedness labels, object, giver hand, and receiver hand 2D and 3D segmentations, giver and receiver comfort ratings, and paired object metadata and aligned 3D models for 2,720 handover interactions spanning 136 objects and 20 giver-receiver pairs-40 with role-reversal-organized from 40 participants. We also show experimental results of neural networks trained using HOH to perform grasp, orientation, and trajectory prediction. As the only fully markerless handover capture dataset, HOH represents natural human-human handover interactions, overcoming challenges with markered datasets that require specific suiting for body tracking, and lack high-resolution hand tracking. To date, HOH is the largest handover dataset in number of objects, participants, pairs with role reversal accounted for, and total interactions captured.
翻訳日:2024-01-13 03:33:36 公開日:2024-01-11
# 周期駆動量子スピン系における時間結晶電子キメラ

Time Crystal Embodies Chimera in Periodically Driven Quantum Spin System ( http://arxiv.org/abs/2309.16523v3 )

ライセンス: Link先を確認
Mahbub Rahaman, Akitada Sakurai, Analabha Roy(参考訳) キメラ状態(chimera states)は、複数の相互接続された要素からなるシステムが、同期と非同期の振る舞いの特徴的な組み合わせを示すキャプティベーション発生である。 これらの状態の出現は、量子的絡み合いと系の構成要素間の相互作用の微妙なバランスの間の複雑な相互依存性に起因する。 典型的な多体周期駆動系における離散時間結晶(DTC)の出現は、時間翻訳対称性の破れがあるときに起こる。 異なる種類のスピンスピンスピン相互作用に対する無秩序スピン1/2鎖の制御スピン回転誤差の下で,結合dtcと強磁性動的多体局在(dmbl)相が共存している。 我々は、周期的に駆動される量子多体系における外部静的場に対して堅牢なDTC-DMBL-chimera相の出現に対する新しいアプローチに寄与する。

Chimera states are a captivating occurrence in which a system composed of multiple interconnected elements exhibits a distinctive combination of synchronized and desynchronized behavior. The emergence of these states can be attributed to the complex interdependence between quantum entanglement and the delicate balance of interactions among system constituents. The emergence of discrete-time crystal (DTC) in typical many-body periodically driven systems occurs when there is a breaking of time translation symmetry. Coexisting coupled DTC and a ferromagnetic dynamically many-body localized (DMBL) phase at distinct regions have been investigated under the controlled spin rotational error of a disorder-free spin-1/2 chain for different types of spin-spin interactions. We contribute a novel approach for the emergence of the DTC-DMBL-chimera phase, which is robust against external static fields in a periodically driven quantum many-body system.
翻訳日:2024-01-13 03:32:35 公開日:2024-01-11
# 効率的なマルチモダリティ自己スーパービジョンによるスケルトンベース行動認識

Elevating Skeleton-Based Action Recognition with Efficient Multi-Modality Self-Supervision ( http://arxiv.org/abs/2309.12009v2 )

ライセンス: Link先を確認
Yiping Wei, Kunyu Peng, Alina Roitberg, Jiaming Zhang, Junwei Zheng, Ruiping Liu, Yufan Chen, Kailun Yang, Rainer Stiefelhagen(参考訳) 近年,人間の行動認識のための自己指導型表現学習が急速に発展している。 既存の作業の多くは、マルチモダリティ設定を使用してスケルトンデータに基づいている。 これらの研究は、モダリティ間のパフォーマンスの違いを見落とし、モダリティ間の誤った知識の伝播につながったが、3つの基本的なモダリティ(関節、骨、運動)しか使われておらず、追加のモダリティは検討されていない。 本研究では,まず,低性能なモダリティ間の誤った知識の伝播を緩和するImplicit Knowledge Exchange Module (IKEM)を提案する。 さらに,相補的情報を充実させるための3つの新しいモダリティを提案する。 最後に, 新たなモダリティ導入時の効率を維持するために, 二次モダリティからの知識を, アンカー, 正, 負の関係を考慮し, 強制モダリティに抽出する新たな教師学習フレームワークを提案する。 提案手法の有効性を実証し,スケルトンに基づくマルチモダリティデータの有効利用を実証した。 ソースコードはhttps://github.com/desehuileng0o0/IKEMで公開されている。

Self-supervised representation learning for human action recognition has developed rapidly in recent years. Most of the existing works are based on skeleton data while using a multi-modality setup. These works overlooked the differences in performance among modalities, which led to the propagation of erroneous knowledge between modalities while only three fundamental modalities, i.e., joints, bones, and motions are used, hence no additional modalities are explored. In this work, we first propose an Implicit Knowledge Exchange Module (IKEM) which alleviates the propagation of erroneous knowledge between low-performance modalities. Then, we further propose three new modalities to enrich the complementary information between modalities. Finally, to maintain efficiency when introducing new modalities, we propose a novel teacher-student framework to distill the knowledge from the secondary modalities into the mandatory modalities considering the relationship constrained by anchors, positives, and negatives, named relational cross-modality knowledge distillation. The experimental results demonstrate the effectiveness of our approach, unlocking the efficient use of skeleton-based multi-modality data. Source code will be made publicly available at https://github.com/desehuileng0o0/IKEM.
翻訳日:2024-01-13 03:32:02 公開日:2024-01-11
# 非定常マルチアームバンドを用いたマルチモーダルマルチタスク対話法分類のためのタスク選択とアサインメント

Task Selection and Assignment for Multi-modal Multi-task Dialogue Act Classification with Non-stationary Multi-armed Bandits ( http://arxiv.org/abs/2309.09832v2 )

ライセンス: Link先を確認
Xiangheng He, Junjie Chen, Bj\"orn W. Schuller(参考訳) マルチタスク学習(MTL)は、関連する補助タスクと共同学習することで、一次タスクの性能を向上させることを目的としている。 従来のMTLメソッドは、トレーニング中にランダムにタスクを選択する。 しかし,本研究の結果から,このようなランダムなタスクの選択は役に立たない可能性があり,性能に有害である可能性が示唆された。 したがって、MTLにおけるタスクの選択と割り当てのための新しい戦略を検討する必要がある。 本稿では,マルチモーダル・マルチタスク対話行動分類タスクについて検討し,ガウス前処理を用いて非定常的マルチアームバンディット(MAB)に基づくタスクの選択と割り当てを行う手法を提案する。 実験の結果、異なるトレーニング段階において、異なるタスクが異なるユーティリティを持つことが示された。 提案手法は,タスクユーティリティを効果的に識別し,無駄なタスクや有害なタスクを積極的に回避し,トレーニング中のタスク割り当てを実現する。 提案手法は,p値0.05の単一タスクベースラインとマルチタスクベースラインに対して,UARとF1の点で有意に優れている。 実験のさらなる分析により,データ不均衡問題のあるデータセットでは,提案手法は安定性が著しく向上し,マイノリティクラスで一貫性と適度な性能が得られることが示された。 提案手法は現在の最先端モデルよりも優れている。

Multi-task learning (MTL) aims to improve the performance of a primary task by jointly learning with related auxiliary tasks. Traditional MTL methods select tasks randomly during training. However, both previous studies and our results suggest that such a random selection of tasks may not be helpful, and can even be harmful to performance. Therefore, new strategies for task selection and assignment in MTL need to be explored. This paper studies the multi-modal, multi-task dialogue act classification task, and proposes a method for selecting and assigning tasks based on non-stationary multi-armed bandits (MAB) with discounted Thompson Sampling (TS) using Gaussian priors. Our experimental results show that in different training stages, different tasks have different utility. Our proposed method can effectively identify the task utility, actively avoid useless or harmful tasks, and realise the task assignment during training. Our proposed method is significantly superior in terms of UAR and F1 to the single-task and multi-task baselines with p-values < 0.05. Further analysis of experiments indicates that for the dataset with the data imbalance problem, our proposed method has significantly higher stability and can obtain consistent and decent performance for minority classes. Our proposed method is superior to the current state-of-the-art model.
翻訳日:2024-01-13 03:31:28 公開日:2024-01-11
# マスク画像モデルによる異種生成的知識蒸留

Heterogeneous Generative Knowledge Distillation with Masked Image Modeling ( http://arxiv.org/abs/2309.09571v2 )

ライセンス: Link先を確認
Ziming Wang, Shumin Han, Xiaodi Wang, Jing Hao, Xianbin Cao, Baochang Zhang(参考訳) 小さいCNNベースのモデルでは、計算資源に制限のあるエッジデバイスにデプロイする前に、大きなモデルから知識を転送する必要がある。 Masked Image Modeling (MIM) 法は様々な視覚的タスクにおいて大きな成功を収めるが、ヘテロジニアス深層モデルに対する知識蒸留では未解明のままである。 この理由は、主にトランスフォーマーベースの大型モデルとcnnベースの小型ネットワークの大きな違いが原因である。 本稿では,大形トランスフォーマーモデルから小型cnnモデルへの知識を,生成的自己教師付方式で効率的に伝達できるmimに基づく,最初の異種生成知識蒸留法(h-gkd)を開発した。 本研究では,トランスフォーマーモデルとCNN間の橋渡しを行い,教師がマスク付きモデルを用いて推定した視覚表現を効果的に模倣する。 本手法は,先進的な生成手法を用いて事前学習可能な異種教師モデルから,データの視覚的表現と分布を学習するための,シンプルで効果的な学習パラダイムである。 大規模な実験では、様々なモデルやサイズに順応し、画像分類、オブジェクト検出、セマンティックセグメンテーションタスクにおける最先端のパフォーマンスを一貫して達成している。 例えば、Imagenet 1Kデータセットでは、H-GKDはResnet50(スパース)の精度を76.98%から80.01%に改善している。

Small CNN-based models usually require transferring knowledge from a large model before they are deployed in computationally resource-limited edge devices. Masked image modeling (MIM) methods achieve great success in various visual tasks but remain largely unexplored in knowledge distillation for heterogeneous deep models. The reason is mainly due to the significant discrepancy between the Transformer-based large model and the CNN-based small network. In this paper, we develop the first Heterogeneous Generative Knowledge Distillation (H-GKD) based on MIM, which can efficiently transfer knowledge from large Transformer models to small CNN-based models in a generative self-supervised fashion. Our method builds a bridge between Transformer-based models and CNNs by training a UNet-style student with sparse convolution, which can effectively mimic the visual representation inferred by a teacher over masked modeling. Our method is a simple yet effective learning paradigm to learn the visual representation and distribution of data from heterogeneous teacher models, which can be pre-trained using advanced generative methods. Extensive experiments show that it adapts well to various models and sizes, consistently achieving state-of-the-art performance in image classification, object detection, and semantic segmentation tasks. For example, in the Imagenet 1K dataset, H-GKD improves the accuracy of Resnet50 (sparse) from 76.98% to 80.01%.
翻訳日:2024-01-13 03:31:07 公開日:2024-01-11
# ハイブリッド量子支援カラム生成アルゴリズムによるフリート変換問題の解法

A Hybrid Quantum-assisted Column Generation Algorithm for the Fleet Conversion Problem ( http://arxiv.org/abs/2309.08267v2 )

ライセンス: Link先を確認
Yagnik Chatterjee, Zaid Allybokus, Marko J. Ran\v{c}i\'c, Eric Bourreau(参考訳) フリート変換の問題は、特定のツアーのための車両群を運用するための二酸化炭素排出量とコストを削減することを目的としている。 最大重み付き独立セット(MWIS)問題をスレーブとして列生成スキームとしてモデル化することができる。 量子変分アルゴリズムはここ数年で大きな関心を集めている。 近年,二分最適化(qubo)問題を対数的に少ない量子ビットで表現する手法が提案されている。 ここでは,この手法を用いてMWISスラヴを解き,産業規模のユースケース(最大64ツアー)にアプローチするために量子および古典的解法を併用する方法を実証する。

The problem of Fleet Conversion aims to reduce the carbon emissions and cost of operating a fleet of vehicles for a given set of tours. It can be modelled as a column generation scheme with the Maximum Weighted Independent Set (MWIS) problem as the slave. Quantum variational algorithms have gained significant interest in the past several years. Recently, a method to represent Quadratic Unconstrained Binary Optimization (QUBO) problems using logarithmically fewer qubits was proposed. Here we use this method to solve the MWIS Slaves and demonstrate how quantum and classical solvers can be used together to approach an industrial-sized use-case (up to 64 tours).
翻訳日:2024-01-13 03:30:41 公開日:2024-01-11
# EarthPT:地球観測のための時系列基礎モデル

EarthPT: a time series foundation model for Earth Observation ( http://arxiv.org/abs/2309.07207v2 )

ライセンス: Link先を確認
Michael J. Smith, Luke Fleming and James E. Geach(参考訳) 我々は、地球観測(EO)事前訓練トランスであるEarthPTを紹介する。 EarthPTは7億のパラメータデコードトランスフォーマーモデルであり、自己回帰的な自己監督方式で訓練され、EOユースケースを念頭に開発された。 我々は,EarthPTが400-2300nmの範囲内における将来の画素レベルの反射率を正確に予測する有効な予測器であることを実証した。 例えば、正規化差分植生指数(NDVI)の進化の予測は、5ヶ月のテストセットの地平線上でのピクセルレベルでの典型的な誤差は約0.05(自然射程-1 -> 1)であり、過去の平均値に基づく単純な位相折りたたみモデルよりも優れている。 また,EarthPTが学習した埋め込みは意味的に意味のある情報を持ち,より粒度の高い動的土地利用分類などの下流作業に活用できることを示した。 興味深いことに、EOデータの豊富さは、訓練トークンの4分の1(理論上)を提供してくれる。 したがって、EarthPTがLarge Language Models(LLMs)に類似したニューラルスケーリング法則に従うと仮定すると、現在、EarthPTや他の類似の"Large Observation Models"をスケールするためのデータ指定制限はない。 '

We introduce EarthPT -- an Earth Observation (EO) pretrained transformer. EarthPT is a 700 million parameter decoding transformer foundation model trained in an autoregressive self-supervised manner and developed specifically with EO use-cases in mind. We demonstrate that EarthPT is an effective forecaster that can accurately predict future pixel-level surface reflectances across the 400-2300 nm range well into the future. For example, forecasts of the evolution of the Normalised Difference Vegetation Index (NDVI) have a typical error of approximately 0.05 (over a natural range of -1 -> 1) at the pixel level over a five month test set horizon, out-performing simple phase-folded models based on historical averaging. We also demonstrate that embeddings learnt by EarthPT hold semantically meaningful information and could be exploited for downstream tasks such as highly granular, dynamic land use classification. Excitingly, we note that the abundance of EO data provides us with -- in theory -- quadrillions of training tokens. Therefore, if we assume that EarthPT follows neural scaling laws akin to those derived for Large Language Models (LLMs), there is currently no data-imposed limit to scaling EarthPT and other similar `Large Observation Models.'
翻訳日:2024-01-13 03:30:29 公開日:2024-01-11
# 確率的プロトコルによる量子資源の可逆性

Reversibility of quantum resources through probabilistic protocols ( http://arxiv.org/abs/2309.07206v2 )

ライセンス: Link先を確認
Bartosz Regula and Ludovico Lami(参考訳) 絡み合いのような量子資源の操作における最も基本的な問題は、全ての資源状態が可逆的に変換される可能性があることである。 この結果の最も重要な結果は、達成可能な変換率の限界を正確に定量化する一意なエントロピー的資源測度の同定である。 興味深いことに、以前の結果は、このような漸近的可逆性は非常に一般的な設定では真であると主張したが、最近これらの発見は不完全であることが判明し、この予想に疑問を投げかけた。 ここでは、確率的にしか成功しないプロトコルを許す限り、一般的な量子資源理論における全ての状態が可逆的に相互変換可能であることを示す。 このような変換は失敗する可能性はあるが、無限に多くの操作されたコピーの漸近的極限においても、その成功確率がゼロから外れることを保証することが示される。 前述したアプローチと同様に、ここでの達成性は漸近的に資源を生成しない操作によって実現される。 提案手法は,確率的プロトコルの下での変換率を,決定論的変換のための強い逆率で接続することに基づいている。 我々はこの接続を、絡み合う蒸留の場合の正確な等価性に強化する。

Among the most fundamental questions in the manipulation of quantum resources such as entanglement is the possibility of reversibly transforming all resource states. The most important consequence of this would be the identification of a unique entropic resource measure that exactly quantifies the limits of achievable transformation rates. Remarkably, previous results claimed that such asymptotic reversibility holds true in very general settings; however, recently those findings have been found to be incomplete, casting doubt on the conjecture. Here we show that it is indeed possible to reversibly interconvert all states in general quantum resource theories, as long as one allows protocols that may only succeed probabilistically. Although such transformations have some chance of failure, we show that their success probability can be ensured to be bounded away from zero, even in the asymptotic limit of infinitely many manipulated copies. As in previously conjectured approaches, the achievability here is realised through operations that are asymptotically resource non-generating. Our methods are based on connecting the transformation rates under probabilistic protocols with strong converse rates for deterministic transformations. We strengthen this connection into an exact equivalence in the case of entanglement distillation.
翻訳日:2024-01-13 03:30:02 公開日:2024-01-11
# 睡眠ステージの透明性:モデル解釈可能性を考慮した脳波睡眠ステージ分類のための深層学習法

Transparency in Sleep Staging: Deep Learning Method for EEG Sleep Stage Classification with Model Interpretability ( http://arxiv.org/abs/2309.07156v3 )

ライセンス: Link先を確認
Shivam Sharma, Suvadeep Maiti, S. Mythirayee, Srijithesh Rajendran, Raju Surampudi Bapi(参考訳) 単チャンネル脳波を用いた睡眠ステージの自動分類は睡眠品質評価と障害診断にとって重要なツールである。 しかし、この信号に固有の複雑さと変動性をモデル化することは難しい課題であり、臨床における実用性と有効性を制限する。 これらの課題を緩和するために、残余ネットワーク内に圧縮ブロックと励起ブロックを統合して特徴を抽出し、複雑な時間的依存関係を理解するために積み重ねたBi-LSTM(Deep-to-end Deep Learning)モデルを提案する。 本研究の特筆すべき側面は、睡眠ステージングのためのGradCamの適応であり、この領域における説明可能なDLモデルの最初の事例であり、その決定と睡眠専門家の洞察の一致である。 公開データセット(SleepEDF-20,SleepEDF-78,SHHS)を用いて,Macro-F1スコアが82.5,78.9,81.9であった。 さらに、ストライドサイズの増大により、新たなトレーニング効率向上戦略が実施され、パフォーマンスへの影響を最小限に抑えながら、トレーニング時間を8倍に短縮した。 比較分析は,本モデルが既存のすべてのベースラインより優れており,臨床応用の可能性を示している。

Automated Sleep stage classification using raw single channel EEG is a critical tool for sleep quality assessment and disorder diagnosis. However, modelling the complexity and variability inherent in this signal is a challenging task, limiting their practicality and effectiveness in clinical settings. To mitigate these challenges, this study presents an end-to-end deep learning (DL) model which integrates squeeze and excitation blocks within the residual network to extract features and stacked Bi-LSTM to understand complex temporal dependencies. A distinctive aspect of this study is the adaptation of GradCam for sleep staging, marking the first instance of an explainable DL model in this domain with alignment of its decision-making with sleep expert's insights. We evaluated our model on the publically available datasets (SleepEDF-20, SleepEDF-78, and SHHS), achieving Macro-F1 scores of 82.5, 78.9, and 81.9, respectively. Additionally, a novel training efficiency enhancement strategy was implemented by increasing stride size, leading to 8x faster training times with minimal impact on performance. Comparative analyses underscore our model outperforms all existing baselines, indicating its potential for clinical usage.
翻訳日:2024-01-13 03:29:44 公開日:2024-01-11
# 確率サイクルカウントパワーを有する距離制限型エルクローヤ・レスファイラー・リーマンGNN

Distance-Restricted Folklore Weisfeiler-Leman GNNs with Provable Cycle Counting Power ( http://arxiv.org/abs/2309.04941v3 )

ライセンス: Link先を確認
Junru Zhou, Jiarui Feng, Xiyuan Wang, Muhan Zhang(参考訳) グラフニューラルネットワーク(GNN)が特定のグラフサブ構造、特にサイクルをカウントする能力は、幅広いタスクにおいてGNNの成功にとって重要である。 GNNの表現力を評価するための一般的な指標として最近使用されている。 証明可能なサイクルカウント能力を持つ多くのGNNモデルは、入力グラフからサブグラフの袋を抽出し、各サブグラフの表現を生成し、それらを使用して入力グラフの表現を増強する。 しかし、これらの手法は重い前処理を必要とし、高い時間とメモリコストに悩まされる。 本稿では,GNNの新たなクラスである$d$-Distance-Restricted FWL(2) GNN,あるいは$d$-DRFWL(2) GNNを提案することによって,前述のGNNの制限を克服する。 $d$-DRFWL(2) GNNは、表現力と複雑性のバランスをとるためにメッセージパッシングの単位として、互いに距離が最大$d$のノードペアを使用する。 元のグラフで距離制限ノードペア間でメッセージパッシングを行うことで、$d$-DRFWL(2) GNNはグラフGNNにおける高価なサブグラフ抽出操作を避け、時間と空間の複雑さを下げる。 理論的には、$d$-DRFWL(2) GNNの判別力は、$d$の増加とともに厳密に増加する。 さらに重要なのは、$d$-DRFWL(2) GNNは、$d=2$であっても、確実に強力なサイクルカウント能力を持つことだ。 6-サイクル(例えばベンゼン環)は有機分子中でユビキタスであるため、分子のタスクにおいて堅牢で一般化可能な性能を達成するためには、それらを検出して数えることができる。 合成データセットと分子データセットの両方の実験は、この理論を検証する。 我々の知る限りでは、我々のモデルは6サイクルまで数えられる最も効率的なGNNモデルである(理論的にも経験的にも)。

The ability of graph neural networks (GNNs) to count certain graph substructures, especially cycles, is important for the success of GNNs on a wide range of tasks. It has been recently used as a popular metric for evaluating the expressive power of GNNs. Many of the proposed GNN models with provable cycle counting power are based on subgraph GNNs, i.e., extracting a bag of subgraphs from the input graph, generating representations for each subgraph, and using them to augment the representation of the input graph. However, those methods require heavy preprocessing, and suffer from high time and memory costs. In this paper, we overcome the aforementioned limitations of subgraph GNNs by proposing a novel class of GNNs -- $d$-Distance-Restricted FWL(2) GNNs, or $d$-DRFWL(2) GNNs. $d$-DRFWL(2) GNNs use node pairs whose mutual distances are at most $d$ as the units for message passing to balance the expressive power and complexity. By performing message passing among distance-restricted node pairs in the original graph, $d$-DRFWL(2) GNNs avoid the expensive subgraph extraction operations in subgraph GNNs, making both the time and space complexity lower. We theoretically show that the discriminative power of $d$-DRFWL(2) GNNs strictly increases as $d$ increases. More importantly, $d$-DRFWL(2) GNNs have provably strong cycle counting power even with $d=2$: they can count all 3, 4, 5, 6-cycles. Since 6-cycles (e.g., benzene rings) are ubiquitous in organic molecules, being able to detect and count them is crucial for achieving robust and generalizable performance on molecular tasks. Experiments on both synthetic datasets and molecular datasets verify our theory. To the best of our knowledge, our model is the most efficient GNN model to date (both theoretically and empirically) that can count up to 6-cycles.
翻訳日:2024-01-13 03:29:07 公開日:2024-01-11
# 選好学習による多目的問題における対話型ハイパーパラメータ最適化

Interactive Hyperparameter Optimization in Multi-Objective Problems via Preference Learning ( http://arxiv.org/abs/2309.03581v3 )

ライセンス: Link先を確認
Joseph Giovanelli, Alexander Tornede, Tanja Tornede, Marius Lindauer(参考訳) ハイパーパラメータ最適化(HPO)は機械学習(ML)の潜在能力を最大限活用するために重要である。 実際には、ユーザは多目的(mo)の問題、すなわち、精度やエネルギー消費といった潜在的に矛盾する目標を最適化することに関心を持つことが多い。 これを解決するために、MO-MLアルゴリズムの大多数は、非支配的な機械学習モデルのParetoをユーザに返す。 このようなアルゴリズムのハイパーパラメータの最適化は、ハイパーパラメータの設定を評価することは、パレートフロントの品質を評価することを伴うため、自明ではない。 文献では、異なる性質(例えば体積、基準点に近い)を定量化することでパレートフロント(例えば、ハイパーボリューム、R2)の品質を評価する既知の指標が存在する。 しかし、望ましいparetoフロントにつながるインジケータを選択するのは、ユーザーにとっては難しい作業かもしれません。 本稿では、好み学習を利用した多目的MLに適した人間中心型対話型HPO手法を提案し、最適化を導くユーザからデシダラタを抽出する。 ユーザが最も適切な指標を推測する代わりに、このアプローチは自動的に適切な指標を学習します。 具体的には、異なるパレートフロントのペアワイズ比較を利用して、このような適切な品質指標を学習する。 そして,最新のHPO手法を用いて,基礎となるMO-MLアルゴリズムのハイパーパラメータをこの学習指標に最適化する。 mlの環境影響を対象とする実験研究において,提案手法がユーザの選択した誤った指標に基づく最適化に比べて,パレートフロントが大幅に向上することを示すとともに,ユーザが選択すべき指標を知っている場合と同等の性能を発揮することを実証した。

Hyperparameter optimization (HPO) is important to leverage the full potential of machine learning (ML). In practice, users are often interested in multi-objective (MO) problems, i.e., optimizing potentially conflicting objectives, like accuracy and energy consumption. To tackle this, the vast majority of MO-ML algorithms return a Pareto front of non-dominated machine learning models to the user. Optimizing the hyperparameters of such algorithms is non-trivial as evaluating a hyperparameter configuration entails evaluating the quality of the resulting Pareto front. In literature, there are known indicators that assess the quality of a Pareto front (e.g., hypervolume, R2) by quantifying different properties (e.g., volume, proximity to a reference point). However, choosing the indicator that leads to the desired Pareto front might be a hard task for a user. In this paper, we propose a human-centered interactive HPO approach tailored towards multi-objective ML leveraging preference learning to extract desiderata from users that guide the optimization. Instead of relying on the user guessing the most suitable indicator for their needs, our approach automatically learns an appropriate indicator. Concretely, we leverage pairwise comparisons of distinct Pareto fronts to learn such an appropriate quality indicator. Then, we optimize the hyperparameters of the underlying MO-ML algorithm towards this learned indicator using a state-of-the-art HPO approach. In an experimental study targeting the environmental impact of ML, we demonstrate that our approach leads to substantially better Pareto fronts compared to optimizing based on a wrong indicator pre-selected by the user, and performs comparable in the case of an advanced user knowing which indicator to pick.
翻訳日:2024-01-13 03:28:28 公開日:2024-01-11
# 分散型金融アプリケーションにおけるガバナンス問題に関する総合的研究

A Comprehensive Study of Governance Issues in Decentralized Finance Applications ( http://arxiv.org/abs/2311.01433v3 )

ライセンス: Link先を確認
Wei Ma, Chenguang Zhu, Ye Liu, Xiaofei Xie, Yi Li(参考訳) DeFi(Decentralized Finance)は、集中型金融とは対照的に、新たな金融パラダイムであるスマートコントラクトの顕著な応用である。 DeFiアプリケーションはメインストリームのブロックチェーンプラットフォームで急速に普及しているが、その品質は大きく異なり、特にガバナンスメカニズムに関して多くの課題が提示されている。 本稿では,defiアプリケーションにおけるガバナンス問題に関する包括的研究を行う。 産業報告や学術研究論文から洞察を得て,これらのガバナンス問題を分類する分類学を開発する。 私たちは17のweb3セキュリティ企業から4,446件の監査レポートのデータセットを収集し、構築した分類に従ってガバナンス問題を分類します。 ガバナンスの問題に関する詳細な分析を行い、ガバナンス設計と実装における脆弱性、例えば投票シビル攻撃と提案の事前実行を特定した。 スマートコントラクトコードとdefiホワイトペーパーの相違は、これらのガバナンスの問題において中心的な役割を果たします。 DeFiアプリケーションのコードホワイトペーパー一貫性チェックの課題に対処する最初のステップとして、マシンラーニングベースのプロトタイプを開発し、広く使用されている8つのDeFiプロジェクトでのパフォーマンスを検証し、56.14%のF1スコアと80%のリコールを達成した。 本研究は, 開発者, ユーザ, 研究者, 規制機関など, さまざまなDeFiステークホルダーに対して, DeFiのガバナンス問題に対する理解を深め, デフィシステムの堅牢な成長に寄与することを目的とした, 重要な実践的影響を提供する上で重要である。

Decentralized Finance (DeFi) is a prominent application of smart contracts, representing a novel financial paradigm in contrast to centralized finance. While DeFi applications are rapidly emerging on mainstream blockchain platforms, their quality varies greatly, presenting numerous challenges, particularly in terms of their governance mechanisms. In this paper, we present a comprehensive study of governance issues in DeFi applications. Drawing upon insights from industry reports and academic research articles, we develop a taxonomy to categorize these governance issues. We collect and build a dataset of 4,446 audit reports from 17 Web3 security companies, categorizing their governance issues according to our constructed taxonomy. We conducted a thorough analysis of governance issues and identified vulnerabilities in governance design and implementation, e.g., voting sybil attack and proposal front-running. Our findings highlight a significant observation: the disparity between smart contract code and DeFi whitepapers plays a central role in these governance issues. As an initial step to address the challenges of code-whitepaper consistency checks for DeFi applications, we built a machine-learning-based prototype, and validated its performance on eight widely used DeFi projects, achieving a 56.14% F1 score and a 80% recall. Our study culminates in providing several key practical implications for various DeFi stakeholders, including developers, users, researchers, and regulators, aiming to deepen the understanding of DeFi governance issues and contribute to the robust growth of DeFi systems.
翻訳日:2024-01-13 03:22:58 公開日:2024-01-11
# 現代ニューラルネットワークアーキテクチャのためのクロネッカー係数近似曲率

Kronecker-Factored Approximate Curvature for Modern Neural Network Architectures ( http://arxiv.org/abs/2311.00636v2 )

ライセンス: Link先を確認
Runa Eschenhagen, Alexander Immer, Richard E. Turner, Frank Schneider, Philipp Hennig(参考訳) トランスフォーマー、畳み込み、グラフニューラルネットワークなど、現代の多くのニューラルネットワークアーキテクチャのコアコンポーネントは、$\textit{weight-sharing}$で線形レイヤとして表現することができる。 2階最適化手法であるKronecker-Factored Approximate Curvature (K-FAC)は、ニューラルネットワークトレーニングの高速化と計算コストの削減を約束している。 しかし、現在、一般的なアーキテクチャ、特に線形重み共有層を持つアーキテクチャに適用するフレームワークは存在しない。 本研究では, k-fac -- $\textit{expand}$ と $\textit{reduce}$ の2つのフレーバーを動機付ける線形重み共有層の2つの異なる設定を同定する。 重みを共有できるディープリニアネットワークについて,その構成が正確であることを示す。 特に、K-FAC-reduceは一般的にK-FAC-expandよりも高速であり、Wide ResNetの限界確率を最適化することで自動ハイパーパラメータ選択を高速化する。 最後に,グラフニューラルネットワークと視覚トランスフォーマーの両方を訓練する場合,これら2つのk-fac変動の差異をほとんど観察しない。 しかし、どちらのバリエーションも1次参照実行のステップ数に対して50ドルから75ドル%の価格で固定されたバリデーションメトリックターゲットに到達することができ、これはウォールクロック時間に匹敵する改善となる。 これは、現代のニューラルネットワークアーキテクチャにK-FACを適用する可能性を強調している。

The core components of many modern neural network architectures, such as transformers, convolutional, or graph neural networks, can be expressed as linear layers with $\textit{weight-sharing}$. Kronecker-Factored Approximate Curvature (K-FAC), a second-order optimisation method, has shown promise to speed up neural network training and thereby reduce computational costs. However, there is currently no framework to apply it to generic architectures, specifically ones with linear weight-sharing layers. In this work, we identify two different settings of linear weight-sharing layers which motivate two flavours of K-FAC -- $\textit{expand}$ and $\textit{reduce}$. We show that they are exact for deep linear networks with weight-sharing in their respective setting. Notably, K-FAC-reduce is generally faster than K-FAC-expand, which we leverage to speed up automatic hyperparameter selection via optimising the marginal likelihood for a Wide ResNet. Finally, we observe little difference between these two K-FAC variations when using them to train both a graph neural network and a vision transformer. However, both variations are able to reach a fixed validation metric target in $50$-$75\%$ of the number of steps of a first-order reference run, which translates into a comparable improvement in wall-clock time. This highlights the potential of applying K-FAC to modern neural network architectures.
翻訳日:2024-01-13 03:22:33 公開日:2024-01-11
# 組込みダイアクロニック感覚変化モデル : 古代ギリシア語を事例として

An Embedded Diachronic Sense Change Model with a Case Study from Ancient Greek ( http://arxiv.org/abs/2311.00541v2 )

ライセンス: Link先を確認
Schyan Zafar, Geoff K. Nicholls(参考訳) 単語の意味は時間とともに変化し、単語の感覚は進化、出現または消滅する。 コーパスが小さくスパースな古代言語では、そのような変化を正確にモデル化することは困難を証明し、意味変化推定における不確実性を定量化することが重要となる。 GASC (Genre-Aware Semantic Change) と DiSC (Diachronic Sense Change) は、古代ギリシア語のテキストコーパスからターゲット語の変化を、事前学習の助けなしに教師なしの学習を用いて分析するために使用されている既存の生成モデルである。 これらのモデルは、文脈語上の分布として「コスモス(kosmos)」などの特定の対象語の感覚を表現し、感覚上の分布として有能さを知覚する。 モデルはマルコフ・チェイン・モンテカルロ法(MCMC)を用いてこれらの表現の時間的変化を測定する。 本稿では,単語埋め込みとDiSCを組み合わせた組込みDiSCモデルであるEDiSCを紹介し,優れたモデル性能を提供する。 EDiSCは,MCMC法によるサンプリング効率と拡張性の向上とともに,予測精度の向上,地道回復,不確実性定量化を実現している。 また,これらのモデルの適合に関する課題についても考察する。

Word meanings change over time, and word senses evolve, emerge or die out in the process. For ancient languages, where the corpora are often small and sparse, modelling such changes accurately proves challenging, and quantifying uncertainty in sense-change estimates consequently becomes important. GASC (Genre-Aware Semantic Change) and DiSC (Diachronic Sense Change) are existing generative models that have been used to analyse sense change for target words from an ancient Greek text corpus, using unsupervised learning without the help of any pre-training. These models represent the senses of a given target word such as "kosmos" (meaning decoration, order or world) as distributions over context words, and sense prevalence as a distribution over senses. The models are fitted using Markov Chain Monte Carlo (MCMC) methods to measure temporal changes in these representations. In this paper, we introduce EDiSC, an Embedded DiSC model, which combines word embeddings with DiSC to provide superior model performance. We show empirically that EDiSC offers improved predictive accuracy, ground-truth recovery and uncertainty quantification, as well as better sampling efficiency and scalability properties with MCMC methods. We also discuss the challenges of fitting these models.
翻訳日:2024-01-13 03:22:08 公開日:2024-01-11
# CalibrationPhys:複数カメラ間の校正による自己監督型心・呼吸速度測定

CalibrationPhys: Self-supervised Video-based Heart and Respiratory Rate Measurements by Calibrating Between Multiple Cameras ( http://arxiv.org/abs/2310.15043v2 )

ライセンス: Link先を確認
Yusuke Akamatsu, Terumi Umematsu, Hitoshi Imaoka(参考訳) 顔ビデオを用いたビデオベースの心拍数と呼吸数の測定は、従来の接触型センサーよりも有用でユーザフレンドリーである。 しかし、現在のディープラーニングアプローチのほとんどは、収集に費用がかかるモデルトレーニングのために、地中脈波と呼吸波を必要とする。 本稿では,複数のカメラ間を校正する自己監督型心呼吸速度測定法CalibrationPhysを提案する。 CalibrationPhysは、複数のカメラで同時に撮影された顔ビデオを使って、ラベルを監督せずにディープラーニングモデルを訓練する。 コントラスト学習は、複数のカメラを用いた同期ビデオから予測されるパルスと呼吸波が正であり、異なるビデオからのパルスが負となるように行われる。 CalibrationPhysはまた、データ拡張技術によりモデルの堅牢性も改善し、特定のカメラに対する事前訓練されたモデルをうまく活用する。 2つのデータセットを用いた実験結果から、CalibrationPhysは最先端の心臓と呼吸速度の測定方法より優れていることが示された。 複数のカメラのビデオのみを用いてカメラ固有のモデルを最適化するため、任意のカメラを心拍数や呼吸速度の測定に利用しやすくする。

Video-based heart and respiratory rate measurements using facial videos are more useful and user-friendly than traditional contact-based sensors. However, most of the current deep learning approaches require ground-truth pulse and respiratory waves for model training, which are expensive to collect. In this paper, we propose CalibrationPhys, a self-supervised video-based heart and respiratory rate measurement method that calibrates between multiple cameras. CalibrationPhys trains deep learning models without supervised labels by using facial videos captured simultaneously by multiple cameras. Contrastive learning is performed so that the pulse and respiratory waves predicted from the synchronized videos using multiple cameras are positive and those from different videos are negative. CalibrationPhys also improves the robustness of the models by means of a data augmentation technique and successfully leverages a pre-trained model for a particular camera. Experimental results utilizing two datasets demonstrate that CalibrationPhys outperforms state-of-the-art heart and respiratory rate measurement methods. Since we optimize camera-specific models using only videos from multiple cameras, our approach makes it easy to use arbitrary cameras for heart and respiratory rate measurements.
翻訳日:2024-01-13 03:21:12 公開日:2024-01-11
# ロバスト・プルーニングに向けて:言語モデルのための適応的知識保持プルーニング戦略

Towards Robust Pruning: An Adaptive Knowledge-Retention Pruning Strategy for Language Models ( http://arxiv.org/abs/2310.13191v3 )

ライセンス: Link先を確認
Jianwei Li, Qi Lei, Wei Cheng, Dongkuan Xu(参考訳) pruningの目標は、言語モデルの正確性と頑健性を超えて、最近拡張された。 それにもかかわらず、既存の手法は、モデルの間隔を継続的に増加させ、再訓練プロセスを必要とする場合、敵攻撃に対する堅牢性を高めるのに苦労している。 人間が大きな言語モデルの時代に入ると、これらの問題はますます顕著になる。 本稿では, 言語モデルの頑健性は, 学習済み知識の程度に比例することを示す。 そこで本研究では,高密度言語モデルの埋め込み空間と特徴空間を忠実に再現し,pruningプロセスにおける事前学習知識の保存を目的とした,訓練後のpruning戦略を提案する。 このセットアップでは、各レイヤの再構成エラーはそれ自体から発生するだけでなく、前のレイヤからの累積誤差も含む。 他の最先端のベースラインと比較して、我々のアプローチは、SST2、IMDB、AGNewsのデータセット上でBERTによる精度、スパーシリティ、ロバスト性、およびプルーニングコストのバランスが優れていることを示す。

The pruning objective has recently extended beyond accuracy and sparsity to robustness in language models. Despite this, existing methods struggle to enhance robustness against adversarial attacks when continually increasing model sparsity and require a retraining process. As humans step into the era of large language models, these issues become increasingly prominent. This paper proposes that the robustness of language models is proportional to the extent of pre-trained knowledge they encompass. Accordingly, we introduce a post-training pruning strategy designed to faithfully replicate the embedding space and feature space of dense language models, aiming to conserve more pre-trained knowledge during the pruning process. In this setup, each layer's reconstruction error not only originates from itself but also includes cumulative error from preceding layers, followed by an adaptive rectification. Compared to other state-of-art baselines, our approach demonstrates a superior balance between accuracy, sparsity, robustness, and pruning cost with BERT on datasets SST2, IMDB, and AGNews, marking a significant stride towards robust pruning in language models.
翻訳日:2024-01-13 03:20:50 公開日:2024-01-11
# 決定論的障壁を破る:ランダムなプルーニングマスクの生成と選択

Breaking through Deterministic Barriers: Randomized Pruning Mask Generation and Selection ( http://arxiv.org/abs/2310.13183v2 )

ライセンス: Link先を確認
Jianwei Li, Weizhi Gao, Qi Lei, Dongkuan Xu(参考訳) 大型モデルとスパースモデルは同じモデルサイズ制約の下で、小型モデルと高密度モデルよりも精度が高いことが広く認識されている。 これは大きなモデルを訓練し、その冗長なニューロンや重みを刈り取ることで除去する動機となります。 既存の作品の多くは決定論的にネットワークをプルーンし、その性能は単一のプルーニング基準のみに依存するため、バラエティを欠いている。 そこで本研究では,まず複数のプルーニングマスクをランダムに生成するモデルプルーニング戦略を提案する。 その後、効果的なマスク選択規則とともに、最適なマスクをマスク候補のプールから選択する。 さらに効率を高めるために,複数のマスクのトレーニングに伴うオーバーヘッドを軽減する早期マスク評価戦略を導入する。 我々の広範な実験により、この手法はGLUEから8つのデータセットにまたがる最先端のパフォーマンスを実現している。

It is widely acknowledged that large and sparse models have higher accuracy than small and dense models under the same model size constraints. This motivates us to train a large model and then remove its redundant neurons or weights by pruning. Most existing works pruned the networks in a deterministic way, the performance of which solely depends on a single pruning criterion and thus lacks variety. Instead, in this paper, we propose a model pruning strategy that first generates several pruning masks in a designed random way. Subsequently, along with an effective mask-selection rule, the optimal mask is chosen from the pool of mask candidates. To further enhance efficiency, we introduce an early mask evaluation strategy, mitigating the overhead associated with training multiple masks. Our extensive experiments demonstrate that this approach achieves state-of-the-art performance across eight datasets from GLUE, particularly excelling at high levels of sparsity.
翻訳日:2024-01-13 03:20:26 公開日:2024-01-11
# 量子ワンウェイネスからのコミットメント

Commitments from Quantum One-Wayness ( http://arxiv.org/abs/2310.11526v3 )

ライセンス: Link先を確認
Dakshita Khurana (UIUC) and Kabir Tomer (UIUC)(参考訳) 片道関数は古典暗号の中心である。 これらは、非自明な古典暗号システムの存在のために必要であり、コミットメント、擬似ランダム生成器、デジタル署名を含む有意義なプリミティブを実現するのに十分である。 同時に、仮説が一方的な関数よりも弱いことが、ビットコミットメントやセキュアなマルチパーティ計算を含む多くの量子世界に興味を持つ暗号的タスクに十分であることを示している。 本研究は, 片道関数の自然量子緩和である片道状態発生器[森前-山川, CRYPTO 2022]を研究する。 秘密鍵が与えられた場合、一方の状態発生器は、量子状態の反転が難しい状態を出力する。 根本的な問題は、このタイプの量子ワンウェイネスが量子暗号を実現するのに十分であるかどうかである。 純粋な状態を持つ一方向状態生成器が量子ビットのコミットメントを生じさせ、マルチパーティ計算を安全に行うことを証明し、この問題に対する肯定的な答えを得る。 その過程で、古典的な出力を持つ中間プリミティブを構築し、これを(量子)片道パズルと呼ぶ。 我々の主な技術的貢献は、一方のパズルが量子ビットのコミットメントを暗示する証拠である。

One-way functions are central to classical cryptography. They are both necessary for the existence of non-trivial classical cryptosystems, and sufficient to realize meaningful primitives including commitments, pseudorandom generators and digital signatures. At the same time, a mounting body of evidence suggests that assumptions even weaker than one-way functions may suffice for many cryptographic tasks of interest in a quantum world, including bit commitments and secure multi-party computation. This work studies one-way state generators [Morimae-Yamakawa, CRYPTO 2022], a natural quantum relaxation of one-way functions. Given a secret key, a one-way state generator outputs a hard to invert quantum state. A fundamental question is whether this type of quantum one-wayness suffices to realize quantum cryptography. We obtain an affirmative answer to this question, by proving that one-way state generators with pure state outputs imply quantum bit commitments and secure multiparty computation. Along the way, we build an intermediate primitive with classical outputs, which we call a (quantum) one-way puzzle. Our main technical contribution is a proof that one-way puzzles imply quantum bit commitments.
翻訳日:2024-01-13 03:20:10 公開日:2024-01-11
# てんかん患者における自動ラベリングによる早期警告予測

Early Warning Prediction with Automatic Labeling in Epilepsy Patients ( http://arxiv.org/abs/2310.06059v2 )

ライセンス: Link先を確認
Peng Zhang, Ting Gao, Jin Guo, Jinqiao Duan, Sergey Nikolenko(参考訳) てんかん患者に対する早期の警告は、特に発作の重症度を予防または最小化するために、安全と幸福のために重要である。 患者の脳波データを通して,早期ictal信号の予測を改善するためのメタラーニングフレームワークを提案する。 提案するバイレベル最適化フレームワークは,初期段階におけるノイズデータの自動ラベル付けや,バックボーンモデルのトレーニング精度の最適化を支援する。 本手法の有効性を検証するため,LSTMとResNetをベースラインモデルとして,様々な長期ウィンドウにおける発作発生を予測する一連の実験を行った。 本研究は,メタ学習によって得られたictal予測精度が大幅に向上するだけでなく,単一バックボーンモデルでは学習できないノイズデータの特徴的パターンを捉えていることを示す。 その結果、メタネットワークが生成する予測確率は、非常に効果的な早期警戒指標となる。

Early warning for epilepsy patients is crucial for their safety and well-being, in particular to prevent or minimize the severity of seizures. Through the patients' EEG data, we propose a meta learning framework to improve the prediction of early ictal signals. The proposed bi-level optimization framework can help automatically label noisy data at the early ictal stage, as well as optimize the training accuracy of the backbone model. To validate our approach, we conduct a series of experiments to predict seizure onset in various long-term windows, with LSTM and ResNet implemented as the baseline models. Our study demonstrates that not only the ictal prediction accuracy obtained by meta learning is significantly improved, but also the resulting model captures some intrinsic patterns of the noisy data that a single backbone model could not learn. As a result, the predicted probability generated by the meta network serves as a highly effective early warning indicator.
翻訳日:2024-01-13 03:19:02 公開日:2024-01-11
# ドローンによるスマートホームの異常健康状態の検出

Detecting Abnormal Health Conditions in Smart Home Using a Drone ( http://arxiv.org/abs/2310.05012v3 )

ライセンス: Link先を確認
Pronob Kumar Barman(参考訳) 現在、異常な健康問題の検出は難しいプロセスである。 特に高齢者の転倒は世界中で深刻な問題となっている。 転倒は、無意識、内出血、しばしば死など、致命的な結果をもたらす可能性がある。 落下を検知する実用的で最適なアプローチが、現在懸念されている。 高齢者や他の健康状態の人が独立して生活できるように、視覚に基づく転倒モニタリングが科学者の間で一般的になっている。 追跡、監視、救助のために、無人航空機はビデオまたはイメージセグメンテーションと物体検出方法を使用する。 telloドローンにはカメラが装備されており、この装置は参加者の正常な行動と異常な行動を判断する。 自律落下物体は畳み込みニューラルネットワーク(CNN)分類器を用いて分類される。 その結果,0.9948の精度で落下物体を識別できることがわかった。

Nowadays, detecting aberrant health issues is a difficult process. Falling, especially among the elderly, is a severe concern worldwide. Falls can result in deadly consequences, including unconsciousness, internal bleeding, and often times, death. A practical and optimal, smart approach of detecting falling is currently a concern. The use of vision-based fall monitoring is becoming more common among scientists as it enables senior citizens and those with other health conditions to live independently. For tracking, surveillance, and rescue, unmanned aerial vehicles use video or image segmentation and object detection methods. The Tello drone is equipped with a camera and with this device we determined normal and abnormal behaviors among our participants. The autonomous falling objects are classified using a convolutional neural network (CNN) classifier. The results demonstrate that the systems can identify falling objects with a precision of 0.9948.
翻訳日:2024-01-13 03:18:46 公開日:2024-01-11
# 貨幣の新しい経済・金融理論

A new economic and financial theory of money ( http://arxiv.org/abs/2310.04986v5 )

ライセンス: Link先を確認
Michael E. Glinsky and Sharon Sievert(参考訳) 本論文は,電子通貨を含む経済・金融理論を根本的に改革する。 電子通貨の評価は、割引キャッシュフローのミクロ経済理論ではなく、マクロ経済理論と金融政策の基本方程式に基づいて行われる。 サブエコノミーの有形資産に付随する取引的エクイティとしての電子通貨の考え方は、主にサブエコノミーの無形資産に付随する株式としての株式の考え方とは対照的に発展する。 この見解は、実質的な(電子通貨の流動性のために)金融(電子通貨供給及び価値安定化)及び財政(投資及び運用)政策の調整を行う機関として、電子通貨管理会社によって策定される。 評価と意思決定で使用されるリスクモデルは、ディスカウント率につながるユビキタスで不適切な指数的リスクモデルではなく、真のリスクを捉えるマルチタイムスケールモデルになります。 意思決定は、多スケールリスクモデルと、Deep Reinforcement Learning、Generative Pretrained Transformers、その他の人工知能(DRL/GPT/AI)を利用したシステムコントローラによって与えられるシステム応答関数に基づいて、真のシステム制御の観点からアプローチされる。 最後に、サブエコノミーは、短期的な利用に関連する安定平衡と、マルチスケールのシステム応答関数とDRL/GPT/AIに基づくアクティブな非線形制御で安定化する必要がある不安定平衡の両方を持つ非線形複素物理系と見なされる。

This paper fundamentally reformulates economic and financial theory to include electronic currencies. The valuation of the electronic currencies will be based on macroeconomic theory and the fundamental equation of monetary policy, not the microeconomic theory of discounted cash flows. The view of electronic currency as a transactional equity associated with tangible assets of a sub-economy will be developed, in contrast to the view of stock as an equity associated mostly with intangible assets of a sub-economy. The view will be developed of the electronic currency management firm as an entity responsible for coordinated monetary (electronic currency supply and value stabilization) and fiscal (investment and operational) policies of a substantial (for liquidity of the electronic currency) sub-economy. The risk model used in the valuations and the decision-making will not be the ubiquitous, yet inappropriate, exponential risk model that leads to discount rates, but will be multi time scale models that capture the true risk. The decision-making will be approached from the perspective of true systems control based on a system response function given by the multi scale risk model and system controllers that utilize the Deep Reinforcement Learning, Generative Pretrained Transformers, and other methods of Artificial Intelligence (DRL/GPT/AI). Finally, the sub-economy will be viewed as a nonlinear complex physical system with both stable equilibriums that are associated with short-term exploitation, and unstable equilibriums that need to be stabilized with active nonlinear control based on the multi scale system response functions and DRL/GPT/AI.
翻訳日:2024-01-13 03:18:09 公開日:2024-01-11
# 結合凝縮体からの正弦-ゴルドンモデル:一般化流体力学の観点から

The sine-Gordon model from coupled condensates: a Generalized Hydrodynamics viewpoint ( http://arxiv.org/abs/2310.04493v2 )

ライセンス: Link先を確認
Alvise Bastianello(参考訳) sine-Gordonモデルは、多くの1次元量子系の低エネルギー有効ダイナミクスを捉え、この場の理論の多元性量子シミュレータの構築と、非平衡的な設定を捉えることができる新しい理論ツールキットの並列開発を促進させる実験を刺激する。 本研究では, 2つの1次元準凝縮体の干渉パターンから正弦ゴドンの存在を解析し, 創発的場理論は古典的極限によってよく説明され, 一般化された流体力学に基づく大規模記述を展開する。 sine-Gordon が可積分場理論であるにもかかわらず、トラップ誘起不均一性が励起の不安定性の原因となり、この効果を正確に解析した結果が示される。

The sine-Gordon model captures the low-energy effective dynamics of a wealth of one-dimensional quantum systems, stimulating the experimental efforts in building a versatile quantum simulator of this field theory and fueling the parallel development of new theoretical toolkits able to capture far-from-equilibrium settings. In this work, we analyze the realization of sine-Gordon from the interference pattern of two one-dimensional quasicondensates: we argue the emergent field theory is well described by its classical limit and develop its large-scale description based on Generalized Hydrodynamics. We show how, despite sine-Gordon being an integrable field theory, trap-induced inhomogeneities cause instabilities of excitations and provide exact analytical results to capture this effect.
翻訳日:2024-01-13 03:17:17 公開日:2024-01-11
# 分布非依存の一般化カテゴリー発見に向けて

Towards Distribution-Agnostic Generalized Category Discovery ( http://arxiv.org/abs/2310.01376v4 )

ライセンス: Link先を確認
Jianhong Bai, Zuozhu Liu, Hualiang Wang, Ruizhe Chen, Lianrui Mu, Xiaomeng Li, Joey Tianyi Zhou, Yang Feng, Jian Wu, Haoji Hu(参考訳) データ不均衡と開放分布は、現実の視覚世界の本質的な特徴である。 それぞれの課題を個別に取り組むことで進歩を奨励する一方で、現実のシナリオに向けてそれらを統合するための作品はほとんどない。 これまでのいくつかの研究は、クローズドセットのサンプルの分類や、テスト中のオープンセットのサンプルの検出に力を入れてきました。 本稿では,より現実的なタスクを分散非依存な一般化カテゴリ発見(da-gcd)として定式化する。 そこで本研究では,da-gcd課題を解決するための対話的監督を行うために,コントラスト学習分枝と擬似ラベル分枝からなる自己バランス協調型コントラストフレームワーク(bacon)を提案する。 特に、コントラスト学習枝は、疑似ラベル分岐の予測を正則化する信頼できる分布推定を提供し、その結果、自己バランスの知識伝達と提案される新しいコントラスト損失を通じてコントラスト学習を導く。 我々はBaConと2つの密接に関連する分野、不均衡な半教師付き学習と一般化されたカテゴリー発見の最先端手法を比較した。 BaConの有効性は、すべてのベースラインよりも優れたパフォーマンスと、さまざまなデータセットにわたる包括的な分析で実証されている。 私たちのコードは公開されています。

Data imbalance and open-ended distribution are two intrinsic characteristics of the real visual world. Though encouraging progress has been made in tackling each challenge separately, few works dedicated to combining them towards real-world scenarios. While several previous works have focused on classifying close-set samples and detecting open-set samples during testing, it's still essential to be able to classify unknown subjects as human beings. In this paper, we formally define a more realistic task as distribution-agnostic generalized category discovery (DA-GCD): generating fine-grained predictions for both close- and open-set classes in a long-tailed open-world setting. To tackle the challenging problem, we propose a Self-Balanced Co-Advice contrastive framework (BaCon), which consists of a contrastive-learning branch and a pseudo-labeling branch, working collaboratively to provide interactive supervision to resolve the DA-GCD task. In particular, the contrastive-learning branch provides reliable distribution estimation to regularize the predictions of the pseudo-labeling branch, which in turn guides contrastive learning through self-balanced knowledge transfer and a proposed novel contrastive loss. We compare BaCon with state-of-the-art methods from two closely related fields: imbalanced semi-supervised learning and generalized category discovery. The effectiveness of BaCon is demonstrated with superior performance over all baselines and comprehensive analysis across various datasets. Our code is publicly available.
翻訳日:2024-01-13 03:17:00 公開日:2024-01-11
# プライバシ攻撃の勾配と優先順位を超えて: フェデレーション学習における言語モデルのプール層入力の活用

Beyond Gradient and Priors in Privacy Attacks: Leveraging Pooler Layer Inputs of Language Models in Federated Learning ( http://arxiv.org/abs/2312.05720v2 )

ライセンス: Link先を確認
Jianwei Li, Sheng Liu, Qi Lei(参考訳) federated learning(fl)は、データをローカルに保存し、モデル更新のみを送信することで、ユーザのプライバシを強調する。 最近、flの文脈で言語モデルからセンシティブなトレーニングテキストを抽出することで、プライバシ攻撃に関する一連の作業がユーザのプライバシを損なう。 バッチサイズが制限された作業(バッチサイズ1など)もあれば,検出が容易なものもある。 本稿では,様々なバッチサイズ設定におけるテキストの回復率を著しく向上させ,検出し難い革新的なアプローチを提案する。 基本的なグラデーションマッチングとドメイン事前知識に基づいて,言語モデルのプール層の入力を復元することで,機能レベルで追加の教師付き信号を提供することができる。 勾配データとは異なり、これらの信号は文やトークンの平均値ではなく、より微妙で効果的な洞察を提供する。 我々は,テキスト分類タスクをCoLA,SST-2,Rotten Tomatoesなどのデータセット上でベンチマークする。 バッチサイズとモデルが異なるため、我々のアプローチは従来よりも一貫して優れています。

Federated learning (FL) emphasizes decentralized training by storing data locally and sending only model updates, underlining user privacy. Recently, a line of works on privacy attacks impairs user privacy by extracting sensitive training text from language models in the context of FL. Yet, these attack techniques face distinct hurdles: some work chiefly with limited batch sizes (e.g., batch size of 1), and others are easily detectable. This paper introduces an innovative approach that is challenging to detect, significantly enhancing the recovery rate of text in various batch-size settings. Building on fundamental gradient matching and domain prior knowledge, we enhance the attack by recovering the input of the Pooler layer of language models, which enables us to provide additional supervised signals at the feature level. Unlike gradient data, these signals do not average across sentences and tokens, thereby offering more nuanced and effective insights. We benchmark our method using text classification tasks on datasets such as CoLA, SST-2, and Rotten Tomatoes. Across different batch sizes and models, our approach consistently outperforms previous state-of-the-art results.
翻訳日:2024-01-13 03:10:21 公開日:2024-01-11
# 2次元漸近準周期系における異常量子輸送

Anomalous quantum transport in 2D asymptotic quasiperiodic system ( http://arxiv.org/abs/2312.04349v2 )

ライセンス: Link先を確認
Ting-Fung Jeffrey Poon, Yuhao Wan, Yucheng Wang, and Xiong-Jun Liu(参考訳) 準周期系はアンダーソンの半ランダムと低次元領域への遷移の概念を拡張し、一次元においても複雑な振る舞いを示すが、高次元の研究はいまだ研究されていない。 ここでは,漸近的に不測フラックスを持つホール系の2次元格子モデルについて考察し,漸近的不測性の影響と輸送現象の緩和について明らかにした。 具体的には,波束のダイナミクスと導電性に普遍的なスケーリング特性を有する異常なバルク輸送を示し,漸近的不適合性,温度,緩和を伴う新しい相互作用効果を予測し,前例のない異方性金属-絶縁体遷移を引き起こす。 漸近準周期性はまた、量子化された異方性エッジトンネル輸送をもたらす。 我々の研究は、普遍的な量子輸送現象を豊かにし、より高次元の非可観測性によって駆動される金属絶縁体転移の基礎となるメカニズムを付加し、準周期系における新しい輸送物理を探求するための新たな道を開く可能性がある。

Quasiperiodic systems extend the concept of Anderson transition to the quasi-random and low-dimensional realm, exhibiting intricate behaviors even in the one-dimension, while their investigation in higher dimensions remains less explored. Here, we delve into a series of two-dimensional lattice models of Hall systems with asymptotically incommensurate flux, and reveal the impact of asymptotic incommensurability together with relaxation on transport phenomena. Specifically, we demonstrate anomalous bulk transport with universal scaling characteristics in the wave-packet dynamics and conductivity, and predict novel interplay effects involving asymptotic incommensurability, temperature, and relaxation, leading to unprecedented multiple anisotropic metal-insulator transitions. The asymptotic quasiperiodicity also leads to the quantized anisotropic edge tunneling transport. Our work enriches the universal quantum transport phenomena, and add to the fundamental mechanisms underlying the metal-insulator transitions driven by incommensurability in higher dimensions, potentially opening a new avenue for exploring novel transport physics in quasiperiodic systems.
翻訳日:2024-01-13 03:09:57 公開日:2024-01-11
# 共有注意によるスタイルアライメント画像生成

Style Aligned Image Generation via Shared Attention ( http://arxiv.org/abs/2312.02133v2 )

ライセンス: Link先を確認
Amir Hertz, Andrey Voynov, Shlomi Fruchter, Daniel Cohen-Or(参考訳) 大規模テキスト・ツー・イメージ(T2I)モデルは、創造的分野全体で急速に普及し、テキスト・プロンプトから視覚的に魅力的な出力を生成する。 しかし、一貫性のあるスタイルを保証するためにこれらのモデルを制御することは依然として難しい。 本稿では,一連の生成画像間のスタイルアライメントを確立するための新しい手法であるスタイルアライメントを提案する。 拡散過程において最小限の「注意共有」を用いることで、T2Iモデル内の画像間のスタイル整合性を維持する。 このアプローチにより、簡単な反転操作を通じて、参照スタイルを使用してスタイル一貫性のある画像を作成することができる。 提案手法は,多種多様なスタイルとテキストのプロンプトにまたがって,高品質な合成と忠実さを示す。

Large-scale Text-to-Image (T2I) models have rapidly gained prominence across creative fields, generating visually compelling outputs from textual prompts. However, controlling these models to ensure consistent style remains challenging, with existing methods necessitating fine-tuning and manual intervention to disentangle content and style. In this paper, we introduce StyleAligned, a novel technique designed to establish style alignment among a series of generated images. By employing minimal `attention sharing' during the diffusion process, our method maintains style consistency across images within T2I models. This approach allows for the creation of style-consistent images using a reference style through a straightforward inversion operation. Our method's evaluation across diverse styles and text prompts demonstrates high-quality synthesis and fidelity, underscoring its efficacy in achieving consistent style across various inputs.
翻訳日:2024-01-13 03:09:37 公開日:2024-01-11
# 連続学習における冗長性フリーサブネットワークに向けて

Towards Redundancy-Free Sub-networks in Continual Learning ( http://arxiv.org/abs/2312.00840v2 )

ライセンス: Link先を確認
Cheng Chen, Jingkuan Song, LianLi Gao, Heng Tao Shen(参考訳) カタストロフィック・フォージッティング(CF)は、継続的な学習において顕著な問題である。 パラメータ分離は、各タスクのサブネットワークをマスクして、古いタスクに対する干渉を軽減することで、この課題に対処する。 しかし、これらのサブネットワークは重量の大きさに依存しており、必ずしも重量の重要性に一致しないため、重要でない重量を維持し、冗長なサブネットワークを構築することになる。 この制約を克服するために,隣接ネットワーク層間の冗長性を解消する情報ボトルネックに触発され,サブネットワーク間の冗長性を排除するために,サブネットワーク間の冗長性を排除するために,\textbf{\underline{i}nformation \underline{b}ottleneck \underline{m}asked sub-network (ibm)}を提案する。 具体的には、IBMは、冗長性のないサブネットワークを構築するために重要な重みに貴重な情報を蓄積し、サブネットワークを凍結することでCFを効果的に緩和するだけでなく、貴重な知識の伝達を通じて新しいタスクのトレーニングを促進する。 さらに、IBMは構築プロセスを自動化するために隠された表現を分解し、柔軟にする。 大規模な実験によると、IBMは最先端の手法を一貫して上回っている。 特に、IBMは最先端パラメータ分離法を超越し、サブネットワーク内のパラメータ数の70%削減とトレーニング時間の80%削減を実現している。

Catastrophic Forgetting (CF) is a prominent issue in continual learning. Parameter isolation addresses this challenge by masking a sub-network for each task to mitigate interference with old tasks. However, these sub-networks are constructed relying on weight magnitude, which does not necessarily correspond to the importance of weights, resulting in maintaining unimportant weights and constructing redundant sub-networks. To overcome this limitation, inspired by information bottleneck, which removes redundancy between adjacent network layers, we propose \textbf{\underline{I}nformation \underline{B}ottleneck \underline{M}asked sub-network (IBM)} to eliminate redundancy within sub-networks. Specifically, IBM accumulates valuable information into essential weights to construct redundancy-free sub-networks, not only effectively mitigating CF by freezing the sub-networks but also facilitating new tasks training through the transfer of valuable knowledge. Additionally, IBM decomposes hidden representations to automate the construction process and make it flexible. Extensive experiments demonstrate that IBM consistently outperforms state-of-the-art methods. Notably, IBM surpasses the state-of-the-art parameter isolation method with a 70\% reduction in the number of parameters within sub-networks and an 80\% decrease in training time.
翻訳日:2024-01-13 03:09:19 公開日:2024-01-11
# 生成aiのデータライフサイクルにおけるプライバシーと著作権の課題のナビゲート

Navigating Privacy and Copyright Challenges Across the Data Lifecycle of Generative AI ( http://arxiv.org/abs/2311.18252v2 )

ライセンス: Link先を確認
Dawen Zhang, Boming Xia, Yue Liu, Xiwei Xu, Thong Hoang, Zhenchang Xing, Mark Staples, Qinghua Lu, Liming Zhu(参考訳) Generative AIの出現は、人工知能における重要なマイルストーンであり、現実的な画像、テキスト、データパターンの生成において顕著な能力を示している。 しかし、これらの進歩はデータプライバシと著作権侵害に対する懸念が高まっている。 差分プライバシー、機械学習、データ中毒といった従来のアプローチは、これらの複雑な問題に対する断片的なソリューションのみを提供する。 データライフサイクルにおけるプライバシーと著作権保護の多面的課題について検討する。 我々は、技術的なイノベーションと倫理的先見性を組み合わせた統合的なアプローチを提唱し、ライフサイクルの視点から情報を得たソリューションを調査・開発することでこれらの懸念に全力を挙げる。 この研究は、より広い議論を触媒し、生成aiにおけるデータのプライバシーと著作権の完全性に対する協力的な取り組みを刺激することを目的としている。

The advent of Generative AI has marked a significant milestone in artificial intelligence, demonstrating remarkable capabilities in generating realistic images, texts, and data patterns. However, these advancements come with heightened concerns over data privacy and copyright infringement, primarily due to the reliance on vast datasets for model training. Traditional approaches like differential privacy, machine unlearning, and data poisoning only offer fragmented solutions to these complex issues. Our paper delves into the multifaceted challenges of privacy and copyright protection within the data lifecycle. We advocate for integrated approaches that combines technical innovation with ethical foresight, holistically addressing these concerns by investigating and devising solutions that are informed by the lifecycle perspective. This work aims to catalyze a broader discussion and inspire concerted efforts towards data privacy and copyright integrity in Generative AI.
翻訳日:2024-01-13 03:08:53 公開日:2024-01-11
# A-JEPA: 統合組み込み予測アーキテクチャ

A-JEPA: Joint-Embedding Predictive Architecture Can Listen ( http://arxiv.org/abs/2311.15830v3 )

ライセンス: Link先を確認
Zhengcong Fei, Mingyuan Fan, Junshi Huang(参考訳) 本稿では,大規模視覚モデルの成功を駆動するマスク・モデリングの原理を,潜時空間での予測により効果的に適用できることを示す。 本稿では,音声スペクトルから自己教師付き学習を行うシンプルな拡張手法であるA-JEPAを提案する。 I-JEPAの設計に続いて、我々のA-JEPAは、コンテキストエンコーダによるカリキュラムマスキング戦略で可視音声スペクトログラムパッチを符号化し、よく設計された場所でサンプリングされた領域の表現を予測する。 これらの領域のターゲット表現は、スペクトル全体について、文脈エンコーダの指数的移動平均である \emph{i.e}, 目標エンコーダによって抽出される。 音声スペクトログラムの局所時間と周波数に高度に相関する複雑さを考慮して,ランダムブロックマスキングを時間周波数対応マスキングにカリキュラム的に移行することは有益である。 文脈意味理解とロバスト性を高めるため、入力ドロップやゼロではなく、ターゲットデータセットに正規化マスキングを施したエンコーダを微調整する。 経験的に、Vision Transformers構造で構築すると、A-JEPAは高度にスケーラブルであり、複数のオーディオおよび音声分類タスクで新しい最先端のパフォーマンスを設定できる。

This paper presents that the masked-modeling principle driving the success of large foundational vision models can be effectively applied to audio by making predictions in a latent space. We introduce Audio-based Joint-Embedding Predictive Architecture (A-JEPA), a simple extension method for self-supervised learning from the audio spectrum. Following the design of I-JEPA, our A-JEPA encodes visible audio spectrogram patches with a curriculum masking strategy via context encoder, and predicts the representations of regions sampled at well-designed locations. The target representations of those regions are extracted by the exponential moving average of context encoder, \emph{i.e.}, target encoder, on the whole spectrogram. We find it beneficial to transfer random block masking into time-frequency aware masking in a curriculum manner, considering the complexity of highly correlated in local time and frequency in audio spectrograms. To enhance contextual semantic understanding and robustness, we fine-tune the encoder with a regularized masking on target datasets, instead of input dropping or zero. Empirically, when built with Vision Transformers structure, we find A-JEPA to be highly scalable and sets new state-of-the-art performance on multiple audio and speech classification tasks, outperforming other recent models that use externally supervised pre-training.
翻訳日:2024-01-13 03:08:21 公開日:2024-01-11
# スケールドロップアウト:確率スケールを用いたディープニューラルネットワークの不確かさ推定

Scale-Dropout: Estimating Uncertainty in Deep Neural Networks Using Stochastic Scale ( http://arxiv.org/abs/2311.15816v2 )

ライセンス: Link先を確認
Soyed Tuhin Ahmed, Kamal Danouchi, Michael Hefenbrock, Guillaume Prenat, Lorena Anghel, Mehdi B. Tahoori(参考訳) ニューラルネットワーク(NN)の不確実性推定は、特に安全クリティカルなアプリケーションにおいて、予測の信頼性と信頼性を向上させる上で不可欠である。 近似としてドロップアウトを持つベイズニューラルネットワーク(baynns)は、不確かさを定量化する体系的なアプローチを提供するが、本質的には、電力、メモリ、計算の面で高いハードウェアオーバーヘッドを被る。 したがって、限られたリソースを持つエッジデバイスや高性能アプリケーションにベイNNを適用することは困難である。 BayNNの固有のコストのいくつかは、スピントロニックメモリを備えた計算メモリ(CIM)アーキテクチャ上でハードウェアで高速化し、パラメータをバイナライズすることで削減することができる。 しかし、従来のドロップアウトベースのBayNNの実装には多くの確率的ユニットが必要である。 本稿では,BNN(Binary Neural Networks)の新たな正規化手法であるScale Dropoutと,MC-Scale Dropout(MC-Scale Dropout)をベースとしたBayNNを提案する。 提案手法では,モデルのサイズに関わらず,モデル全体の確率単位を1つだけ必要としており,非常にスケーラブルなベイズNNが実現している。 さらに,提案するBayNN用のスピントロニクスメモリベースのCIMアーキテクチャを導入し,最先端技術と比較して100ドル以上の省エネを実現した。 提案手法を検証し,予測性能の最大1~%改善と,関連する作業と比較して不確実性推定が優れていることを示した。

Uncertainty estimation in Neural Networks (NNs) is vital in improving reliability and confidence in predictions, particularly in safety-critical applications. Bayesian Neural Networks (BayNNs) with Dropout as an approximation offer a systematic approach to quantifying uncertainty, but they inherently suffer from high hardware overhead in terms of power, memory, and computation. Thus, the applicability of BayNNs to edge devices with limited resources or to high-performance applications is challenging. Some of the inherent costs of BayNNs can be reduced by accelerating them in hardware on a Computation-In-Memory (CIM) architecture with spintronic memories and binarizing their parameters. However, numerous stochastic units are required to implement conventional dropout-based BayNN. In this paper, we propose the Scale Dropout, a novel regularization technique for Binary Neural Networks (BNNs), and Monte Carlo-Scale Dropout (MC-Scale Dropout)-based BayNNs for efficient uncertainty estimation. Our approach requires only one stochastic unit for the entire model, irrespective of the model size, leading to a highly scalable Bayesian NN. Furthermore, we introduce a novel Spintronic memory-based CIM architecture for the proposed BayNN that achieves more than $100\times$ energy savings compared to the state-of-the-art. We validated our method to show up to a $1\%$ improvement in predictive performance and superior uncertainty estimates compared to related works.
翻訳日:2024-01-13 03:07:55 公開日:2024-01-11
# 金融時系列のモデルフリー制御のためのカリキュラム学習と模倣学習

Curriculum Learning and Imitation Learning for Model-free Control on Financial Time-series ( http://arxiv.org/abs/2311.13326v3 )

ライセンス: Link先を確認
Woosung Koh, Insu Choi, Yuntae Jang, Gimin Kang, Woo Chang Kim(参考訳) カリキュラム学習と模倣学習はロボティクスの分野で広く活用されている。 しかし、これらの概念を高度に確率的な時系列データ上の制御タスクに活用する研究は最小限である。 本稿では,複雑な時系列データに対する代表制御タスクにおいて,これらのアプローチを理論的かつ実証的に検討する。 データ拡張によるカリキュラム学習の基本的な考え方を実装し、一方、模倣学習はオラクルからのポリシー蒸留を通じて実施する。 この結果から,カリキュラム学習は複雑な時系列よりも制御タスク性能を向上させるための新しい方向性であると考えられた。 我々の無作為なアウトサンプル経験とアブレーション研究は、時系列制御のためのカリキュラム学習を強く奨励している。 これらの発見は特に、ベースライン上で重なり合うハイパーパラメータをすべてチューニングすることで、ベースラインの利点を生かしている。 一方,模倣学習には注意が必要である。

Curriculum learning and imitation learning have been leveraged extensively in the robotics domain. However, minimal research has been done on leveraging these ideas on control tasks over highly stochastic time-series data. Here, we theoretically and empirically explore these approaches in a representative control task over complex time-series data. We implement the fundamental ideas of curriculum learning via data augmentation, while imitation learning is implemented via policy distillation from an oracle. Our findings reveal that curriculum learning should be considered a novel direction in improving control-task performance over complex time-series. Our ample random-seed out-sample empirics and ablation studies are highly encouraging for curriculum learning for time-series control. These findings are especially encouraging as we tune all overlapping hyperparameters on the baseline -- giving an advantage to the baseline. On the other hand, we find that imitation learning should be used with caution.
翻訳日:2024-01-13 03:07:24 公開日:2024-01-11
# fovea transformer: 構造化された細心の注意を伴う効率的なロングコンテキストモデリング

Fovea Transformer: Efficient Long-Context Modeling with Structured Fine-to-Coarse Attention ( http://arxiv.org/abs/2311.07102v2 )

ライセンス: Link先を確認
Ziwei He, Jian Yuan, Le Zhou, Jingwen Leng, Bo Jiang(参考訳) トランスフォーマーにおける自己注意の二次的な複雑さは、長いテキストの処理を妨げる。 この問題を緩和するために、トークンに関する重要な情報が隣人から引き出すことができるという観察を生かして、注意行列をスパース化する以前の研究が提案されている。 これらの方法は通常、地域的注意とグローバルな注意の1つまたは別の形態を組み合わせる。 このような組み合わせは、局所からグローバルへ移動する際の文脈的粒度の急激な変化をもたらすが、これは望ましくない。 よりスムーズな移行は、長いコンテキスト依存をキャプチャするモデルの能力を高める可能性があると考えています。 本研究では,計算効率を保ちながらグローバル依存を捉えることの課題を解決する,長期文脈に焦点を絞ったトランスフォーマであるfovea transformerを提案する。 これを実現するために、入力シーケンスから多スケールツリーを構築し、クエリトークンとの距離が大きくなるにつれて、ツリー内の粒度が徐々に粗いコンテキストトークンの表現を使用する。 長文要約タスク\footnote{Our code is public available at: \textit{https://github.com/ZiweiHe/Fovea-Transformer}}。 そのうちの2つで最先端のパフォーマンスを達成し、3つ目では、評価指標の混合改善とセットバックによる競争結果を得る。

The quadratic complexity of self-attention in Transformers has hindered the processing of long text. To alleviate this problem, previous works have proposed to sparsify the attention matrix, taking advantage of the observation that crucial information about a token can be derived from its neighbors. These methods typically combine one or another form of local attention and global attention. Such combinations introduce abrupt changes in contextual granularity when going from local to global, which may be undesirable. We believe that a smoother transition could potentially enhance model's ability to capture long-context dependencies. In this study, we introduce Fovea Transformer, a long-context focused transformer that addresses the challenges of capturing global dependencies while maintaining computational efficiency. To achieve this, we construct a multi-scale tree from the input sequence, and use representations of context tokens with a progressively coarser granularity in the tree, as their distance to the query token increases. We evaluate our model on three long-context summarization tasks\footnote{Our code is publicly available at: \textit{https://github.com/ZiweiHe/Fovea-Transformer}}. It achieves state-of-the-art performance on two of them, and competitive results on the third with mixed improvement and setback of the evaluation metrics.
翻訳日:2024-01-13 03:06:43 公開日:2024-01-11
# Meta-Adapter:視覚言語モデルのためのオンラインFew-shot学習者

Meta-Adapter: An Online Few-shot Learner for Vision-Language Model ( http://arxiv.org/abs/2311.03774v2 )

ライセンス: Link先を確認
Cheng Cheng, Lin Song, Ruoyi Xue, Hang Wang, Hongbin Sun, Yixiao Ge, Ying Shan(参考訳) 対照的な視覚言語事前学習はクリップと呼ばれ、オープンワールドの視覚概念を知覚する顕著な可能性を示し、効果的なゼロショット画像認識を可能にする。 それでも、CLIPに基づく少数ショット学習法は、通常、数ショットサンプルのパラメータをオフラインで微調整する必要があるため、推論時間が長くなり、特定のドメインに過度に適合するリスクがある。 これらの課題に対処するために,数発のサンプルをオンライン的にガイドしたCLIP機能を改良する,軽量な残留型アダプタであるMeta-Adapterを提案する。 少数のトレーニングサンプルを用いて,実効的なマイナショット学習能力を実現し,追加の微調整や競争力の達成,高効率なデータやタスクの一般化を実現している。 提案手法は,8つの画像分類データセットにおいて,推定速度の高い平均3.6\%の精度で,最先端のオンライン少数ショット学習手法を上回っている。 さらに,このモデルはシンプルで柔軟性があり,下流タスクに直接適用可能なプラグイン・アンド・プレイモジュールとして機能する。 さらなる微調整がなければ、meta-adapterは、オープンボキャブラリなオブジェクト検出とセグメンテーションタスクで注目すべきパフォーマンス改善が得られます。

The contrastive vision-language pre-training, known as CLIP, demonstrates remarkable potential in perceiving open-world visual concepts, enabling effective zero-shot image recognition. Nevertheless, few-shot learning methods based on CLIP typically require offline fine-tuning of the parameters on few-shot samples, resulting in longer inference time and the risk of over-fitting in certain domains. To tackle these challenges, we propose the Meta-Adapter, a lightweight residual-style adapter, to refine the CLIP features guided by the few-shot samples in an online manner. With a few training samples, our method can enable effective few-shot learning capabilities and generalize to unseen data or tasks without additional fine-tuning, achieving competitive performance and high efficiency. Without bells and whistles, our approach outperforms the state-of-the-art online few-shot learning method by an average of 3.6\% on eight image classification datasets with higher inference speed. Furthermore, our model is simple and flexible, serving as a plug-and-play module directly applicable to downstream tasks. Without further fine-tuning, Meta-Adapter obtains notable performance improvements in open-vocabulary object detection and segmentation tasks.
翻訳日:2024-01-13 03:06:20 公開日:2024-01-11
# ALYMPICS: 言語エージェントがゲーム理論と出会い、AIエージェントによる戦略的意思決定を探求

ALYMPICS: Language Agents Meet Game Theory -- Exploring Strategic Decision-Making with AI Agents ( http://arxiv.org/abs/2311.03220v3 )

ライセンス: Link先を確認
Shaoguang Mao, Yuzhe Cai, Yan Xia, Wenshan Wu, Xun Wang, Fengyi Wang, Tao Ge, Furu Wei(参考訳) 本稿では,ゲーム理論研究にLarge Language Model (LLM) エージェントを用いたシステムシミュレーションフレームワークであるAlympics(Olympics for Agents)を紹介する。 alympicsは、複雑なゲーム理論の問題を研究するための汎用プラットフォームを作成し、llmエージェントとの人間のような戦略的相互作用をシミュレートするための制御環境を提供することで、理論ゲーム理論と経験的調査の間のギャップを橋渡しする。 パイロットケーススタディ“Water Allocation Challenge”では,少ない生存資源の多ラウンドオークションに焦点を当てた,Alympicsの挑戦的な戦略ゲームを通じて,Alympicsを探索する。 本研究は,ゲーム決定要因,戦略,成果を質的かつ定量的に分析するフレームワークの能力を示す。 さらに,戦略的意思決定シナリオにおいて,総合的な人間評価とllmエージェントの深い評価を行う。 ヒトの戦略行動のエミュレートにおけるLSMエージェントの能力の理解を深めるだけでなく、ゲーム理論の知識を進化させる可能性も浮き彫りにし、ゲーム理論の理解を深め、LSMエージェントによる戦略的意思決定領域のさらなる研究に力を入れている。 コード、プロンプト、関連するすべてのリソースはhttps://github.com/microsoft/Alympics.comで入手できる。

This paper introduces Alympics (Olympics for Agents), a systematic simulation framework utilizing Large Language Model (LLM) agents for game theory research. Alympics creates a versatile platform for studying complex game theory problems, bridging the gap between theoretical game theory and empirical investigations by providing a controlled environment for simulating human-like strategic interactions with LLM agents. In our pilot case study, the "Water Allocation Challenge," we explore Alympics through a challenging strategic game focused on the multi-round auction on scarce survival resources. This study demonstrates the framework's ability to qualitatively and quantitatively analyze game determinants, strategies, and outcomes. Additionally, we conduct a comprehensive human assessment and an in-depth evaluation of LLM agents in strategic decision-making scenarios. Our findings not only expand the understanding of LLM agents' proficiency in emulating human strategic behavior but also highlight their potential in advancing game theory knowledge, thereby enriching our understanding of both game theory and empowering further research into strategic decision-making domains with LLM agents. Codes, prompts, and all related resources are available at https://github.com/microsoft/Alympics.
翻訳日:2024-01-13 03:05:58 公開日:2024-01-11
# CausalCite:紙巻物の因果的な定式化

CausalCite: A Causal Formulation of Paper Citations ( http://arxiv.org/abs/2311.02790v2 )

ライセンス: Link先を確認
Ishan Kumar, Zhijing Jin, Ehsan Mokhtarian, Siyuan Guo, Yuen Chen, Mrinmaya Sachan, Bernhard Sch\"olkopf(参考訳) 論文の重要性を評価することは、科学界にとって非常に難しい。 引用数はこの目的のために最もよく使われるプロキシであるが、紙の本当の影響を正確に反映していないと広く批判されている。 本研究では,従来のマッチングフレームワークを高次元テキスト埋め込みに適用する因果推論手法であるTextMatchを提案する。 具体的には,大規模言語モデル (LLM) によるテキスト埋め込みを用いて各論文をエンコードし,コサイン類似性により類似サンプルを抽出し,類似論文の重み付き平均値に基づいて対実サンプルを合成する。 論文引用の因果的定式化として、CausalCiteと呼ばれる結果の計量を適用した。 1k論文の過去のデータセットで科学者が報告した紙インパクトと高い相関性、過去の論文に対する(テスト・オブ・タイム)賞、aiのさまざまなサブフィールドにおける安定性など、さまざまな基準での有効性を示す。 我々はまた、将来の研究者が論文の品質をよりよく理解するために我々の指標を使用するための提案された方法として役立つ一連の発見を提供する。 コードとデータはhttps://github.com/causalNLP/causal-citeにある。

Evaluating the significance of a paper is pivotal yet challenging for the scientific community. While the citation count is the most commonly used proxy for this purpose, they are widely criticized for failing to accurately reflect a paper's true impact. In this work, we propose a causal inference method, TextMatch, which adapts the traditional matching framework to high-dimensional text embeddings. Specifically, we encode each paper using the text embeddings by large language models (LLMs), extract similar samples by cosine similarity, and synthesize a counterfactual sample by the weighted average of similar papers according to their similarity values. We apply the resulting metric, called CausalCite, as a causal formulation of paper citations. We show its effectiveness on various criteria, such as high correlation with paper impact as reported by scientific experts on a previous dataset of 1K papers, (test-of-time) awards for past papers, and its stability across various sub-fields of AI. We also provide a set of findings that can serve as suggested ways for future researchers to use our metric for a better understanding of a paper's quality. Our code and data are at https://github.com/causalNLP/causal-cite.
翻訳日:2024-01-13 03:05:33 公開日:2024-01-11
# プロンプトの調整:ゼロショット一般化のための分散アライメントによるテスト時間プロンプト

Align Your Prompts: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization ( http://arxiv.org/abs/2311.01459v2 )

ライセンス: Link先を確認
Jameel Hassan, Hanan Gani, Noor Hussein, Muhammad Uzair Khattak, Muzammal Naseer, Fahad Shahbaz Khan and Salman Khan(参考訳) CLIPのような視覚言語モデルのゼロショット一般化は、多くのダウンストリームタスクに即時学習を使用することで採用されている。 以前の研究では、エントロピー最小化を用いたテスト時のプロンプトチューニングが、未認識のドメインにテキストプロンプトを適用している。 効果的ではあるが、これは未認識のドメイン -- 分散シフトに対するパフォーマンス低下の主な原因を見落としている。 本研究では,ood(out-of-distribution)テストサンプル統計をプロンプトチューニングを用いてソースデータと整合させることで,この問題を明示的に解決する。 テストドメインのギャップを埋めるために、機能分散シフトを最小化し、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。 提案手法は,領域一般化ベンチマークに対して,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。 10個のデータセットを対象とするクロスデータセットの一般化において,提案手法は既存の最先端技術と比較して,すべてのデータセットに対して一貫して改善されている。 ソースコードとモデルはhttps://jameelhassan.github.io/promptalign.com/で利用可能です。

The promising zero-shot generalization of vision-language models such as CLIP has led to their adoption using prompt learning for numerous downstream tasks. Previous works have shown test-time prompt tuning using entropy minimization to adapt text prompts for unseen domains. While effective, this overlooks the key cause for performance degradation to unseen domains -- distribution shift. In this work, we explicitly handle this problem by aligning the out-of-distribution (OOD) test sample statistics to those of the source data using prompt tuning. We use a single test sample to adapt multi-modal prompts at test time by minimizing the feature distribution shift to bridge the gap in the test domain. Evaluating against the domain generalization benchmark, our method improves zero-shot top- 1 accuracy beyond existing prompt-learning techniques, with a 3.08% improvement over the baseline MaPLe. In cross-dataset generalization with unseen categories across 10 datasets, our method improves consistently across all datasets compared to the existing state-of-the-art. Our source code and models are available at https://jameelhassan.github.io/promptalign.
翻訳日:2024-01-13 03:05:13 公開日:2024-01-11
# 動的ネットワークにおける進化的コミュニティ検出アルゴリズムのベンチマーク

Benchmarking Evolutionary Community Detection Algorithms in Dynamic Networks ( http://arxiv.org/abs/2312.13784v2 )

ライセンス: Link先を確認
Giordano Paoletti, Luca Gioacchini, Marco Mellia, Luca Vassio, Jussara M. Almeida(参考訳) 動的複雑ネットワークでは、エンティティは時間とともに進化するネットワークコミュニティを相互作用させ形成する。 多くの静的コミュニティ検出(CD)ソリューションの中で、モジュラリティベースのLouvainやGreedy Modularity Algorithm(GMA)は、その直感性とスケーラビリティのために現実世界のアプリケーションに広く使われている。 それでも、ネットワーク接続の進化がコミュニティの識別を損なう可能性があるため、動的グラフにおけるCDの対応は未解決の問題のままである。 したがって、連続するネットワークスナップショットにGMAを鼻で適用することは、コミュニティの時間的矛盾につながる可能性がある。 GMA の2つの進化的適応 sGMA と $\alpha$GMA がこの問題に対処するために提案されている。 しかし、これらの手法のパフォーマンスを評価し、どのシナリオが適しているかを理解することは、包括的なメトリクスセットと一貫した基礎的真理が欠如しているため困難である。 これらの課題に対処するために (i)動的ネットワークにおける進化的CDアルゴリズムのベンチマークフレームワーク (ii) 一般化モジュラリティベースのアプローチ(NeGMA)。 私たちのフレームワークでは、合成されたコミュニティ構造グラフを生成し、異なるレートで9つの基本的なグラフ変換によって進化するシナリオを設計できます。 私たちは3つの指標、すなわち正確性、遅延、安定性を通してパフォーマンスを評価します。 以上の結果から, 間欠的変換の検出には$\alpha$GMAが適しているが, 急激な変化に苦慮し, sGMAは優れた安定性を達成できるが, 新興コミュニティの検出には失敗し, 応答性や瞬時変換の検出に優れたNeGMAはバランスの良い解であることがわかった。

In dynamic complex networks, entities interact and form network communities that evolve over time. Among the many static Community Detection (CD) solutions, the modularity-based Louvain, or Greedy Modularity Algorithm (GMA), is widely employed in real-world applications due to its intuitiveness and scalability. Nevertheless, addressing CD in dynamic graphs remains an open problem, since the evolution of the network connections may poison the identification of communities, which may be evolving at a slower pace. Hence, naively applying GMA to successive network snapshots may lead to temporal inconsistencies in the communities. Two evolutionary adaptations of GMA, sGMA and $\alpha$GMA, have been proposed to tackle this problem. Yet, evaluating the performance of these methods and understanding to which scenarios each one is better suited is challenging because of the lack of a comprehensive set of metrics and a consistent ground truth. To address these challenges, we propose (i) a benchmarking framework for evolutionary CD algorithms in dynamic networks and (ii) a generalised modularity-based approach (NeGMA). Our framework allows us to generate synthetic community-structured graphs and design evolving scenarios with nine basic graph transformations occurring at different rates. We evaluate performance through three metrics we define, i.e. Correctness, Delay, and Stability. Our findings reveal that $\alpha$GMA is well-suited for detecting intermittent transformations, but struggles with abrupt changes; sGMA achieves superior stability, but fails to detect emerging communities; and NeGMA appears a well-balanced solution, excelling in responsiveness and instantaneous transformations detection.
翻訳日:2024-01-13 02:59:10 公開日:2024-01-11
# ancilla qubits を伴わない多対数奥行き制御なしゲート

Polylogarithmic-depth controlled-NOT gates without ancilla qubits ( http://arxiv.org/abs/2312.13206v4 )

ライセンス: Link先を確認
Baptiste Claudon, Julien Zylberman, C\'esar Feniou, Fabrice Debbasch, Alberto Peruzzo, Jean-Philip Piquemal(参考訳) 制御された操作は量子アルゴリズムの基本構成要素である。 n$-control-not ゲート(c^n(x)$) を任意のシングルキュービットと cnot ゲートに分解することは、重要ではあるが非自明な作業である。 本研究は、漸近的および非漸近的レジームにおいて、従来の方法に匹敵する$c^n(x)$回路を導入する。 回路深さ$\theta\left(\log(n)^{3}\right)$ 回路深さ$\mathcal o \left(\log(n)^{3}\log(1/\epsilon)\right)$ 回路深さ$\theta\left(\log(n)^{3}\right)$ 回路深さ$\theta\left(\log(n)^{3}\right)$ 回路深度$\mathcal o \left(\log(n)^{3}\log(1/\epsilon)\right)$ 回路深さが設定可能な回路の正確なものは$o(log(2n/m)^3+log(m/2)$である。 その結果生じる指数関数的スピードアップは、量子化学から物理学、ファイナンス、量子機械学習に至るまで、無数の量子アルゴリズムの複雑さを改善することによって、フォールトトレラントな量子コンピューティングに大きな影響を与える可能性がある。

Controlled operations are fundamental building blocks of quantum algorithms. Decomposing $n$-control-NOT gates ($C^n(X)$) into arbitrary single-qubit and CNOT gates, is a crucial but non-trivial task. This study introduces $C^n(X)$ circuits outperforming previous methods in the asymptotic and non-asymptotic regimes. Three distinct decompositions are presented: an exact one using one borrowed ancilla with a circuit depth $\Theta\left(\log(n)^{3}\right)$, an approximating one without ancilla qubits with a circuit depth $\mathcal O \left(\log(n)^{3}\log(1/\epsilon)\right)$ and an exact one with an adjustable-depth circuit which decreases with the number $m\leq n$ of ancilla qubits available as $O(log(2n/m)^3+log(m/2))$. The resulting exponential speedup is likely to have a substantial impact on fault-tolerant quantum computing by improving the complexities of countless quantum algorithms with applications ranging from quantum chemistry to physics, finance and quantum machine learning.
翻訳日:2024-01-13 02:58:44 公開日:2024-01-11
# 自動音声測定:オープンソースの訓練済みKaldi-NL自動音声認識は有効か?

Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition? ( http://arxiv.org/abs/2312.12269v2 )

ライセンス: Link先を確認
Gloria Araiza-Illan, Luke Meyer, Khiet P. Truong and Deniz Baskent(参考訳) 実際の音声測定ツールとして,年齢や聴力の異なる個体群の聴力スクリーニングのためのDINテストがある。 テストは通常、リスナーが話す応答を得点する人間の監督者(臨床医など)や、リスナーが入力した応答をソフトウェアがスコア付けするオンラインによって行われる。 このテストでは24桁のトリプレットが適応階段手順で提示され、音声受信しきい値(srt)となる。 本稿では,オープンソースの自動音声認識ツールキットであるkaldi-nlを用いて,人間の監督なしに音声応答を評価可能な代替自動dinテストセットアップを提案する。 30人のオランダ成人(19-64歳)がDIN+カルディ-NL試験を完了した。 音声応答を録音し,Kaldi-NLによるデコード応答の転写評価に利用した。 研究1では, 単語誤り率(WER)によるカルディ-NLの性能評価を行い, 音声応答に含まれる数字の総数と比較して, 文字起こし中の数字のみに関する要約復号誤差の割合を調べた。 参加者の平均werは5.%(0~48%、sd=8.8%)で、平均復号誤差は参加者1人あたり3回であった。 研究2では、Kaldi-NLの復号誤りがDINテスト出力(SRT)に与える影響をブートストラップシミュレーションを用いて分析した。 前回の研究では、正常な成人のsrt変動性は0.70dbであった。 研究2では, 復号誤りを伴う最大4個の三重項がSRTの変動を生じ, 臨床応用の可能性が示唆された。

A practical speech audiometry tool is the digits-in-noise (DIN) test for hearing screening of populations of varying ages and hearing status. The test is usually conducted by a human supervisor (e.g., clinician), who scores the responses spoken by the listener, or online, where a software scores the responses entered by the listener. The test has 24 digit-triplets presented in an adaptive staircase procedure, resulting in a speech reception threshold (SRT). We propose an alternative automated DIN test setup that can evaluate spoken responses whilst conducted without a human supervisor, using the open-source automatic speech recognition toolkit, Kaldi-NL. Thirty self-reported normal-hearing Dutch adults (19-64 years) completed one DIN+Kaldi-NL test. Their spoken responses were recorded, and used for evaluating the transcript of decoded responses by Kaldi-NL. Study 1 evaluated the Kaldi-NL performance through its word error rate (WER), percentage of summed decoding errors regarding only digits found in the transcript compared to the total number of digits present in the spoken responses. Average WER across participants was 5.0% (range 0 - 48%, SD = 8.8%), with average decoding errors in three triplets per participant. Study 2 analysed the effect that triplets with decoding errors from Kaldi-NL had on the DIN test output (SRT), using bootstrapping simulations. Previous research indicated 0.70 dB as the typical within-subject SRT variability for normal-hearing adults. Study 2 showed that up to four triplets with decoding errors produce SRT variations within this range, suggesting that our proposed setup could be feasible for clinical applications.
翻訳日:2024-01-13 02:58:09 公開日:2024-01-11
# 非現実的説明のためのロバスト確率グラフ生成器

Robust Stochastic Graph Generator for Counterfactual Explanations ( http://arxiv.org/abs/2312.11747v2 )

ライセンス: Link先を確認
Mario Alfonso Prado-Romero, Bardh Prenkaj, Giovanni Stilo(参考訳) 対実的説明(CE)技術は、AIシステムに関わるユーザに洞察を提供する手段として注目を集めている。 医療画像や自動運転車などの分野で広く研究されているが、グラフ対実説明法(GCE)の手法は比較的研究が進んでいない。 gcesは元のグラフに似た新しいグラフを生成し、基礎となる予測モデルに基づいて異なる結果を生成する。 これらのGCE技法のうち、生成機構に根ざしたものは、芸術的スタイルや自然言語モデリングなど、他の領域における顕著な成果にもかかわらず、比較的限定的な調査を受けている。 生成的説明器の好みは、入力グラフの自律的な摂動を利用して、推論中に反実例を生成する能力に起因している。 そこで,本研究では,部分的に順序付けされた生成系列を考慮した学習潜在空間から反実例を生成可能なロバスト確率グラフ生成器RSGG-CEを紹介した。 さらに, RSGG-CEの性能をSoA生成的説明器と比較するため, 定量的, 質的な分析を行い, 有効な対策候補を育成する能力の向上を強調した。

Counterfactual Explanation (CE) techniques have garnered attention as a means to provide insights to the users engaging with AI systems. While extensively researched in domains such as medical imaging and autonomous vehicles, Graph Counterfactual Explanation (GCE) methods have been comparatively under-explored. GCEs generate a new graph similar to the original one, with a different outcome grounded on the underlying predictive model. Among these GCE techniques, those rooted in generative mechanisms have received relatively limited investigation despite demonstrating impressive accomplishments in other domains, such as artistic styles and natural language modelling. The preference for generative explainers stems from their capacity to generate counterfactual instances during inference, leveraging autonomously acquired perturbations of the input graph. Motivated by the rationales above, our study introduces RSGG-CE, a novel Robust Stochastic Graph Generator for Counterfactual Explanations able to produce counterfactual examples from the learned latent space considering a partially ordered generation sequence. Furthermore, we undertake quantitative and qualitative analyses to compare RSGG-CE's performance against SoA generative explainers, highlighting its increased ability to engendering plausible counterfactual candidates.
翻訳日:2024-01-13 02:57:38 公開日:2024-01-11
# re-parameterized low-rank prompt: 0.5kパラメータによる視覚言語モデルの一般化

Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model within 0.5K Parameters ( http://arxiv.org/abs/2312.10813v2 )

ライセンス: Link先を確認
Tianxiang Hao, Mengyao Lyu, Hui Chen, Sicheng Zhao, Jungong Han, Guiguang Ding(参考訳) 大規模な事前学習型視覚言語モデルの開発により、特にデータ不足のシナリオにおいて、そのような基礎モデルの知識を下流タスクに効果的に伝達する方法がホットトピックとなる。 近年,プロンプトチューニングが一般的なソリューションとなっている。 視覚言語モデルを適用する場合、研究者たちはバックボーンのパラメータを凍結し、プロンプトの設計とチューニングのみを行う。 一方、プロンプトチューニングの繊細な設計は強い性能を示す。 一方、複雑な構造や更新ルールは、計算とストレージコストを大幅に高めている。 視覚言語モデルにおける一般化能力の進化パターンが適応中のプロンプト行列のランク変化の傾向と調和しているという観察に動機づけられ,効率的かつ効果的な適応のために,新しいタイプのプロンプト,再パラメータ化低ランクプロンプト(rlp)を設計した。 提案手法は,資源限定のシナリオにおいて非常に有益であるチューナブルパラメータやストレージスペースの削減に大きく貢献する。 大規模な実験により、RLPの優位性がさらに証明された。 特に、RLPは、非常に少数のパラメータを持つ最新の最先端メソッドと同等またはそれ以上の性能を示している。 11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。

With the development of large pre-trained vision-language models, how to effectively transfer the knowledge of such foundational models to downstream tasks becomes a hot topic, especially in a data-deficient scenario. Recently, prompt tuning has become a popular solution. When adapting the vision-language models, researchers freeze the parameters in the backbone and only design and tune the prompts. On the one hand, the delicate design of prompt tuning exhibits strong performance. On the other hand, complicated structures and update rules largely increase the computation and storage cost. Motivated by the observation that the evolution pattern of the generalization capability in visual-language models aligns harmoniously with the trend of rank variations in the prompt matrix during adaptation, we design a new type of prompt, Re-parameterized Low-rank Prompt (RLP), for both efficient and effective adaptation. Our method could largely reduce the number of tunable parameters and storage space, which is quite beneficial in resource-limited scenarios. Extensive experiments further demonstrate the superiority of RLP. In particular, RLP shows comparable or even stronger performance than the latest state-of-the-art methods with an extremely small number of parameters. On a series of tasks over 11 datasets, RLP significantly increases the average downstream accuracy of classic prompt tuning by up to 5.25% using merely 0.5K parameters.
翻訳日:2024-01-13 02:57:16 公開日:2024-01-11
# 量子化学のための対称性保存とゲート効率量子回路

Symmetry-preserving and gate-efficient quantum circuits for quantum chemistry ( http://arxiv.org/abs/2312.09761v2 )

ライセンス: Link先を確認
Hugh G. A. Burton(参考訳) 量子コンピュータが多体問題の指数的メモリスケーリングを克服する能力は、量子化学を変革することが期待される。 量子アルゴリズムは量子デバイス上での電子状態の正確な表現を必要とするが、現在の近似は物理対称性を保ちながら化学的精度とゲート効率を組み合わせるのに苦労し、各分子に波動関数のアンザッツを調整する測定集約適応法に依存している。 そこで本研究では,化学的に高精度な分子エネルギーとよく定義された回路構造を提供するスピン対称性保存ゲート効率のansatzを提案する。 提案手法は、局所量子ビット接続、軌道最適化、一般化原子価結合理論との接続を利用して、浅い量子回路で得られる精度を最大化する。 ベンゼン、水、およびテトラメチレンエタン中の一重項三重項ギャップを含む弱い電子相関を持つ分子の数値シミュレーションにより、化学的に正確なエネルギーは、現在の状態よりも84%少ない2量子ビットゲートで達成されていることが示されている。 これらの進歩は、将来の量子コンピューティングのための次世代の電子構造近似の道を開く。

The ability of quantum computers to overcome the exponential memory scaling of many-body problems is expected to transform quantum chemistry. Quantum algorithms require accurate representations of electronic states on a quantum device, but current approximations struggle to combine chemical accuracy and gate-efficiency while preserving physical symmetries, and rely on measurement-intensive adaptive methods that tailor the wave function ansatz to each molecule. In this contribution, we present a spin-symmetry-preserving, gate-efficient ansatz that provides chemically accurate molecular energies with a well-defined circuit structure. Our approach exploits local qubit connectivity, orbital optimisation, and connections with generalised valence bond theory to maximise the accuracy that is obtained with shallow quantum circuits. Numerical simulations for molecules with weak and strong electron correlation, including benzene, water, and the singlet-triplet gap in tetramethyleneethane, demonstrate that chemically accurate energies are achieved with as much as 84% fewer two-qubit gates compared to the current state-of-the-art. These advances pave the way for the next generation of electronic structure approximations for future quantum computing.
翻訳日:2024-01-13 02:56:52 公開日:2024-01-11
# 進化する記憶と自己反射を伴う検証可能なテキスト生成に向けて

Towards Verifiable Text Generation with Evolving Memory and Self-Reflection ( http://arxiv.org/abs/2312.09075v2 )

ライセンス: Link先を確認
Hao Sun, Hengyi Cai, Bo Wang, Yingyan Hou, Xiaochi Wei, Shuaiqiang Wang, Yan Zhang, Dawei Yin(参考訳) 言語理解と生成における大きな言語モデル(LLM)の顕著な能力にもかかわらず、しばしば幻覚として知られる事実的に誤った情報を生み出す。 この問題に対する有望な解決策は検証可能なテキスト生成であり、llmは正確な検証のために引用を伴うコンテンツを生成するように促している。 しかし、フォーカスシフト現象、クレームを正しい引用に合わせるのに必要な複雑な推論、検索された文書の正確さと広さのジレンマなどにより、検証可能なテキスト生成は非自明である。 本稿では、記憶と自己回帰を進化させる検証可能なテキスト生成のための革新的なフレームワークであるVTGを提案する。 VTGは、価値あるドキュメントと最近のドキュメントの両方を保持するために、進化する長期記憶を導入する。 証拠発見装置を備えた2層検証器を提案し,クレームと引用の関係を再考した。 さらに、アクティブ検索と多様なクエリ生成を利用して、検索した文書の精度と幅を両立させる。 3つの知識集約型タスクにまたがる5つのデータセットを広範囲に実験した結果,vtgがベースラインを上回ることが判明した。

Despite the remarkable ability of large language models (LLMs) in language comprehension and generation, they often suffer from producing factually incorrect information, also known as hallucination. A promising solution to this issue is verifiable text generation, which prompts LLMs to generate content with citations for accuracy verification. However, verifiable text generation is non-trivial due to the focus-shifting phenomenon, the intricate reasoning needed to align the claim with correct citations, and the dilemma between the precision and breadth of retrieved documents. In this paper, we present VTG, an innovative framework for Verifiable Text Generation with evolving memory and self-reflection. VTG introduces evolving long short-term memory to retain both valuable documents and recent documents. A two-tier verifier equipped with an evidence finder is proposed to rethink and reflect on the relationship between the claim and citations. Furthermore, active retrieval and diverse query generation are utilized to enhance both the precision and breadth of the retrieved documents. We conduct extensive experiments on five datasets across three knowledge-intensive tasks and the results reveal that VTG significantly outperforms baselines.
翻訳日:2024-01-13 02:56:07 公開日:2024-01-11
# UCMCTrack: 一様カメラモーション補償による多目的追跡

UCMCTrack: Multi-Object Tracking with Uniform Camera Motion Compensation ( http://arxiv.org/abs/2312.08952v2 )

ライセンス: Link先を確認
Kefu Yi, Kai Luo, Xiaolei Luo, Jiangui Huang, Hao Wu, Rongdong Hu, Wei Hao(参考訳) ビデオシーケンスにおけるマルチオブジェクトトラッキング(MOT)は、特にカメラの動きが著しいシナリオにおいて、依然として困難な課題である。 これは、ターゲットが画像平面上でかなりドリフトし、誤った追跡結果につながるためである。 このような課題に対処するには、通常補足的な外観の手がかりまたはカメラモーション補償(CMC)が必要である。 これらの戦略は有効であるが、リアルタイムMOTの課題を提起する、かなりの計算負担も伴う。 そこで,本研究では,カメラの動きにロバストな新しいモーションモデルベースのトラッカーucmctrackを提案する。 フレーム単位で補償パラメータを計算する従来のCMCとは異なり、UCMCTrackはビデオシーケンスを通して同じ補償パラメータを一貫して適用する。 基底平面上のカルマンフィルタを使用し、伝統的な結合距離測度(iou)の代替としてマッピングされたマハラノビス距離(mmd)を導入する。 提案手法は, 平面上の予測された確率分布を利用して, 動きパターンを効率的に捕捉し, ホモグラフィー投影による不確かさを適切に管理する。 注目すべきなのは、UCMCTrackはモーションキューのみに依存しており、MOT17、MOT20、DanceTrack、KITTIなど、さまざまな困難なデータセットで最先端のパフォーマンスを実現していることだ。 詳細とコードはhttps://github.com/corfyi/UCMCTrackで確認できる。

Multi-object tracking (MOT) in video sequences remains a challenging task, especially in scenarios with significant camera movements. This is because targets can drift considerably on the image plane, leading to erroneous tracking outcomes. Addressing such challenges typically requires supplementary appearance cues or Camera Motion Compensation (CMC). While these strategies are effective, they also introduce a considerable computational burden, posing challenges for real-time MOT. In response to this, we introduce UCMCTrack, a novel motion model-based tracker robust to camera movements. Unlike conventional CMC that computes compensation parameters frame-by-frame, UCMCTrack consistently applies the same compensation parameters throughout a video sequence. It employs a Kalman filter on the ground plane and introduces the Mapped Mahalanobis Distance (MMD) as an alternative to the traditional Intersection over Union (IoU) distance measure. By leveraging projected probability distributions on the ground plane, our approach efficiently captures motion patterns and adeptly manages uncertainties introduced by homography projections. Remarkably, UCMCTrack, relying solely on motion cues, achieves state-of-the-art performance across a variety of challenging datasets, including MOT17, MOT20, DanceTrack and KITTI. More details and code are available at https://github.com/corfyi/UCMCTrack
翻訳日:2024-01-13 02:55:48 公開日:2024-01-11
# 量子入力を用いた配位及び外部補正結合クラスタ

Tailored and Externally Corrected Coupled Cluster with Quantum Inputs ( http://arxiv.org/abs/2312.08110v2 )

ライセンス: Link先を確認
Maximilian Scheurer, Gian-Luca R. Anselmetti, Oumarou Oumarou, Christian Gogolin, Nicholas C. Rubin(参考訳) 本稿では,分子電子構造シミュレーションにおける静的および動的相関効果の平衡処理を実現するために,量子コンピュータから得られる波動関数の重なりを古典的分割振幅法,調整および外部修正結合クラスタの入力として用いることを提案する。 量子的試行状態の重なりを測るために用いられるマッチゲート影の統計的性質と古典的相関診断から得られる知見を組み合わせることで、量子的資源推定を古典的に解決不可能な状態に適切に適用することができる。 比較的不完全な波動関数と驚くほど低いショットカウントは、平結合クラスタシングルの定性的故障を2倍にし、化学的に正確な動的相関エネルギー補正を得るのに十分である。 提案手法は,google の sycamore デバイスで測定した重なりを用いて,提案手法を検証した。

We propose to use wavefunction overlaps obtained from a quantum computer as inputs for the classical split-amplitude techniques, tailored and externally corrected coupled cluster, to achieve balanced treatment of static and dynamic correlation effects in molecular electronic structure simulations. By combining insights from statistical properties of matchgate shadows, which are used to measure quantum trial state overlaps, with classical correlation diagnostics, we are able to provide quantum resource estimates well into the classically no longer exactly solvable regime. We find that rather imperfect wavefunctions and remarkably low shot counts are sufficient to cure qualitative failures of plain coupled cluster singles doubles and to obtain chemically precise dynamic correlation energy corrections. We provide insights into which wavefunction preparation schemes have a chance of yielding quantum advantage, and we test our proposed method using overlaps measured on Google's Sycamore device.
翻訳日:2024-01-13 02:55:15 公開日:2024-01-11
# ターゲットスピーカASRへの即時チューニングによるWhisperの拡張

Extending Whisper with prompt tuning to target-speaker ASR ( http://arxiv.org/abs/2312.08079v2 )

ライセンス: Link先を確認
Hao Ma, Zhiyuan Peng, Mingjie Shao, Jing Li, Ju Liu(参考訳) 目標話者自動音声認識(asr)は、複数話者重複発話から目標話者の所望の音声を転写することを目的としている。 既存のts-asr(target-speaker asr)の手法のほとんどは、スクラッチからトレーニングするか、事前訓練されたモデルを完全に微調整するかのどちらかであり、大きな基礎モデルには適用できない大きなトレーニングコストをもたらしている。 この研究は、パラメータ効率のよい微調整手法であるプロンプトチューニングを利用して、大規模なシングルストーカーASRモデルであるWhisperをTS-ASRに拡張する。 実験の結果、プロンプトチューニングは、タスク固有のモデルパラメータの約1/%しか必要とせず、最先端のフルトレーニングアプローチに匹敵するパフォーマンスを達成できることが示されている。 特に、逆テキスト正規化やタイムスタンプタグ付けのような元のWhisperの特徴は、ターゲットスピーカーASRに保持され、生成された転写は自然かつ情報的に保持される。

Target-speaker automatic speech recognition (ASR) aims to transcribe the desired speech of a target speaker from multi-talker overlapped utterances. Most of the existing target-speaker ASR (TS-ASR) methods involve either training from scratch or fully fine-tuning a pre-trained model, leading to significant training costs and becoming inapplicable to large foundation models. This work leverages prompt tuning, a parameter-efficient fine-tuning approach, to extend Whisper, a large-scale single-talker ASR model, to TS-ASR. Variants of prompt tuning approaches along with their configurations are explored and optimized for TS-ASR.Experimental results show that prompt tuning can achieve performance comparable to state-of-the-art full training approaches while only requiring about 1\% of task-specific model parameters. Notably, the original Whisper's features, such as inverse text normalization and timestamp tagging, are retained in target-speaker ASR, keeping the generated transcriptions natural and informative.
翻訳日:2024-01-13 02:54:58 公開日:2024-01-11
# 安定拡散モデルの組成インバージョン

Compositional Inversion for Stable Diffusion Models ( http://arxiv.org/abs/2312.08048v3 )

ライセンス: Link先を確認
Xulu Zhang, Xiao-Yong Wei, Jinlin Wu, Tianyi Zhang, Zhaoxiang Zhang, Zhen Lei, Qing Li(参考訳) テキストインバージョンのようなインバージョンメソッドは、ユーザイメージが提供する関心の概念を取り入れてパーソナライズされたイメージを生成する。 しかし、既存の方法はしばしば過度に適合する問題に悩まされ、倒立概念の存在が他の望ましい概念の欠如につながっている。 インバージョンの間、ユーザイメージの無関係なセマンティクスもエンコードされ、インバージョンされた概念は埋め込み空間のコア分布から遠く離れた場所を占有せざるを得ないという事実に起因している。 この問題に対処するために,コンポジション埋め込みのためのコア分布への反転過程を導出する手法を提案する。 さらに,集合する概念に対する注意のバランスをとるための空間正規化手法を提案する。 本手法はトレーニング後のアプローチとして設計され,他のインバージョン手法とシームレスに統合することができる。 実験の結果,提案手法は,過剰フィッティング問題を緩和し,合成画像における概念のより多様でバランスの取れた構成を生成する際に有効であることが示された。 ソースコードはhttps://github.com/zhangxulu1996/compositional-inversionで入手できる。

Inversion methods, such as Textual Inversion, generate personalized images by incorporating concepts of interest provided by user images. However, existing methods often suffer from overfitting issues, where the dominant presence of inverted concepts leads to the absence of other desired concepts. It stems from the fact that during inversion, the irrelevant semantics in the user images are also encoded, forcing the inverted concepts to occupy locations far from the core distribution in the embedding space. To address this issue, we propose a method that guides the inversion process towards the core distribution for compositional embeddings. Additionally, we introduce a spatial regularization approach to balance the attention on the concepts being composed. Our method is designed as a post-training approach and can be seamlessly integrated with other inversion methods. Experimental results demonstrate the effectiveness of our proposed approach in mitigating the overfitting problem and generating more diverse and balanced compositions of concepts in the synthesized images. The source code is available at https://github.com/zhangxulu1996/Compositional-Inversion.
翻訳日:2024-01-13 02:54:36 公開日:2024-01-11
# 変分量子アルゴリズム保存可能空間による施設配置問題の解法

Variational quantum algorithm-preserving feasible space for solving the uncapacitated facility location problem ( http://arxiv.org/abs/2312.06922v4 )

ライセンス: Link先を確認
Sha-Sha Wang, Hai-Ling Liu, Yong-Mei Li, Fei Gao, Su-Juan Qin, and Qiao-Yan Wen(参考訳) 量子交換演算子アンサッツ(Quantum Alternating Operator Ansatz, QAOA+)は、ターゲット解の探索において実現可能な空間を探索することによって組合せ最適化問題に取り組むために開発された変分量子アルゴリズム(VQA)の1つである。 非制約変数問題 (Unconstrained-Variables Problems, UVPs) と呼ばれる制約付き最適化問題に対しては、QAOA+回路の混合演算子を制約付き変数に適用し、シングルキュービット回転ゲートの$R_X$は制約なし変数を演算する。 この回路の表現性は、2ビットゲートの不足と$R_X$のパラメータ共有によって制限され、その結果、UVPを解くためのQAOA+の性能に影響を及ぼす。 したがって、UVPに適したアンサッツを開発することが重要である。 本稿では、制約変数に混合演算子を適用し、制約変数にハードウェア効率の良いアンサッツ(HEA)を適用した非容量施設配置問題(UFLP)を例に、可変量子アルゴリズム保存可能な空間(VQA-PFS)アンサッツを提案する。 その結果、VQA-PFSは成功確率を大幅に向上し、QAOA+、量子近似最適化アルゴリズム(QAOA)、HEAよりも高速な収束を示した。 さらに、VQA-PFSはQAOA+およびQAOAと比較して回路深さを劇的に減少させる。 当社のアルゴリズムは汎用的で,uvpに取り組むための指導的です。

The Quantum Alternating Operator Ansatz (QAOA+) is one of the Variational Quantum Algorithm (VQA) specifically developed to tackle combinatorial optimization problems by exploring the feasible space in search of a target solution. For constrained optimization problems with unconstrained variables, which we call Unconstrained-Variables Problems (UVPs), the mixed operators in the QAOA+ circuit are applied to the constrained variables, while the single-qubit rotating gates $R_X$ operate on the unconstrained variables. The expressibility of this circuit is limited by the shortage of two-qubit gates and the parameter sharing in the $R_X$, which consequently impacts the performance of QAOA+ for solving UVPs. Therefore, it is crucial to develop a suitable ansatz for UVPs. In this paper, we propose the Variational Quantum Algorithm-Preserving Feasible Space (VQA-PFS) ansatz, exemplified by the Uncapacitated Facility Location Problem (UFLP), that applies mixed operators on constrained variables while employing Hardware-Efficient Ansatz (HEA) on unconstrained variables. The numerical results demonstrate that VQA-PFS significantly enhances the success probability and exhibits faster convergence compared to QAOA+, Quantum Approximation Optimization Algorithm (QAOA), and HEA. Furthermore, VQA-PFS reduces the circuit depth dramatically in comparison to QAOA+ and QAOA. Our algorithm is general and instructive in tackling UVPs.
翻訳日:2024-01-13 02:54:19 公開日:2024-01-11
# TaCo:情報理論と説明可能性によるNLP用出力埋め込みの概念除去

TaCo: Targeted Concept Removal in Output Embeddings for NLP via Information Theory and Explainability ( http://arxiv.org/abs/2312.06499v2 )

ライセンス: Link先を確認
Fanny Jourdan, Louis B\'ethune, Agustin Picard, Laurent Risser, Nicholas Asher(参考訳) 自然言語処理(NLP)モデルの公平性は重要な懸念事項となっている。 情報理論は、公正性を達成するためには、モデルが性別、民族、年齢などの敏感な変数を予測できないことを示唆している。 しかし、これらの変数に関連する情報は、しばしば言語に暗黙的に現れ、バイアスを効果的に識別し緩和する上での課題となっている。 この問題に対処するため,NLPモデルの埋め込みレベルにおいて,特定のアーキテクチャに依存しない新たなアプローチを提案する。 提案手法は,XAI手法の最近の進歩から得られた知見を活用し,組込み変換を用いて,選択した変数から暗黙の情報を排除する。 最終レイヤへの埋め込みを直接操作することで、当社のアプローチは、大幅な修正や再トレーニングを必要とせずに、既存のモデルへのシームレスな統合を可能にします。 評価において,提案手法は,NLPモデルにおける性別関係の関連性を大幅に低減し,モデル全体の性能と機能を維持する。 このメソッドの実装は、https://github.com/fanny-jourdan/tacoです。

The fairness of Natural Language Processing (NLP) models has emerged as a crucial concern. Information theory indicates that to achieve fairness, a model should not be able to predict sensitive variables, such as gender, ethnicity, and age. However, information related to these variables often appears implicitly in language, posing a challenge in identifying and mitigating biases effectively. To tackle this issue, we present a novel approach that operates at the embedding level of an NLP model, independent of the specific architecture. Our method leverages insights from recent advances in XAI techniques and employs an embedding transformation to eliminate implicit information from a selected variable. By directly manipulating the embeddings in the final layer, our approach enables a seamless integration into existing models without requiring significant modifications or retraining. In evaluation, we show that the proposed post-hoc approach significantly reduces gender-related associations in NLP models while preserving the overall performance and functionality of the models. An implementation of our method is available: https://github.com/fanny-jourdan/TaCo
翻訳日:2024-01-13 02:53:35 公開日:2024-01-11
# 視覚障害者のための触覚署名システムの概念

The Concept of the Tactile Signature System for Individuals with Visual Impairments ( http://arxiv.org/abs/2401.04126v2 )

ライセンス: Link先を確認
Anatoliy Kremenchutskiy, Galymzhan Gabdreshov(参考訳) 視覚障害者が手書き署名を作成するためのアクセス可能で効果的なシステムがないことは、彼らの独立と生活の様々な側面への完全な参加に重大な障壁をもたらす。 本研究は,視覚障害を持つ個人に対して,独自の手書き署名を形成するための画期的なアプローチである触覚シグネチャシステムを紹介する。 パーソナライズされたカスタマイズ: 触覚インタラクションと音声アルゴリズムによるガイダンスを通じて、個人は好みや自然な書き方を反映した署名を作成する。 リアルタイムフィードバック: AIによる音声プロンプトと分析により、シグネチャ生成の正確性と一貫性が保証される。 アクセシビリティ: ローカルサービスセンターのインストールは、署名生成のためのセキュアで管理された環境を提供する。 システムの影響は個人レベルを超えている: 排他性と独立性を促進する: 盲目の個人は他人に頼らずに法的および金融的な取引を行うことができる。 エンパワーズは平等な機会を育む: 教育、雇用、市民のエンゲージメントへの参加がよりアクセスしやすくなる。 国際コンベンションの遵守: 障害者が社会に完全に参加する権利を保持する。 触覚シグネチャシステムは、視覚障害者にとって包括的でアクセスしやすい未来への大きな一歩である。

The lack of an accessible and effective system for blind individuals to create handwritten signatures presents a significant barrier to their independence and full participation in various aspects of life. This research introduces the Tactile Signature System, a groundbreaking approach that empowers individuals with visual impairments to form their unique handwritten signatures. Key features of the system include: Personalized customization: Through tactile interaction and voice algorithmic guidance, individuals create signatures reflecting their preferences and natural writing style. Real-time feedback: AI-powered voice prompts and analysis ensure accuracy and consistency in signature formation. Accessibility: Installation in local service centers provides a secure and supervised environment for signature creation. The system's impact reaches beyond the individual level: Promotes inclusivity and independence: Blind individuals can engage in legal and financial transactions without relying on others. Empowers and fosters equal opportunities: Participation in education, employment, and civic engagement becomes more accessible. Aligns with international conventions: Upholds the right of persons with disabilities to participate fully in society. The Tactile Signature System represents a significant step towards an inclusive and accessible future for individuals with visual impairments.
翻訳日:2024-01-13 02:45:20 公開日:2024-01-11
# マルチレベルテキスト記述によるパーソナライズされたパーソンズ問題の統合

Integrating Personalized Parsons Problems with Multi-Level Textual Explanations to Scaffold Code Writing ( http://arxiv.org/abs/2401.03144v2 )

ライセンス: Link先を確認
Xinying Hou, Barbara J. Ericson, Xu Wang(参考訳) 初心者でないプログラマは、学習プロセスの一部として基本的なコードを書く必要があるが、しばしば困難に直面する。 難解な学生を支援するために、我々は最近パーソンズ問題を実装した。これは、学生がコードブロックを配置して解決するコードパズルであり、ポップアップの足場として機能する。 学生たちは、ChatGPTのような生成的AIツールから得られる応答など、正しい答えを単に受け取るのではなく、よりエンゲージメントが高く、学習に好まれていることに気付きました。 しかし、パーソンズ問題を足場として使うことの欠点は、学生が正しい解の根拠を完全に理解することなく、正しい順序でコードブロックを配置できることである。 その結果、足場学習の利点が損なわれる。 テキスト・コードの説明を提供することでパーソンズ・スキャフォールディングの理解を深められるか? 本ポスターでは,パーソンズ問題に対して多段階のテキストによる説明を取り入れたデザインを提案する。 この設計は将来の技術評価や教室の実験に使用される。 これらの実験は、教師の利益を改善するためにパーソンズ問題にテキストによる説明を加えることの有効性を探求する。

Novice programmers need to write basic code as part of the learning process, but they often face difficulties. To assist struggling students, we recently implemented personalized Parsons problems, which are code puzzles where students arrange blocks of code to solve them, as pop-up scaffolding. Students found them to be more engaging and preferred them for learning, instead of simply receiving the correct answer, such as the response they might get from generative AI tools like ChatGPT. However, a drawback of using Parsons problems as scaffolding is that students may be able to put the code blocks in the correct order without fully understanding the rationale of the correct solution. As a result, the learning benefits of scaffolding are compromised. Can we improve the understanding of personalized Parsons scaffolding by providing textual code explanations? In this poster, we propose a design that incorporates multiple levels of textual explanations for the Parsons problems. This design will be used for future technical evaluations and classroom experiments. These experiments will explore the effectiveness of adding textual explanations to Parsons problems to improve instructional benefits.
翻訳日:2024-01-13 02:44:32 公開日:2024-01-11
# タイムウインドウを用いた車両計画の最適チェーン化

Optimal Chaining of Vehicle Plans with Time Windows ( http://arxiv.org/abs/2401.02873v2 )

ライセンス: Link先を確認
David Fiedler, Fabio V. Difonzo and Jan Mrkos(参考訳) モビリティ・オン・デマンド(MoD)の領域から問題を解決するためには、計画チェインと呼ばれる長い時間にわたる計画に車両計画を接続する必要があります。 本研究で示すように、この計画の連鎖化は、MoDシステムにおける高品質な車両配車ソリューションを提供することにより、MoDプロバイダの車両の規模を縮小する(フライングサイズ問題)だけでなく、総駆動距離の削減にも有効である。 近年,艦隊規模の問題を解決するために,この原理を用いた解法が提案されている。 この方法は計画の時間的柔軟性を考慮しない。 代わりに、計画は時間内に修正され、遅れることはない。 しかしながら、時間の柔軟性は、タイムウインドウのすべての車両問題にとって不可欠な特性である。 本研究は,時間ウィンドウで許容される遅延を考慮した新しい計画連鎖定式化と解法を提案する。 さらに,提案手法が最適であることを証明し,その複雑さを分析した。 最後に, 静的ダイヤル・ア・ライド問題の解法として, 新しいヒューリスティックな車両配車方式を提案する。 その結果,提案手法は最適に解けないほとんどのインスタンスに対して,2つのヒューリスティックなベースラインよりも優れた解を提供することを示した。 同時に,本手法は,ベースラインと比較して計算時間の要求が最大ではない。 したがって,提案手法は理論的に健全な結果を提供するだけでなく,実用的にも適用可能である。

For solving problems from the domain of Mobility-on-Demand (MoD), we often need to connect vehicle plans into plans spanning longer time, a process we call plan chaining. As we show in this work, chaining of the plans can be used to reduce the size of MoD providers' fleet (fleet-sizing problem) but also to reduce the total driven distance by providing high-quality vehicle dispatching solutions in MoD systems. Recently, a solution that uses this principle has been proposed to solve the fleet-sizing problem. The method does not consider the time flexibility of the plans. Instead, plans are fixed in time and cannot be delayed. However, time flexibility is an essential property of all vehicle problems with time windows. This work presents a new plan chaining formulation that considers delays as allowed by the time windows and a solution method for solving it. Moreover, we prove that the proposed plan chaining method is optimal, and we analyze its complexity. Finally, we list some practical applications and perform a demonstration for one of them: a new heuristic vehicle dispatching method for solving the static dial-a-ride problem. The demonstration results show that our proposed method provides a better solution than the two heuristic baselines for the majority of instances that cannot be solved optimally. At the same time, our method does not have the largest computational time requirements compared to the baselines. Therefore, we conclude that the proposed optimal chaining method provides not only theoretically sound results but is also practically applicable.
翻訳日:2024-01-13 02:44:13 公開日:2024-01-11
# 細胞シグナリング構造の機能

The cell signaling structure function ( http://arxiv.org/abs/2401.02501v2 )

ライセンス: Link先を確認
Layton Aho, Mark Winter, Marc DeCarlo, Agne Frismantiene, Yannick Blum, Paolo Armando Gagliardi, Olivier Pertz, Andrew R. Cohen(参考訳) 生きた細胞顕微鏡は、5d $(x,y,z,channel,time)$の映画を撮影し、細胞の動きとシグナルのダイナミクスのパターンを表示する。 本稿では, 予測パターンダイナミクスの事前知識を必要とせず, トレーニングデータも不要な5次元ライブセル顕微鏡映画において, 細胞シグナル伝達ダイナミクスの時空間的パターンを探索する手法を提案する。 提案する細胞シグナリング構造関数(ssf)は、細胞質周辺の核強度w.r.t.の細胞シグナリング状態を最適に測定するコルモゴロフ構造関数であり、現在の細胞核比と比較して著しく改善されている。 SSFキモグラフは、各時空間セルセントロイドにSSF値または速度のような機能出力を格納する。 類似性のパターンは、計量正規化圧縮距離(NCD)を介して同定される。 ncdは、入力 ssf kymographs を空間全体の ncd によって識別されるパターンの類似性を最適に捉えた低次元埋め込みの点として表現するヒルベルト空間の再生核である。 唯一のパラメータは期待セル radii ($\mu m$) である。 クラスタ構造関数の新しい定式化は、RKHS表現からの埋め込みがいかに意味を持つかを最適に推定する。 その結果,ヒト乳癌上皮細胞 (MCF10A) の2次元単分子膜, ERKのオプトジェネティック操作下での3次元MCF10A球体, およびヒト誘導多能性幹細胞のERKシグナル伝達と細胞速度パターンとの関係を定量化した。

Live cell microscopy captures 5-D $(x,y,z,channel,time)$ movies that display patterns of cellular motion and signaling dynamics. We present here an approach to finding spatiotemporal patterns of cell signaling dynamics in 5-D live cell microscopy movies unique in requiring no a priori knowledge of expected pattern dynamics, and no training data. The proposed cell signaling structure function (SSF) is a Kolmogorov structure function that optimally measures cell signaling state as nuclear intensity w.r.t. surrounding cytoplasm, a significant improvement compared to the current state-of-the-art cytonuclear ratio. SSF kymographs store at each spatiotemporal cell centroid the SSF value, or a functional output such as velocity. Patterns of similarity are identified via the metric normalized compression distance (NCD). The NCD is a reproducing kernel for a Hilbert space that represents the input SSF kymographs as points in a low dimensional embedding that optimally captures the pattern similarity identified by the NCD throughout the space. The only parameter is the expected cell radii ($\mu m$). A new formulation of the cluster structure function optimally estimates how meaningful an embedding from the RKHS representation. Results are presented quantifying the impact of ERK and AKT signaling between different oncogenic mutations, and by the relation between ERK signaling and cellular velocity patterns for movies of 2-D monolayers of human breast epithelial (MCF10A) cells, 3-D MCF10A spheroids under optogenetic manipulation of ERK, and human induced pluripotent stem cells .
翻訳日:2024-01-13 02:43:50 公開日:2024-01-11
# ReLU$^k$ Activationを用いたディープニューラルネットワークの表現性と近似特性

Expressivity and Approximation Properties of Deep Neural Networks with ReLU$^k$ Activation ( http://arxiv.org/abs/2312.16483v2 )

ライセンス: Link先を確認
Juncai He, Tong Mao, Jinchao Xu(参考訳) 本稿では,ReLU$^k$ 活性化関数を$k \geq 2$ に用いたディープニューラルネットワークの表現性と近似特性について検討する。 ディープReLUネットワークは多項式を効率的に近似することができるが、ディープReLU$^k$ネットワークは高次多項式を正確に表現することができる。 最初の貢献は、深層relu$^k$ネットワークを用いた多項式表現の包括的で構成的な証明です。 これにより、ネットワークパラメータのサイズと数の両方に上限を確立することができます。 したがって、ソボレフ空間からの関数と解析函数の準最適近似率を示すことができる。 さらに,浅層ネットワークに対する深層relu$^k$ネットワークの表現力の調査を通じて,深層relu$^k$ネットワークは,relu$^k$アクティベーション関数のみによって生成されるネットワークを超えて,様々な変動空間から関数を近似できることを明らかにした。 この発見は、様々な変動空間内の近似関数における深い relu$^k$ ネットワークの適応性を示す。

In this paper, we investigate the expressivity and approximation properties of deep neural networks employing the ReLU$^k$ activation function for $k \geq 2$. Although deep ReLU networks can approximate polynomials effectively, deep ReLU$^k$ networks have the capability to represent higher-degree polynomials precisely. Our initial contribution is a comprehensive, constructive proof for polynomial representation using deep ReLU$^k$ networks. This allows us to establish an upper bound on both the size and count of network parameters. Consequently, we are able to demonstrate a suboptimal approximation rate for functions from Sobolev spaces as well as for analytic functions. Additionally, through an exploration of the representation power of deep ReLU$^k$ networks for shallow networks, we reveal that deep ReLU$^k$ networks can approximate functions from a range of variation spaces, extending beyond those generated solely by the ReLU$^k$ activation function. This finding demonstrates the adaptability of deep ReLU$^k$ networks in approximating functions within various variation spaces.
翻訳日:2024-01-13 02:43:17 公開日:2024-01-11
# 未来はどんなデジタルになるのか? 予測シナリオの解析

How digital will the future be? Analysis of prospective scenarios ( http://arxiv.org/abs/2312.15948v2 )

ライセンス: Link先を確認
Aur\'elie Bugeau (IUF, LaBRI, UB), Anne-Laure Ligozat (ENSIIE, LISN, STL)(参考訳) 気候変動の文脈では、概して社会のあらゆる領域を包含する多くの先進的な研究が、選択肢の範囲を広げる可能性のある未来を想像する。 こうした未来におけるデジタル技術の役割は、特に標的にされることは滅多にない。 これらの研究は、気候変動を緩和し適応した世界でどのようなデジタル技術や方法論を想定しているか? 本稿では,デジタル技術とその応用を14の先進研究とそれに対応する35の将来のシナリオで調査するためのシナリオのタイプロジーを提案する。 我々の発見は、あらゆるシナリオが将来デジタル技術が存在すると考えているということだ。 デジタル技術との関係や、その物質性に関するあらゆる側面に疑問を呈するものはごくわずかであり、今日の技術に関するブレークスルーを想定する一般的な研究は存在しない。 本結果は,情報通信技術におけるシステム的視点の欠如を実証するものである。 そこで我々はICTの将来を展望する新たな先進的な研究を提唱する。

With the climate change context, many prospective studies, generally encompassing all areas of society, imagine possible futures to expand the range of options. The role of digital technologies within these possible futures is rarely specifically targeted. Which digital technologies and methodologies do these studies envision in a world that has mitigated and adapted to climate change? In this paper, we propose a typology for scenarios to survey digital technologies and their applications in 14 prospective studies and their corresponding 35 future scenarios. Our finding is that all the scenarios consider digital technology to be present in the future. We observe that only a few of them question our relationship with digital technology and all aspects related to its materiality, and none of the general studies envision breakthroughs concerning technologies used today. Our result demonstrates the lack of a systemic view of information and communication technologies. We therefore argue for new prospective studies to envision the future of ICT.
翻訳日:2024-01-13 02:42:37 公開日:2024-01-11
# WaveCoder: 改良されたデータ生成による広範かつVersatile拡張インストラクションチューニング

WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation ( http://arxiv.org/abs/2312.14187v3 )

ライセンス: Link先を確認
Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu, Qiufeng Yin(参考訳) 最近の研究は、高品質な命令データセットに微調整された後、様々なタスクに対処する印象的な能力が得られることを示した。 しかし、既存の命令データ生成手法はしばしば重複データを生成し、データ品質を十分に制御できない。 本稿では,命令データを4つのコード関連タスクに分類することで,命令チューニングの一般化を拡張し,オープンソースコードから多種多様な高品質な命令データを生成するLLMベースのジェネレータデータ処理フレームワークを提案する。 そこで我々は,4つの普遍的なコード関連タスクにまたがる20,000の命令インスタンスからなるデータセットであるCodeOceanを紹介した。 次に、WidespreadとVersatile拡張命令チューニングを備えた微調整コードLLMであるWaveCoderを紹介する。 このモデルは、特にコード言語モデル(llms)の命令チューニングを強化するために設計されている。 我々の実験では、Wavecoderモデルは、異なるコード関連タスクを同じレベルの微調整スケールで一般化する能力において、他のオープンソースモデルよりも優れていることを示した。 さらに、Wavecoderは、以前のコード生成タスクで高い効率を示す。 そこで本稿では,命令データ生成と微調整モデルに多大な貢献を行い,コード関連タスクのパフォーマンス向上のための新たな洞察とツールを提供する。

Recent work demonstrates that, after being fine-tuned on a high-quality instruction dataset, the resulting model can obtain impressive capabilities to address a wide range of tasks. However, existing methods for instruction data generation often produce duplicate data and are not controllable enough on data quality. In this paper, we extend the generalization of instruction tuning by classifying the instruction data to 4 code-related tasks and propose a LLM-based Generator-Discriminator data process framework to generate diverse, high-quality instruction data from open source code. Hence, we introduce CodeOcean, a dataset comprising 20,000 instruction instances across 4 universal code-related tasks,which is aimed at augmenting the effectiveness of instruction tuning and improving the generalization ability of fine-tuned model. Subsequently, we present WaveCoder, a fine-tuned Code LLM with Widespread And Versatile Enhanced instruction tuning. This model is specifically designed for enhancing instruction tuning of Code Language Models (LLMs). Our experiments demonstrate that Wavecoder models outperform other open-source models in terms of generalization ability across different code-related tasks at the same level of fine-tuning scale. Moreover, Wavecoder exhibits high efficiency in previous code generation tasks. This paper thus offers a significant contribution to the field of instruction data generation and fine-tuning models, providing new insights and tools for enhancing performance in code-related tasks.
翻訳日:2024-01-13 02:42:23 公開日:2024-01-11
# 量子作用素代数の相互平均非可換性

Mutual averaged non-commutativity of quantum operator algebras ( http://arxiv.org/abs/2312.14019v2 )

ライセンス: Link先を確認
Paolo Zanardi(参考訳) 同じヒルベルト空間上で作用する量子作用素の2つの代数の間の非可換性の基本的な測度を導入する。 この量は、Mutual Averaged Non-commutativity (MAN) と呼ばれ、量子スクランブルとカオスの研究に使用される平均値のアウト・オブ・タイム・オーダー・コレレータの単純な一般化である。 MAN は可換作用素のハール平均二乗ノルムで定義され、ある種の代数はエントロピック性を示す。 特に、2つの代数が一致するとき、対応するセルフマンをヒルベルト空間分解の構造データを用いて完全に計算することができる。 MANの特性と境界は一般に確立されており、いくつかの具体例が議論されている。 注目すべきは、因子と最大アーベル要素を含む重要な代数のクラスに対して、MAN は代数射影 CP-写像の項で表せることである。 後者が物理過程として実行可能であると仮定すると、一対の代数のMANを直接推定する操作プロトコルを考案することができる。

We introduce an elementary measure of non-commutativity between two algebras of quantum operators acting on the same Hilbert space. This quantity, which we call Mutual Averaged Non-commutativity (MAN), is a simple generalization of a type of averaged Out-of-Time-Order-Correlators used in the study of quantum scrambling and chaos. MAN is defined by a Haar averaged squared norm of a commutator and for some types of algebras is manifestly of entropic nature. In particular, when the two algebras coincide the corresponding self-MAN can be fully computed in terms of the structural data of the associated Hilbert space decomposition. Properties and bounds of MAN are established in general and several concrete examples are discussed. Remarkably, for an important class of algebras, -- which includes factors and maximal abelian ones -- MAN can be expressed in the terms of the algebras projections CP-maps. Assuming that the latter can be enacted as physical processes, one can devise operational protocols to directly estimate the MAN of a pair of algebras.
翻訳日:2024-01-13 02:42:01 公開日:2024-01-11
# 条件付きコード拡散による3次元顔生成

Controllable 3D Face Generation with Conditional Style Code Diffusion ( http://arxiv.org/abs/2312.13941v2 )

ライセンス: Link先を確認
Xiaolong Shen, Jianxin Ma, Chang Zhou, Zongxin Yang(参考訳) 与えられた条件からフォトリアリスティックな3d顔を生成するのは難しい作業です。 既存の手法では、1対1の最適化に時間を要することが多く、同じ分散コンテンツ、例えば顔のモデリングには効率的ではない。 さらに、理想的な3次元顔生成モデルは、顔の属性と表情の両方を考慮すべきである。 そこで本研究では,Tex-Face(TExt & Expression-to-Face)と呼ばれる新しいアプローチを提案し,タスクを3次元GAN変換,条件付きスタイルコード拡散,3次元顔デコーディングという3つのコンポーネントに分割する。 3D GANインバージョンでは,スタイルコード表現の強化と3Dの不整合の緩和を目的とした2つの手法を導入する。 さらに,スタイルコードに複数の条件を組み込むスタイルコードデノイザを設計し,組合わせの不十分なビジュアル言語データの問題に対処するためのデータ拡張戦略を提案する。 ffhq、celeba-hq、celeba-dialogで行った広範囲の実験は、フォトリアリスティックな3d顔の効率的かつ制御可能な生成を達成するためのtex-faceの有望な性能を示している。 コードはhttps://github.com/sxl142/TEx-Faceで入手できる。

Generating photorealistic 3D faces from given conditions is a challenging task. Existing methods often rely on time-consuming one-by-one optimization approaches, which are not efficient for modeling the same distribution content, e.g., faces. Additionally, an ideal controllable 3D face generation model should consider both facial attributes and expressions. Thus we propose a novel approach called TEx-Face(TExt & Expression-to-Face) that addresses these challenges by dividing the task into three components, i.e., 3D GAN Inversion, Conditional Style Code Diffusion, and 3D Face Decoding. For 3D GAN inversion, we introduce two methods which aim to enhance the representation of style codes and alleviate 3D inconsistencies. Furthermore, we design a style code denoiser to incorporate multiple conditions into the style code and propose a data augmentation strategy to address the issue of insufficient paired visual-language data. Extensive experiments conducted on FFHQ, CelebA-HQ, and CelebA-Dialog demonstrate the promising performance of our TEx-Face in achieving the efficient and controllable generation of photorealistic 3D faces. The code will be available at https://github.com/sxl142/TEx-Face.
翻訳日:2024-01-13 02:41:43 公開日:2024-01-11
# 画像の超解像:convformerに基づく効率的なアプローチ

Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach ( http://arxiv.org/abs/2401.05633v1 )

ライセンス: Link先を確認
Gang Wu, Junjun Jiang, Junpeng Jiang, Xianming Liu(参考訳) シングルイメージ超解像(SISR)の最近の進歩は目覚ましい性能を達成しているが、これらの手法の計算コストは、資源に制約のあるデバイスに展開する上での課題である。 特に変圧器に基づく手法では、そのようなモデルにおける自己保持機構は、かなりの計算コストを発生させながら大きなブレークスルーをもたらす。 この問題に対処するために,コンボリューショナルトランスフォーマー層(ConvFormer)とコンボフォーマーをベースとしたスーパーリゾリューションネットワーク(CFSR)を導入する。 詳細は、CFSRは機能ミキサーとして大きなカーネルの畳み込みを活用し、長距離依存や広範囲の受容場を計算コストで効率的にモデル化する。 さらに、EFNとして単純化されたエッジ保存フィードフォワードネットワークを提案し、局所的な特徴集約を取得し、さらに高周波情報を同時に保存する。 大規模実験により、CFSRは既存の軽量SR法と比較して計算コストと性能の高度なトレードオフを達成できることを示した。 ShuffleMixerのような最先端の手法と比較して、提案されたCFSRは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%少ない。 コードと事前訓練されたモデルはhttps://github.com/Aitical/CFSR.comで入手できる。

Recent progress in single-image super-resolution (SISR) has achieved remarkable performance, yet the computational costs of these methods remain a challenge for deployment on resource-constrained devices. Especially for transformer-based methods, the self-attention mechanism in such models brings great breakthroughs while incurring substantial computational costs. To tackle this issue, we introduce the Convolutional Transformer layer (ConvFormer) and the ConvFormer-based Super-Resolution network (CFSR), which offer an effective and efficient solution for lightweight image super-resolution tasks. In detail, CFSR leverages the large kernel convolution as the feature mixer to replace the self-attention module, efficiently modeling long-range dependencies and extensive receptive fields with a slight computational cost. Furthermore, we propose an edge-preserving feed-forward network, simplified as EFN, to obtain local feature aggregation and simultaneously preserve more high-frequency information. Extensive experiments demonstrate that CFSR can achieve an advanced trade-off between computational cost and performance when compared to existing lightweight SR methods. Compared to state-of-the-art methods, e.g. ShuffleMixer, the proposed CFSR achieves 0.39 dB gains on Urban100 dataset for x2 SR task while containing 26% and 31% fewer parameters and FLOPs, respectively. Code and pre-trained models are available at https://github.com/Aitical/CFSR.
翻訳日:2024-01-13 01:47:49 公開日:2024-01-11
# 自然言語による方言の自然言語処理に関する調査

Natural Language Processing for Dialects of a Language: A Survey ( http://arxiv.org/abs/2401.05632v1 )

ライセンス: Link先を確認
Aditya Joshi, Raj Dabre, Diptesh Kanojia, Zhuang Li, Haolan Zhan, Gholamreza Haffari, Doris Dippold(参考訳) 最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。 この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。 方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々は,データセットの観点からのNLPにおける過去の研究を調査した。 自然言語理解(NLU)(方言分類,感情分析,構文解析,NLUベンチマークなどのタスク)と自然言語生成(NLG)(要約,機械翻訳,対話システム)の2つのカテゴリに分類される。 この調査はまた、英語、アラビア語、ドイツ語などを含む言語をカバーしている。 我々は,NLPにおける方言に関する過去の研究が単なる方言分類よりも深くなっていることを観察する。 これには、ハイパーネットワークをloraに統合する最近のアプローチにつながる文変換を使った初期のアプローチが含まれている。 この調査は,LLMベンチマークやモデルアーキテクチャを再考することによって,公平な言語技術の構築に関心を持つNLP研究者にとって有用なものになるだろう。

State-of-the-art natural language processing (NLP) models are trained on massive training corpora, and report a superlative performance on evaluation datasets. This survey delves into an important attribute of these datasets: the dialect of a language. Motivated by the performance degradation of NLP models for dialectic datasets and its implications for the equity of language technologies, we survey past research in NLP for dialects in terms of datasets, and approaches. We describe a wide range of NLP tasks in terms of two categories: natural language understanding (NLU) (for tasks such as dialect classification, sentiment analysis, parsing, and NLU benchmarks) and natural language generation (NLG) (for summarisation, machine translation, and dialogue systems). The survey is also broad in its coverage of languages which include English, Arabic, German among others. We observe that past work in NLP concerning dialects goes deeper than mere dialect classification, and . This includes early approaches that used sentence transduction that lead to the recent approaches that integrate hypernetworks into LoRA. We expect that this survey will be useful to NLP researchers interested in building equitable language technologies by rethinking LLM benchmarks and model architectures.
翻訳日:2024-01-13 01:47:21 公開日:2024-01-11
# DrawTalking: スケッチと講演によるインタラクティブな世界の構築

DrawTalking: Building Interactive Worlds by Sketching and Speaking ( http://arxiv.org/abs/2401.05631v1 )

ライセンス: Link先を確認
Karl Toby Rosenberg, Rubaiat Habib Kazi, Li-Yi Wei, Haijun Xia, Ken Perlin(参考訳) 本稿では,ユーザがスケッチや会話によってインタラクティブな世界を構築する,インタラクティブなアプローチであるDrawTalkingを紹介する。 ユーザコントロールと柔軟性を強調し、コードなしでプログラミングのような機能を提供する。 私たちはそれをipadに実装した。 開放された研究は、力学が共鳴し、多くの創造的探索的ユースケースに適用できることを示した。 私たちは、将来の自然なユーザー中心インターフェースの研究を刺激し、インフォメーションしたいと考えています。

We introduce an interactive approach, DrawTalking, in which the user builds interactive worlds by sketching and speaking. It emphasizes user control and flexibility, and gives programming-like capability without code. We implemented it on the iPad. An open-ended study shows the mechanics resonate and are applicable to many creative-exploratory use cases. We hope to inspire and inform research in future natural user-centered interfaces.
翻訳日:2024-01-13 01:47:01 公開日:2024-01-11
# 複雑な安全制約と限定動作下における性能指向制御バリア関数の学習

Learning Performance-Oriented Control Barrier Functions Under Complex Safety Constraints and Limited Actuation ( http://arxiv.org/abs/2401.05629v1 )

ライセンス: Link先を確認
Shaoru Chen, Mahyar Fazlyab(参考訳) 制御バリア関数(CBF)は、所定の安全集合の不変部分集合に軌道を拘束することで非線形制御系の安全フィルタを設計するためのエレガントなフレームワークを提供する。 しかし、複雑な安全制約(特にアクティベーション制約のある高相対度システム)を伴いながら、結果として生じる制御不変量の体積を同時に最大化するCBFを見つけるという課題は、大きな課題である。 本研究では,これらのハードルに直感的に対処する自己教師型学習フレームワークを提案する。 セーフ集合を定義する複数の状態制約のブール構成を考えると、我々のアプローチは、0-超レベル集合がセーフ集合の内部近似を与える単一の連続微分可能関数を構築することから始める。 次に、この関数とスムーズなニューラルネットワークを用いてCBF候補をパラメータ化する。 最後に,hamilton-jacobi偏微分方程式に基づくトレーニング損失関数の設計を行い,誘導制御不変量の体積を増加させながらcbfを訓練する。 本手法の有効性を数値実験により実証する。

Control Barrier Functions (CBFs) provide an elegant framework for designing safety filters for nonlinear control systems by constraining their trajectories to an invariant subset of a prespecified safe set. However, the task of finding a CBF that concurrently maximizes the volume of the resulting control invariant set while accommodating complex safety constraints, particularly in high relative degree systems with actuation constraints, continues to pose a substantial challenge. In this work, we propose a novel self-supervised learning framework that holistically addresses these hurdles. Given a Boolean composition of multiple state constraints that define the safe set, our approach starts with building a single continuously differentiable function whose 0-superlevel set provides an inner approximation of the safe set. We then use this function together with a smooth neural network to parameterize the CBF candidate. Finally, we design a training loss function based on a Hamilton-Jacobi partial differential equation to train the CBF while enlarging the volume of the induced control invariant set. We demonstrate the effectiveness of our approach via numerical experiments.
翻訳日:2024-01-13 01:46:55 公開日:2024-01-11
# Face-GPS:ビデオの顔面筋のダイナミクスを総合的に定量化する技術

Face-GPS: A Comprehensive Technique for Quantifying Facial Muscle Dynamics in Videos ( http://arxiv.org/abs/2401.05625v1 )

ライセンス: Link先を確認
Juni Kim, Zhikang Dong, Pawel Polak(参考訳) 本稿では,スマートフォンで撮影した映像から顔の筋活動を定量化するために,微分幾何学,カーネル平滑化,スペクトル解析を組み合わせた新しい手法を提案する。 私たちのアプローチは実用性とアクセシビリティを強調します。 国家の安全とプラスティック手術の応用には大きな可能性を秘めている。 さらに、脳卒中、ベル麻痺、音響神経腫などの医療状況の遠隔診断とモニタリングも提供する。 さらに、感情の検出や分類をオーバートから微妙なものまで行うのが得意である。 顔面筋分析法は深層学習法に代わる説明可能な方法であり, 顔面筋電図(fEMG)の非侵襲的代替手段である。

We introduce a novel method that combines differential geometry, kernels smoothing, and spectral analysis to quantify facial muscle activity from widely accessible video recordings, such as those captured on personal smartphones. Our approach emphasizes practicality and accessibility. It has significant potential for applications in national security and plastic surgery. Additionally, it offers remote diagnosis and monitoring for medical conditions such as stroke, Bell's palsy, and acoustic neuroma. Moreover, it is adept at detecting and classifying emotions, from the overt to the subtle. The proposed face muscle analysis technique is an explainable alternative to deep learning methods and a non-invasive substitute to facial electromyography (fEMG).
翻訳日:2024-01-13 01:46:36 公開日:2024-01-11
# 干渉型ブラッグ回折効果を用いた圧縮真空状態の周波数チューニング

Frequency tuning of a squeezed vacuum state using interferometric enhanced Bragg diffraction effect ( http://arxiv.org/abs/2401.05619v1 )

ライセンス: Link先を確認
Qiqi Deng, Wenqi Li, Xueshi Guo, Xiaoying Li(参考訳) 音響光学変調器を用いた2周波干渉計を用いて、光パラメトリック発振器から発生する圧縮真空状態の光周波数チューニングを実験的に実証した。 周波数チューニング装置の系統的効率は91\%$であり、これは音響光学変調器の光伝送効率によってのみ制限される。 周波数チューニングの量は80MHzであり、これは圧縮された状態を生成するために使用されるレーザーのライン幅よりも桁違い大きく、原理的にはGHz範囲まで拡張することができる。 本研究は,干渉係数の強化ブラッグ回折効果が他の様々な量子光学状態にも応用可能であり,量子ネットワークの便利なツールとなることを示唆する。

We experimentally demonstrate the optical frequency tuning of a squeezed vacuum state generated from an optical parametric oscillator by using an acousto-optic modulator based bi-frequency interferometer. The systematic efficiency of the frequency tuning device is $91\%$, which is only confined by the optical transmission efficiency of the acousto-optic modulators. The amount of frequency tuning is 80 MHz, which is orders of magnitude larger than the line-width of the laser used to generate the squeezed state, and can in principle be further extended to GHz range. Our investigation shows the interferometric enhanced Bragg diffraction effect can be applied to a variety of other quantum optical states as well, and will serve as a handy tool for quantum network.
翻訳日:2024-01-13 01:46:24 公開日:2024-01-11
# 大規模言語モデルの問題解決における簡潔な思考連鎖の効果

The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models ( http://arxiv.org/abs/2401.05618v1 )

ライセンス: Link先を確認
Matthew Renze and Erhan Guven(参考訳) 本稿では,CCoT(Concise Chain-of-Thought)プロンプトについて紹介する。 我々は、標準のCoTとCCoTのプロンプトを比較し、応答長と正解精度に精度がどう影響するかを調べた。 GPT-3.5とGPT-4をMCQAベンチマークで評価した。 CCoTはGPT-3.5とGPT-4の両方で平均応答長を48.70%削減した。 しかし数学の問題では、GPT-3.5とCCoTは27.69%のペナルティを課している。 全体として、CCoTはトーケン当たりの平均コストを22.67%削減する。 これらの結果は、LLMを用いたAIシステムエンジニアが、CoTプロンプトエンジニアリング技術を用いて現実世界の問題を解決するための実践的な意味を持つ。 さらに、これらの結果は、LLMにおけるステップバイステップ推論の創発的振る舞いを研究するAI研究者にとって、より一般的な洞察を提供する。

In this paper, we introduce Concise Chain-of-Thought (CCoT) prompting. We compared standard CoT and CCoT prompts to see how conciseness impacts response length and correct-answer accuracy. We evaluated this using GPT-3.5 and GPT-4 with a multiple-choice question-and-answer (MCQA) benchmark. CCoT reduced average response length by 48.70% for both GPT-3.5 and GPT-4 while having a negligible impact on problem-solving performance. However, on math problems, GPT-3.5 with CCoT incurs a performance penalty of 27.69%. Overall, CCoT leads to an average per-token cost reduction of 22.67%. These results have practical implications for AI systems engineers using LLMs to solve real-world problems with CoT prompt-engineering techniques. In addition, these results provide more general insight for AI researchers studying the emergent behavior of step-by-step reasoning in LLMs.
翻訳日:2024-01-13 01:46:10 公開日:2024-01-11
# 一般化量子ラビモデルの解析近似

Analytical approximations for generalized quantum Rabi models ( http://arxiv.org/abs/2401.05615v1 )

ライセンス: Link先を確認
Chon-Fai Kam and Yang Chen(参考訳) 量子ラビモデルは相互作用する量子系を理解するのに不可欠である。 これは2レベルシステムとボソニック場の単一モードの相互作用を記述する最も単純な非可積分だが可解なモデルとして機能する。 本研究では,場のボソニックモードがスクイーズを受ける一般化量子ラビモデルの探索について考察する。 無限次元ヒルベルト空間のセガル・バルグマン表現を用いて、一般化された量子ラビモデルのエネルギースペクトルは、ラビ結合強度とスクイーズ強度の両方がフィールドモード周波数に比べて著しく大きくない場合、0 と 1 の2つの正則特異点と無限大のランク2の不規則特異点を持つ二流フクシアン方程式で解析的に決定できることを示した。

The quantum Rabi model is essential for understanding interacting quantum systems. It serves as the simplest non-integrable yet solvable model describing the interaction between a two-level system and a single mode of a bosonic field. In this study, we delve into the exploration of the generalized quantum Rabi model, wherein the bosonic mode of the field undergoes squeezing. Utilizing the Segal-Bargmann representation of the infinite-dimensional Hilbert space, we demonstrate that the energy spectrum of the generalized quantum Rabi model, when both the Rabi coupling strength and the squeezing strength are not significantly large compared to the field mode frequency, can be analytically determined by a bi-confluent Fuchsian equation with two regular singularities at 0 and 1 and an irregular singularity of rank two at infinity.
翻訳日:2024-01-13 01:45:57 公開日:2024-01-11
# 組合せ最適化のためのグラフq学習

Graph Q-Learning for Combinatorial Optimization ( http://arxiv.org/abs/2401.05610v1 )

ライセンス: Link先を確認
Victoria M. Dax, Jiachen Li, Kevin Leahy, Mykel J. Kochenderfer(参考訳) グラフ構造化データは、自然科学や社会科学で広く利用されており、グラフニューラルネットワーク(GNN)はグラフデータの予測と推論の問題を解決するのに有効であることが最近示されている。 本稿では,GNN が Combinatorial Optimization (CO) 問題に応用可能であることを示す。 CO は、しばしば非常に大きい離散解空間上の関数を最適化する。 CO問題の解法を学習するために、最適化過程を逐次決定問題として定式化し、最適解が最適解にどの程度近いかに回帰する。 私たちは、GNNを使って、ますます有望な候補ソリューションを反復的に構築するポリシーを学びます。 本稿では,q-learningで学習したgnnが,パラメータとトレーニング時間のほんの一部を使って,最先端のヒューリスティックベースソルバに接近するパフォーマンスのco問題を解決できることの予備的証拠を示す。

Graph-structured data is ubiquitous throughout natural and social sciences, and Graph Neural Networks (GNNs) have recently been shown to be effective at solving prediction and inference problems on graph data. In this paper, we propose and demonstrate that GNNs can be applied to solve Combinatorial Optimization (CO) problems. CO concerns optimizing a function over a discrete solution space that is often intractably large. To learn to solve CO problems, we formulate the optimization process as a sequential decision making problem, where the return is related to how close the candidate solution is to optimality. We use a GNN to learn a policy to iteratively build increasingly promising candidate solutions. We present preliminary evidence that GNNs trained through Q-Learning can solve CO problems with performance approaching state-of-the-art heuristic-based solvers, using only a fraction of the parameters and training time.
翻訳日:2024-01-13 01:45:40 公開日:2024-01-11
# 大規模言語モデルの微調整時の忘れ方に関するスケーリング則

Scaling Laws for Forgetting When Fine-Tuning Large Language Models ( http://arxiv.org/abs/2401.05605v1 )

ライセンス: Link先を確認
Damjan Kalajdzievski(参考訳) 我々は,下流タスクにおける事前学習型大規模言語モデル(llms)の微調整時の忘れ方について検討し,定量化する。 パラメータ効率のよい細調整(PEFT)戦略であるLoRA(Lo-Rank Adapters)が,依然として破滅的な忘れ込みに悩まされていることがわかった。 特に,LORAを用いた微調整LLMにおいて,微調整性能と忘れ量との強い逆線形関係を同定する。 さらに,パラメータの微調整数と更新ステップ数におけるパワー則のシフトとして,増加を忘れることを示す正確なスケーリング則を得る。 また,llama 2 7bチャットでトレーニングされた知識や推論,セーフティガードレールを忘れることの影響についても検討した。 本研究は,早期停止や微調整パラメータ数の変更により,忘れを回避できないことを示唆する。 これは、忘れを緩和する微調整スキームを評価・開発する将来の研究にとって重要な安全クリティカルな方向を開くと信じている。

We study and quantify the problem of forgetting when fine-tuning pre-trained large language models (LLMs) on a downstream task. We find that parameter-efficient fine-tuning (PEFT) strategies, such as Low-Rank Adapters (LoRA), still suffer from catastrophic forgetting. In particular, we identify a strong inverse linear relationship between the fine-tuning performance and the amount of forgetting when fine-tuning LLMs with LoRA. We further obtain precise scaling laws that show forgetting increases as a shifted power law in the number of parameters fine-tuned and the number of update steps. We also examine the impact of forgetting on knowledge, reasoning, and the safety guardrails trained into Llama 2 7B chat. Our study suggests that forgetting cannot be avoided through early stopping or by varying the number of parameters fine-tuned. We believe this opens up an important safety-critical direction for future research to evaluate and develop fine-tuning schemes which mitigate forgetting
翻訳日:2024-01-13 01:45:22 公開日:2024-01-11
# REBUS: シンボル理解のためのロバストな評価ベンチマーク

REBUS: A Robust Evaluation Benchmark of Understanding Symbols ( http://arxiv.org/abs/2401.05604v1 )

ライセンス: Link先を確認
Andrew Gritsevskiy, Arjun Panickssery, Aaron Kirtland, Derik Kauffman, Hans Gundlach, Irina Gritsevskaya, Joe Cavanagh, Jonathan Chiang, Lydia La Roux, Michelle Hung(参考訳) 本稿では,レバスパズルにおけるマルチモーダル大規模言語モデルの性能を評価する新しいベンチマークを提案する。 データセットは、画像ベースのワードプレイのオリジナル例333をカバーし、映画、作曲家、主要都市、食品など13のカテゴリを網羅している。 キーワードやフレーズを識別するベンチマークで優れたパフォーマンスを達成するためには、画像認識と文字列操作を仮説テスト、多段階推論、人間の認知の理解と組み合わせて、複雑なマルチモーダルな機能評価を行う必要がある。 GPT-4VやGemini Proのようなプロプライエタリなモデルは、他のテストモデルよりも大幅に優れています。 しかし、最高のモデルでさえ最終的な精度は24%であり、推論の大幅な改善の必要性を強調している。 さらに、モデルはパズルのすべての部分をほとんど理解せず、ほとんど常に正解を遡って説明できない。 したがって,マルチモーダル大規模言語モデルの知識と推論における大きな欠点を特定するために,ベンチマークを用いることができる。

We propose a new benchmark evaluating the performance of multimodal large language models on rebus puzzles. The dataset covers 333 original examples of image-based wordplay, cluing 13 categories such as movies, composers, major cities, and food. To achieve good performance on the benchmark of identifying the clued word or phrase, models must combine image recognition and string manipulation with hypothesis testing, multi-step reasoning, and an understanding of human cognition, making for a complex, multimodal evaluation of capabilities. We find that proprietary models such as GPT-4V and Gemini Pro significantly outperform all other tested models. However, even the best model has a final accuracy of just 24%, highlighting the need for substantial improvements in reasoning. Further, models rarely understand all parts of a puzzle, and are almost always incapable of retroactively explaining the correct answer. Our benchmark can therefore be used to identify major shortcomings in the knowledge and reasoning of multimodal large language models.
翻訳日:2024-01-13 01:45:03 公開日:2024-01-11
# FoMO, Social Media Addiction, および主観的ノルムがパーソナリティ・モデレーション・コンフィグレーションにどのように影響するか

Exploring How FoMO, Social Media Addiction, and Subjective Norms Influence Personal Moderation Configurations ( http://arxiv.org/abs/2401.05603v1 )

ライセンス: Link先を確認
Shagun Jhaver(参考訳) ソーシャルメディアプラットフォーム上のパーソナルモデレーションツールは、ユーザーがフィードコンテンツの許容毒性閾値を設定するか、不適切なアカウントをミュートすることによってフィードを制御できる。 本研究では、これらのツールのエンドユーザー構成が、欠落を恐れ(FoMO)、ソーシャルメディア中毒、主観的規範、モデレーションシステムに対する信頼の4つの批判的心理社会的要因によってどのように形成されるかを検討する。 1,061人の全国代表者のサンプルから得られた調査結果によると、fomoとソーシャルメディア中毒は、facebookユーザーが不適切な投稿を隠すために個人モデレーションツールを採用する可能性を減らすことによって、コンテンツベースの危害に対してより脆弱になる。 対照的に、記述的および断続的規範はこれらのツールの使用に肯定的に影響を及ぼす。 さらに、Facebookのモデレーションシステムに対する信頼は、個人のモデレーションに対するユーザのエンゲージメントに大きく影響する。 この分析は、FoMOとソーシャルメディア中毒がユーザーに不適切な安全を与え、この課題に対処するための設計とポリシーのソリューションを提供する、質的に異なる経路を強調している。

Personal moderation tools on social media platforms allow users to control their feeds by configuring the acceptable toxicity thresholds for their feed content or muting inappropriate accounts. This research examines how the end-user configuration of these tools is shaped by four critical psychosocial factors - fear of missing out (FoMO), social media addiction, subjective norms, and trust in moderation systems. Findings from a nationally representative sample of 1,061 participants show that FoMO and social media addiction make Facebook users more vulnerable to content-based harms by reducing their likelihood of adopting personal moderation tools to hide inappropriate posts. In contrast, descriptive and injunctive norms positively influence the use of these tools. Further, trust in Facebook's moderation systems also significantly affects users' engagement with personal moderation. This analysis highlights qualitatively different pathways through which FoMO and social media addiction make affected users disproportionately unsafe and offers design and policy solutions to address this challenge.
翻訳日:2024-01-13 01:44:46 公開日:2024-01-11
# モーダリティ間学習を用いた核サブタイプ分類

Nucleus subtype classification using inter-modality learning ( http://arxiv.org/abs/2401.05602v1 )

ライセンス: Link先を確認
Lucas W. Remedios, Shunxing Bao, Samuel W. Remedios, Ho Hin Lee, Leon Y. Cai, Thomas Li, Ruining Deng, Can Cui, Jia Li, Qi Liu, Ken S. Lau, Joseph T. Roland, Mary K. Washington, Lori A. Coburn, Keith T. Wilson, Yuankai Huo, Bennett A. Landman(参考訳) 細胞間のコミュニケーションの仕方を理解することは、人間の生理学を理解するのに不可欠である。 ヘマトキシリンとエオシン(H&E)染色は臨床研究と研究の両方に広く利用されている。 Colon Nucleus Identification and Classification (CoNIC) Challengeは、最近、大腸のH&E染色に6つの細胞タイプをラベル付けした堅牢な人工知能を革新した。 しかし、これは潜在的な細胞分類の数のごく一部である。 特に、CoNIC Challengeは上皮サブタイプ(前駆体、内分泌細胞、ゴブレット)、リンパ球サブタイプ(B、ヘルパーT、細胞傷害性T)、結合サブタイプ(線維芽細胞、間質)を分類できない。 本稿では,仮想H&E上でラベル付け不可能なセルタイプをラベル付けするために,モーダリティ間学習を提案する。 我々はmxif(multiplexed immunofluorescence)組織像を用いて14種類の細胞タイプを同定した。 我々は、MxIFから仮想H&Eを合成するためのスタイル転送を行い、MxIFからこれらの仮想H&E画像へ高密度ラベルを転送した。 このアプローチで学習の有効性を評価した。 仮想H&EではヘルパーTと前駆体核をそれぞれ0.34 \pm 0.15$ (prevalence $0.03 \pm 0.01$) と$0.47 \pm 0.1$ (prevalence $0.07 \pm 0.02$) の正の予測値で同定した。 このアプローチは、デジタル病理学におけるアノテーションの自動化に向けた有望なステップである。

Understanding the way cells communicate, co-locate, and interrelate is essential to understanding human physiology. Hematoxylin and eosin (H&E) staining is ubiquitously available both for clinical studies and research. The Colon Nucleus Identification and Classification (CoNIC) Challenge has recently innovated on robust artificial intelligence labeling of six cell types on H&E stains of the colon. However, this is a very small fraction of the number of potential cell classification types. Specifically, the CoNIC Challenge is unable to classify epithelial subtypes (progenitor, endocrine, goblet), lymphocyte subtypes (B, helper T, cytotoxic T), or connective subtypes (fibroblasts, stromal). In this paper, we propose to use inter-modality learning to label previously un-labelable cell types on virtual H&E. We leveraged multiplexed immunofluorescence (MxIF) histology imaging to identify 14 subclasses of cell types. We performed style transfer to synthesize virtual H&E from MxIF and transferred the higher density labels from MxIF to these virtual H&E images. We then evaluated the efficacy of learning in this approach. We identified helper T and progenitor nuclei with positive predictive values of $0.34 \pm 0.15$ (prevalence $0.03 \pm 0.01$) and $0.47 \pm 0.1$ (prevalence $0.07 \pm 0.02$) respectively on virtual H&E. This approach represents a promising step towards automating annotation in digital pathology.
翻訳日:2024-01-13 01:44:27 公開日:2024-01-11
# POMP:低リソース非教師型ニューラルネットワーク翻訳におけるLCMのための確率駆動型メタグラフプロンプタ

POMP: Probability-driven Meta-graph Prompter for LLMs in Low-resource Unsupervised Neural Machine Translation ( http://arxiv.org/abs/2401.05596v1 )

ライセンス: Link先を確認
Shilong Pan, Zhiliang Tian, Liang Ding, Zhen Huang, Zhihua Wen, Dongsheng Li(参考訳) 低リソース言語(LRL)は、限られた並列データによる教師ありニューラルマシン翻訳の課題に直面し、教師なしの手法の研究を促す。 バックトランスレーション、トランスファーラーニング、ピボットベースの翻訳を含むunsupervised neural machine translation (UNMT)メソッドは、LRL翻訳の実用的なソリューションを提供するが、これらは合成データノイズ、言語バイアス、エラー伝播といった問題によって妨げられ、大きな言語モデル(LLM)によって緩和される可能性がある。 LLMは、ICL(in-context learning)と教師付き微調整法により高度なNMTを実現しているが、LRLの性能は低下する。 LLMは言語ノイズを補助言語で軽減し、LRLの翻訳を改善することができる。 本稿では,複数の補助言語からなる動的サンプリングベースグラフを用いて,LRLのLLM翻訳能力を向上する,確率駆動型メタグラフプロンプタ(POMP)を提案する。 POMPは、各ソース言語に対して有向非巡回メタグラフを構築し、複数の経路を動的にサンプリングし、言語ノイズを緩和し、訓練中に翻訳を改善する。 BLEURT測定値を用いて、スコアによって推定される翻訳とバックプロパゲート報酬を評価し、パス内の補助言語の確率を更新する。 本実験は3つのLRLの翻訳品質を大幅に改善し,本手法の有効性を示した。

Low-resource languages (LRLs) face challenges in supervised neural machine translation due to limited parallel data, prompting research into unsupervised methods. Unsupervised neural machine translation (UNMT) methods, including back-translation, transfer learning, and pivot-based translation, offer practical solutions for LRL translation, but they are hindered by issues like synthetic data noise, language bias, and error propagation, which can potentially be mitigated by Large Language Models (LLMs). LLMs have advanced NMT with in-context learning (ICL) and supervised fine-tuning methods, but insufficient training data results in poor performance in LRLs. We argue that LLMs can mitigate the linguistic noise with auxiliary languages to improve translations in LRLs. In this paper, we propose Probability-driven Meta-graph Prompter (POMP), a novel approach employing a dynamic, sampling-based graph of multiple auxiliary languages to enhance LLMs' translation capabilities for LRLs. POMP involves constructing a directed acyclic meta-graph for each source language, from which we dynamically sample multiple paths to prompt LLMs to mitigate the linguistic noise and improve translations during training. We use the BLEURT metric to evaluate the translations and back-propagate rewards, estimated by scores, to update the probabilities of auxiliary languages in the paths. Our experiments show significant improvements in the translation quality of three LRLs, demonstrating the effectiveness of our approach.
翻訳日:2024-01-13 01:43:59 公開日:2024-01-11
# 満足度チェックによる標準要件の分析とデバッグ

Analyzing and Debugging Normative Requirements via Satisfiability Checking ( http://arxiv.org/abs/2401.05673v1 )

ライセンス: Link先を確認
Nick Feng, Lina Marsso, Sinem Getir Yaman, Yesugen Baatartogtokh, Reem Ayad, Vict\'oria Oldemburgo de Mello, Beverley Townsend, Isobel Standen, Ioannis Stefanakos, Calum Imrie, Gena\'ina Nunes Rodrigues, Ana Cavalcanti, Radu Calinescu, Marsha Chechik(参考訳) ソフトウェアシステムが輸送や医療といったアプリケーション領域で人間と対話するようになると、利害関係者の社会的、法的、倫理的、共感的、文化的(SLEEC)規範や価値に関する懸念が高まる。 規範的非機能要件(N-NFR)は、システムの振る舞いにSLEEC関連境界を設定することによってこれらの懸念を捉えるために用いられる。 N-NFRは、広く異なる技術的専門知識(倫理学者、弁護士、規制当局、エンドユーザなど)を持つ複数の利害関係者によって特定する必要があるため、N-NFRの実施は非常に困難である。 N-Checkは,N-NFR解析とデバッギングのための新しいツールサポート形式である。 N-Checkは、紛争、冗長性、制限性、不十分性などの幅広いN-NFRの健康状態問題(WFI)の特定に満足度チェックを採用し、非技術ステークホルダーが理解し修正できるように、ユーザフレンドリーな方法で原因を特定できる診断を与える。 本研究は,n-checkを用いて233個のn-nfrの分析とデバッグを行い,支援型ロボットや樹木病検出ドローンから協調型ロボットの製作まで,システムの運用を基盤とするソフトウェアを62の課題から構成した9つの事例を通して,倫理学者,弁護士,哲学者,心理学者,心理学者,安全アナリスト,技術者のチームが実施した。

As software systems increasingly interact with humans in application domains such as transportation and healthcare, they raise concerns related to the social, legal, ethical, empathetic, and cultural (SLEEC) norms and values of their stakeholders. Normative non-functional requirements (N-NFRs) are used to capture these concerns by setting SLEEC-relevant boundaries for system behavior. Since N-NFRs need to be specified by multiple stakeholders with widely different, non-technical expertise (ethicists, lawyers, regulators, end users, etc.), N-NFR elicitation is very challenging. To address this challenge, we introduce N-Check, a novel tool-supported formal approach to N-NFR analysis and debugging. N-Check employs satisfiability checking to identify a broad spectrum of N-NFR well-formedness issues (WFI), such as conflicts, redundancy, restrictiveness, insufficiency, yielding diagnostics which pinpoint their causes in a user-friendly way that enables non-technical stakeholders to understand and fix them. We show the effectiveness and usability of our approach through nine case studies in which teams of ethicists, lawyers, philosophers, psychologists, safety analysts, and engineers used N-Check to analyse and debug 233 N-NFRs comprising 62 issues for the software underpinning the operation of systems ranging from assistive-care robots and tree-disease detection drones to manufacturing collaborative robots.
翻訳日:2024-01-12 19:58:56 公開日:2024-01-11
# ConcEPT: 概念強化された言語モデルの事前学習

ConcEPT: Concept-Enhanced Pre-Training for Language Models ( http://arxiv.org/abs/2401.05669v1 )

ライセンス: Link先を確認
Xintao Wang, Zhouhong Gu, Jiaqing Liang, Dakuan Lu, Yanghua Xiao, Wei Wang(参考訳) 自然言語処理の最先端手法として,事前学習型言語モデル (PLM) が普及しており,知識集約型タスクにおけるモデル性能向上のために,知識強化型PLMも提案されている。 しかし、人間の認知に欠かせない知識である概念的知識は、この研究にはまだ未研究のままである。 これは、人間のような認知を必要とするシナリオにおけるPLMのパフォーマンスを制限する。 本稿では,言語モデルのための概念拡張事前学習のためのConcEPTを提案し,概念知識をPLMに注入する。 ConcEPTは、事前学習の文脈で言及されるエンティティの概念を予測する新しい事前学習目標であるエンティティ概念予測と共に外部分類学を利用する。 従来の概念強化手法とは異なり、ConcEPTはエンティティリンクや概念マッピングなしで、容易に様々な下流アプリケーションに適応できる。 実験の結果,ConcEPTがエンティティタイピングなどの4つのタスクにおいて有効であることを示し,モデルが概念強化事前学習による概念知識の向上を実証した。

Pre-trained language models (PLMs) have been prevailing in state-of-the-art methods for natural language processing, and knowledge-enhanced PLMs are further proposed to promote model performance in knowledge-intensive tasks. However, conceptual knowledge, one essential kind of knowledge for human cognition, still remains understudied in this line of research. This limits PLMs' performance in scenarios requiring human-like cognition, such as understanding long-tail entities with concepts. In this paper, we propose ConcEPT, which stands for Concept-Enhanced Pre-Training for language models, to infuse conceptual knowledge into PLMs. ConcEPT exploits external taxonomies with entity concept prediction, a novel pre-training objective to predict the concepts of entities mentioned in the pre-training contexts. Unlike previous concept-enhanced methods, ConcEPT can be readily adapted to various downstream applications without entity linking or concept mapping. Results of extensive experiments show the effectiveness of ConcEPT in four tasks such as entity typing, which validates that our model gains improved conceptual knowledge with concept-enhanced pre-training.
翻訳日:2024-01-12 19:58:27 公開日:2024-01-11
# COVID-19パンデミックにおける人的参加者によるソフトウエアエンジニアリング研究の課題,適応,展開のメリット

Challenges, Adaptations, and Fringe Benefits of Conducting Software Engineering Research with Human Participants during the COVID-19 Pandemic ( http://arxiv.org/abs/2401.05668v1 )

ライセンス: Link先を確認
Anuradha Madugalla, Tanjila Kanij, Rashina Hoda, Dulaji Hidellaarachchi, Aastha Pant, Samia Ferdousi, John Grundy(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、私たちの生活、仕事、そして研究のやり方を変えました。 ロックダウンと社会的距離の制限により、多くのソフトウェア工学研究者が様々な影響を経験した。 この影響の程度を理解するために,様々な手法による研究を行った。 89人のソフトウェア工学研究者が世界中の参加者と協力し、さらに9つのフォローアップインタビューを行った結果、パンデミックで直面した主な課題、適応、そして、パンデミック時に人間の参加者を含む調査を行うことによる驚くほどのフリンジメリットが明らかになった。 また,多くの研究者は,従来の人間指向研究の実施方法への回帰を望んでいなかった。 分析と洞察に基づき, 対面の参加が不可能であったり, 遠隔参加が望ましいようなハイブリッド社会において, 人間との遠隔研究を効果的に行うための推奨事項を提示する。

The COVID-19 pandemic changed the way we live, work and the way we conduct research. With the restrictions of lockdowns and social distancing, various impacts were experienced by many software engineering researchers, especially whose studies depend on human participants. We conducted a mixed methods study to understand the extent of this impact. Through a detailed survey with 89 software engineering researchers working with human participants around the world and a further nine follow-up interviews, we identified the key challenges faced, the adaptations made, and the surprising fringe benefits of conducting research involving human participants during the pandemic. Our findings also revealed that in retrospect, many researchers did not wish to revert to the old ways of conducting human-oriented research. Based on our analysis and insights, we share recommendations on how to conduct remote studies with human participants effectively in an increasingly hybrid world when face-to-face engagement is not possible or where remote participation is preferred.
翻訳日:2024-01-12 19:58:09 公開日:2024-01-11
# esacl: スパースモデルの効率的な連続学習

EsaCL: Efficient Continual Learning of Sparse Models ( http://arxiv.org/abs/2401.05667v1 )

ライセンス: Link先を確認
Weijieying Ren, Vasant G Honavar(参考訳) 継続的学習環境における鍵となる課題は、事前に学習したタスクの実行方法を忘れずに、タスクのシーケンスを効率的に学習することである。 この問題に対する既存のアプローチの多くは、以前のタスクでモデルをトレーニングするか、新しいタスクに対応するようにモデルを拡張することによって機能する。 しかし、これらのアプローチは一般的にストレージと計算要求の増大に悩まされ、スパー化後の高価な再訓練を必要とするため、スパースモデルでは悪化する。 この課題に対処するために,モデルの予測能力に悪影響を及ぼすことなく冗長パラメータを自動生成し,再学習の必要性を回避する,スパースモデル(EsaCL)の効率的な連続学習手法を提案する。 本研究では,パラメータのプルーニングによる損失景観の理論的解析を行い,モデルパラメータに対する損失関数のシャープさから得られる方向性プルーニング(SDP)戦略を設計する。 SDPは、予測精度の損失を最小限に抑え、各段階でスパースモデルの学習を加速する。 モデル更新を高速化するために、ロスランドスケープを推定するための重要なインスタンスを識別し、データ効率を大幅に改善するインテリジェントデータ選択(IDS)戦略を導入する。 実験の結果,EsaCLは3つの連続学習ベンチマークにおける最先端手法と競合する性能を実現し,メモリと計算資源を大幅に削減した。

A key challenge in the continual learning setting is to efficiently learn a sequence of tasks without forgetting how to perform previously learned tasks. Many existing approaches to this problem work by either retraining the model on previous tasks or by expanding the model to accommodate new tasks. However, these approaches typically suffer from increased storage and computational requirements, a problem that is worsened in the case of sparse models due to need for expensive re-training after sparsification. To address this challenge, we propose a new method for efficient continual learning of sparse models (EsaCL) that can automatically prune redundant parameters without adversely impacting the model's predictive power, and circumvent the need of retraining. We conduct a theoretical analysis of loss landscapes with parameter pruning, and design a directional pruning (SDP) strategy that is informed by the sharpness of the loss function with respect to the model parameters. SDP ensures model with minimal loss of predictive accuracy, accelerating the learning of sparse models at each stage. To accelerate model update, we introduce an intelligent data selection (IDS) strategy that can identify critical instances for estimating loss landscape, yielding substantially improved data efficiency. The results of our experiments show that EsaCL achieves performance that is competitive with the state-of-the-art methods on three continual learning benchmarks, while using substantially reduced memory and computational resources.
翻訳日:2024-01-12 19:57:51 公開日:2024-01-11
# 伝達エントロピー流れを伴うエネルギー効率の根本原因解析

Root Cause Analysis on Energy Efficiency with Transfer Entropy Flow ( http://arxiv.org/abs/2401.05664v1 )

ライセンス: Link先を確認
Jian Ma(参考訳) エネルギー効率は産業分野で大きな関心事である。 エネルギー効率の異常な状態の根本原因を見つけることは、産業システムのエネルギー効率の向上とエネルギーコストの削減に役立つ。 本研究では,産業システムのエネルギー効率の根本原因分析に転送エントロピー(te)を用いることを提案する。 TEフローと呼ばれる方法では,各サブシステムの物理的測定から時系列に沿ったエネルギー効率指標へのTEフローが,システムのエネルギー効率の異常状態の根本原因を診断するための因果強度であると考えられる。 提案手法では,コプラエントロピーを用いた非パラメトリックte推定器が用いられる。 圧縮空気システムから収集した実データを用いて実験を行い,提案手法の検証を行った。 実験の結果, TEフロー法は, システムのエネルギー効率の根本原因の同定に成功していることがわかった。

Energy efficiency is a big concern in industrial sectors. Finding the root cause of anomaly state of energy efficiency can help to improve energy efficiency of industrial systems and therefore save energy cost. In this research, we propose to use transfer entropy (TE) for root cause analysis on energy efficiency of industrial systems. A method, called TE flow, is proposed in that a TE flow from physical measurements of each subsystem to the energy efficiency indicator along timeline is considered as causal strength for diagnosing root cause of anomaly states of energy efficiency of a system. The copula entropy-based nonparametric TE estimator is used in the proposed method. We conducted experiments on real data collected from a compressing air system to verify the proposed method. Experimental results show that the TE flow method successfully identified the root cause of the energy (in)efficiency of the system.
翻訳日:2024-01-12 19:57:26 公開日:2024-01-11
# 障害者のための工学的適応情報グラフ:公共空間内地図を用いた事例研究

Engineering Adaptive Information Graphics for Disabled Communities: A Case Study with Public Space Indoor Maps ( http://arxiv.org/abs/2401.05659v1 )

ライセンス: Link先を確認
Anuradha Madugalla, Yutan Huang, John Grundy, Min Hee Cho, Lasith Koswatta Gamage, Tristan Leao, Sam Thiele(参考訳) ほとんどのソフトウェアアプリケーションはグラフ、図、地図などのグラフィックを含んでいる。 現在、これらのグラフィックは ``one size fits all' アプローチで設計されており、障害者のニーズに対応していない。 したがって、グラフィック付きソフトウェアを使用する場合、色障害のあるユーザーは特定の色でグラフィックを解釈するのに苦労し、失読症の人はグラフィック内のテキストラベルを読むのに苦労する可能性がある。 本研究は,複数の障害に対して適応的かつアクセシブルな情報グラフィックスを生成するフレームワークを開発することでこの問題に対処する。 ユニークなことに、このアプローチは複数の同時性障害を持つ人々にも役立つ。 これらを実現するために,webツールを用いた公開空間のフロアプランのケーススタディを実施し,視覚障害,色盲症,失読症,運動障害の4つの障害グループで作業を行った。 本研究は, アクセシビリティの専門家3名, 障害者80名による要件収集, 特定要件に対応する適応グラフィック生成システムの開発, 障害者7名による評価を行った。 評価の結果,我々のソリューションは使い易く,ほとんどの要件に適合することがわかった。 この研究はまた、フロントエンド開発者が自身のソフトウェアでアクセス可能なグラフィクスについて推奨し、パブリックスペース所有者とエンドユーザーの観点から、私たちの社会における仕事の影響について論じている。

Most software applications contain graphics such as charts, diagrams and maps. Currently, these graphics are designed with a ``one size fits all" approach and do not cater to the needs of people with disabilities. Therefore, when using software with graphics, a colour-impaired user may struggle to interpret graphics with certain colours, and a person with dyslexia may struggle to read the text labels in the graphic. Our research addresses this issue by developing a framework that generates adaptive and accessible information graphics for multiple disabilities. Uniquely, the approach also serves people with multiple simultaneous disabilities. To achieve these, we used a case study of public space floorplans presented via a web tool and worked with four disability groups: people with low vision, colour blindness, dyslexia and mobility impairment. Our research involved gathering requirements from 3 accessibility experts and 80 participants with disabilities, developing a system to generate adaptive graphics that address the identified requirements, and conducting an evaluation with 7 participants with disabilities. The evaluation showed that users found our solution easy to use and suitable for most of their requirements. The study also provides recommendations for front-end developers on engineering accessible graphics for their software and discusses the implications of our work on society from the perspective of public space owners and end users.
翻訳日:2024-01-12 19:57:10 公開日:2024-01-11
# 自動エッセイスコアリングのタペストリー : 正確性,公平性,一般化性に関する包括的調査

Unveiling the Tapestry of Automated Essay Scoring: A Comprehensive Investigation of Accuracy, Fairness, and Generalizability ( http://arxiv.org/abs/2401.05655v1 )

ライセンス: Link先を確認
Kaixun Yang, Mladen Rakovi\'c, Yuyang Li, Quanlong Guan, Dragan Ga\v{s}evi\'c, Guanliang Chen(参考訳) 自動エッセイスコアリング(automatic essay scoring, aes)は、学生が書いたエッセイを評価するために機械学習を用いる、確立された教育的追求である。 この領域では多くの努力がなされているが、現在の研究は主にどちらかに焦点を当てている。 (i)特定のプロンプト(即ち、プロンプト固有のモデルを開発する)に対するaesモデルの予測精度を高めること。これはしばしば、同じターゲットプロンプトからのラベル付きデータの使用に大きく依存する。 (II)非ターゲットプロンプト上で開発されたAESモデルの適用性を評価する(即ち、クロスプロンプト設定でAESモデルを開発する)。 機械学習の固有のバイアスと、その潜在的影響が辺縁化グループに与える影響を考えると、そのようなバイアスが現在のAES法に存在しているかどうか、そしてもし特定されれば、それがAESモデルの精度と一般化可能性にどのように介入するかを調べることが不可欠である。 そこで本研究では, AESモデルの精度, 公平性, 一般化可能性の複雑な関係を明らかにすることを目的として, 実世界教育における効果的なAESモデル開発のための実践的洞察を提供した。 そこで我々は,9つの顕著なAES手法を慎重に選択し,オープンソースデータセット上で7つの指標を用いて評価した。 Through extensive evaluations, we demonstrated that: (1) prompt-specific models tend to outperform their cross-prompt counterparts in terms of predictive accuracy; (2) prompt-specific models frequently exhibit a greater bias towards students of different economic statuses compared to cross-prompt models; (3) in the pursuit of generalizability, traditional machine learning models coupled with carefully engineered features hold greater potential for achieving both high accuracy and fairness than complex neural network models.

Automatic Essay Scoring (AES) is a well-established educational pursuit that employs machine learning to evaluate student-authored essays. While much effort has been made in this area, current research primarily focuses on either (i) boosting the predictive accuracy of an AES model for a specific prompt (i.e., developing prompt-specific models), which often heavily relies on the use of the labeled data from the same target prompt; or (ii) assessing the applicability of AES models developed on non-target prompts to the intended target prompt (i.e., developing the AES models in a cross-prompt setting). Given the inherent bias in machine learning and its potential impact on marginalized groups, it is imperative to investigate whether such bias exists in current AES methods and, if identified, how it intervenes with an AES model's accuracy and generalizability. Thus, our study aimed to uncover the intricate relationship between an AES model's accuracy, fairness, and generalizability, contributing practical insights for developing effective AES models in real-world education. To this end, we meticulously selected nine prominent AES methods and evaluated their performance using seven metrics on an open-sourced dataset, which contains over 25,000 essays and various demographic information about students such as gender, English language learner status, and economic status. Through extensive evaluations, we demonstrated that: (1) prompt-specific models tend to outperform their cross-prompt counterparts in terms of predictive accuracy; (2) prompt-specific models frequently exhibit a greater bias towards students of different economic statuses compared to cross-prompt models; (3) in the pursuit of generalizability, traditional machine learning models coupled with carefully engineered features hold greater potential for achieving both high accuracy and fairness than complex neural network models.
翻訳日:2024-01-12 19:56:46 公開日:2024-01-11
# 会話型診断AIを目指して

Towards Conversational Diagnostic AI ( http://arxiv.org/abs/2401.05654v1 )

ライセンス: Link先を確認
Tao Tu, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan Freyberg, Ryutaro Tanno, Amy Wang, Brenna Li, Mohamed Amin, Nenad Tomasev, Shekoofeh Azizi, Karan Singhal, Yong Cheng, Le Hou, Albert Webson, Kavita Kulkarni, S Sara Mahdavi, Christopher Semturs, Juraj Gottweis, Joelle Barral, Katherine Chou, Greg S Corrado, Yossi Matias, Alan Karthikesalingam and Vivek Natarajan(参考訳) 医学の中心には医師と患者との対話があり、熟練した歴史取得が正確な診断、効果的な管理、持続的な信頼への道を開く。 診断対話が可能な人工知能(AI)システムは、アクセシビリティ、一貫性、ケアの質を高めることができる。 しかし、臨床医の専門知識を近似することは大きな課題である。 本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患状況、専門性、コンテキストにまたがる学習をスケールするための自動フィードバック機構を備えた、新しいセルフプレイベースのシミュレート環境を使用する。 我々は, 臨床評価指標として, 履歴取得, 診断精度, 管理推論, コミュニケーションスキル, 共感など, 臨床評価指標の評価フレームワークを設計した。 客観的構造化臨床検査(objective structured clinical examination:osce)の手法を用いて,テキストベースのコンサルテーションのランダム化・二重盲検クロスオーバー研究において,amieの成績とプライマリケア医師(pcps)の成績を比較した。 この研究は、カナダ、イギリス、インドの臨床提供者による149のケースシナリオ、AMIEと比較するための20のPCP、専門医や患者アクターによる評価を含む。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。 我々の研究にはいくつかの制限があり、適切に解釈されるべきである。 臨床医は、大規模なLCM-患者間相互作用を許容する不慣れな同期テキストチャットに限られていたが、通常の臨床実践を代表していない。 AMIEが現実世界の設定に変換されるためには、さらなる研究が必要であるが、結果は会話診断AIへのマイルストーンを表している。

At the heart of medicine lies the physician-patient dialogue, where skillful history-taking paves the way for accurate diagnosis, effective management, and enduring trust. Artificial Intelligence (AI) systems capable of diagnostic dialogue could increase accessibility, consistency, and quality of care. However, approximating clinicians' expertise is an outstanding grand challenge. Here, we introduce AMIE (Articulate Medical Intelligence Explorer), a Large Language Model (LLM) based AI system optimized for diagnostic dialogue. AMIE uses a novel self-play based simulated environment with automated feedback mechanisms for scaling learning across diverse disease conditions, specialties, and contexts. We designed a framework for evaluating clinically-meaningful axes of performance including history-taking, diagnostic accuracy, management reasoning, communication skills, and empathy. We compared AMIE's performance to that of primary care physicians (PCPs) in a randomized, double-blind crossover study of text-based consultations with validated patient actors in the style of an Objective Structured Clinical Examination (OSCE). The study included 149 case scenarios from clinical providers in Canada, the UK, and India, 20 PCPs for comparison with AMIE, and evaluations by specialist physicians and patient actors. AMIE demonstrated greater diagnostic accuracy and superior performance on 28 of 32 axes according to specialist physicians and 24 of 26 axes according to patient actors. Our research has several limitations and should be interpreted with appropriate caution. Clinicians were limited to unfamiliar synchronous text-chat which permits large-scale LLM-patient interactions but is not representative of usual clinical practice. While further research is required before AMIE could be translated to real-world settings, the results represent a milestone towards conversational diagnostic AI.
翻訳日:2024-01-12 19:56:16 公開日:2024-01-11
# マーケティングミックスモデリング(MMM)と共有価値回帰を用いたチャネルパートナーレベルのマーケティング性能の定量化

Quantifying Marketing Performance at Channel-Partner Level by Using Marketing Mix Modeling (MMM) and Shapley Value Regression ( http://arxiv.org/abs/2401.05653v1 )

ライセンス: Link先を確認
Sean Tang, Sriya Musunuru, Baoshi Zong, Brooks Thornton(参考訳) 本稿では,チャネルレベルのマーケティング・ミックス・モデリング(MMM)を補完する,チャネルパートナーレベルでのマーケティング・パフォーマンスの分離におけるShapley Value Regressionの適用について検討する。 金融サービス産業における実世界のデータを利用して,個々のパートナー貢献度の評価におけるシャプリー価値回帰の実用性を示す。 協調ゲーム理論と共に構造化されたフィールドテストは最も正確であるが、しばしば非常に複雑で費用がかかる。 従って、共有価値回帰は、マーケティングチャネル内の各マーケティングパートナーの影響を弱めるための、より実現可能なアプローチである。 また,シェープリー値回帰の調整係数を導出する簡易な方法を提案し,代替手法と比較する。

This paper explores the application of Shapley Value Regression in dissecting marketing performance at channel-partner level, complementing channel-level Marketing Mix Modeling (MMM). Utilizing real-world data from the financial services industry, we demonstrate the practicality of Shapley Value Regression in evaluating individual partner contributions. Although structured in-field testing along with cooperative game theory is most accurate, it can often be highly complex and expensive to conduct. Shapley Value Regression is thus a more feasible approach to disentangle the influence of each marketing partner within a marketing channel. We also propose a simple method to derive adjusted coefficients of Shapley Value Regression and compares it with alternative approaches.
翻訳日:2024-01-12 19:55:49 公開日:2024-01-11
# 大規模言語モデルを用いたニュース記事のチェリーピッキング検出について

On Detecting Cherry-picking in News Coverage Using Large Language Models ( http://arxiv.org/abs/2401.05650v1 )

ライセンス: Link先を確認
Israa Jaradat, Haiqi Zhang, Chengkai Li(参考訳) チェリーピッキング(Cherry-picking)とは、特定の視点を好んだ証拠や事実を意図的に選び、反対の視点を支持する証拠を無視したり歪んだりすることを指す。 ニュース記事中のチェリー選択文のインスタンスを手動で識別することは、特に相手の視点がない場合、難しい。 本研究は, ニュース記事中の重要文の欠落を検知して, ニュース記事中のサクラ抽出文を自動的に検出する, 革新的なアプローチであるCherryを紹介する。 cherryは、複数のソースからのニュースカバレッジの分析を使用して、チェリーピッキングのインスタンスを識別する。 我々のアプローチは、他のニュースソースからの文脈情報を考慮して、ターゲットのニュースストーリーでカバーされるイベントの重要性に基づいて文を分類する言語モデルに依存している。 さらに,モデルの性能を訓練し評価するために,チェリーピッキング検出用に特別に設計された新しいデータセットを提案する。 我々の最高のパフォーマンスモデルは、未確認のニュース記事のセットでテストした場合に重要文を検出する際のF-1スコアを約89パーセント達成する。 さらに,論文の重要度を評価する際に,他の物語から外部知識を取り入れることの重要性が示唆された。

Cherry-picking refers to the deliberate selection of evidence or facts that favor a particular viewpoint while ignoring or distorting evidence that supports an opposing perspective. Manually identifying instances of cherry-picked statements in news stories can be challenging, particularly when the opposing viewpoint's story is absent. This study introduces Cherry, an innovative approach for automatically detecting cherry-picked statements in news articles by finding missing important statements in the target news story. Cherry utilizes the analysis of news coverage from multiple sources to identify instances of cherry-picking. Our approach relies on language models that consider contextual information from other news sources to classify statements based on their importance to the event covered in the target news story. Furthermore, this research introduces a novel dataset specifically designed for cherry-picking detection, which was used to train and evaluate the performance of the models. Our best performing model achieves an F-1 score of about %89 in detecting important statements when tested on unseen set of news stories. Moreover, results show the importance incorporating external knowledge from alternative unbiased narratives when assessing a statement's importance.
翻訳日:2024-01-12 19:55:34 公開日:2024-01-11
# 連続可変量子カーネルの一般形式

A General Form for Continuous Variable Quantum Kernels ( http://arxiv.org/abs/2401.05647v1 )

ライセンス: Link先を確認
Laura J. Henderson, Rishi Goel, Sally Shrapnel(参考訳) 人気のあるqubitフレームワークは、量子カーネルに関する最近の研究を支配しており、表現可能性、学習可能性、一般化を特徴付けている。 まだ、連続変数(CV)量子コンピューティングプラットフォームに対するこれらの概念を理解するための比較フレームワークは存在しない。 本稿では,CV量子核を正則関数として表現し,この表現を用いていくつかの重要な理論的知見を提供する。 このアプローチは全てのcv量子カーネルの一般閉形式解を許容し、そのような全ての核はガウス項と多項式項の積として表現できることを示す。 さらに、これらのカーネルの量子古典的分離を「星位」という概念で定量化し、帯域幅ハイパーパラメータチューニングが学習可能性と効率的な古典的シミュラビリティのトレードオフをもたらす方法の直観を提供する。

The popular qubit framework has dominated recent work on quantum kernels, with results characterising expressability, learnability and generalisation. As yet, there is no comparative framework to understand these concepts for continuous variable (CV) quantum computing platforms. In this paper we represent CV quantum kernels as holomorphic functions and use this representation to provide several important theoretical insights. The approach permits a general closed form solution for all CV quantum kernels and shows every such kernel can be expressed as the product of Gaussian and polynomial terms. Furthermore, it enables quantification of a quantum-classical separation for all such kernels via a notion of "stellar rank", and provides intuition for how bandwidth hyper-parameter tuning results in trades-off between learnability and efficient classical simulability.
翻訳日:2024-01-12 19:55:13 公開日:2024-01-11
# 衣服交換者再識別のための仮面属性記述埋め込み

Masked Attribute Description Embedding for Cloth-Changing Person Re-identification ( http://arxiv.org/abs/2401.05646v1 )

ライセンス: Link先を確認
Chunlei Peng, Boyu Wang, Decheng Liu, Nannan Wang, Ruimin Hu, Xinbo Gao(参考訳) 着替え人再確認(cc-reid)は、長期間着替えた人とマッチングすることを目的としている。 CC-ReIDの鍵となる課題は、顔、髪型、体型、歩行など、衣服に依存しない特徴を抽出することである。 最近の研究は主に多様生物的特徴(シルエットやスケッチなど)を用いた身体形状のモデル化に焦点を当てている。 しかし、元のRGB画像に隠された個人記述情報を十分に活用していない。 布地変更後も変化しない属性記述が存在することを考慮し,cc-reidの個人的視覚的外観と属性記述を統一するマスク付き属性記述埋め込み(made)手法を提案する。 特に,色や型といった着衣に敏感な情報を扱うことは,効果的なモデリングには困難である。 これを解決するために,属性検出モデルを用いて抽出した個人属性記述における衣服や色情報を隠蔽する。 マスクされた属性記述は、様々なレベルでTransformerブロックに接続され、画像の低レベルから高レベルの特徴と融合する。 このアプローチは、衣服情報を破棄するモデルを補完する。 実験は、PRCC、LTCC、Celeb-reID-light、LaSTなどのCC-ReIDベンチマークで実施されている。 その結果,属性記述を効果的に活用し,人物再識別性能を高め,最先端手法と好適な比較を行った。 コードはhttps://github.com/moon-wh/madeで入手できる。

Cloth-changing person re-identification (CC-ReID) aims to match persons who change clothes over long periods. The key challenge in CC-ReID is to extract clothing-independent features, such as face, hairstyle, body shape, and gait. Current research mainly focuses on modeling body shape using multi-modal biological features (such as silhouettes and sketches). However, it does not fully leverage the personal description information hidden in the original RGB image. Considering that there are certain attribute descriptions which remain unchanged after the changing of cloth, we propose a Masked Attribute Description Embedding (MADE) method that unifies personal visual appearance and attribute description for CC-ReID. Specifically, handling variable clothing-sensitive information, such as color and type, is challenging for effective modeling. To address this, we mask the clothing and color information in the personal attribute description extracted through an attribute detection model. The masked attribute description is then connected and embedded into Transformer blocks at various levels, fusing it with the low-level to high-level features of the image. This approach compels the model to discard clothing information. Experiments are conducted on several CC-ReID benchmarks, including PRCC, LTCC, Celeb-reID-light, and LaST. Results demonstrate that MADE effectively utilizes attribute description, enhancing cloth-changing person re-identification performance, and compares favorably with state-of-the-art methods. The code is available at https://github.com/moon-wh/MADE.
翻訳日:2024-01-12 19:54:57 公開日:2024-01-11
# 同期逆データレースの最適予測

Optimistic Prediction of Synchronization-Reversal Data Races ( http://arxiv.org/abs/2401.05642v1 )

ライセンス: Link先を確認
Zheng Shi, Umang Mathur, Andreas Pavlogiannis(参考訳) 動的データ競合検出は、実際に並列ソフトウェアの信頼性を確保するための重要なテクニックとして登場した。 しかし、動的アプローチはスレッドスケジューラの非決定性のため、しばしばデータ競合を見逃すことがある。 予測競合検出技術は、基礎となるプログラムを再実行することなく、データレースを公開する可能性のある代替の実行を推論することで、この欠点に対処する。 より正式には、動的データ競合予測問題は、並行プログラムの実行のトレース \sigma が与えられたら、データ競合を公開するために \sigma を正しく並べ替えることができるか? データ競合予測のための既存の最先端技術は、実世界の並行ソフトウェアから生じる実行にスケールしないか、同期操作の順序を逆戻りすることなく公開できるような限られた種類のデータ競合のみを公開する。 一般に、同期反転を推論してデータ競合を露呈することは難題である。 本研究では、抽出可能な方法で検出できるオプティスティックシンク(hronization)-リバーサルレースと呼ばれるデータレースのクラスを特定し、従来の抽出可能なテクニックでは公開できない非自明なデータレースを含むことが多い。 また,すべての楽観的同期反転データ競合を全二次時間で検出する音響アルゴリズムosrを提案し,マッチング下限を定め,アルゴリズムの最適性を示す。 我々の実験では、OSRのベンチマークスイートに対する効果を実証し、OSRは、最大のデータ競合数を報告し、大規模な実行トレースによくスケールする。

Dynamic data race detection has emerged as a key technique for ensuring reliability of concurrent software in practice. However, dynamic approaches can often miss data races owing to nondeterminism in the thread scheduler. Predictive race detection techniques cater to this shortcoming by inferring alternate executions that may expose data races without re-executing the underlying program. More formally, the dynamic data race prediction problem asks, given a trace \sigma of an execution of a concurrent program, can \sigma be correctly reordered to expose a data race? Existing state-of-the art techniques for data race prediction either do not scale to executions arising from real world concurrent software, or only expose a limited class of data races, such as those that can be exposed without reversing the order of synchronization operations. In general, exposing data races by reasoning about synchronization reversals is an intractable problem. In this work, we identify a class of data races, called Optimistic Sync(hronization)-Reversal races that can be detected in a tractable manner and often include non-trivial data races that cannot be exposed by prior tractable techniques. We also propose a sound algorithm OSR for detecting all optimistic sync-reversal data races in overall quadratic time, and show that the algorithm is optimal by establishing a matching lower bound. Our experiments demonstrate the effectiveness of OSR on our extensive suite of benchmarks, OSR reports the largest number of data races, and scales well to large execution traces.
翻訳日:2024-01-12 19:54:32 公開日:2024-01-11
# eBPFと機械学習:オンザフライOSカーネル比較

When eBPF Meets Machine Learning: On-the-fly OS Kernel Compartmentalization ( http://arxiv.org/abs/2401.05641v1 )

ライセンス: Link先を確認
Zicheng Wang, Tiejin Chen, Qinrun Dai, Yueqi Chen, Hua Wei, Qingkai Zeng(参考訳) 比較化は、初期腐敗が攻撃に成功するのを効果的に防ぐ。 本稿では,OSカーネルのコンパートナライズを即時に実施するための先駆的システムであるO2Cについて述べる。 突然の脅威に対する即時修復を提供するだけでなく、実施プロセスを通じて一貫したシステム可用性も維持する。 O2Cは、実行時にカーネルに強制アクションを実行するeBPFプログラムを実装できるeBPFエコシステムの最新の進歩によって強化されている。 O2Cは機械学習モデルをeBPFプログラムに組み込み、オンザフライのコンパートナライゼーションにおけるユニークな課題に対処する。 包括的評価の結果,O2Cはコンパートメント内の損傷を効果的に抑制することがわかった。 さらに,表データ処理の利点,説明可能な性質,ebpfエコシステムに準拠していることから,決定木がo2cに最適であることを確認した。 最後に重要なこととして、o2cは軽量であり、無視できないオーバーヘッドと優れたsacalabilityシステム全体を示す。

Compartmentalization effectively prevents initial corruption from turning into a successful attack. This paper presents O2C, a pioneering system designed to enforce OS kernel compartmentalization on the fly. It not only provides immediate remediation for sudden threats but also maintains consistent system availability through the enforcement process. O2C is empowered by the newest advancements of the eBPF ecosystem which allows to instrument eBPF programs that perform enforcement actions into the kernel at runtime. O2C takes the lead in embedding a machine learning model into eBPF programs, addressing unique challenges in on-the-fly compartmentalization. Our comprehensive evaluation shows that O2C effectively confines damage within the compartment. Further, we validate that decision tree is optimally suited for O2C owing to its advantages in processing tabular data, its explainable nature, and its compliance with the eBPF ecosystem. Last but not least, O2C is lightweight, showing negligible overhead and excellent sacalability system-wide.
翻訳日:2024-01-12 19:54:07 公開日:2024-01-11
# MatSAM:視覚的大モデルによる効率的な材料組織抽出

MatSAM: Efficient Materials Microstructure Extraction via Visual Large Model ( http://arxiv.org/abs/2401.05638v1 )

ライセンス: Link先を確認
Changtai Li, Xu Han, Chao Yao, Xiaojuan Ban(参考訳) 材料の顕微鏡像における微細構造の精密かつ効率的な抽出は, 構造-適合関係の探索やプロセスパラメータの最適化に重要な役割を果たしている。 手動アノテーションに依存するディープラーニングベースのイメージセグメンテーション技術は、時間と労力を消費し、モデル転送性と一般化の需要をほとんど満たさない。 Segment Anything Model (SAM)は、強力な深い特徴表現とゼロショットの一般化機能を備えた大きなビジュアルモデルであり、画像セグメンテーションのための新しいソリューションを提供している。 しかし, 材料顕微鏡画像中の重要な微細構造の密度・分散特性に, ネイティブプロンプトエンジニアリングを適応させるのが困難であるため, 直接samを微視的画像の分節化に応用することは期待できない。 本稿では,SAMに基づく汎用的で効率的なマイクロ構造抽出法であるMatSAMを提案する。 新しいポイントベースのプロンプト生成戦略が設計され、材料ミクロ構造の分布と形状に基づいている。 異なる顕微鏡画像のプロンプトを生成し、関心領域(ROI)キーポイントとグリッドキーポイントのプロンプトを融合させ、材料ミクロ構造の定量的評価のための後処理手法を統合する。 光学顕微鏡(OM)および走査電子顕微鏡(SEM)により画像化された18の材料ミクロ組織に対して評価された教師あり学習法よりも,MateSAMは従来の方法よりもセグメンテーション性能が優れている。 我々は,MateSAMが材料ミクロ組織を定量的に評価するコストを大幅に削減し,新しい材料の設計を加速できると考えている。

Accurate and efficient extraction of microstructures in microscopic images of materials plays a critical role in the exploration of structure-property relationships and the optimization of process parameters. Deep learning-based image segmentation techniques that rely on manual annotation are time-consuming and labor-intensive and hardly meet the demand for model transferability and generalization. Segment Anything Model (SAM), a large visual model with powerful deep feature representation and zero-shot generalization capabilities, has provided new solutions for image segmentation. However, directly applying SAM to segmenting microstructures in microscopic images of materials without human annotation cannot achieve the expected results, as the difficulty of adapting its native prompt engineering to the dense and dispersed characteristics of key microstructures in materials microscopy images. In this paper, we propose MatSAM, a general and efficient microstructure extraction solution based on SAM. A new point-based prompts generation strategy is designed, grounded on the distribution and shape of materials microstructures. It generates prompts for different microscopic images, fuses the prompts of the region of interest (ROI) key points and grid key points, and integrates post-processing methods for quantitative characterization of materials microstructures. For common microstructures including grain boundary and phase, MatSAM achieves superior segmentation performance to conventional methods and is even preferable to supervised learning methods evaluated on 18 materials microstructures imaged by the optical microscope (OM) and scanning electron microscope (SEM). We believe that MatSAM can significantly reduce the cost of quantitative characterization of materials microstructures and accelerate the design of new materials.
翻訳日:2024-01-12 19:53:52 公開日:2024-01-11
# 変圧器による表面正規化

Surface Normal Estimation with Transformers ( http://arxiv.org/abs/2401.05745v1 )

ライセンス: Link先を確認
Barry Shichen Hu, Siyun Liang, Johannes Paetzold, Huy H. Nguyen, Isao Echizen, Jiapeng Tang(参考訳) 本稿では,ノイズや密度の変動を伴う点雲から正規分布を正確に予測するための変圧器の利用を提案する。 従来の学習手法では、PointNetの変種を用いて、異なる入力スケールでマルチスケールの特徴を明示的に抽出し、多項式関数または多層パーセプトロン(MLP)によって近似された幾何学曲面に局所的な点雲近傍を嵌合させる表面フィッティング法に着目していた。 しかし、固定階多項式関数への嵌合面は過度な適合や不適合に悩まされ、MDPで表される超曲面を学習するには、点当たりの重みを事前に生成する必要がある。 これらの制約を避けるため、まず、前回の作業における設計選択を統一し、さらに、表面正規推定タスクに対してより豊かでより堅牢な幾何学的特徴を抽出するために、簡易なトランスフォーマモデルを提案する。 広範な実験により,本手法は合成形状データセットpcpnetと実世界の屋内シーンデータセットscenennの両方において最先端の性能を実現し,より高いノイズ耐性とはるかに高速な推論を実現することを実証した。 最も重要なことは、既存の作業における洗練された手設計のモジュールは、表面正規推定のタスクにおいて、卓越する必要がないことである。

We propose the use of a Transformer to accurately predict normals from point clouds with noise and density variations. Previous learning-based methods utilize PointNet variants to explicitly extract multi-scale features at different input scales, then focus on a surface fitting method by which local point cloud neighborhoods are fitted to a geometric surface approximated by either a polynomial function or a multi-layer perceptron (MLP). However, fitting surfaces to fixed-order polynomial functions can suffer from overfitting or underfitting, and learning MLP-represented hyper-surfaces requires pre-generated per-point weights. To avoid these limitations, we first unify the design choices in previous works and then propose a simplified Transformer-based model to extract richer and more robust geometric features for the surface normal estimation task. Through extensive experiments, we demonstrate that our Transformer-based method achieves state-of-the-art performance on both the synthetic shape dataset PCPNet, and the real-world indoor scene dataset SceneNN, exhibiting more noise-resilient behavior and significantly faster inference. Most importantly, we demonstrate that the sophisticated hand-designed modules in existing works are not necessary to excel at the task of surface normal estimation.
翻訳日:2024-01-12 19:40:05 公開日:2024-01-11
# タプル削除セマンティックスに基づく既存規則の一貫性問合せ解法

Consistent Query Answering for Existential Rules under Tuple-Deletion Semantics ( http://arxiv.org/abs/2401.05743v1 )

ライセンス: Link先を確認
Lorenzo Marconi, Riccardo Rosati(参考訳) 実存規則で表される知識ベースに対する一貫した問合せ応答について検討する。 具体的には,一貫した問合せ応答と補修チェックのデータの複雑性を,一般的な解離的存在規則のクラスと,そのサブクラス(非巡回的,線形的,完全,ガード付き,粘着性)に対するタプル削除意味論の下で確立する。 特に,上記の問題を扱いやすい,あるいは一階書き換え可能なケースをいくつか特定し,実用的な非一貫性耐性クエリ応答システムの基礎となる新しいクエリ書き換え手法を提案する。

We study consistent query answering over knowledge bases expressed by existential rules. Specifically, we establish the data complexity of consistent query answering and repair checking under tuple-deletion semantics for a general class of disjunctive existential rules and for several subclasses thereof (acyclic, linear, full, guarded, and sticky). In particular, we identify several cases in which the above problems are tractable or even first-order rewritable, and present new query rewriting techniques that can be the basis for practical inconsistency-tolerant query answering systems.
翻訳日:2024-01-12 19:39:40 公開日:2024-01-11
# クロスインラインバイナリ関数類似性検出

Cross-Inlining Binary Function Similarity Detection ( http://arxiv.org/abs/2401.05739v1 )

ライセンス: Link先を確認
Ang Jia, Ming Fan, Xi Xu, Wuxia Jin, Haijun Wang, Ting Liu(参考訳) バイナリ関数の類似性検出は、幅広いセキュリティアプリケーションにおいて重要な役割を果たす。 既存の作業は通常、クエリ関数とターゲット関数が等しいセマンティクスを共有し、それらの完全なセマンティクスを比較して類似性を得る。 しかし、特に関数のインライン化が発生すると、関数マッピングはより複雑になる。 本稿では,二項関数の類似性検出を体系的に検討する。 まず,9つのコンパイラ,4つの最適化,6つのアーキテクチャ,2つのインラインフラグを使って51のプロジェクトをコンパイルすることで,クロスインラインデータセットを構築した。 次に、これらの2つのデータセットの共通ソース関数をリンクすることで、クロスインライン関数マッピングを構築する。 このデータセットを解析した結果、3つのクロスインライニングパターンが広く存在し、一方で既存の作業はクロスインライニングバイナリ関数類似性の検出に苦しむことがわかった。 次に,クロスインラインマッチングのためのCI-Detectorというパターンベースモデルを提案する。 CI-Detectorは、属性付きCFGを使用してバイナリ関数の意味を表現し、GNNはバイナリ関数をベクトルに埋め込む。 CI-Detectorはそれぞれ、3つのクロスインラインパターンのモデルをトレーニングする。 最後に、テストペアがこれら3つのモデルに入力され、生成されたすべての類似性が集約されて最終類似性が生成される。 CI-detectorを評価するためにいくつかの実験を行った。 以上の結果から,CI-Detectorは81%の精度でクロスインラインペアを検出し,97%のリコールを達成できた。

Binary function similarity detection plays an important role in a wide range of security applications. Existing works usually assume that the query function and target function share equal semantics and compare their full semantics to obtain the similarity. However, we find that the function mapping is more complex, especially when function inlining happens. In this paper, we will systematically investigate cross-inlining binary function similarity detection. We first construct a cross-inlining dataset by compiling 51 projects using 9 compilers, with 4 optimizations, to 6 architectures, with 2 inlining flags, which results in two datasets both with 216 combinations. Then we construct the cross-inlining function mappings by linking the common source functions in these two datasets. Through analysis of this dataset, we find that three cross-inlining patterns widely exist while existing work suffers when detecting cross-inlining binary function similarity. Next, we propose a pattern-based model named CI-Detector for cross-inlining matching. CI-Detector uses the attributed CFG to represent the semantics of binary functions and GNN to embed binary functions into vectors. CI-Detector respectively trains a model for these three cross-inlining patterns. Finally, the testing pairs are input to these three models and all the produced similarities are aggregated to produce the final similarity. We conduct several experiments to evaluate CI-Detector. Results show that CI-Detector can detect cross-inlining pairs with a precision of 81% and a recall of 97%, which exceeds all state-of-the-art works.
翻訳日:2024-01-12 19:39:27 公開日:2024-01-11
# LKCA: 大きなカーネルの進化的注意

LKCA: Large Kernel Convolutional Attention ( http://arxiv.org/abs/2401.05738v1 )

ライセンス: Link先を確認
Chenghao Li, Boheng Zeng, Yi Lu, Pengbo Shi, Qingzi Chen, Jirui Liu, Lingyun Zhu(参考訳) 視覚変換器における注意機構と大カーネルConvNetの関係を再検討し,LKCA(Large Kernel Convolutional Attention)という空間的注意を提案する。 単一の大きなカーネル畳み込みに置き換えることで、注意操作を単純化する。 LKCAは畳み込みニューラルネットワークとビジュアルトランスフォーマーの利点を組み合わせて、大きな受容野、局所性、パラメータ共有を持つ。 我々は、畳み込みと注意の両方の観点からlkcaの優位性を説明し、各ビューに同等のコード実装を提供した。 コンボリューションとアテンションの両方の観点から実装されたLKCAは同等の性能を示した。 分類タスクとセグメンテーションタスクの両方において, LKCA の ViT 変異体を広範囲に実験した。 実験により,LKCAは視覚タスクにおいて競争性能を示すことが示された。 私たちのコードはhttps://github.com/CatworldLee/LKCAで公開されます。

We revisit the relationship between attention mechanisms and large kernel ConvNets in visual transformers and propose a new spatial attention named Large Kernel Convolutional Attention (LKCA). It simplifies the attention operation by replacing it with a single large kernel convolution. LKCA combines the advantages of convolutional neural networks and visual transformers, possessing a large receptive field, locality, and parameter sharing. We explained the superiority of LKCA from both convolution and attention perspectives, providing equivalent code implementations for each view. Experiments confirm that LKCA implemented from both the convolutional and attention perspectives exhibit equivalent performance. We extensively experimented with the LKCA variant of ViT in both classification and segmentation tasks. The experiments demonstrated that LKCA exhibits competitive performance in visual tasks. Our code will be made publicly available at https://github.com/CatworldLee/LKCA.
翻訳日:2024-01-12 19:38:59 公開日:2024-01-11
# HVAC制御のための深部強化学習アルゴリズムの実験的検討

An experimental evaluation of Deep Reinforcement Learning algorithms for HVAC control ( http://arxiv.org/abs/2401.05737v1 )

ライセンス: Link先を確認
Antonio Manjavacas, Alejandro Campoy-Nieves, Javier Jim\'enez-Raboso, Miguel Molina-Solana, Juan G\'omez-Romero(参考訳) 暖房、換気、空調システム(HVAC)は商業ビルや住宅ビルにおけるエネルギー消費の主要な推進要因である。 近年の研究では、Deep Reinforcement Learning (DRL)アルゴリズムが従来のリアクティブコントローラより優れていることが示されている。 しかし、DRLベースのソリューションは一般にアドホックなセットアップのために設計されており、比較のための標準化が欠如している。 このギャップを埋めるために,本稿では,HVAC制御のためのいくつかの最先端DRLアルゴリズムの快適性とエネルギー消費の観点から,重要かつ再現可能な評価を行う。 本研究は、シネルギムフレームワークを用いて、最適化目標間のコントローラーの堅牢性、適応性、トレードオフについて検討する。 その結果、複雑なシナリオにおいて、SACやTD3といったDRLアルゴリズムの可能性を確認し、一般化や漸進学習に関連するいくつかの課題を明らかにした。

Heating, Ventilation, and Air Conditioning (HVAC) systems are a major driver of energy consumption in commercial and residential buildings. Recent studies have shown that Deep Reinforcement Learning (DRL) algorithms can outperform traditional reactive controllers. However, DRL-based solutions are generally designed for ad hoc setups and lack standardization for comparison. To fill this gap, this paper provides a critical and reproducible evaluation, in terms of comfort and energy consumption, of several state-of-the-art DRL algorithms for HVAC control. The study examines the controllers' robustness, adaptability, and trade-off between optimization goals by using the Sinergym framework. The results obtained confirm the potential of DRL algorithms, such as SAC and TD3, in complex scenarios and reveal several challenges related to generalization and incremental learning.
翻訳日:2024-01-12 19:38:45 公開日:2024-01-11
# 知識に基づく視覚質問応答のためのクロスモーダル検索

Cross-modal Retrieval for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2401.05736v1 )

ライセンス: Link先を確認
Paul Lerner, Olivier Ferret (LIST (CEA), DIASI), Camille Guinaudeau(参考訳) 名前付きエンティティに関する知識ベースのビジュアル質問応答は、マルチモーダルな知識ベースから情報を取得する必要がある困難なタスクである。 名前付き実体は多様な視覚表現を持ち、認識しにくい。 クロスモーダル検索は、エンティティとその描写間の意味的ギャップを埋めるのに役立ち、モノモーダル検索と最も相補的なものである。 近年のViQuAE,InfoSeek,Encyclopedic-VQAデータセット上で,マルチモーダルデュアルエンコーダであるCLIPを用いて実験を行った。 さらに,このようなモデル,モノモーダル,クロスモーダル,ジョイントトレーニングの3つの異なる方法を検討した。 モノモダル検索とクロスモダル検索を組み合わせたこの手法は,3つのデータセット上の10億パラメータモデルと競合するが,概念的にはシンプルで計算コストも安い。

Knowledge-based Visual Question Answering about Named Entities is a challenging task that requires retrieving information from a multimodal Knowledge Base. Named entities have diverse visual representations and are therefore difficult to recognize. We argue that cross-modal retrieval may help bridge the semantic gap between an entity and its depictions, and is foremost complementary with mono-modal retrieval. We provide empirical evidence through experiments with a multimodal dual encoder, namely CLIP, on the recent ViQuAE, InfoSeek, and Encyclopedic-VQA datasets. Additionally, we study three different strategies to fine-tune such a model: mono-modal, cross-modal, or joint training. Our method, which combines mono-and cross-modal retrieval, is competitive with billion-parameter models on the three datasets, while being conceptually simpler and computationally cheaper.
翻訳日:2024-01-12 19:38:32 公開日:2024-01-11
# 効率的な映像編集のためのオブジェクト中心拡散

Object-Centric Diffusion for Efficient Video Editing ( http://arxiv.org/abs/2401.05735v1 )

ライセンス: Link先を確認
Kumara Kahatapitiya, Adil Karjauv, Davide Abati, Fatih Porikli, Yuki M. Asano, Amirhossein Habibian(参考訳) 拡散ベースのビデオ編集は印象的な品質に達し、テキスト編集のプロンプトに従って、グローバルなスタイル、ローカルな構造、ビデオ入力の属性を変換することができる。 しかし、そのようなソリューションは通常、拡散反転または/またはクロスフレームアテンションの形で、時間的に整合性のあるフレームを生成するために重いメモリと計算コストを発生させる。 本稿では,このような非効率性の分析を行い,品質を維持しながら大幅なスピードアップを可能にする簡易かつ効果的な修正を提案する。 さらに,OCD(Object-Centric Diffusion)と呼ばれるオブジェクト中心拡散(Object-Centric Diffusion)を導入した。 これを2つの新しい提案で達成します 一 オブジェクト中心のサンプリング、突出領域又は背景に費やした拡散ステップの分離、モデル容量のほとんどを前者に割り当てること、及び 二 重要でない背景領域に冗長なトークンを融合させることにより、クロスフレーム注意のコストを低減するオブジェクト中心の3Dトークンマージ。 どちらの手法も、与えられたビデオ編集モデル \textit{without} リトレーニングに容易に適用でき、メモリと計算コストを大幅に削減することができる。 我々は,インバージョンベースおよび制御信号ベースの編集パイプラインに関する提案を評価し,同等の合成品質で最大10倍のレイテンシ削減を示す。

Diffusion-based video editing have reached impressive quality and can transform either the global style, local structure, and attributes of given video inputs, following textual edit prompts. However, such solutions typically incur heavy memory and computational costs to generate temporally-coherent frames, either in the form of diffusion inversion and/or cross-frame attention. In this paper, we conduct an analysis of such inefficiencies, and suggest simple yet effective modifications that allow significant speed-ups whilst maintaining quality. Moreover, we introduce Object-Centric Diffusion, coined as OCD, to further reduce latency by allocating computations more towards foreground edited regions that are arguably more important for perceptual quality. We achieve this by two novel proposals: i) Object-Centric Sampling, decoupling the diffusion steps spent on salient regions or background, allocating most of the model capacity to the former, and ii) Object-Centric 3D Token Merging, which reduces cost of cross-frame attention by fusing redundant tokens in unimportant background regions. Both techniques are readily applicable to a given video editing model \textit{without} retraining, and can drastically reduce its memory and computational cost. We evaluate our proposals on inversion-based and control-signal-based editing pipelines, and show a latency reduction up to 10x for a comparable synthesis quality.
翻訳日:2024-01-12 19:38:17 公開日:2024-01-11
# 多重量子メモリを用いた非同期量子リピータ

Asynchronous Quantum Repeater using Multiple Quantum Memory ( http://arxiv.org/abs/2401.05732v1 )

ライセンス: Link先を確認
Chen-Long Li. Hua-Lei Yin, Zeng-Bing Chen(参考訳) 本格的な量子ネットワークは、量子リピータの助けを借りて、遠隔地間の絡み合ったリンクの形成に依存している。 有名なduan-lukin-cirac-zoller量子リピータプロトコルは長距離単一光子干渉に基づくもので、高い位相安定性を必要とするだけでなく、最大絡み合い状態を生成することもできない。 本稿では,単一光子干渉プロトコルと同じ効率を保ち,位相安定性の要求を低減し,原理的に最大絡み合った状態を生成する,ポストマッチングの概念を用いた量子リピータプロトコルを提案する。 数値シミュレーションにより,提案プロトコルは一般騒音モデルにおける既存プロトコルとの比較により,その優越性を示す。 我々の研究は、長距離量子通信リンクに対する有望な解決策を提供する。 これは、完全に接続された量子ネットワークを構築するための重要なステップであると考えています。

A full-fledged quantum network relies on the formation of entangled links between remote location with the help of quantum repeaters. The famous Duan-Lukin-Cirac-Zoller quantum repeater protocol is based on long distance single-photon interference, which not only requires high phase stability but also cannot generate maximally entangled state. Here, we propose a quantum repeater protocol using the idea of post-matching, which retains the same efficiency as the single-photon interference protocol, reduces the phase-stability requirement and can generate maximally entangled state in principle. Numerical simulations show that our protocol has its superiority by comparing with existing protocols under a generic noise model. Our work provides a promising solution to a long-distance quantum communication link. We believe this represents a crucial step towards the construction of a fully-connected quantum network.
翻訳日:2024-01-12 19:37:52 公開日:2024-01-11
# 効果的な組合せ陽性ペアリングによるコントラスト学習の促進

Enhancing Contrastive Learning with Efficient Combinatorial Positive Pairing ( http://arxiv.org/abs/2401.05730v1 )

ライセンス: Link先を確認
Jaeill Kim, Duhun Hwang, Eunjung Lee, Jangwon Suh, Jimyeong Kim, Wonjong Rhee(参考訳) 近年,視覚的教師なし表現学習の成功には,コントラスト学習が中心的な役割を果たしている。 同時に,高性能な非競合学習手法も開発されている。 作品のほとんどが2つのビューのみを使用しているが、既存のマルチビュー手法を慎重に検討し、コントラスト的あるいは非一貫性的手法の学習速度と性能を向上させるための一般的なマルチビュー戦略を提案する。 まず,CMCのフルグラフパラダイムを解析し,学習速度が小さめの学習率と早期学習において,$K$-viewsの学習速度を$_{K}\mathrm{C}_{2}$ timesに向上できることを実証的に示す。 次に,作物のみの増補によるビューを混合し,swavマルチクロップのように小型ビューを採用し,負のサンプリングを変更することで,cmcのフルグラフをアップグレードする。 結果として得られるマルチビュー戦略はECPP(Efficient Combinatorial Positive Pairing)と呼ばれる。 我々は,それをSimCLRに適用し,CIFAR-10とImageNet-100の線形評価性能を評価することによりECPPの有効性を検討した。 各ベンチマークでは、最先端のパフォーマンスを達成します。 ImageNet-100の場合、ECPPはSimCLRが教師あり学習より優れていた。

In the past few years, contrastive learning has played a central role for the success of visual unsupervised representation learning. Around the same time, high-performance non-contrastive learning methods have been developed as well. While most of the works utilize only two views, we carefully review the existing multi-view methods and propose a general multi-view strategy that can improve learning speed and performance of any contrastive or non-contrastive method. We first analyze CMC's full-graph paradigm and empirically show that the learning speed of $K$-views can be increased by $_{K}\mathrm{C}_{2}$ times for small learning rate and early training. Then, we upgrade CMC's full-graph by mixing views created by a crop-only augmentation, adopting small-size views as in SwAV multi-crop, and modifying the negative sampling. The resulting multi-view strategy is called ECPP (Efficient Combinatorial Positive Pairing). We investigate the effectiveness of ECPP by applying it to SimCLR and assessing the linear evaluation performance for CIFAR-10 and ImageNet-100. For each benchmark, we achieve a state-of-the-art performance. In case of ImageNet-100, ECPP boosted SimCLR outperforms supervised learning.
翻訳日:2024-01-12 19:37:37 公開日:2024-01-11
# 音声タグの言語横断的なゼロリソース

Zero Resource Cross-Lingual Part Of Speech Tagging ( http://arxiv.org/abs/2401.05727v1 )

ライセンス: Link先を確認
Sahil Chopra(参考訳) ゼロリソース設定における音声タグ付けの一部は、ラベル付きトレーニングデータがない場合、低リソース言語に対して効果的なアプローチとなる。 既存のシステムでは、posタグ付けに2つの主要なテクニック、すなわち事前訓練された多言語大言語モデル(llm)や、ソース言語ラベルをゼロリソースターゲット言語に投影し、シーケンスラベリングモデルをトレーニングする。 我々は,市販のアライメントモジュールを用いて後者のアプローチを検討し,POSタグを予測するために隠れマルコフモデル(HMM)を訓練する。 英語をソース言語として,フランス語,ドイツ語,スペイン語を対象言語としてトランスファー学習設定を評価した。 我々の結論は、ゼロリソース言語における投影されたアライメントデータがPOSタグの予測に有用であるということである。

Part of speech tagging in zero-resource settings can be an effective approach for low-resource languages when no labeled training data is available. Existing systems use two main techniques for POS tagging i.e. pretrained multilingual large language models(LLM) or project the source language labels into the zero resource target language and train a sequence labeling model on it. We explore the latter approach using the off-the-shelf alignment module and train a hidden Markov model(HMM) to predict the POS tags. We evaluate transfer learning setup with English as a source language and French, German, and Spanish as target languages for part-of-speech tagging. Our conclusion is that projected alignment data in zero-resource language can be beneficial to predict POS tags.
翻訳日:2024-01-12 19:37:19 公開日:2024-01-11
# ランダムグラフ状態の量子エントロピーと領域則のほぼ確実に収束する

Almost surely convergence of the quantum entropy of random graph states and the area law ( http://arxiv.org/abs/2401.05721v1 )

ライセンス: Link先を確認
Zhi Yin, Liang Zhao(参考訳) [1] において、コリンズらは、ランダムグラフ状態の量子エントロピーは、局所次元が大きい傾向があるため、いわゆる領域則を満たすことを示した。 本稿では,収束の変動について研究を続け,領域法則がほぼ確実に成り立つことを示す。

In [1], Collins et al. showed that the quantum entropy of random graph states satisfies the so-called area law as the local dimension tends to be large. In this paper, we continue to study the fluctuation of the convergence and thus prove the area law holds almost surely.
翻訳日:2024-01-12 19:37:04 公開日:2024-01-11
# 接続音素認識におけるクラスエントロピー測定によるセグメント境界検出

Segment Boundary Detection via Class Entropy Measurements in Connectionist Phoneme Recognition ( http://arxiv.org/abs/2401.05717v1 )

ライセンス: Link先を確認
Giampiero Salvi(参考訳) 本稿では,接続音素認識器の出力のクラスエントロピーを用いて,音素クラス間の時間境界を予測する可能性について検討する。 その理論的根拠は、エントロピーの値は、認識ネットワークによってよくモデル化された(知られている)2つのセグメント間の遷移の近傍に、不確かさの尺度であるために増加することである。 この尺度の利点は、各クラスの後続確率が接続音素認識で利用できるため、その単純さである。 エントロピーの微分に基づくエントロピーといくつかの尺度は、分離および組み合わせに使用される。 境界を予測するための決定方法は、単純なしきい値からニューラルネットワークベースの手順まで様々である。 基準値の10〜20msec以内の予測境界の数cと予測境界の総数との比で測定した精度と、cと基準境界の総数との比率として測定したリコールとを比較した。

This article investigates the possibility to use the class entropy of the output of a connectionist phoneme recogniser to predict time boundaries between phonetic classes. The rationale is that the value of the entropy should increase in proximity of a transition between two segments that are well modelled (known) by the recognition network since it is a measure of uncertainty. The advantage of this measure is its simplicity as the posterior probabilities of each class are available in connectionist phoneme recognition. The entropy and a number of measures based on differentiation of the entropy are used in isolation and in combination. The decision methods for predicting the boundaries range from simple thresholds to neural network based procedure. The different methods are compared with respect to their precision, measured in terms of the ratio between the number C of predicted boundaries within 10 or 20 msec of the reference and the total number of predicted boundaries, and recall, measured as the ratio between C and the total number of reference boundaries.
翻訳日:2024-01-12 19:36:58 公開日:2024-01-11
# カーネル化正規化定数推定:ブリッジングベイズ四分法とベイズ最適化

Kernelized Normalizing Constant Estimation: Bridging Bayesian Quadrature and Bayesian Optimization ( http://arxiv.org/abs/2401.05716v1 )

ライセンス: Link先を確認
Xu Cai and Jonathan Scarlett(参考訳) 本稿では,ブラックボックス関数 $f$ へのクエリを通じて正規化定数 $\int e^{-\lambda f(x)}dx$ を推定する問題について検討する。 小相対誤差内で正規化定数を推定するために、難易度は$\lambda$の値に依存する:$\lambda$が0に近づいた場合、問題はBayesian quadrature (BQ)に似ており、$\lambda$が無限に近づいた場合、問題はBayesian Optimization (BO)に類似している。 より一般に、問題はbqとboによって異なる。 関数評価が騒がしい場合でもこのパターンは有効であることが分かり、このトピックに新たな側面がもたらされた。 本研究は,アルゴリズム非依存な下界とアルゴリズム上界の両方と,様々なベンチマーク関数を用いたシミュレーション研究によって支持される。

In this paper, we study the problem of estimating the normalizing constant $\int e^{-\lambda f(x)}dx$ through queries to the black-box function $f$, where $f$ belongs to a reproducing kernel Hilbert space (RKHS), and $\lambda$ is a problem parameter. We show that to estimate the normalizing constant within a small relative error, the level of difficulty depends on the value of $\lambda$: When $\lambda$ approaches zero, the problem is similar to Bayesian quadrature (BQ), while when $\lambda$ approaches infinity, the problem is similar to Bayesian optimization (BO). More generally, the problem varies between BQ and BO. We find that this pattern holds true even when the function evaluations are noisy, bringing new aspects to this topic. Our findings are supported by both algorithm-independent lower bounds and algorithmic upper bounds, as well as simulation studies conducted on a variety of benchmark functions.
翻訳日:2024-01-12 19:36:41 公開日:2024-01-11
# CSI画像を用いたFew-Shotメタラーニングに基づく屋内指の動的位置決め

Dynamic Indoor Fingerprinting Localization based on Few-Shot Meta-Learning with CSI Images ( http://arxiv.org/abs/2401.05711v1 )

ライセンス: Link先を確認
Jiyu Jiao, Xiaojun Wang, Chenpei Han, Yuhua Huang and Yizhuo Zhang(参考訳) フィンガープリンティングのローカライゼーションはその有効性に有利であるが、高いデータ取得コストと静的データベースベース推定の不正確さによって妨げられている。 そこで本稿では,データ効率の高いメタラーニングアルゴリズムを用いた屋内ローカライズ手法を提案する。 メタラーニングの'learning to learn'パラダイムに基づくこのアプローチは、動的室内環境における適応性と学習効率を向上させるために歴史的なローカライゼーションタスクを使用している。 このフレームワーク内での知識伝達を強化するために,タスク重み付き損失を導入する。 我々の総合的な実験は、現在のベンチマークよりも頑健さと優位性を確認し、平均ユークリッド距離において23.13 %の平均ゲインを達成した。

While fingerprinting localization is favored for its effectiveness, it is hindered by high data acquisition costs and the inaccuracy of static database-based estimates. Addressing these issues, this letter presents an innovative indoor localization method using a data-efficient meta-learning algorithm. This approach, grounded in the ``Learning to Learn'' paradigm of meta-learning, utilizes historical localization tasks to improve adaptability and learning efficiency in dynamic indoor environments. We introduce a task-weighted loss to enhance knowledge transfer within this framework. Our comprehensive experiments confirm the method's robustness and superiority over current benchmarks, achieving a notable 23.13\% average gain in Mean Euclidean Distance, particularly effective in scenarios with limited CSI data.
翻訳日:2024-01-12 19:36:21 公開日:2024-01-11
# 摂動・反向強化学習のための分布報酬批判アーキテクチャ

The Distributional Reward Critic Architecture for Perturbed-Reward Reinforcement Learning ( http://arxiv.org/abs/2401.05710v1 )

ライセンス: Link先を確認
Xi Chen, Zhihui Zhu, Andrew Perrault(参考訳) 我々は未知の報酬摂動の存在下で強化学習を研究する。 この問題に対する既存の方法論は、報酬の滑らかさ、既知の摂動、および/または最適方針を変更しない摂動を含む強い仮定を与える。 報酬空間を離散化しシャッフルする未知の任意の摂動の場合について検討するが、摂動後最も頻繁に観察されるクラスに属する性質を持つ。 この摂動のクラスは、既存のクラス(極限においてすべての連続有界摂動)を一般化し、既存のメソッドを打ち負かす。 適応型分布報酬批判を導入し、技術的条件下で真の報酬を回復できることを理論的に示す。 離散制御タスクと連続制御タスクのターゲットの摂動の下では、40/57設定(最高のベースラインは16/57に比較)で最高リターンを獲得します。 ターゲティングされていない摂動の下でも、私たちは特にその設定のために設計されたベースラインに勝っている。

We study reinforcement learning in the presence of an unknown reward perturbation. Existing methodologies for this problem make strong assumptions including reward smoothness, known perturbations, and/or perturbations that do not modify the optimal policy. We study the case of unknown arbitrary perturbations that discretize and shuffle reward space, but have the property that the true reward belongs to the most frequently observed class after perturbation. This class of perturbations generalizes existing classes (and, in the limit, all continuous bounded perturbations) and defeats existing methods. We introduce an adaptive distributional reward critic and show theoretically that it can recover the true rewards under technical conditions. Under the targeted perturbation in discrete and continuous control tasks, we win/tie the highest return in 40/57 settings (compared to 16/57 for the best baseline). Even under the untargeted perturbation, we still win an edge over the baseline designed especially for that setting.
翻訳日:2024-01-12 19:36:05 公開日:2024-01-11
# CAT-LLM:中国語記事転送のためのテキストスタイル定義による大規模言語モデルの提案

CAT-LLM: Prompting Large Language Models with Text Style Definition for Chinese Article-style Transfer ( http://arxiv.org/abs/2401.05707v1 )

ライセンス: Link先を確認
Zhen Tao, Dinghao Xi, Zhiyu Li, Liumin Tang, Wei Xu(参考訳) オンラインエンタテインメントやソーシャルメディアではテキストスタイル転送が注目されている。 しかし、既存の研究は主に個々の英文におけるスタイル転送に集中しているが、長文の複雑さは無視され、デジタルメディア分野におけるスタイル転送のより広い適用性が制限されている。 このギャップを埋めるために,大言語モデル(LLM)の能力を活用した中国語記事スタイル転送フレームワーク(CAT-LLM)を提案する。 CAT-LLMには、記事中のテキストの特徴を包括的に分析することを目的とした、スポークでプラグイン可能なテキストスタイル定義(TSD)モジュールが組み込まれている。 TSDモジュールは、一連の機械学習アルゴリズムを統合して、単語と文のレベルから記事スタイルを分析することにより、LLMが元のテキストの完全性を損なうことなく、ターゲットスタイルを徹底的に把握できるようにする。 さらに、このモジュールは内部スタイルツリーの動的拡張をサポートし、堅牢な互換性を示し、その後の研究で柔軟な最適化を可能にする。 さらに,異なるスタイルを持つ5つの中国語記事を選択し,chatgptを用いて5つの並列データセットを作成し,モデルの性能評価精度を高め,その後の研究成果を評価するための新しいパラダイムを確立した。 CAT-LLMは転送精度とコンテンツ保存の点で現在の研究よりも優れており,様々な種類のLCMに適用可能であることが確認された。

Text style transfer is increasingly prominent in online entertainment and social media. However, existing research mainly concentrates on style transfer within individual English sentences, while ignoring the complexity of long Chinese texts, which limits the wider applicability of style transfer in digital media realm. To bridge this gap, we propose a Chinese Article-style Transfer framework (CAT-LLM), leveraging the capabilities of Large Language Models (LLMs). CAT-LLM incorporates a bespoke, pluggable Text Style Definition (TSD) module aimed at comprehensively analyzing text features in articles, prompting LLMs to efficiently transfer Chinese article-style. The TSD module integrates a series of machine learning algorithms to analyze article-style from both words and sentences levels, thereby aiding LLMs thoroughly grasp the target style without compromising the integrity of the original text. In addition, this module supports dynamic expansion of internal style trees, showcasing robust compatibility and allowing flexible optimization in subsequent research. Moreover, we select five Chinese articles with distinct styles and create five parallel datasets using ChatGPT, enhancing the models' performance evaluation accuracy and establishing a novel paradigm for evaluating subsequent research on article-style transfer. Extensive experimental results affirm that CAT-LLM outperforms current research in terms of transfer accuracy and content preservation, and has remarkable applicability to various types of LLMs.
翻訳日:2024-01-12 19:35:49 公開日:2024-01-11
# 大規模言語モデルによるビデオ異常検出と説明

Video Anomaly Detection and Explanation via Large Language Models ( http://arxiv.org/abs/2401.05702v1 )

ライセンス: Link先を確認
Hui Lv and Qianru Sun(参考訳) video anomaly detection (vad)は、長距離監視ビデオのタイムライン上の異常事象をローカライズすることを目的としている。 anomaly-scoring-based methodは長年にわたって普及してきたが、しきい値の複雑さと検出結果の可視性に苦しめられている。 本稿では,vadのフレームワークにビデオベースの大規模言語モデル(vllms)を装備する先駆的な研究を行い,vadモデルにしきい値がないようにし,検出された異常の理由を説明する。 本稿では,長距離コンテキストモデリングにおけるVLLMの可読性を軽減するために,新しいネットワークモジュールLong-Term Context (LTC)を導入する。 我々は,VLLMの微調整効率を向上させるための3相学習法を設計し,VADデータの要求を大幅に最小化し,注釈付けデータのコストを削減した。 トレーニングされたモデルは,UCF-CrimeベンチマークとTADベンチマークの異常ビデオにおいて,それぞれ+3.86\%と+4.96\%のAUC改善を達成している。 より印象的なことに、このアプローチは検出された異常に対してテキストによる説明を提供することができる。

Video Anomaly Detection (VAD) aims to localize abnormal events on the timeline of long-range surveillance videos. Anomaly-scoring-based methods have been prevailing for years but suffer from the high complexity of thresholding and low explanability of detection results. In this paper, we conduct pioneer research on equipping video-based large language models (VLLMs) in the framework of VAD, making the VAD model free from thresholds and able to explain the reasons for the detected anomalies. We introduce a novel network module Long-Term Context (LTC) to mitigate the incapability of VLLMs in long-range context modeling. We design a three-phase training method to improve the efficiency of fine-tuning VLLMs by substantially minimizing the requirements for VAD data and lowering the costs of annotating instruction-tuning data. Our trained model achieves the top performance on the anomaly videos of the UCF-Crime and TAD benchmarks, with the AUC improvements of +3.86\% and +4.96\%, respectively. More impressively, our approach can provide textual explanations for detected anomalies.
翻訳日:2024-01-12 19:35:24 公開日:2024-01-11
# R-BI: 低レイテンシ同時音声翻訳のためのインクリメンタルデコーディングフレームワーク

R-BI: Regularized Batched Inputs enhance Incremental Decoding Framework for Low-Latency Simultaneous Speech Translation ( http://arxiv.org/abs/2401.05700v1 )

ライセンス: Link先を確認
Jiaxin Guo, Zhanglin Wu, Zongyao Li, Hengchao Shang, Daimeng Wei, Xiaoyu Chen, Zhiqiang Rao, Shaojun Li, Hao Yang(参考訳) インクリメンタルデコーディングは、オリジナルのモデルを変更することなく、オフラインモデルを同時設定で使用できる効果的なフレームワークであり、低レイテンシ同時音声翻訳に適している。 しかし、このフレームワークはシステムが不完全な入力から出力した場合にエラーをもたらす可能性がある。 これらの出力エラーを減らすために、 hold-$n$、la-$n$、sp-$n$のようないくつかの戦略が採用できるが、最適な性能のためにハイパーパラメータ$n$を慎重に選択する必要がある。 さらに、これらの戦略はカスケードシステムよりもエンドツーエンドシステムに適している。 本稿では「正規化バッチ入力」という新しい適応的かつ効率的なポリシーを提案する。 本手法は,出力誤差を軽減するために入力の多様性を高めることで際立っている。 エンド・ツー・エンドとカスケードの両方のシステムの特定の正規化手法を提案する。 我々は,IWSLT同時音声翻訳(SimulST)タスクの実験を行い,本手法がオフラインシステムに比べて2BLEUポイントの損失を少なく抑えながら低レイテンシを実現することを示した。 さらに,シマルストシステムでは,様々な言語方向において新たな結果が得られた。

Incremental Decoding is an effective framework that enables the use of an offline model in a simultaneous setting without modifying the original model, making it suitable for Low-Latency Simultaneous Speech Translation. However, this framework may introduce errors when the system outputs from incomplete input. To reduce these output errors, several strategies such as Hold-$n$, LA-$n$, and SP-$n$ can be employed, but the hyper-parameter $n$ needs to be carefully selected for optimal performance. Moreover, these strategies are more suitable for end-to-end systems than cascade systems. In our paper, we propose a new adaptable and efficient policy named "Regularized Batched Inputs". Our method stands out by enhancing input diversity to mitigate output errors. We suggest particular regularization techniques for both end-to-end and cascade systems. We conducted experiments on IWSLT Simultaneous Speech Translation (SimulST) tasks, which demonstrate that our approach achieves low latency while maintaining no more than 2 BLEU points loss compared to offline systems. Furthermore, our SimulST systems attained several new state-of-the-art results in various language directions.
翻訳日:2024-01-12 19:35:02 公開日:2024-01-11
# HiCMAE: 自己監督型音声・視覚感情認識のための階層型コントラストマスクオートエンコーダ

HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition ( http://arxiv.org/abs/2401.05698v1 )

ライセンス: Link先を確認
Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao(参考訳) 音声視覚感情認識(aver)は,近年,感情認識型インテリジェントマシンの開発において重要な役割を担っているため,注目を集めている。 この領域における以前の取り組みは、教師付き学習パラダイムによって支配されている。 大幅な進歩にもかかわらず、教師あり学習は、AVERの長年のデータ不足の問題のためにボトルネックを満たしている。 近年の自己教師付き学習の進歩に動機づけられた階層的コントラストマスク付きオートエンコーダ(hicmae)を提案する。 自己教師型音声視覚表現学習における先行技術に続いて、HiCMAEは事前学習のための2つの主要なセルフスーパービジョン、すなわちマスク付きデータモデリングとコントラスト学習を採用した。 中間層の明示的なガイダンスを無視しながらトップ層表現のみに焦点を絞ったものとは異なり、HiCMAEは階層的な音声・視覚的特徴学習を促進し、学習された表現の全体的な品質を向上させるための3段階の戦略を開発する。 HiCMAEの有効性を検証するため、分類的タスクと次元的タスクの両方をカバーする9つのデータセットに対して広範な実験を行った。 実験結果から,HCMAEは高能率な音声・視覚感情表現学習者であり,最先端の教師付き・自己教師型音声・視覚的手法よりも優れていたことが示唆された。 コードとモデルはhttps://github.com/sunlicai/HiCMAE.comで公開される。

Audio-Visual Emotion Recognition (AVER) has garnered increasing attention in recent years for its critical role in creating emotion-ware intelligent machines. Previous efforts in this area are dominated by the supervised learning paradigm. Despite significant progress, supervised learning is meeting its bottleneck due to the longstanding data scarcity issue in AVER. Motivated by recent advances in self-supervised learning, we propose Hierarchical Contrastive Masked Autoencoder (HiCMAE), a novel self-supervised framework that leverages large-scale self-supervised pre-training on vast unlabeled audio-visual data to promote the advancement of AVER. Following prior arts in self-supervised audio-visual representation learning, HiCMAE adopts two primary forms of self-supervision for pre-training, namely masked data modeling and contrastive learning. Unlike them which focus exclusively on top-layer representations while neglecting explicit guidance of intermediate layers, HiCMAE develops a three-pronged strategy to foster hierarchical audio-visual feature learning and improve the overall quality of learned representations. To verify the effectiveness of HiCMAE, we conduct extensive experiments on 9 datasets covering both categorical and dimensional AVER tasks. Experimental results show that our method significantly outperforms state-of-the-art supervised and self-supervised audio-visual methods, which indicates that HiCMAE is a powerful audio-visual emotion representation learner. Codes and models will be publicly available at https://github.com/sunlicai/HiCMAE.
翻訳日:2024-01-12 19:34:45 公開日:2024-01-11
# フロッケ位相絶縁体における動的キラル対称性と対称性クラス変換

Dynamical Chiral Symmetry and Symmetry-Class Conversion in Floquet Topological Insulators ( http://arxiv.org/abs/2401.05697v1 )

ライセンス: Link先を確認
Mohamed Assili, Panagiotis Kotetes(参考訳) 本研究では, 動力学的カイラル対称性 (DCS) を持つフロケットトポロジカル絶縁体に生じる静的な非定常な特性,すなわち運転中に存在するカイラル対称性について論じる。 本研究では,DCSを有するFloquet絶縁体の位相特性について検討する。 ハーモニックドライブの場合を考え、周波数空間における準エネルギー演算子を用いた一般的な枠組みを用いる。 静的なアナログを持たないDCSの場合、運転の有無が準エネルギーゼロの位相位相に無視できる影響があることが判明した。 対照的に、位相ギャップは$\pi$準エネルギーで開き、主に駆動摂動が消滅するモーメントで発生する。 bdi対称性クラスにおける拡張キタエフ連鎖モデルの上記の一般予測を確認した。 キラル対称性を保ちながらドライブを追加すると開く別の可能性は対称性クラス変換である。 1d において位相自明な静的 ci クラスハミルトニアンに対するそのような効果を示す。 適切な運転を考慮すれば、ci$\rightarrow$aiii遷移が得られる。 特に、生じる位相位相相はDCSが静的アナログを持つか否かに強く依存する。 以上の結果から,Floquet 絶縁体を非標準 DCS を工学およびトポロジカルな$\pi$-modes を操作するための理想的な候補プラットフォームとする。

In this work, we discuss properties with no static counterpart arising in Floquet topological insulators with a dynamical chiral symmetry (DCS), i.e., a chiral symmetry which is present while driving. We explore the topological properties of Floquet insulators possessing a DCS which either does or does not survive upon taking the static limit. We consider the case of harmonic drives and employ a general framework using the quasi-energy operator in frequency space. We find that for a DCS with no static analog, the presence of driving has a negligible impact on the topological phases associated with zero quasi-energy. In stark contrast, topological gaps can open at $\pi$ quasi-energy and mainly occur at momenta where the driving perturbation vanishes. We confirm the above general predictions for an extended Kitaev chain model in the BDI symmetry class. Another possibility that opens up when adding the drive, while preserving chiral symmetry, is symmetry-class conversion. We demonstrate such an effect for a static CI class Hamiltonian which is topologically trivial in 1D. By considering a suitable driving, we obtain a CI$\rightarrow$AIII transition, which now enables the system to harbor topological $\pi$-modes. Notably, the arising topological phases strongly depend on whether the DCS has a static analog or not. Our results bring Floquet insulators with nonstandard DCS forward as ideal candidate platforms for engineering and manipulating topological $\pi$-modes.
翻訳日:2024-01-12 19:34:17 公開日:2024-01-11
# 医師の診断ロジックを大規模言語モデルに統合する:プロセスフィードバックによる選好学習

Integrating Physician Diagnostic Logic into Large Language Models: Preference Learning from Process Feedback ( http://arxiv.org/abs/2401.05695v1 )

ライセンス: Link先を確認
Chengfeng Dou, Zhi Jin, Wenpin Jiao, Haiyan Zhao, Yongqiang Zhao, Zhenwei Tao(参考訳) 医学的対話生成における大規模言語モデルの使用は、応答品質とフラレンシーの向上に焦点をあて、大きな注目を集めている。 従来,シングルラウンド医療Q&Aタスクにおけるモデル性能の最適化は進展してきたが,論理的矛盾を回避するために,マルチラウンド会話におけるモデル性能の向上が必要である。 そこで本研究では,医師の診断ロジックをllmに統合したプロセスフィードバックから選好学習(plpf)と呼ばれるアプローチを提案する。 PLPFは、ルールモデリング、嗜好データ生成、そして診断プロセスに準拠するようにモデルをトレーニングするための嗜好アライメントを含む。 標準化された患者テストを用いた実験の結果、plpfは医療会話におけるベースラインモデルの診断精度を17.6%向上させ、従来の人間フィードバックによる強化学習を上回った。 さらにplpfはマルチラウンド対話タスクとシングルラウンド対話タスクの両方において有効性を示し、医療対話生成を改善する可能性を示している。

The use of large language models in medical dialogue generation has garnered significant attention, with a focus on improving response quality and fluency. While previous studies have made progress in optimizing model performance for single-round medical Q&A tasks, there is a need to enhance the model's capability for multi-round conversations to avoid logical inconsistencies. To address this, we propose an approach called preference learning from process feedback~(PLPF), which integrates the doctor's diagnostic logic into LLMs. PLPF involves rule modeling, preference data generation, and preference alignment to train the model to adhere to the diagnostic process. Experimental results using Standardized Patient Testing show that PLPF enhances the diagnostic accuracy of the baseline model in medical conversations by 17.6%, outperforming traditional reinforcement learning from human feedback. Additionally, PLPF demonstrates effectiveness in both multi-round and single-round dialogue tasks, showcasing its potential for improving medical dialogue generation.
翻訳日:2024-01-12 19:33:54 公開日:2024-01-11
# ucorrect: 自動音声認識誤り訂正のための教師なしフレームワーク

UCorrect: An Unsupervised Framework for Automatic Speech Recognition Error Correction ( http://arxiv.org/abs/2401.05689v1 )

ライセンス: Link先を確認
Jiaxin Guo, Minghan Wang, Xiaosong Qiao, Daimeng Wei, Hengchao Shang, Zongyao Li, Zhengzhe Yu, Yinglu Li, Chang Su, Min Zhang, Shimin Tao, Hao Yang(参考訳) 誤り訂正技術は、自動音声認識(ASR)モデルから出力文を洗練し、低い単語誤り率(WER)を達成するために用いられている。 以前の作品は通常、エンドツーエンドモデルを採用しており、擬似ペアデータとオリジナルペアデータに強く依存している。 しかし、擬似ペアデータのみを事前トレーニングする場合、以前のモデルが補正に悪影響を及ぼす。 Original Paired Dataを微調整する一方で、ソース側データは十分に訓練されたASRモデルによって転写されなければならない。 本稿では,ASR誤り訂正のためのunsupervised Detector-Generator-SelectorフレームワークであるUCorrectを提案する。 UCorrectは前述のトレーニングデータに依存しない。 まず、その文字が誤っているかを検出し、次にいくつかの候補文字を生成し、最後に最も自信のある文字を選択し、エラー文字を置き換える。 公開AISHELL-1データセットとWenetSpeechデータセットの実験は、ASR誤り訂正のためのUCorrectの有効性を示している。 1) WERの大幅な低減を実現し, 微調整を行わなくても6.83\%, 微調整後の14.29\%を達成する。 2) 一般的なnar補正モデルよりも大きなマージンで,低レイテンシの競争性が高い。 3)異なるデコード戦略でASRモデルのWERを削減し、異なるスケールのデータセットでトレーニングされたASRモデルのWERを削減できるため、普遍的な手法である。

Error correction techniques have been used to refine the output sentences from automatic speech recognition (ASR) models and achieve a lower word error rate (WER). Previous works usually adopt end-to-end models and has strong dependency on Pseudo Paired Data and Original Paired Data. But when only pre-training on Pseudo Paired Data, previous models have negative effect on correction. While fine-tuning on Original Paired Data, the source side data must be transcribed by a well-trained ASR model, which takes a lot of time and not universal. In this paper, we propose UCorrect, an unsupervised Detector-Generator-Selector framework for ASR Error Correction. UCorrect has no dependency on the training data mentioned before. The whole procedure is first to detect whether the character is erroneous, then to generate some candidate characters and finally to select the most confident one to replace the error character. Experiments on the public AISHELL-1 dataset and WenetSpeech dataset show the effectiveness of UCorrect for ASR error correction: 1) it achieves significant WER reduction, achieves 6.83\% even without fine-tuning and 14.29\% after fine-tuning; 2) it outperforms the popular NAR correction models by a large margin with a competitive low latency; and 3) it is an universal method, as it reduces all WERs of the ASR model with different decoding strategies and reduces all WERs of ASR models trained on different scale datasets.
翻訳日:2024-01-12 19:33:35 公開日:2024-01-11
# 自己拡張型畳み込みニューラルネットワーク

Self Expanding Convolutional Neural Networks ( http://arxiv.org/abs/2401.05686v1 )

ライセンス: Link先を確認
Blaise Appolinary, Alex Deaconu, Sophia Yang(参考訳) 本稿では,学習中の畳み込みニューラルネットワーク(CNN)を動的に拡張する新しい手法を提案する。 我々のアプローチは、SENN(Self-Expanding Neural Networks)に関する基礎研究から導かれ、深層畳み込みニューラルネットワークにおける過度パラメータ化の共通問題に対処するための拡張基準として自然拡張スコアを用いて、モデルの複雑さがタスクの特定のニーズに合わせて微調整されることを保証する。 この方法の大きな利点は、異なる大きさの複数のモデルを訓練する必要がなくなるため、環境にやさしい性質である。 我々は,1つのモデルが動的に拡張される戦略を採用し,様々な複雑性レベルでのチェックポイントの抽出を容易にし,計算資源利用とエネルギー消費を効果的に削減するとともに,単一のトレーニングセッションから多様なモデルの複雑さを提供することにより,開発サイクルを高速化する。 提案手法をcifar-10データセット上で評価し,本手法の有効性を実験的に検証し,cnn性能の向上と拡張基準の有効性を検証した。 このアプローチは、適応的でスケーラブルで環境に配慮したニューラルネットワークアーキテクチャを開発する上で大きな進歩を示し、ディープラーニングの分野における重要な課題に対処している。

In this paper, we present a novel method for dynamically expanding Convolutional Neural Networks (CNNs) during training, aimed at meeting the increasing demand for efficient and sustainable deep learning models. Our approach, drawing from the seminal work on Self-Expanding Neural Networks (SENN), employs a natural expansion score as an expansion criteria to address the common issue of over-parameterization in deep convolutional neural networks, thereby ensuring that the model's complexity is finely tuned to the task's specific needs. A significant benefit of this method is its eco-friendly nature, as it obviates the necessity of training multiple models of different sizes. We employ a strategy where a single model is dynamically expanded, facilitating the extraction of checkpoints at various complexity levels, effectively reducing computational resource use and energy consumption while also expediting the development cycle by offering diverse model complexities from a single training session. We evaluate our method on the CIFAR-10 dataset and our experimental results validate this approach, demonstrating that dynamically adding layers not only maintains but also improves CNN performance, underscoring the effectiveness of our expansion criteria. This approach marks a considerable advancement in developing adaptive, scalable, and environmentally considerate neural network architectures, addressing key challenges in the field of deep learning.
翻訳日:2024-01-12 19:33:15 公開日:2024-01-11
# 深層学習とメカニズム設計:鍵となる結果と新しい応用

Deep Learning Meets Mechanism Design: Key Results and Some Novel Applications ( http://arxiv.org/abs/2401.05683v1 )

ライセンス: Link先を確認
V. Udaya Sankar, Vishisht Srihari Rao, Y. Narahari(参考訳) 機構設計は基本的にゲームのリバースエンジニアリングであり、誘導されたゲームがゲームの平衡における望ましい特性のセットを満たすように戦略的なエージェントの間でゲームを誘導する。 メカニズムの望ましい特性には、インセンティブ互換性、個人の合理性、福祉の最大化、収益の最大化(またはコスト最小化)、配分の公平性などがある。 機構設計理論から、これらの性質の特定の厳密な部分集合のみが任意の機構によって同時に満足できることが知られている。 現実の応用で必要とされるメカニズムは、理論上同時に満たすことができないこれらの性質のサブセットを必要とすることが多い。 そのような場合、近年の顕著なアプローチは、学習に基づくアプローチを使用して、適切に定義された損失関数を最小化することにより、必要な特性をほぼ満足するメカニズムを学ぶことである。 本稿では,関連する文献から,メカニズム設計のための深層学習アプローチの技術的詳細を説明し,本トピックにおける重要な結果の概要を示す。 このアプローチのパワーを3つの例で示します。 a) 車両ネットワークにおける効率的なエネルギー管理 (b)移動体ネットワークにおける資源割当 (c)農業用インプットのボリュームディスカウント調達オークションをデザインすること。 第6節はその論文を締めくくる。

Mechanism design is essentially reverse engineering of games and involves inducing a game among strategic agents in a way that the induced game satisfies a set of desired properties in an equilibrium of the game. Desirable properties for a mechanism include incentive compatibility, individual rationality, welfare maximisation, revenue maximisation (or cost minimisation), fairness of allocation, etc. It is known from mechanism design theory that only certain strict subsets of these properties can be simultaneously satisfied exactly by any given mechanism. Often, the mechanisms required by real-world applications may need a subset of these properties that are theoretically impossible to be simultaneously satisfied. In such cases, a prominent recent approach is to use a deep learning based approach to learn a mechanism that approximately satisfies the required properties by minimizing a suitably defined loss function. In this paper, we present, from relevant literature, technical details of using a deep learning approach for mechanism design and provide an overview of key results in this topic. We demonstrate the power of this approach for three illustrative case studies: (a) efficient energy management in a vehicular network (b) resource allocation in a mobile network (c) designing a volume discount procurement auction for agricultural inputs. Section 6 concludes the paper.
翻訳日:2024-01-12 19:32:50 公開日:2024-01-11
# 防衛サイバー操作支援におけるグラフニューラルネットワークの利用

Use of Graph Neural Networks in Aiding Defensive Cyber Operations ( http://arxiv.org/abs/2401.05680v1 )

ライセンス: Link先を確認
Shaswata Mitra, Trisha Chakraborty, Subash Neupane, Aritran Piplai, Sudip Mittal(参考訳) 情報が現代社会の生命の血筋である、ますます相互に繋がる世界では、通常のサイバー攻撃は、デジタルシステムと情報の機密性、完全性、可用性を損なう。 さらに、サイバー攻撃は目的によって異なり、防御システムを偽装するために急速に進化する。 しかし、典型的なサイバー攻撃は攻撃ライフサイクルと呼ばれる攻撃開始から最終解決までの一連の段階を示す。 こうした多様な特徴とサイバー攻撃の絶え間ない進化によって、サイバー防衛は、防御策を強化し攻撃ライフサイクルを壊すために、機械学習のような現代的なアプローチを採用することになった。 採用されているMLアプローチの中で、グラフニューラルネットワークは、異種サイバー脅威データから処理および学習する能力により、防御措置の有効性を高めるための有望なアプローチとして登場した。 本稿では,最も有名な攻撃ライフサイクルであるロッキード・マーティン・サイバーキル・チェーンのそれぞれの段階を打破するためのGNNの適用について検討する。 CKCの各フェーズに対処し、GNNが防御の観点からの攻撃の準備と防止にどのように貢献するかについて議論する。 さらに、オープン研究領域とさらなる改善範囲についても論じる。

In an increasingly interconnected world, where information is the lifeblood of modern society, regular cyber-attacks sabotage the confidentiality, integrity, and availability of digital systems and information. Additionally, cyber-attacks differ depending on the objective and evolve rapidly to disguise defensive systems. However, a typical cyber-attack demonstrates a series of stages from attack initiation to final resolution, called an attack life cycle. These diverse characteristics and the relentless evolution of cyber attacks have led cyber defense to adopt modern approaches like Machine Learning to bolster defensive measures and break the attack life cycle. Among the adopted ML approaches, Graph Neural Networks have emerged as a promising approach for enhancing the effectiveness of defensive measures due to their ability to process and learn from heterogeneous cyber threat data. In this paper, we look into the application of GNNs in aiding to break each stage of one of the most renowned attack life cycles, the Lockheed Martin Cyber Kill Chain. We address each phase of CKC and discuss how GNNs contribute to preparing and preventing an attack from a defensive standpoint. Furthermore, We also discuss open research areas and further improvement scopes.
翻訳日:2024-01-12 19:32:31 公開日:2024-01-11
# 人間と物体の相互作用検出のための自己・クロストリプレット相関の探索

Exploring Self- and Cross-Triplet Correlations for Human-Object Interaction Detection ( http://arxiv.org/abs/2401.05676v1 )

ライセンス: Link先を確認
Weibo Jiang, Weihong Ren, Jiandong Tian, Liangqiong Qu, Zhiyong Wang, Honghai Liu(参考訳) 人間と物体の相互作用(Human-Object Interaction, HOI)の検出はシーン理解において重要な役割を担っている。 既存の手法は主にマルチモーダルな特徴(外観、オブジェクトの意味論、人間のポーズなど)を抽出し、それらを融合してHOI三重項を直接予測する。 しかし,これらの手法の多くは自己ストリップアグリゲーションの探索に焦点が当てられているが,クロストリップの依存関係は無視されているため,行動予測の曖昧さが生じる。 本研究では,HOI検出のための自己・横断的相関(SCTC)を提案する。 具体的には、各トリプレット提案を、Human, Objectがノードを表し、Actionがエッジを示し、自己トリップ相関を集約するグラフとみなす。 また、インスタンスレベル、セマンティクスレベル、レイアウトレベルの関係を共同で考慮することで、トリップレット間の依存性を探求する。 また,CLIPモデルを利用して,知識蒸留による相互作用認識機能の実現を支援し,HOI検出に有用なアクションヒントを提供する。 HICO-DETとV-COCOデータセットの大規模な実験により,提案したSCTCの有効性が検証された。

Human-Object Interaction (HOI) detection plays a vital role in scene understanding, which aims to predict the HOI triplet in the form of <human, object, action>. Existing methods mainly extract multi-modal features (e.g., appearance, object semantics, human pose) and then fuse them together to directly predict HOI triplets. However, most of these methods focus on seeking for self-triplet aggregation, but ignore the potential cross-triplet dependencies, resulting in ambiguity of action prediction. In this work, we propose to explore Self- and Cross-Triplet Correlations (SCTC) for HOI detection. Specifically, we regard each triplet proposal as a graph where Human, Object represent nodes and Action indicates edge, to aggregate self-triplet correlation. Also, we try to explore cross-triplet dependencies by jointly considering instance-level, semantic-level, and layout-level relations. Besides, we leverage the CLIP model to assist our SCTC obtain interaction-aware feature by knowledge distillation, which provides useful action clues for HOI detection. Extensive experiments on HICO-DET and V-COCO datasets verify the effectiveness of our proposed SCTC.
翻訳日:2024-01-12 19:32:13 公開日:2024-01-11
# Parrot: テキスト・画像生成のためのパレット最適マルチリワード強化学習フレームワーク

Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation ( http://arxiv.org/abs/2401.05675v1 )

ライセンス: Link先を確認
Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim, Irfan Essa, Feng Yang(参考訳) 近年の研究では,テキスト・ツー・イメージ(T2I)生成における画像の品質向上が図られている。 しかし、複数の報酬の単純な集約は、ある指標の過度な最適化と他の指標の劣化を引き起こす可能性があり、手動で最適な重みを見つけることは困難である。 T2I生成のためのRLにおける複数の報酬を協調的に最適化する効果的な戦略が望まれる。 本稿では,t2i世代向けマルチワードrlフレームワークparrotを紹介する。 バッチワイドのパレート最適選択を用いることで、ParrotはT2I生成のRL最適化において、異なる報酬間の最適トレードオフを自動的に識別する。 さらにparrotは、t2iモデルとプロンプト拡張ネットワークの合同最適化アプローチを採用し、品質認識テキストプロンプトの生成を容易にし、最終的な画質をさらに向上させる。 そこで本研究では,プロンプトがユーザの入力に忠実であり続けることを保証するために,推定時間に元のプロンプト中心のガイダンスを導入する。 大規模な実験とユーザスタディにより、Parrotは、美学、人間の好み、イメージの感情、テキストイメージアライメントなど、さまざまな品質基準で、いくつかのベースラインメソッドを上回ります。

Recent works demonstrate that using reinforcement learning (RL) with quality rewards can enhance the quality of generated images in text-to-image (T2I) generation. However, a simple aggregation of multiple rewards may cause over-optimization in certain metrics and degradation in others, and it is challenging to manually find the optimal weights. An effective strategy to jointly optimize multiple rewards in RL for T2I generation is highly desirable. This paper introduces Parrot, a novel multi-reward RL framework for T2I generation. Through the use of the batch-wise Pareto optimal selection, Parrot automatically identifies the optimal trade-off among different rewards during the RL optimization of the T2I generation. Additionally, Parrot employs a joint optimization approach for the T2I model and the prompt expansion network, facilitating the generation of quality-aware text prompts, thus further enhancing the final image quality. To counteract the potential catastrophic forgetting of the original user prompt due to prompt expansion, we introduce original prompt centered guidance at inference time, ensuring that the generated image remains faithful to the user input. Extensive experiments and a user study demonstrate that Parrot outperforms several baseline methods across various quality criteria, including aesthetics, human preference, image sentiment, and text-image alignment.
翻訳日:2024-01-12 19:31:51 公開日:2024-01-11
# 生成へのエビデンス(E2G): 文脈接地および検索強化推論のための単一エージェント2段階プロンプト

Evidence to Generate (E2G): A Single-agent Two-step Prompting for Context Grounded and Retrieval Augmented Reasoning ( http://arxiv.org/abs/2401.05787v1 )

ライセンス: Link先を確認
Md Rizwan Parvez(参考訳) チェーン・オブ・シント(CoT)のプロンプトは、LCMが推論タスクを実行する方法に革命をもたらしたが、現在の方法とバリエーション(例えば、自己整合性、反応、反射、ツリー・オブ・ソート(ToT)、累積的推論(CR))は、緩やかさ、限られた文脈基盤、幻覚、一貫性のない出力といった制限に悩まされている。 これらの課題を克服するために,新しい単一エージェント2段階プロンプトフレームワークであるEvidence to Generate(E2G)を紹介した。 検証されていない推論の主張の代わりに、この革新的なアプローチは、まず文脈で明示的に言及される思考列(一連の中間ステップ)に焦点を合わせ、抽出された証拠として機能し、llmの出力生成プロセスをより精度と効率で導くことによって、"意思決定の明確さ"の力を利用する。 このシンプルでパワフルなアプローチは、プロンプトや、より速く、より信頼性が高く、より文脈に合った推論への道を開くような、思考の連鎖の真の可能性を解き放ちます。 \tool は知識集約型推論および生成タスクにおいて,最先端の LLM を用いたベースラインアプローチを超越して,顕著な結果が得られる。 例えば i) GPT-4をバックボーンモデルとして用いたLogiQAベンチマークでは,CoTを18%,ToTを11%,CRを9%以上,53.8%の新たな精度を実現している。 (ii) PaLM2によるE2Gの変種は、ジェミニウルトラの可変ショット性能を0.9F1ポイントで上回り、DROPのサブセットでF1スコア83.3に達する。

While chain-of-thought (CoT) prompting has revolutionized how LLMs perform reasoning tasks, its current methods and variations (e.g, Self-consistency, ReACT, Reflexion, Tree-of-Thoughts (ToT), Cumulative Reasoning (CR)) suffer from limitations like slowness, limited context grounding, hallucination and inconsistent outputs. To overcome these challenges, we introduce Evidence to Generate (E2G), a novel single-agent, two-step prompting framework. Instead of unverified reasoning claims, this innovative approach leverages the power of "evidence for decision making" by first focusing exclusively on the thought sequences (the series of intermediate steps) explicitly mentioned in the context which then serve as extracted evidence, guiding the LLM's output generation process with greater precision and efficiency. This simple yet powerful approach unlocks the true potential of chain-of-thought like prompting, paving the way for faster, more reliable, and more contextually aware reasoning in LLMs. \tool achieves remarkable results robustly across a wide range of knowledge-intensive reasoning and generation tasks, surpassing baseline approaches with state-of-the-art LLMs. For example, (i) on LogiQA benchmark using GPT-4 as backbone model, \tool achieves a new state-of-the Accuracy of 53.8% exceeding CoT by 18%, ToT by 11%, CR by 9% (ii) a variant of E2G with PaLM2 outperforms the variable-shot performance of Gemini Ultra by 0.9 F1 points, reaching an F1 score of 83.3 on a subset of DROP.
翻訳日:2024-01-12 15:29:46 公開日:2024-01-11
# EraseDiff:拡散モデルにおけるデータ影響の消去

EraseDiff: Erasing Data Influence in Diffusion Models ( http://arxiv.org/abs/2401.05779v1 )

ライセンス: Link先を確認
Jing Wu, Trung Le, Munawar Hayat, Mehrtash Harandi(参考訳) 本研究では,データ保護規則と「忘れられる権利」に応答して,拡散モデルのための未学習アルゴリズムを提案する。 本アルゴリズムは,データ記憶に関する懸念を緩和する機構を備えた拡散モデルである。 そこで本研究では,未学習問題を二段階最適化問題として定式化し,残りのデータに対する拡散モデルの有用性を保つことを目的とする。 内部の目的は、学習可能な生成過程を接地発振手順から逸脱させることにより、データ忘れに関する情報を消去することである。 得られた二階問題の解法として,拡散過程を警戒しながら実用性に優れた一階法を採用し,二階問題を解く。 実験により,本アルゴリズムは2つの拡散モデルと条件付きおよび非条件画像生成シナリオにおいて,モデルの有用性,有効性,効率性を保たせることを示した。 実験では、UTKFace、CelebA、CelebA-HQ、CIFAR10といった顔とオブジェクトのデータセットから、クラス、属性、さらにはレースの未学習を実証した。

In response to data protection regulations and the ``right to be forgotten'', in this work, we introduce an unlearning algorithm for diffusion models. Our algorithm equips a diffusion model with a mechanism to mitigate the concerns related to data memorization. To achieve this, we formulate the unlearning problem as a bi-level optimization problem, wherein the outer objective is to preserve the utility of the diffusion model on the remaining data. The inner objective aims to scrub the information associated with forgetting data by deviating the learnable generative process from the ground-truth denoising procedure. To solve the resulting bi-level problem, we adopt a first-order method, having superior practical performance while being vigilant about the diffusion process and solving a bi-level problem therein. Empirically, we demonstrate that our algorithm can preserve the model utility, effectiveness, and efficiency while removing across two widely-used diffusion models and in both conditional and unconditional image generation scenarios. In our experiments, we demonstrate the unlearning of classes, attributes, and even a race from face and object datasets such as UTKFace, CelebA, CelebA-HQ, and CIFAR10.
翻訳日:2024-01-12 15:29:06 公開日:2024-01-11
# 大規模言語モデルシステムのリスク分類・緩和・評価ベンチマーク

Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems ( http://arxiv.org/abs/2401.05778v1 )

ライセンス: Link先を確認
Tianyu Cui, Yanling Wang, Chuanpu Fu, Yong Xiao, Sijia Li, Xinhao Deng, Yunpeng Liu, Qinglin Zhang, Ziyi Qiu, Peiyang Li, Zhixing Tan, Junwu Xiong, Xinyu Kong, Zujie Wen, Ke Xu, Qi Li(参考訳) 大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。 しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用の大きな障害となっている。 多くの研究がllmシステムのリスクを調査し、対応する緩和戦略を開発した。 OpenAI、Google、Meta、Anthropicといった先進的な企業も、責任あるLLMに多くの努力を払っています。 そのため、既存の研究を整理し、地域社会の包括的分類体系を確立する必要性が高まっている。 本稿では,プロンプトを受けるための入力モジュール,広範なコーパスでトレーニングされた言語モデル,開発およびデプロイのためのツールチェーンモジュール,llm生成コンテンツのエクスポートのための出力モジュールを含む,llmシステムの4つの必須モジュールについて検討する。 そこで本研究では,llmシステムの各モジュールに関連する潜在的なリスクを体系的に解析し,対応する緩和戦略を考察する包括的分類法を提案する。 さらに, LLMシステムのリスクアセスメントを促進するために, 先行ベンチマークをレビューする。 本論文は, LLM の参加者が責任ある LLM システムを構築するための体系的な視点を受け入れるのに役立つことを願っている。

Large language models (LLMs) have strong capabilities in solving diverse natural language processing tasks. However, the safety and security issues of LLM systems have become the major obstacle to their widespread application. Many studies have extensively investigated risks in LLM systems and developed the corresponding mitigation strategies. Leading-edge enterprises such as OpenAI, Google, Meta, and Anthropic have also made lots of efforts on responsible LLMs. Therefore, there is a growing need to organize the existing studies and establish comprehensive taxonomies for the community. In this paper, we delve into four essential modules of an LLM system, including an input module for receiving prompts, a language model trained on extensive corpora, a toolchain module for development and deployment, and an output module for exporting LLM-generated content. Based on this, we propose a comprehensive taxonomy, which systematically analyzes potential risks associated with each module of an LLM system and discusses the corresponding mitigation strategies. Furthermore, we review prevalent benchmarks, aiming to facilitate the risk assessment of LLM systems. We hope that this paper can help LLM participants embrace a systematic perspective to build their responsible LLM systems.
翻訳日:2024-01-12 15:28:31 公開日:2024-01-11
# 質問応答による言語モデルの構造化意味論的理解と生成

Probing Structured Semantics Understanding and Generation of Language Models via Question Answering ( http://arxiv.org/abs/2401.05777v1 )

ライセンス: Link先を確認
Jinxin Liu, Shulin Cao, Jiaxin Shi, Tingjian Zhang, Lei Hou, Juanzi Li(参考訳) 大規模言語モデル (LLMs) の能力の最近の進歩は, LLMs の評価の新たな急激な増加を引き起こしている。 最近の評価研究は、一連のタスクにおけるLLMの包括的能力を評価する傾向にある。 しかし、自然言語の深層構造を理解することは稀である。 本研究では,LLMが人間による形式言語による質問応答のタスクにおいて,構造化意味論を扱う能力について検討する。 具体的には、構造化論理形式を理解し生成する能力を検証するために、llmの文脈内学習を通じて自然言語と形式言語の相互変換を実装する。 異なる大きさのモデルと異なる形式言語での広範囲な実験は、今日の論理形式に対するllmの理解が、全体の人間レベルに近づくことができることを示しているが、正しい論理形式を生成する余地はまだ多く、llmを使用して、llmで直接質問に答えるよりも小さなモデルを強化するために、より自然言語トレーニングデータを生成する方が効果的であることを示唆している。 さらに,モデルが異なる形式言語に対して相当な感度を示すことも示唆した。 一般に、形式化レベルが低い形式言語、すなわち自然言語に類似しているほど、LLMはより親しみやすい。

Recent advancement in the capabilities of large language models (LLMs) has triggered a new surge in LLMs' evaluation. Most recent evaluation works tends to evaluate the comprehensive ability of LLMs over series of tasks. However, the deep structure understanding of natural language is rarely explored. In this work, we examine the ability of LLMs to deal with structured semantics on the tasks of question answering with the help of the human-constructed formal language. Specifically, we implement the inter-conversion of natural and formal language through in-context learning of LLMs to verify their ability to understand and generate the structured logical forms. Extensive experiments with models of different sizes and in different formal languages show that today's state-of-the-art LLMs' understanding of the logical forms can approach human level overall, but there still are plenty of room in generating correct logical forms, which suggest that it is more effective to use LLMs to generate more natural language training data to reinforce a small model than directly answering questions with LLMs. Moreover, our results also indicate that models exhibit considerable sensitivity to different formal languages. In general, the formal language with the lower the formalization level, i.e. the more similar it is to natural language, is more LLMs-friendly.
翻訳日:2024-01-12 15:28:14 公開日:2024-01-11
# 量子最適輸送擬似計測の安定性向上:HartreeからVlasov-Poissonへ

Enhanced Stability in Quantum Optimal Transport Pseudometrics: From Hartree to Vlasov-Poisson ( http://arxiv.org/abs/2401.05773v1 )

ライセンス: Link先を確認
Mikaela Iacobelli and Laurent Lafleche(参考訳) 本稿では,ハルトリー力学のフラソフ・ポアソン方程式に対する半古典的極限に対する量子最適輸送擬似計量における準最適安定性推定を,解が有界密度を持つ状態において確立する。 我々は[J. Stat. Phys. 177:20-60, 2019]において第2の著者によるクーロンと重力相互作用のケースに適応した最適な輸送距離の半古典的なバージョンを使用する[Arch. Ration. Mech. Anal. 223:57-94, 2017]と,[Arch. Mech. Anal. 244:27-50, 2022]において第1の著者によって開発された新しいアプローチを組み合わせた。

In this paper we establish almost-optimal stability estimates in quantum optimal transport pseudometrics for the semiclassical limit of the Hartree dynamics to the Vlasov-Poisson equation, in the regime where the solutions have bounded densities. We combine Golse and Paul's method from [Arch. Ration. Mech. Anal. 223:57-94, 2017], which uses a semiclassical version of the optimal transport distance and which was adapted to the case of the Coulomb and gravitational interactions by the second author in [J. Stat. Phys. 177:20-60, 2019], with a new approach developed by the first author in [Arch. Ration. Mech. Anal. 244:27-50, 2022] to quantitatively improve stability estimates in kinetic theory.
翻訳日:2024-01-12 15:27:52 公開日:2024-01-11
# 知識翻訳: モデル圧縮のための新しい経路

Knowledge Translation: A New Pathway for Model Compression ( http://arxiv.org/abs/2401.05772v1 )

ライセンス: Link先を確認
Wujie Sun, Defang Chen, Jiawei Chen, Yan Feng, Chun Chen, Can Wang(参考訳) 近年のディープラーニングは,トレーニングや推論,モデルストレージオーバーヘッドの増大といったコストで,大幅な進歩を遂げている。 既存のモデル圧縮手法は高い精度を維持しながらモデルパラメータの数を減らすことを目指しているが、圧縮モデルの再訓練やアーキテクチャ上の制約を必然的に必要としている。 これらの制約を克服するため,本稿では,大モデルのパラメータを受け取り,圧縮されたパラメータを生成するために,‘翻訳’モデルを訓練した新しいフレームワークである‘textbf{K}nowledge \textbf{T}ranslation (KT) を提案する。 KTの概念は、ニューラルネットワークを使って異なる言語を変換し、同じ意味を維持する言語翻訳から着想を得ている。 そこで我々は,ニューラルネットワークが機能を維持しつつ,異なるサイズのモデルを変換する可能性を探る。 我々は、KTの包括的なフレームワークを提案し、制限されたトレーニングデータにもかかわらず、モデル性能を向上させるためのデータ拡張戦略を導入し、MNISTデータセット上でのKTの実現可能性の実証に成功した。 コードは \url{https://github.com/zju-SWJ/KT} で入手できる。

Deep learning has witnessed significant advancements in recent years at the cost of increasing training, inference, and model storage overhead. While existing model compression methods strive to reduce the number of model parameters while maintaining high accuracy, they inevitably necessitate the re-training of the compressed model or impose architectural constraints. To overcome these limitations, this paper presents a novel framework, termed \textbf{K}nowledge \textbf{T}ranslation (KT), wherein a ``translation'' model is trained to receive the parameters of a larger model and generate compressed parameters. The concept of KT draws inspiration from language translation, which effectively employs neural networks to convert different languages, maintaining identical meaning. Accordingly, we explore the potential of neural networks to convert models of disparate sizes, while preserving their functionality. We propose a comprehensive framework for KT, introduce data augmentation strategies to enhance model performance despite restricted training data, and successfully demonstrate the feasibility of KT on the MNIST dataset. Code is available at \url{https://github.com/zju-SWJ/KT}.
翻訳日:2024-01-12 15:27:27 公開日:2024-01-11
# Zoomから学ぶ:WCE画像分類のための教師付きコントラスト学習

Learn From Zoom: Decoupled Supervised Contrastive Learning For WCE Image Classification ( http://arxiv.org/abs/2401.05771v1 )

ライセンス: Link先を確認
Kunpeng Qiu, Zhiying Zhou, Yongxin Guo(参考訳) 消化器癌(GI)の早期診断と治療には,Wireless Capsule Endoscopy(WCE)画像の正確な病変分類が不可欠である。 しかし、このタスクは小さな病変やバックグラウンド干渉といった課題に直面している。 さらに、WCE画像はクラス内変異とクラス間類似度が高く、複雑さが増す。 これらの課題に対処するために、Saliency Augmentorによって生成されたズームインされたWCE画像から堅牢な表現を学習するWCE画像分類のためのDecoupled Supervised Contrastive Learningを提案する。 具体的には、同じクラスのアンカーとWCEイメージ、特にズームインされたイメージを正として、一様にダウンサンプリングされたWCEイメージを使用。 このアプローチにより、Decoupled Supervised Contrastive Learningによって促進される、同じイメージのさまざまなビューからリッチな表現をキャプチャする機能エクストラクタが強化される。 線形分類器を10エポックの範囲内でトレーニングすると、92.01%の全体的な精度が得られ、2つの公開可能なWCEデータセットの混合により、従来の最先端(SOTA)を0.72%上回る。 コードはhttps://github.com/qiukunpeng/dsclで入手できる。

Accurate lesion classification in Wireless Capsule Endoscopy (WCE) images is vital for early diagnosis and treatment of gastrointestinal (GI) cancers. However, this task is confronted with challenges like tiny lesions and background interference. Additionally, WCE images exhibit higher intra-class variance and inter-class similarities, adding complexity. To tackle these challenges, we propose Decoupled Supervised Contrastive Learning for WCE image classification, learning robust representations from zoomed-in WCE images generated by Saliency Augmentor. Specifically, We use uniformly down-sampled WCE images as anchors and WCE images from the same class, especially their zoomed-in images, as positives. This approach empowers the Feature Extractor to capture rich representations from various views of the same image, facilitated by Decoupled Supervised Contrastive Learning. Training a linear Classifier on these representations within 10 epochs yields an impressive 92.01% overall accuracy, surpassing the prior state-of-the-art (SOTA) by 0.72% on a blend of two publicly accessible WCE datasets. Code is available at: https://github.com/Qiukunpeng/DSCL.
翻訳日:2024-01-12 15:27:06 公開日:2024-01-11
# コーヒー葉病分類のためのデータ拡張技術の評価

Evaluating Data Augmentation Techniques for Coffee Leaf Disease Classification ( http://arxiv.org/abs/2401.05768v1 )

ライセンス: Link先を確認
Adrian Gheorghiu, Iulian-Marius T\u{a}iatu, Dumitru-Clementin Cercel, Iuliana Marin, Florin Pop(参考訳) ロブスタのコーヒー葉の病気の検出と分類は、植物が健康で作物の収量が高いことを保証するために不可欠である。 しかし、この仕事は植物学的な知識と時間の浪費を必要とする。 そのため、画像分類において、この課題や他の類似の課題が広く研究されている。 葉病の分類に関して、ほとんどのアプローチはより一般的な植物プランジュデータセットを使用しており、ロブスタコーヒーリーフ(rocole)データセットのような他のデータセットを完全に無視している。 RoCoLeデータセットは不均衡であり、多くのサンプルを持っていないため、事前トレーニングされたモデルの微調整と複数の拡張テクニックを使用する必要がある。 本論文は, コーヒー葉病の分類を画像から深層学習に応用し, セグメンテーションのためのピクス2ピクセルモデルと拡張のためのサイクル生成敵ネットワーク(CycleGAN)を取り入れた。 本研究は, トランスフォーマーモデル, オンライン強化, およびCycleGANによる葉病分類の改善効果を示す。 合成データには制限があるが、実際のデータを補完し、モデル性能を向上させる。 これらの知見は、植物病の検出と分類のための堅牢な技術開発に寄与する。

The detection and classification of diseases in Robusta coffee leaves are essential to ensure that plants are healthy and the crop yield is kept high. However, this job requires extensive botanical knowledge and much wasted time. Therefore, this task and others similar to it have been extensively researched subjects in image classification. Regarding leaf disease classification, most approaches have used the more popular PlantVillage dataset while completely disregarding other datasets, like the Robusta Coffee Leaf (RoCoLe) dataset. As the RoCoLe dataset is imbalanced and does not have many samples, fine-tuning of pre-trained models and multiple augmentation techniques need to be used. The current paper uses the RoCoLe dataset and approaches based on deep learning for classifying coffee leaf diseases from images, incorporating the pix2pix model for segmentation and cycle-generative adversarial network (CycleGAN) for augmentation. Our study demonstrates the effectiveness of Transformer-based models, online augmentations, and CycleGAN augmentation in improving leaf disease classification. While synthetic data has limitations, it complements real data, enhancing model performance. These findings contribute to developing robust techniques for plant disease detection and classification.
翻訳日:2024-01-12 15:26:41 公開日:2024-01-11
# 高次累積と相関検出のための小型ネットワークのオープンループ量子制御

Open-loop quantum control of small-size networks for high-order cumulants and cross-correlations sensing ( http://arxiv.org/abs/2401.05766v1 )

ライセンス: Link先を確認
Antonio D'Arrigo, Giulia Piccitto, Giuseppe Falci, Elisabetta Paladino(参考訳) 量子制御技術は、高忠実度量子演算を達成するための最も効率的なツールの1つであり、量子センシングと量子ノイズスペクトロスコピーのための便利なアプローチである。 本研究では,iing-xx相互作用に基づいて絡み合う2量子ビットゲートを処理しながら動的デカップリングについて検討する。 ゲート誤差を評価するために,一般フィルタ関数を導入したMagnus拡張を用いて,処理中のデカップリングを記述し,ノイズ累積のネスト積分の階層構造として近似解析式を導出する。 誤差はガウスノイズと非ガウスノイズの寄与によって分離され、対応する一般化フィルタ関数は4階まで計算される。 選択したパルス列の特性を利用して、2階統計(スペクトルとクロススペクトル)を抽出し、4階累積に含まれる非ガウス的特徴を強調できることを示す。 固体プラットフォームに基づく最先端の小型ネットワークに適用可能性について論じる。

Quantum control techniques represent one of the most efficient tools to attain high-fidelity quantum operations and a convenient approach for quantum sensing and quantum noise spectroscopy. In this work, we investigate dynamical decoupling while processing an entangling two-qubit gate based on an Ising-xx interaction, each qubit being affected by pure dephasing classical correlated 1/ f -noises. To evaluate the gate error, we used the Magnus expansion introducing generalized filter functions that describe decoupling while processing and allow us to derive an approximate analytic expression as a hierarchy of nested integrals of noise cumulants. The error is separated in contributions of Gaussian and non-Gaussian noise, the corresponding generalized filter functions being calculated up to the fourth order. By exploiting the properties of selected pulse sequences, we show that it is possible to extract the second-order statistics (spectrum and cross-spectrum) and to highlight non-Gaussian features contained in the fourth-order cumulant. We discuss the applicability of these results to state-of-the-art small networks based on solid-state platforms.
翻訳日:2024-01-12 15:26:21 公開日:2024-01-11
# 機能データ分類のための特徴選択

Feature Selection for Functional Data Classification ( http://arxiv.org/abs/2401.05765v1 )

ライセンス: Link先を確認
Tobia Boschi, Francesca Bonin, Jonathan Epperlein, Rodrigo Ordonez-Hurtado, and Alessandra Pascale(参考訳) 関数型データ分析は、複雑なデータの統合と解釈を必要とする多くの現代の科学領域において重要なツールとして登場した。 さらに、新しい技術の出現により、多数の長手変数の収集が容易になり、過剰な適合を避け、予測性能を向上させるための特徴選択が重要になった。 本稿では,FSFC (Feature Selection for Functional Classification) と呼ばれる新しい手法を提案する。 本手法では,ロジスティック損失と機能的特徴を統合し,分類の最も重要な特徴を識別する最適化問題に取り組む。 最小化処理に対処するために,機能的主成分を用い,次元減少のための問題の空間構造を利用するDual Augmented Lagrangianアルゴリズムの適応版を開発する。 FSFCの計算効率は、特徴数が統計単位数よりかなり多いような高次元シナリオを扱うことができる。 シミュレーション実験により、FSFCは計算時間と分類精度において、他の機械学習およびディープラーニング手法よりも優れていることが示された。 さらに、FSFCの特徴選択能力を利用して、問題の次元を大幅に削減し、他の分類アルゴリズムの性能を高めることができる。 また, fsfcの有効性は, 4つの慢性疾患と他の健康因子, 社会疫学因子の関係を解析し, 実データを用いて実証した。

Functional data analysis has emerged as a crucial tool in many contemporary scientific domains that require the integration and interpretation of complex data. Moreover, the advent of new technologies has facilitated the collection of a large number of longitudinal variables, making feature selection pivotal for avoiding overfitting and improving prediction performance. This paper introduces a novel methodology called FSFC (Feature Selection for Functional Classification), that addresses the challenge of jointly performing feature selection and classification of functional data in scenarios with categorical responses and longitudinal features. Our approach tackles a newly defined optimization problem that integrates logistic loss and functional features to identify the most crucial features for classification. To address the minimization procedure, we employ functional principal components and develop a new adaptive version of the Dual Augmented Lagrangian algorithm that leverages the sparsity structure of the problem for dimensionality reduction. The computational efficiency of FSFC enables handling high-dimensional scenarios where the number of features may considerably exceed the number of statistical units. Simulation experiments demonstrate that FSFC outperforms other machine learning and deep learning methods in computational time and classification accuracy. Furthermore, the FSFC feature selection capability can be leveraged to significantly reduce the problem's dimensionality and enhance the performances of other classification algorithms. The efficacy of FSFC is also demonstrated through a real data application, analyzing relationships between four chronic diseases and other health and socio-demographic factors.
翻訳日:2024-01-12 15:26:01 公開日:2024-01-11
# 量子プライベートクエリの確率的バージョン

Probabilistic versions of Quantum Private Queries ( http://arxiv.org/abs/2401.05754v1 )

ライセンス: Link先を確認
Silvia Onofri and Vittorio Giovannetti(参考訳) 無条件に安全な量子ビットコミットメントプロトコルに関するno-go定理は、量子暗号における関連する結果である。 このような結果は、量子オブリベート転送や片面二者計算など、他のプロトコルの無条件セキュリティの不可能性を証明するために使われてきた。 本稿では,Symmetric-Private Information Retrieval問題に対処するプロトコルであるQuantum Private Queriesの2つの非決定論的バージョンを正式に定義する。 このような方式の最も強い変種は、量子ビットコミット、量子オフロード転送、ワンシッド2パーティ計算プロトコルと正式に等価であることを示す。 この等価性は、無条件で安全な強い確率的量子私的クエリを達成できないという決定的な証拠となる。

The no-go theorem regarding unconditionally secure Quantum Bit Commitment protocols is a relevant result in quantum cryptography. Such result has been used to prove the impossibility of unconditional security for other protocols, such as Quantum Oblivious Transfer or One-Sided Two Party Computation. In this paper, we formally define two non-deterministic versions of Quantum Private Queries, a protocol addressing the Symmetric-Private Information Retrieval problem. We show that the strongest variant of such scheme is formally equivalent to Quantum Bit Commitment, Quantum Oblivious Transfer and One-Sided Two Party Computation protocols. This equivalence serves as conclusive evidence of the impracticality of achieving unconditionally secure Strong Probabilistic Quantum Private Queries.
翻訳日:2024-01-12 15:25:37 公開日:2024-01-11
# BEC:ソフトエラーに対する信頼性のビットレベル静的解析

BEC: Bit-Level Static Analysis for Reliability against Soft Errors ( http://arxiv.org/abs/2401.05753v1 )

ライセンス: Link先を確認
Yousun Ko and Bernd Burgstaller(参考訳) ソフトエラー(Soft error)は、CPUパイプラインの内部フリップフロップ、レジスタファイル、メモリセル、さらには内部通信バスなどのデジタルハードウェアコンポーネントで発生する過渡的なデジタル信号の破損の一種である。 ソフトエラーは、環境放射能、磁気干渉、レーザー、温度変動によって引き起こされる。 本稿では,ビットレベルエラー結合(bec)静的プログラム解析とソフトエラーに対するプログラム信頼性の理解と改善のための2つのユースケースを提案する。 BEC分析はレジスタファイル内の各ビットの破損を追跡し、コンパイル時にその意味によって破損の影響を分類する。 提案手法の有用性を,障害注入キャンペーンのプルーニングと信頼性対応プログラム変換の2つのシナリオで実証した。 実験の結果, ビットレベル解析では, 最大30.04 % (平均13.71 %) が精度を損なうことなく検出された。 プログラムの脆弱性はビットレベルの脆弱性認識命令スケジューリングによって最大13.11 %(平均4.94 %)削減された。 解析はLLVMで実装され、RISC-Vアーキテクチャで評価されている。 我々の知る限りでは、BEC解析はソフトエラーに対するプログラムの信頼性に対する最初のビットレベルコンパイラ解析である。 提案手法は汎用的であり,特定のコンピュータアーキテクチャに限定されない。

Soft errors are a type of transient digital signal corruption that occurs in digital hardware components such as the internal flip-flops of CPU pipelines, the register file, memory cells, and even internal communication buses. Soft errors are caused by environmental radioactivity, magnetic interference, lasers, and temperature fluctuations, either unintentionally, or as part of a deliberate attempt to compromise a system and expose confidential data. We propose a bit-level error coalescing (BEC) static program analysis and its two use cases to understand and improve program reliability against soft errors. The BEC analysis tracks each bit corruption in the register file and classifies the effect of the corruption by its semantics at compile time. The usefulness of the proposed analysis is demonstrated in two scenarios, fault injection campaign pruning, and reliability-aware program transformation. Experimental results show that bit-level analysis pruned up to 30.04 % of exhaustive fault injection campaigns (13.71 % on average), without loss of accuracy. Program vulnerability was reduced by up to 13.11 % (4.94 % on average) through bit-level vulnerability-aware instruction scheduling. The analysis has been implemented within LLVM and evaluated on the RISC-V architecture. To the best of our knowledge, the proposed BEC analysis is the first bit-level compiler analysis for program reliability against soft errors. The proposed method is generic and not limited to a specific computer architecture.
翻訳日:2024-01-12 15:25:23 公開日:2024-01-11
# 疎結合と潜在的相関の強化による一般化モデルの学習

Learning Generalizable Models via Disentangling Spurious and Enhancing Potential Correlations ( http://arxiv.org/abs/2401.05752v1 )

ライセンス: Link先を確認
Na Wang, Lei Qi, Jintao Guo, Yinghuan Shi, Yang Gao(参考訳) ドメインの一般化(dg)は、複数のソースドメインでモデルをトレーニングし、任意の未認識のターゲットドメインにうまく一般化できるようにする。 ドメイン不変表現の獲得は、データ固有の意味情報をキャプチャし、ドメインシフトの影響を緩和し、モデルの一般化能力を高める能力を持つため、DGにとって重要である。 サンプルや機能など、複数の視点を採用することで、効果的であることが証明される。 サンプルパースペクティブはデータ操作技術によるデータ拡張を促進する一方、特徴パースペクティブは意味のある一般化特徴の抽出を可能にする。 本稿では,サンプルと特徴の両面からドメイン不変表現を抽出し,突発的相関を解消し,ポテンシャル相関を強化することによって,モデルの一般化能力の向上に焦点をあてる。 1) サンプルの観点から, 対象特徴とラベルの関連性に焦点を合わせるために, 周波数制限モジュールを開発し, 突発的相関を解消する。 2) 機能の観点からは、単純なTail Interactionモジュールは、すべてのソースドメインからのサンプル間の潜在的な相関を暗黙的に強化し、モデルのために複数のドメインにまたがるドメイン不変表現の取得を容易にする。 実験の結果、これらの2つのモジュールに組み込まれた強いベースラインを持つ畳み込みニューラルネットワーク(CNN)またはマルチ層パーセプトロン(MLP)は、例えば、Digits-DGの平均精度92.30%という優れた結果が得られることが示された。

Domain generalization (DG) intends to train a model on multiple source domains to ensure that it can generalize well to an arbitrary unseen target domain. The acquisition of domain-invariant representations is pivotal for DG as they possess the ability to capture the inherent semantic information of the data, mitigate the influence of domain shift, and enhance the generalization capability of the model. Adopting multiple perspectives, such as the sample and the feature, proves to be effective. The sample perspective facilitates data augmentation through data manipulation techniques, whereas the feature perspective enables the extraction of meaningful generalization features. In this paper, we focus on improving the generalization ability of the model by compelling it to acquire domain-invariant representations from both the sample and feature perspectives by disentangling spurious correlations and enhancing potential correlations. 1) From the sample perspective, we develop a frequency restriction module, guiding the model to focus on the relevant correlations between object features and labels, thereby disentangling spurious correlations. 2) From the feature perspective, the simple Tail Interaction module implicitly enhances potential correlations among all samples from all source domains, facilitating the acquisition of domain-invariant representations across multiple domains for the model. The experimental results show that Convolutional Neural Networks (CNNs) or Multi-Layer Perceptrons (MLPs) with a strong baseline embedded with these two modules can achieve superior results, e.g., an average accuracy of 92.30% on Digits-DG.
翻訳日:2024-01-12 15:24:58 公開日:2024-01-11
# GO-NeRF:神経放射場における仮想物体の生成

GO-NeRF: Generating Virtual Objects in Neural Radiance Fields ( http://arxiv.org/abs/2401.05750v1 )

ライセンス: Link先を確認
Peng Dai and Feitong Tan and Xin Yu and Yinda Zhang and Xiaojuan Qi(参考訳) 3D生成の進歩にもかかわらず、NeRFとして表される既存の3Dシーン内での3Dオブジェクトの直接生成は未調査のままである。 このプロセスでは、高品質な3Dオブジェクト生成だけでなく、生成した3Dコンテンツを既存のNeRFにシームレスに合成する必要がある。 そこで本研究では,既存のNeRF内での高画質・高調な3次元オブジェクト生成にシーンコンテキストを活用可能なGO-NeRFを提案する。 本手法では,生成した3dオブジェクトをシーンにシームレスに合成し,学習した3d認識不透明度マップを用いて,意図しないシーン修正を含まずに合成表現を行う。 さらに,シーン内の3次元オブジェクト生成から発生するフローターなどのアーチファクトを緩和し,シーンコンテキストを活用できるモデルの能力を向上させるための最適化目標とトレーニング戦略も開発した。 フィードフォワードと360^o$の両方での大規模な実験は、周囲のシーンと調和して合成されたオブジェクトを生成し、高品質なノベルビューイメージを合成する上で、提案したGO-NeRFの優れた性能を示している。 プロジェクトページ https://daipengwa.github.io/go-nerf/}

Despite advances in 3D generation, the direct creation of 3D objects within an existing 3D scene represented as NeRF remains underexplored. This process requires not only high-quality 3D object generation but also seamless composition of the generated 3D content into the existing NeRF. To this end, we propose a new method, GO-NeRF, capable of utilizing scene context for high-quality and harmonious 3D object generation within an existing NeRF. Our method employs a compositional rendering formulation that allows the generated 3D objects to be seamlessly composited into the scene utilizing learned 3D-aware opacity maps without introducing unintended scene modification. Moreover, we also develop tailored optimization objectives and training strategies to enhance the model's ability to exploit scene context and mitigate artifacts, such as floaters, originating from 3D object generation within a scene. Extensive experiments on both feed-forward and $360^o$ scenes show the superior performance of our proposed GO-NeRF in generating objects harmoniously composited with surrounding scenes and synthesizing high-quality novel view images. Project page at {\url{https://daipengwa.github.io/GO-NeRF/}.
翻訳日:2024-01-12 15:24:30 公開日:2024-01-11
# Webの衝撃が機械翻訳される:マルチウェイ並列性からの洞察

A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism ( http://arxiv.org/abs/2401.05749v1 )

ライセンス: Link先を確認
Brian Thompson, Mehak Preet Dhaliwal, Peter Frisch, Tobias Domhan, Marcello Federico(参考訳) ウェブ上のコンテンツは、しばしば多くの言語に翻訳され、これらのマルチウェイ翻訳の低品質は、機械翻訳(MT)を用いて作成された可能性が高いことを示している。 マルチウェイ並列、マシン生成コンテンツは、低リソース言語での翻訳を支配しているだけでなく、それらの言語におけるwebコンテンツ全体の大多数を構成する。 また、多くの言語に翻訳されるコンテンツの種類の選択バイアスの証拠も、MTを通して低品質の英語コンテンツが多くの低リソース言語に翻訳されるのと一致している。本研究は、モノリンガルデータとバイリンガルデータの両方をウェブから抽出した多言語大言語モデルのようなトレーニングモデルに関する深刻な懸念を提起する。

We show that content on the web is often translated into many languages, and the low quality of these multi-way translations indicates they were likely created using Machine Translation (MT). Multi-way parallel, machine generated content not only dominates the translations in lower resource languages; it also constitutes a large fraction of the total web content in those languages. We also find evidence of a selection bias in the type of content which is translated into many languages, consistent with low quality English content being translated en masse into many lower resource languages, via MT. Our work raises serious concerns about training models such as multilingual large language models on both monolingual and bilingual data scraped from the web.
翻訳日:2024-01-12 15:24:09 公開日:2024-01-11
# データ保護規制でeコマースウェブサイトのクッキーポリシーを探究

Crumbled Cookie Exploring E-commerce Websites Cookie Policies with Data Protection Regulations ( http://arxiv.org/abs/2401.05826v1 )

ライセンス: Link先を確認
Nivedita Singh, Yejin Do, Yongsang Yu. Imane Fouad, Jungrae Kim, Hyoungshick Kim(参考訳) general data protection regulation (gdpr)、california consumer privacy act (ccpa)などの厳格なデータ保護規則にもかかわらず、多くのウェブサイトはクッキーを使ってユーザーの行動を追跡している。 近年の研究では、いくつかのデータ保護違反が発覚し、特に多国籍企業に対して重大な罰則が課された。 強固なデータ保護規制にもかかわらず、これらのデータ保護違反が続いている理由に関する質問に動機づけられ、複数の国で人気のeコマースサイト360カ所を調査し、クッキーの観点からユーザーのプライバシーを保護する規制に準拠しているかどうかを分析した。

Despite stringent data protection regulations such as the General Data Protection Regulation (GDPR), the California Consumer Privacy Act (CCPA), and other country-specific regulations, many websites continue to use cookies to track user activities. Recent studies have revealed several data protection violations, resulting in significant penalties, especially for multinational corporations. Motivated by the question of why these data protection violations continue to occur despite strong data protection regulations, we examined 360 popular e-commerce websites in multiple countries to analyze whether they comply with regulations to protect user privacy from a cookie perspective.
翻訳日:2024-01-12 15:17:29 公開日:2024-01-11
# 対話を通して観察される問題解決のための目標指向エージェントを目指して

Towards Goal-Oriented Agents for Evolving Problems Observed via Conversation ( http://arxiv.org/abs/2401.05822v1 )

ライセンス: Link先を確認
Michael Free, Andrew Langworthy, Mary Dimitropoulaki, Simon Thompson(参考訳) この研究の目的は、チャットボットが直接観察できない問題についてユーザーと会話することで、進化する問題を解決することができるチャットボットを訓練することである。 このシステムは、仮想問題(この場合、単純なゲーム)と、問題に対するアクションを観察し実行できる自然言語質問に答えられるシミュレーションユーザと、Deep Q-Network(DQN)ベースのチャットボットアーキテクチャで構成されている。 このチャットボットは、強化学習を用いてシミュレーションされたユーザとの対話を通じて問題解決を目標として訓練される。 本稿では,DQNをベースとした対話型エージェントを進化的問題に適用するアーキテクチャ,モデル性能に関するカリキュラム学習などの学習手法の探索,環境複雑性の増大にともなう報酬関数の修正の影響について述べる。

The objective of this work is to train a chatbot capable of solving evolving problems through conversing with a user about a problem the chatbot cannot directly observe. The system consists of a virtual problem (in this case a simple game), a simulated user capable of answering natural language questions that can observe and perform actions on the problem, and a Deep Q-Network (DQN)-based chatbot architecture. The chatbot is trained with the goal of solving the problem through dialogue with the simulated user using reinforcement learning. The contributions of this paper are as follows: a proposed architecture to apply a conversational DQN-based agent to evolving problems, an exploration of training methods such as curriculum learning on model performance and the effect of modified reward functions in the case of increasing environment complexity.
翻訳日:2024-01-12 15:17:17 公開日:2024-01-11
# 適応型強化学習エージェントに対する解釈可能な概念ボトルネック

Interpretable Concept Bottlenecks to Align Reinforcement Learning Agents ( http://arxiv.org/abs/2401.05821v1 )

ライセンス: Link先を確認
Quentin Delfosse, Sebastian Sztwiertnia, Wolfgang Stammer, Mark Rothermel, Kristian Kersting(参考訳) 深層強化学習(RL)エージェントが最適な政策を学ぶのが難しくても不可能ではない多くの問題のうち、疎外性、困難な信用割当、不正調整はごくわずかである。 残念ながら、ディープネットワークのブラックボックスの性質は、モデルを解釈し、間違った振る舞いを正すことのできるドメインエキスパートの受け入れを妨げる。 この目的のために,概念ボトルネック層を連続的に統合することで意思決定パイプライン全体を透明化する,連続する概念ボトルネックエージェント(scobots)を導入する。 SCoBotsは関連するオブジェクトプロパティだけでなくリレーショナル概念も利用しています。 我々の実験結果から、SCoBotsはドメインの専門家が自分たちの振る舞いを効率的に理解し、規則化できるという強い証拠を提供する。 このようにして、SCoBotsは、最もシンプルで象徴的なビデオゲーム、Pongの不正調整問題を特定し、それを解決します。

Reward sparsity, difficult credit assignment, and misalignment are only a few of the many issues that make it difficult, if not impossible, for deep reinforcement learning (RL) agents to learn optimal policies. Unfortunately, the black-box nature of deep networks impedes the inclusion of domain experts who could interpret the model and correct wrong behavior. To this end, we introduce Successive Concept Bottlenecks Agents (SCoBots), which make the whole decision pipeline transparent via the integration of consecutive concept bottleneck layers. SCoBots make use of not only relevant object properties but also of relational concepts. Our experimental results provide strong evidence that SCoBots allow domain experts to efficiently understand and regularize their behavior, resulting in potentially better human-aligned RL. In this way, SCoBots enabled us to identify a misalignment problem in the most simple and iconic video game, Pong, and resolve it.
翻訳日:2024-01-12 15:17:00 公開日:2024-01-11
# 画像分類のためのディープニューラルネットワークの抵抗記憶における雑音の影響

Implications of Noise in Resistive Memory on Deep Neural Networks for Image Classification ( http://arxiv.org/abs/2401.05820v1 )

ライセンス: Link先を確認
Yannick Emonds, Kai Xi, Holger Fr\"oning(参考訳) 抵抗メモリはSRAMに代わる有望な代替手段であるが、本質的には不安定なデバイスであり、正しい読み書き操作を保証するためにかなりの努力を要する。 本研究は,領域,時間,エネルギーの関連コストを回避するため,ニューラルネットワークに基づく画像分類タスクによって,メモリ操作におけるノイズの許容範囲を検討する。 本稿では,例えば抵抗記憶装置のノイズを模倣し,cifar-10分類タスクにおける畳み込みニューラルネットワークのレジリエンスを探索し,このレジリエンスを改善するための対策について検討する。

Resistive memory is a promising alternative to SRAM, but is also an inherently unstable device that requires substantial effort to ensure correct read and write operations. To avoid the associated costs in terms of area, time and energy, the present work is concerned with exploring how much noise in memory operations can be tolerated by image classification tasks based on neural networks. We introduce a special noisy operator that mimics the noise in an exemplary resistive memory unit, explore the resilience of convolutional neural networks on the CIFAR-10 classification task, and discuss a couple of countermeasures to improve this resilience.
翻訳日:2024-01-12 15:16:42 公開日:2024-01-11
# tanet : 短い決定窓を持つ脳波に基づく聴覚空間注意デコードのための新しい時間的注意ネットワーク

TAnet: A New Temporal Attention Network for EEG-based Auditory Spatial Attention Decoding with a Short Decision Window ( http://arxiv.org/abs/2401.05819v1 )

ライセンス: Link先を確認
Yuting Ding, Fei Chen(参考訳) 聴覚空間注意検出(ASAD)は、脳波(EEG)信号を解析することにより、聴取者の話者に対する注意方向を決定するために用いられる。 本研究は,asadの性能をさらに向上させることを目的としており,これまでの研究では,長い決定窓ではなく,短い決定窓 (<1s) を用いた。 本研究では、終端から終端までの時間的注意ネットワーク(TAnet)が導入された。 TAnetはマルチヘッドアテンション(MHA)機構を採用しており、収集されたEEG信号の時間ステップ間の相互作用をより効果的に捉え、対応する重みをこれらのEEG時間ステップに効率的に割り当てることができる。 CNN法や最近のASAD法と比較して、TAnetは92.4% (決定窓0.1 s)、94.9% (0.25 s)、95.1% (0.3 s)、95.4% (0.4 s)、95.5% (0.5 s)の短い決定窓(すなわち <1 s)で、KULデータセットの復号性能を改善した。 短い決定窓を持つ新しいasadモデルとして、tanetは脳波制御された知的補聴器と音響認識システムの設計を容易にする可能性がある。

Auditory spatial attention detection (ASAD) is used to determine the direction of a listener's attention to a speaker by analyzing her/his electroencephalographic (EEG) signals. This study aimed to further improve the performance of ASAD with a short decision window (i.e., <1 s) rather than with long decision windows in previous studies. An end-to-end temporal attention network (i.e., TAnet) was introduced in this work. TAnet employs a multi-head attention (MHA) mechanism, which can more effectively capture the interactions among time steps in collected EEG signals and efficiently assign corresponding weights to those EEG time steps. Experiments demonstrated that, compared with the CNN-based method and recent ASAD methods, TAnet provided improved decoding performance in the KUL dataset, with decoding accuracies of 92.4% (decision window 0.1 s), 94.9% (0.25 s), 95.1% (0.3 s), 95.4% (0.4 s), and 95.5% (0.5 s) with short decision windows (i.e., <1 s). As a new ASAD model with a short decision window, TAnet can potentially facilitate the design of EEG-controlled intelligent hearing aids and sound recognition systems.
翻訳日:2024-01-12 15:16:31 公開日:2024-01-11
# Cheetah: 高速で微分可能なシミュレーションによる機械学習と粒子加速器物理のギャップを埋める

Cheetah: Bridging the Gap Between Machine Learning and Particle Accelerator Physics with High-Speed, Differentiable Simulations ( http://arxiv.org/abs/2401.05815v1 )

ライセンス: Link先を確認
Jan Kaiser, Chenran Xu, Annika Eichler, Andrea Santamaria Garcia(参考訳) 機械学習は、加速物理学における現代の課題に対する強力な解決策として登場した。 しかし、ビーム時間の制限、シミュレーションの計算コスト、最適化問題の高次元性は、最先端機械学習モデルのトレーニングに必要なデータを生成する上で大きな課題となる。 本稿では,pytorchベースの高速微分可能線形ビームダイナミクスコードであるcheetahを紹介する。 Cheetahは、計算時間を桁違いに削減し、アクセラレータチューニングとシステム識別のための効率的な勾配に基づく最適化を容易にすることで、大規模なデータセットの高速収集を可能にする。 これによってcheetahは、広く採用されている機械学習ツールとシームレスに統合可能な、ユーザフレンドリーで容易に拡張可能なツールとして位置づけられる。 我々はcheetahの有用性を、強化学習トレーニング、勾配に基づくビームラインチューニング、勾配に基づくシステム同定、物理に変形したベイズ最適化前処理、宇宙電荷効果のモジュラーニューラルネットワークサロゲートモデリングの5つの例を通して紹介する。 このような高速な微分可能シミュレーションコードを使用することで、粒子加速器の機械学習ベースの手法の開発が簡単になり、加速器設備の日常的な運用への統合が高速になる。

Machine learning has emerged as a powerful solution to the modern challenges in accelerator physics. However, the limited availability of beam time, the computational cost of simulations, and the high-dimensionality of optimisation problems pose significant challenges in generating the required data for training state-of-the-art machine learning models. In this work, we introduce Cheetah, a PyTorch-based high-speed differentiable linear-beam dynamics code. Cheetah enables the fast collection of large data sets by reducing computation times by multiple orders of magnitude and facilitates efficient gradient-based optimisation for accelerator tuning and system identification. This positions Cheetah as a user-friendly, readily extensible tool that integrates seamlessly with widely adopted machine learning tools. We showcase the utility of Cheetah through five examples, including reinforcement learning training, gradient-based beamline tuning, gradient-based system identification, physics-informed Bayesian optimisation priors, and modular neural network surrogate modelling of space charge effects. The use of such a high-speed differentiable simulation code will simplify the development of machine learning-based methods for particle accelerators and fast-track their integration into everyday operations of accelerator facilities.
翻訳日:2024-01-12 15:16:03 公開日:2024-01-11
# 低リソース言語における機械翻訳のためのコントラストアライメント命令付きLLMのチューニング

Tuning LLMs with Contrastive Alignment Instructions for Machine Translation in Unseen, Low-resource Languages ( http://arxiv.org/abs/2401.05811v1 )

ライセンス: Link先を確認
Zhuoyuan Mao and Yen Yu(参考訳) 本稿では,大規模言語モデル(LLM)における機械翻訳(MT)の2つの課題に対処するために,コントラッシブアライメント命令(AlignInstruct)を紹介する。 ひとつは、サポート対象言語が未承認言語に拡張されたことだ。 2つ目は、低リソース言語におけるデータ不足に関するものだ。 MT命令(MT Instruct)によるモデル微調整は、最初の課題に対する簡単なアプローチである。 しかし、MTInstructは第2チャレンジに固有の弱い言語間信号によって制限される。 aligninstructは、統計的単語アライメントを用いて構築された言語間識別器による言語間監督を強調している。 その結果, BLOOMZ モデル (1b1, 3b, 7b1) を最大24の未知言語で微調整した結果, 1) LLM は MTInstruct を用いて効果的に未確認言語を翻訳できる, (2) AlignInstruct は英語を含む48の翻訳方向の翻訳品質を一貫した改善を実現し, 3) 識別器に基づく指示は, 生成言語を言語間命令として優れ, (4) AlignInstruct は30のゼロショット指示で性能を向上した。

This article introduces contrastive alignment instructions (AlignInstruct) to address two challenges in machine translation (MT) on large language models (LLMs). One is the expansion of supported languages to previously unseen ones. The second relates to the lack of data in low-resource languages. Model fine-tuning through MT instructions (MTInstruct) is a straightforward approach to the first challenge. However, MTInstruct is limited by weak cross-lingual signals inherent in the second challenge. AlignInstruct emphasizes cross-lingual supervision via a cross-lingual discriminator built using statistical word alignments. Our results based on fine-tuning the BLOOMZ models (1b1, 3b, and 7b1) in up to 24 unseen languages showed that: (1) LLMs can effectively translate unseen languages using MTInstruct; (2) AlignInstruct led to consistent improvements in translation quality across 48 translation directions involving English; (3) Discriminator-based instructions outperformed their generative counterparts as cross-lingual instructions; (4) AlignInstruct improved performance in 30 zero-shot directions.
翻訳日:2024-01-12 15:15:44 公開日:2024-01-11
# 広近距離頭部ポーズ推定のための表現と方法論について

On the representation and methodology for wide and short range head pose estimation ( http://arxiv.org/abs/2401.05807v1 )

ライセンス: Link先を確認
Alejandro Cobo and Roberto Valle and Jos\'e M. Buenaposada and Luis Baumela(参考訳) HPE(Head pose Estimation)は、半正面またはプロファイル設定における顔処理タスクの性能向上を目的としたコンピュータビジョンの課題である。 最近の応用では、完全な360{\deg}回転範囲の顔の分析が必要である。 半フロントケースとプロファイルケースを解く従来のアプローチは、フルローテーションケースには直接適用できない。 本稿では,短距離HPEの方法論を解析し,各ケースにどの表現やメトリクスが適切かについて議論する。 一般のオイラー角表現は短距離 hpe に対して良い選択であるが、極端に回転しないことを示す。 しかし、オイラー角のジンバルロック問題は、任意の設定で有効な計量として使われるのを妨げている。 また、現在のクロスデータ集合評価手法を再検討し、トレーニングとテストデータセットの参照システム間のアライメントの欠如は、文献の全記事の結果に負の偏りがあることに注意する。 提案手法は,300W-LP|Biwiベンチマークのための新しい,より正確なSOTAを確立するクロスデータセットHPEの新しい手法である。 また,モデルの最適化に対する各トレーニングサンプルの寄与を制御する損失の構築を可能にする測地線角距離メトリックの一般化を提案する。 最後に,CMU Panoptic データセットに基づく広域 HPE ベンチマークを提案する。

Head pose estimation (HPE) is a problem of interest in computer vision to improve the performance of face processing tasks in semi-frontal or profile settings. Recent applications require the analysis of faces in the full 360{\deg} rotation range. Traditional approaches to solve the semi-frontal and profile cases are not directly amenable for the full rotation case. In this paper we analyze the methodology for short- and wide-range HPE and discuss which representations and metrics are adequate for each case. We show that the popular Euler angles representation is a good choice for short-range HPE, but not at extreme rotations. However, the Euler angles' gimbal lock problem prevents them from being used as a valid metric in any setting. We also revisit the current cross-data set evaluation methodology and note that the lack of alignment between the reference systems of the training and test data sets negatively biases the results of all articles in the literature. We introduce a procedure to quantify this misalignment and a new methodology for cross-data set HPE that establishes new, more accurate, SOTA for the 300W-LP|Biwi benchmark. We also propose a generalization of the geodesic angular distance metric that enables the construction of a loss that controls the contribution of each training sample to the optimization of the model. Finally, we introduce a wide range HPE benchmark based on the CMU Panoptic data set.
翻訳日:2024-01-12 15:15:15 公開日:2024-01-11
# 可視赤外人物再同定のためのCLIP-Driven Semantic Discovery Network

CLIP-Driven Semantic Discovery Network for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2401.05806v1 )

ライセンス: Link先を確認
Xiaoyan Yu, Neng Dong, Liehuang Zhu, Hao Peng, Dapeng Tao(参考訳) Visible-infrared person re-identification (VIReID)は、主に異なるモダリティの人物画像間の一致したアイデンティティを扱う。 可視画像と赤外線画像のモダリティギャップのため、相互モダリティのアイデンティティマッチングには大きな課題がある。 本稿では,性別,形状,衣服スタイルといった歩行者の外観の高レベルセマンティクスが,モダリティにわたって一貫していることを認識し,視覚特徴を高レベルセマンティクスに反映することでモダリティギャップを橋渡しすることを目的とする。 視覚表現に対応する高レベルの意味情報を認識できるCLIPの能力を考えると,VIReIDの領域におけるCLIPの適用について検討する。 提案するCLIP-Driven Semantic Discovery Network (CSDN) は,モダリティ固有のPrompt Learner, Semantic Information Integration (SII), High-level Semantic Embedding (HSE) から構成される。 具体的には、言語記述におけるモダリティの相違から生じる多様性を考慮して、バイモーダル学習可能なテキストトークンを考案し、可視画像と赤外線画像のモダリティプライベートな意味情報を取得する。 さらに,様々なモダリティにまたがるセマンティックディテールの相補的な性質を認め,バイモーダル言語記述からのテキスト特徴を統合し,包括的なセマンティクスを実現する。 最後に,統合されたテキスト機能とモダリティ間の視覚的特徴との接続を確立する。 このプロセスは、リッチなハイレベルな意味情報を視覚表現に組み込み、視覚表現のモダリティ不変性を促進する。 提案手法に対するCSDNの有効性と優位性は,複数の広く用いられているベンチマーク実験により実証された。 コードは \url{https://github.com/nengdong96/CSDN} でリリースされる。

Visible-infrared person re-identification (VIReID) primarily deals with matching identities across person images from different modalities. Due to the modality gap between visible and infrared images, cross-modality identity matching poses significant challenges. Recognizing that high-level semantics of pedestrian appearance, such as gender, shape, and clothing style, remain consistent across modalities, this paper intends to bridge the modality gap by infusing visual features with high-level semantics. Given the capability of CLIP to sense high-level semantic information corresponding to visual representations, we explore the application of CLIP within the domain of VIReID. Consequently, we propose a CLIP-Driven Semantic Discovery Network (CSDN) that consists of Modality-specific Prompt Learner, Semantic Information Integration (SII), and High-level Semantic Embedding (HSE). Specifically, considering the diversity stemming from modality discrepancies in language descriptions, we devise bimodal learnable text tokens to capture modality-private semantic information for visible and infrared images, respectively. Additionally, acknowledging the complementary nature of semantic details across different modalities, we integrate text features from the bimodal language descriptions to achieve comprehensive semantics. Finally, we establish a connection between the integrated text features and the visual features across modalities. This process embed rich high-level semantic information into visual representations, thereby promoting the modality invariance of visual representations. The effectiveness and superiority of our proposed CSDN over existing methods have been substantiated through experimental evaluations on multiple widely used benchmarks. The code will be released at \url{https://github.com/nengdong96/CSDN}.
翻訳日:2024-01-12 15:14:50 公開日:2024-01-11
# 多変量時系列異常検出のためのグラフ時空間過程

Graph Spatiotemporal Process for Multivariate Time Series Anomaly Detection with Missing Values ( http://arxiv.org/abs/2401.05800v1 )

ライセンス: Link先を確認
Yu Zheng, Huan Yee Koh, Ming Jin, Lianhua Chi, Haishuai Wang, Khoa T. Phan, Yi-Ping Phoebe Chen, Shirui Pan, Wei Xiang(参考訳) 多変量時系列データにおける異常の検出は、スマート電力グリッド、トラフィックフロー予測、産業プロセス制御など、様々な実用化に不可欠である。 However, real-world time series data is usually not well-structured, posting significant challenges to existing approaches: (1) The existence of missing values in multivariate time series data along variable and time dimensions hinders the effective modeling of interwoven spatial and temporal dependencies, resulting in important patterns being overlooked during model training; (2) Anomaly scoring with irregularly-sampled observations is less explored, making it difficult to use existing detectors for multivariate series without fully-observed values. 本稿では,不規則にサンプリングされた多変量時系列における異常検出の課題に対処するために,グラフ時空間過程と異常スコアを用いた新しいフレームワークgst-proを提案する。 我々のアプローチは2つの主要な要素からなる。 まず,神経制御微分方程式に基づくグラフ時空間過程を提案する。 このプロセスは、データが欠落値を含む場合でも、空間的および時間的視点から多変量時系列を効果的にモデル化することができる。 第2に,完全一様観測への依存を緩和する分布ベースの異常スコアリング機構を提案する。 グラフの時空間過程の予測を解析することにより,異常を容易に検出できる。 実験の結果,gst-pro法は時系列データの異常を効果的に検出し,データに欠けている値の有無に関わらず最先端の手法よりも優れていることがわかった。 コードはhttps://github.com/huankoh/gst-pro。

The detection of anomalies in multivariate time series data is crucial for various practical applications, including smart power grids, traffic flow forecasting, and industrial process control. However, real-world time series data is usually not well-structured, posting significant challenges to existing approaches: (1) The existence of missing values in multivariate time series data along variable and time dimensions hinders the effective modeling of interwoven spatial and temporal dependencies, resulting in important patterns being overlooked during model training; (2) Anomaly scoring with irregularly-sampled observations is less explored, making it difficult to use existing detectors for multivariate series without fully-observed values. In this work, we introduce a novel framework called GST-Pro, which utilizes a graph spatiotemporal process and anomaly scorer to tackle the aforementioned challenges in detecting anomalies on irregularly-sampled multivariate time series. Our approach comprises two main components. First, we propose a graph spatiotemporal process based on neural controlled differential equations. This process enables effective modeling of multivariate time series from both spatial and temporal perspectives, even when the data contains missing values. Second, we present a novel distribution-based anomaly scoring mechanism that alleviates the reliance on complete uniform observations. By analyzing the predictions of the graph spatiotemporal process, our approach allows anomalies to be easily detected. Our experimental results show that the GST-Pro method can effectively detect anomalies in time series data and outperforms state-of-the-art methods, regardless of whether there are missing values present in the data. Our code is available: https://github.com/huankoh/GST-Pro.
翻訳日:2024-01-12 15:14:18 公開日:2024-01-11
# 金融感情分析のための異種llmエージェントの設計

Designing Heterogeneous LLM Agents for Financial Sentiment Analysis ( http://arxiv.org/abs/2401.05799v1 )

ライセンス: Link先を確認
Frank Xing(参考訳) 大規模言語モデル(LLM)は、知的システムを設計する可能性を大幅に変え、膨大なデータ取得と新しいモデリングトレーニングから、既存のトレーニング済みモデルの完全な可能性のヒトのアライメントと戦略的活用へと焦点を移した。 しかし、このパラダイムシフトは金融感情分析(fsa)では、このタスクの差別的性質と、そのような文脈で生成モデルをどのように活用するかに関する規範的知識の欠如のため、完全には実現されていない。 本研究では,FSA を微調整することなく LLM を用いた新しいパラダイムの有効性について検討した。 ミンスキーの心と感情の理論を取り入れたヘテロジニアスLSMエージェントを用いた設計枠組みが提案されている。 このフレームワークは、fsaエラーのタイプと集約されたエージェントの議論の理由の事前ドメイン知識を使用して、専門的なエージェントをインスタンス化する。 FSAデータセットの総合的な評価は、特に議論が実質的である場合、フレームワークがより良い精度を得ることを示している。 本研究は, LLMs ベース FSA の設計基盤と新たな道の舗装に寄与する。 ビジネスとマネジメントへの影響についても論じる。

Large language models (LLMs) have drastically changed the possible ways to design intelligent systems, shifting the focuses from massive data acquisition and new modeling training to human alignment and strategical elicitation of the full potential of existing pre-trained models. This paradigm shift, however, is not fully realized in financial sentiment analysis (FSA), due to the discriminative nature of this task and a lack of prescriptive knowledge of how to leverage generative models in such a context. This study investigates the effectiveness of the new paradigm, i.e., using LLMs without fine-tuning for FSA. Rooted in Minsky's theory of mind and emotions, a design framework with heterogeneous LLM agents is proposed. The framework instantiates specialized agents using prior domain knowledge of the types of FSA errors and reasons on the aggregated agent discussions. Comprehensive evaluation on FSA datasets show that the framework yields better accuracies, especially when the discussions are substantial. This study contributes to the design foundations and paves new avenues for LLMs-based FSA. Implications on business and management are also discussed.
翻訳日:2024-01-12 15:13:54 公開日:2024-01-11
# ミスバウンドオンライン学習におけるフィードバックの価格に関する考察

Bounds on the price of feedback for mistake-bounded online learning ( http://arxiv.org/abs/2401.05794v1 )

ライセンス: Link先を確認
Jesse Geneson and Linus Tang(参考訳) 各種オンライン学習シナリオ(Auer and Long, Machine Learning, 1999)の最悪のケース境界を改善した。 特に,遅延曖昧性強化学習の上限を2倍,関数の族構成学習の上限を2.41倍,非依存学習の上限を1.09倍とした。 また、関数の族$k$の合成を$\Theta(\ln{k})$の係数で学習するために同じ論文から下界を改良し、上界を定数因子に合わせる。 さらに,マルチクラス学習における標準的なフィードバックに対するバンディットフィードバックの価格(長期,理論計算機科学,2020)の問題点を解決し,(feng et al., theoretical computer science, 2023) の上限を,r$-input delay ambiguous reinforcement learning の価格を,同じ論文から先行項までの下限と一致する$r$ で改善する。

We improve several worst-case bounds for various online learning scenarios from (Auer and Long, Machine Learning, 1999). In particular, we sharpen an upper bound for delayed ambiguous reinforcement learning by a factor of 2, an upper bound for learning compositions of families of functions by a factor of 2.41, and an upper bound for agnostic learning by a factor of 1.09. We also improve a lower bound from the same paper for learning compositions of $k$ families of functions by a factor of $\Theta(\ln{k})$, matching the upper bound up to a constant factor. In addition, we solve a problem from (Long, Theoretical Computer Science, 2020) on the price of bandit feedback with respect to standard feedback for multiclass learning, and we improve an upper bound from (Feng et al., Theoretical Computer Science, 2023) on the price of $r$-input delayed ambiguous reinforcement learning by a factor of $r$, matching a lower bound from the same paper up to the leading term.
翻訳日:2024-01-12 15:13:35 公開日:2024-01-11
# 4レベル光物質結合系におけるフラウンホーファー回折の空間的特性

Spatial Characterization of Fraunhofer Diffraction in a Four-Level Light-Matter Coupling System ( http://arxiv.org/abs/2401.05793v1 )

ライセンス: Link先を確認
Seyyed Hossein Asadpour, Teodora Kirova, Hamid R. Hamedi, and Reza Asgari(参考訳) 4レベルN型原子系におけるフラウンホーファー回折パターンの様々な順序の空間的特徴について検討する。 システムは、弱いプローブ光、x方向の定常波(SW)カップリング場、複合光渦型の円筒ビームと相互作用する。 プローブ感受性をswビームの2次に拡張することにより、プローブ感受性の1次線形および3次クロスカー非線形部分を導出する。 これにより、フラウンホーファー回折の積分方程式を解き、非線形感受性を含むベッセル関数の特定の次数にその変化度を復号することができる。 特に、非線形感受性は光ビームの軌道角運動量(OAM)に依存しており、ベッセル関数の空間的変化をもたらし、その結果、フラウンホーファー回折の異なる順序で生じる。 OAMの操作を活用することで,様々な場所での多様な回折オーダーの空間マッピングを正確に制御できる。 我々の研究は、複雑な原子系におけるフラウンホーファー回折の空間的挙動に新しい光を当てている。 将来の光学技術における光oam特性を利用したエキサイティングな展望を示す。

We explore the spatial features of various orders of Fraunhofer diffraction patterns in a four-level N-type atomic system. The system interacts with a weak probe light, a standing wave (SW) coupling field in the x-direction, and a cylindrical beam of composite optical vortex type. We derive the first-order linear and third-order cross-Kerr nonlinear parts of the probe susceptibility by expanding the probe susceptibility of the system into the second order of the SW beam. This allows us to solve the integral equation of Fraunhofer diffraction, decoding its varying degrees to specific degrees of Bessel functions containing the nonlinear susceptibility. Notably, the nonlinear susceptibility exhibits dependence on the Orbital Angular Momentum (OAM) of the light beam, leading to spatial variations in the Bessel functions and, consequently, in the different orders of Fraunhofer diffraction. Leveraging the manipulation of OAM, we achieve precise control over the spatial mapping of diverse diffraction orders at various locations. Our research sheds new light on the spatial behavior of Fraunhofer diffraction in complex atomic systems. It presents exciting prospects for harnessing the OAM characteristics of light in future optical technologies.
翻訳日:2024-01-12 15:13:10 公開日:2024-01-11
# 言語非依存多言語表現のための低ランク部分空間の発見

Discovering Low-rank Subspaces for Language-agnostic Multilingual Representations ( http://arxiv.org/abs/2401.05792v1 )

ライセンス: Link先を確認
Zhihui Xie, Handong Zhao, Tong Yu, Shuai Li(参考訳) ML-LM (Large Pretrained Multilingual Language Model) は、直接の言語間監督なしに、ゼロショットの言語間移動の顕著な能力を示す。 これらの結果は有望であるが、後続の研究により、多言語埋め込み空間には言語間で共有される言語要因の表現を妨げる強力な言語アイデンティティ情報が存在することがわかった。 言語間文検索のような意味的タスクでは、これらの言語識別信号を取り除き、意味情報を完全に活用することが望ましい。 本稿では,多言語組込み空間から言語固有の要因を投影する新しい視点を提案する。 具体的には、主に意味論に関係のない情報をエンコードする低ランクな部分空間が存在することを明らかにする。 この部分空間を同定するために,複数の単言語コーパスを入力として特異値分解に基づく単純だが効果的な教師なし手法を提案する。 サブスペースが見つかると、元の埋め込みを直接null空間に投影して、微調整なしで言語非依存性を高めることができます。 課題言語非依存の検索タスクを含む様々なタスクにおいて,提案手法を体系的に評価する。 実験結果から,本手法を適用すればML-LMよりも一貫した改善が期待できることがわかった。

Large pretrained multilingual language models (ML-LMs) have shown remarkable capabilities of zero-shot cross-lingual transfer, without direct cross-lingual supervision. While these results are promising, follow-up works found that, within the multilingual embedding spaces, there exists strong language identity information which hinders the expression of linguistic factors shared across languages. For semantic tasks like cross-lingual sentence retrieval, it is desired to remove such language identity signals to fully leverage semantic information. In this work, we provide a novel view of projecting away language-specific factors from a multilingual embedding space. Specifically, we discover that there exists a low-rank subspace that primarily encodes information irrelevant to semantics (e.g., syntactic information). To identify this subspace, we present a simple but effective unsupervised method based on singular value decomposition with multiple monolingual corpora as input. Once the subspace is found, we can directly project the original embeddings into the null space to boost language agnosticism without finetuning. We systematically evaluate our method on various tasks including the challenging language-agnostic QA retrieval task. Empirical results show that applying our method consistently leads to improvements over commonly used ML-LMs.
翻訳日:2024-01-12 15:12:51 公開日:2024-01-11
# 誇大宣伝の時代の開発:フリーランサーはどのように生成AIを探求するか?

Development in times of hype: How freelancers explore Generative AI? ( http://arxiv.org/abs/2401.05790v1 )

ライセンス: Link先を確認
Mateusz Dolata, Norbert Lange, Gerhard Schwabe(参考訳) 生成AIの台頭は、多くの企業がその可能性を活用するためにフリーランサーを雇うようになった。 しかし、この技術は、これまでその技術に関わらなかった開発者に独特な課題をもたらす。 フリーランサーは、組織的サポートの欠如と、顧客からのポジティブなフィードバックへの依存によって、これらの課題に直面することがある。 52人のフリーランス開発者を対象にした研究では、生成AIに基づくソリューション開発に関わる複数の課題を特定した。 フリーランサーは、アウトプットの予測不能、幻覚の発生、試行錯誤のサイクルによる不整合な努力など、生成的AIに固有の側面として認識するのにしばしば苦労する。 さらに、トークン制限や長いレスポンスタイムといった特定のフレームワークの制限が複雑さを増している。 クライアントの期待が膨らんだり、急速に進化する技術エコシステムといったハイプ関連の問題がさらに困難を増している。 これらの問題に対処するため,我々は,ソフトウェア工学コミュニティが効果的なガイダンスを提供できる分野として,生成型ai(se4genai)とハイプ誘発ソフトウェアエンジニアリング(hypese)のためのソフトウェアエンジニアリングを提案する。 このサポートは、生成AIやその他の新興技術を扱うフリーランサーにとって不可欠である。

The rise of generative AI has led many companies to hire freelancers to harness its potential. However, this technology presents unique challenges to developers who have not previously engaged with it. Freelancers may find these challenges daunting due to the absence of organizational support and their reliance on positive client feedback. In a study involving 52 freelance developers, we identified multiple challenges associated with developing solutions based on generative AI. Freelancers often struggle with aspects they perceive as unique to generative AI such as unpredictability of its output, the occurrence of hallucinations, and the inconsistent effort required due to trial-and-error prompting cycles. Further, the limitations of specific frameworks, such as token limits and long response times, add to the complexity. Hype-related issues, such as inflated client expectations and a rapidly evolving technological ecosystem, further exacerbate the difficulties. To address these issues, we propose Software Engineering for Generative AI (SE4GenAI) and Hype-Induced Software Engineering (HypeSE) as areas where the software engineering community can provide effective guidance. This support is essential for freelancers working with generative AI and other emerging technologies.
翻訳日:2024-01-12 15:12:30 公開日:2024-01-11
# YOIO: オプティカルフロー推定において,複数の必要なグローバル情報をマイニングし,融合することによって,一度だけ反復する

YOIO: You Only Iterate Once by mining and fusing multiple necessary global information in the optical flow estimation ( http://arxiv.org/abs/2401.05879v1 )

ライセンス: Link先を確認
Yu Jing, Tan Yujuan, Ren Ao, Liu Duo(参考訳) オークルージョンは、グローバルな証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。 occluded point は参照フレームで撮影されるが、次のフレームでは撮影されない点であると考える。 これらの点の運動を推定するのは、特に2フレームの設定において非常に難しい。 以前の研究では、現在のフレームのみを入力として使用しており、オクルード点に対する正確なグローバル参照情報の提供を保証できず、オクルード点における光流の予測における長い計算時間や精度の低下といった問題があった。 高い精度と効率を両立させるために,フレームペアが提供する時空間情報を完全にマイニングし,ループバック判定アルゴリズムを設計し,適切なグローバル参照情報を得るようにし,必要なグローバル情報を複数マイニングし,これらのグローバル情報を融合する効率的なリファインメントモジュールを設計する。 具体的には,初期フロー推定器,複数グローバル情報抽出モジュール,統一改良モジュールの3つの主要コンポーネントからなるYOIOフレームワークを提案する。 閉鎖領域における光学的フロー推定は,非閉塞領域における性能を損なうことなく,1回の反復で大幅に改善できることを実証した。 GMAと比較して、閉塞領域におけるこの手法の光流量予測精度は10%以上向上し、occ_out領域は15%以上であり、計算時間は27%短い。 このアプローチは、最大18.9fpsの436*1024画像解像度で動作し、リアルタイムに実行できる公開および未公開のすべてのアプローチの中で、挑戦的なsintelデータセットに関する最新の結果を得る。

Occlusions pose a significant challenge to optical flow algorithms that even rely on global evidences. We consider an occluded point to be one that is imaged in the reference frame but not in the next. Estimating the motion of these points is extremely difficult, particularly in the two-frame setting. Previous work only used the current frame as the only input, which could not guarantee providing correct global reference information for occluded points, and had problems such as long calculation time and poor accuracy in predicting optical flow at occluded points. To enable both high accuracy and efficiency, We fully mine and utilize the spatiotemporal information provided by the frame pair, design a loopback judgment algorithm to ensure that correct global reference information is obtained, mine multiple necessary global information, and design an efficient refinement module that fuses these global information. Specifically, we propose a YOIO framework, which consists of three main components: an initial flow estimator, a multiple global information extraction module, and a unified refinement module. We demonstrate that optical flow estimates in the occluded regions can be significantly improved in only one iteration without damaging the performance in non-occluded regions. Compared with GMA, the optical flow prediction accuracy of this method in the occluded area is improved by more than 10%, and the occ_out area exceeds 15%, while the calculation time is 27% shorter. This approach, running up to 18.9fps with 436*1024 image resolution, obtains new state-of-the-art results on the challenging Sintel dataset among all published and unpublished approaches that can run in real-time, suggesting a new paradigm for accurate and efficient optical flow estimation.
翻訳日:2024-01-12 15:04:46 公開日:2024-01-11
# 不確かな文脈における安全強化学習

Safe reinforcement learning in uncertain contexts ( http://arxiv.org/abs/2401.05876v1 )

ライセンス: Link先を確認
Dominik Baumann and Thomas B. Sch\"on(参考訳) 機械学習アルゴリズムを現実世界にデプロイする場合、安全性の保証は必須の資産である。 既存の安全な学習アプローチは、通常、連続変数、つまり回帰タスクを考慮する。 しかし実際には、ロボットシステムは、例えば特定の重量の物体を運んだり、凍ったり、濡れたり、乾いた表面を操作したりするといった、個別の外部環境の変化も受けている。 このような影響は、離散文脈変数としてモデル化することができる。 現存する文献では、そのような文脈は、考えれば、主に知られていると推定される。 本研究では,この仮定を廃止し,文脈変数を直接測定できない場合に,安全な学習を行う方法を示す。 これを実現するために,マルチクラス分類の頻繁な保証を導出し,測定結果から現在の文脈を推定する。 さらに,実験を通してコンテキストを識別する手法を提案する。 理論的な保証を保てる条件について検討し, コンテクストとして機能する重みの異なるカメラを用いた古田振り子上でのアルゴリズムの適用性を示す。

When deploying machine learning algorithms in the real world, guaranteeing safety is an essential asset. Existing safe learning approaches typically consider continuous variables, i.e., regression tasks. However, in practice, robotic systems are also subject to discrete, external environmental changes, e.g., having to carry objects of certain weights or operating on frozen, wet, or dry surfaces. Such influences can be modeled as discrete context variables. In the existing literature, such contexts are, if considered, mostly assumed to be known. In this work, we drop this assumption and show how we can perform safe learning when we cannot directly measure the context variables. To achieve this, we derive frequentist guarantees for multi-class classification, allowing us to estimate the current context from measurements. Further, we propose an approach for identifying contexts through experiments. We discuss under which conditions we can retain theoretical guarantees and demonstrate the applicability of our algorithm on a Furuta pendulum with camera measurements of different weights that serve as contexts.
翻訳日:2024-01-12 15:04:19 公開日:2024-01-11
# データ拡張とヘテロジニアス会話グラフネットワークによる対話におけるパーソナリティ認識の促進

Enhancing Personality Recognition in Dialogue by Data Augmentation and Heterogeneous Conversational Graph Networks ( http://arxiv.org/abs/2401.05871v1 )

ライセンス: Link先を確認
Yahui Fu, Haiyue Song, Tianyu Zhao, Tatsuya Kawahara(参考訳) パーソナリティ認識は、ユーザ適応応答を調整するロボットの能力を高めるために有用である。 この課題の1つは、既存の対話コーパスにおける話者数の制限であり、堅牢で話者に依存しないパーソナリティ認識モデルの開発を妨げている。 加えて、対話における対話者間の相互依存と話者内依存の両方を正確にモデル化することは重要な問題である。 最初の課題に対処するために、話者データ拡張のためのパーソナリティ特性補間を導入する。 第2に,文脈的影響と個性的特徴を独立に捉えるためのヘテロジニアスな対話型グラフネットワークを提案する。 RealPersonaChatコーパスの評価は、既存のベースラインよりも大幅に改善されていることを示す。

Personality recognition is useful for enhancing robots' ability to tailor user-adaptive responses, thus fostering rich human-robot interactions. One of the challenges in this task is a limited number of speakers in existing dialogue corpora, which hampers the development of robust, speaker-independent personality recognition models. Additionally, accurately modeling both the interdependencies among interlocutors and the intra-dependencies within the speaker in dialogues remains a significant issue. To address the first challenge, we introduce personality trait interpolation for speaker data augmentation. For the second, we propose heterogeneous conversational graph networks to independently capture both contextual influences and inherent personality traits. Evaluations on the RealPersonaChat corpus demonstrate our method's significant improvements over existing baselines.
翻訳日:2024-01-12 15:04:04 公開日:2024-01-11
# HiCAST: 適応型拡散モデルを用いた高度にカスタマイズされた任意形変換

HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced Diffusion Models ( http://arxiv.org/abs/2401.05870v1 )

ライセンス: Link先を確認
Hanzhang Wang, Haoran Wang, Jinze Yang, Zhongrui Yu, Zeke Xie, Lei Tian, Xinyan Xiao, Junjun Jiang, Xianming Liu, Mingming Sun(参考訳) Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。 既存の手法は通常、スタイルとコンテンツのバランスを追求することに集中するが、柔軟性とカスタマイズによるスタイリゼーション結果に対する大きな要求を無視して、実用的な用途を制限している。 この重要な問題に対処するために,多種多様な意味的手がかりに基づいてスタイリング結果を明示的にカスタマイズできる新しいASTアプローチであるHiCASTを提案する。 本モデルはLDM(Latent Diffusion Model)に基づいて構築され,LCMの条件としてコンテンツやスタイルのインスタンスを吸収するように設計されている。 マルチレベルのスタイル情報と LDM 固有の知識を整合させて出力結果を柔軟に操作できる \textit{Style Adapter} を導入することで特徴付けられる。 最後に、私たちのモデルをさらに拡張して、ビデオASTを実行します。 ビデオ拡散モデルのトレーニングに新たな学習目標が活用され,スタイリゼーション強度の維持を前提として,フレーム間の時間的整合性を大幅に向上する。 質的かつ定量的な比較と包括的ユーザ研究により,我々は既存のsoma法を上回り,視覚的に妥当なスタイライゼーション結果を生成することを証明した。

The goal of Arbitrary Style Transfer (AST) is injecting the artistic features of a style reference into a given image/video. Existing methods usually focus on pursuing the balance between style and content, whereas ignoring the significant demand for flexible and customized stylization results and thereby limiting their practical application. To address this critical issue, a novel AST approach namely HiCAST is proposed, which is capable of explicitly customizing the stylization results according to various source of semantic clues. In the specific, our model is constructed based on Latent Diffusion Model (LDM) and elaborately designed to absorb content and style instance as conditions of LDM. It is characterized by introducing of \textit{Style Adapter}, which allows user to flexibly manipulate the output results by aligning multi-level style information and intrinsic knowledge in LDM. Lastly, we further extend our model to perform video AST. A novel learning objective is leveraged for video diffusion model training, which significantly improve cross-frame temporal consistency in the premise of maintaining stylization strength. Qualitative and quantitative comparisons as well as comprehensive user studies demonstrate that our HiCAST outperforms the existing SoTA methods in generating visually plausible stylization results.
翻訳日:2024-01-12 15:03:52 公開日:2024-01-11
# グローバー探索アルゴリズムにおける量子スイッチを用いた雑音低減

Using Quantum Switches to Mitigate Noise in Grover's Search Algorithm ( http://arxiv.org/abs/2401.05866v1 )

ライセンス: Link先を確認
Suryansh Srivastava, Arun K. Pati, Samyadeb Bhattacharya, Indranil Chakrabarty(参考訳) Groverの量子探索アルゴリズムは、古典的な探索よりも2次的な高速化を約束する。 しかし、この利点は検索空間にノイズが作用することで徐々に減少する。 本稿では,探索空間における雑音の影響を緩和するために,量子スイッチが資源操作として機能することを実証する。 このシナリオでは、フォールトトレラントモデル量子コンピューティングはコストがかかる。 量子レジスタ全体にコヒーレントに作用する分極チャネルによってモデル化されたノイズに加えて、そのような誤り訂正法は自明に実装することはできない。 量子スイッチは、この誤差を減らして、大幅に値を追加することができることを示す。 特に,スイッチ適用のための2つのフレームワークを提案する。 第1の枠組みでは、チャネルの順序の重ね合わせをスイッチ形式で適用し、グローバー演算子のアプリケーションのイテレーション毎にポスト選択を行う。 第2のフレームワークでは、選択を終了まで遅らせます。 言い換えると、k番目のステップでswitchのアクションを見たい場合、最初のフレームワークのためにk-1のポストセレクション測定がすでに行われています。 第2のケースでは、1つの測定しかできません。 ポストセレクションの数は第2のシナリオでは最小限であるため、その効果はスイッチに与えられる。 また、グローバーのアルゴリズムの成功確率に関しても大きな利点がある。 探索空間におけるノイズの影響を減らし,スイッチ動作の唯一の定量化器として成功確率を考察する。

Grover's quantum search algorithm promises a quadratic speedup for unstructured search over its classical counterpart. But this advantage is gradually reduced with noise acting on the search space. In this article, we demonstrate that a quantum switch can act as a resource operation in mitigating the effect of the noise in the search space. In this scenario, fault-tolerant model quantum computing is costly. In addition to the noise modeled by a depolarizing channel, which coherently acts on the entire quantum register, such an error correction method can not be trivially implemented. We show that a quantum switch can significantly add value by reducing this error. In particular, we propose two frameworks for the application of switches. In the first framework, we apply the superposition of channels' orders in the form of a switch and do a post-selection at every iteration of the applications of the Grover operator. In the second framework, we delay the post-selection until the very end. In other words, if we want to look at the switch's action at the kth step, we already have k-1 post-selection measurements in place for the first framework. In the second case, we only have a single measurement. The number of post selections is minimal in the second scenario, so its effect is more credited to the switch. It also gives a significant advantage regarding the success probability of Grover's algorithm. We take the success probability as the sole quantifier of the switch's action in diminishing the effect of noise in search space.
翻訳日:2024-01-12 15:03:29 公開日:2024-01-11
# 熱運動によるエキゾチックスピン依存エネルギー準位シフトノイズ

Exotic Spin-dependent Energy-level Shift Noise Induced by Thermal Motion ( http://arxiv.org/abs/2401.05862v1 )

ライセンス: Link先を確認
Wei Xiao, Xiyu Liu, Teng Wu, Xiang Peng, and Hong Guo(参考訳) 標準モデルを超えるエキゾチックなスピン依存相互作用の探索は過去数十年にわたって関心を集めており、宇宙の謎を解き明かすのに不可欠である。 これまでの研究室検索は主に、エキゾチックなスピン依存相互作用によって生じる静的または変調されたエネルギーレベルのシフトの探索に焦点を当てていた。 本稿では,粒子の熱運動に基づく理論的モデルを紹介し,異種スピン依存相互作用を探索する別の効率的な方法を提案する。 理論モデルでは、エキゾチックスピン依存相互作用は相対的な原子の変位と速度と関係しているため、熱運動中の原子はエキゾティック相互作用によって引き起こされるエネルギーレベルの変動を経験することになる。 さらに、結果として生じるエキゾチックエネルギーレベルのシフトノイズは、高感度の機器で感知できる。 このモデルを用いて高感度の原子磁気センサを例に挙げて、8種類の異方性スピンおよび速度依存相互作用に最も厳密な実験制約を設定した。 さらに、この理論モデルは、原子時計、原子干渉計、NVダイアモンドセンサーなどの他の量子センシング分野にも容易に適用でき、エキゾチックなスピン依存相互作用に関する実験室の制約をさらに改善することができる。

Searching for exotic spin-dependent interactions that beyond the standard model has been of interest for past decades and is crucial for unraveling the mysteries of the universe. Previous laboratory searches primarily focus on searching for either static or modulated energy-level shifts caused by exotic spin-dependent interactions. Here, we introduce a theoretical model based on thermal motion of particles, providing another efficient way to search for exotic spin-dependent interactions. The theoretical model indicates that as the exotic spin-dependent interactions are related with the relative displacements and velocities of atoms, atoms undergoing thermal motion would experience a fluctuating energy-level shift induced by the exotic interactions. Moreover, the resulting exotic energy-level shift noise could be sensed by high-sensitivity instruments. By using the model and taking the high-sensitivity atomic magnetometer as an example, we set the most stringent laboratory experiment constraints on eight different kinds of exotic spin- and velocity-dependent interactions, with five of which at the force range below 1 cm have not been covered previously. Furthermore, this theoretical model can be easily applied in other fields of quantum sensing, such as atomic clocks, atom interferometers and NV-diamond sensors, to further improve the laboratory constraints on exotic spin-dependent interactions.
翻訳日:2024-01-12 15:03:08 公開日:2024-01-11
# 大規模言語モデルによる多対多多言語機械翻訳の促進に向けて

Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models ( http://arxiv.org/abs/2401.05861v1 )

ライセンス: Link先を確認
Pengzhi Gao, Zhongjun He, Hua Wu, Haifeng Wang(参考訳) 機械翻訳の訓練パラダイムは、広範囲な並列コーパスを用いたニューラルマシン翻訳(nmt)モデルから、高品質翻訳ペアを備えた事前学習された多言語大言語モデル(llm)の指導微調整へと徐々にシフトしている。 本稿では,LLMの多言語多言語翻訳性能の向上に焦点をあて,ゼロショット翻訳の方向性を重視した。 提案手法は,ゼロショット翻訳性能に必須であり,異なる言語間の表現ギャップを橋渡しし,ゼロショット翻訳性能を向上させるために,クロスリンガル一貫性規則化 (xconst) を導入する。 XConSTは新しい手法ではなく、翻訳命令でLLMの多言語微調整に適応したCrossConST(Gao et al., 2023a)のバージョンである。 ALMA (Xu et al., 2023) と LLaMA-2 (Touvron et al., 2023) の実験結果から, 本手法は翻訳性能を一貫して改善することが示された。 実装はhttps://github.com/gpengzhi/CrossConST-LLMで公開しています。

The training paradigm for machine translation has gradually shifted, from learning neural machine translation (NMT) models with extensive parallel corpora to instruction finetuning on pretrained multilingual large language models (LLMs) with high-quality translation pairs. In this paper, we focus on boosting the many-to-many multilingual translation performance of LLMs with an emphasis on zero-shot translation directions. We demonstrate that prompt strategies adopted during instruction finetuning are crucial to zero-shot translation performance and introduce a cross-lingual consistency regularization, XConST, to bridge the representation gap among different languages and improve zero-shot translation performance. XConST is not a new method, but a version of CrossConST (Gao et al., 2023a) adapted for multilingual finetuning on LLMs with translation instructions. Experimental results on ALMA (Xu et al., 2023) and LLaMA-2 (Touvron et al., 2023) show that our approach consistently improves translation performance. Our implementations are available at https://github.com/gpengzhi/CrossConST-LLM.
翻訳日:2024-01-12 15:02:44 公開日:2024-01-11
# 検索拡張生成システムのエンジニアリングにおける7つの障害点

Seven Failure Points When Engineering a Retrieval Augmented Generation System ( http://arxiv.org/abs/2401.05856v1 )

ライセンス: Link先を確認
Scott Barnett, Stefanus Kurniawan, Srikanth Thudumu, Zach Brannelly, Mohamed Abdelrazek(参考訳) ソフトウェアエンジニアは、Retrieval Augmented Generation (RAG)と呼ばれる戦略を使って、アプリケーションにセマンティック検索機能を追加している。 RAGシステムは、クエリにセマンティックにマッチした文書を見つけて、ChatGPTのような大きな言語モデル(LLM)に渡して、LLMを使って正しい回答を抽出する。 RAGシステムの目的は a) LLMからの幻覚応答の問題を軽減すること。 b) 生成した応答のソース/参照,及び c) メタデータでドキュメントをアノテートする必要がなくなる。 しかし、RAGシステムは情報検索システムに固有の制約やLLMに依存する制約に悩まされている。 本稿では, 研究, 教育, 生物医学の3つの事例から, ragシステムの障害点についての経験報告を行う。 我々は、RAGシステムを設計する際に学んだ教訓を共有し、現在7つの障害点を共有している。 私たちの仕事から生じる2つの重要なポイントは 1)ragシステムの検証は運用中のみ実施可能であり、 2)RAGシステムの堅牢性は最初から設計されるのではなく進化する。 我々は、ソフトウェアエンジニアリングコミュニティ向けのRAGシステムに関する潜在的研究の方向性のリストをまとめて締めくくる。

Software engineers are increasingly adding semantic search capabilities to applications using a strategy known as Retrieval Augmented Generation (RAG). A RAG system involves finding documents that semantically match a query and then passing the documents to a large language model (LLM) such as ChatGPT to extract the right answer using an LLM. RAG systems aim to: a) reduce the problem of hallucinated responses from LLMs, b) link sources/references to generated responses, and c) remove the need for annotating documents with meta-data. However, RAG systems suffer from limitations inherent to information retrieval systems and from reliance on LLMs. In this paper, we present an experience report on the failure points of RAG systems from three case studies from separate domains: research, education, and biomedical. We share the lessons learned and present 7 failure points to consider when designing a RAG system. The two key takeaways arising from our work are: 1) validation of a RAG system is only feasible during operation, and 2) the robustness of a RAG system evolves rather than designed in at the start. We conclude with a list of potential research directions on RAG systems for the software engineering community.
翻訳日:2024-01-12 15:02:26 公開日:2024-01-11
# 低電荷密度ナノマスクにおける回折に及ぼす分子特性の影響

Impact of molecular properties on diffraction at nanomasks with low charge density ( http://arxiv.org/abs/2401.05854v1 )

ライセンス: Link先を確認
Ksenija Simonovi\'c, Richard Ferstl, Anders Barlow, Armin Shayeghi, Christian Brand, Markus Arndt(参考訳) 物質の量子波の性質は現代の物理学の基盤であり、様々な基礎粒子や複合粒子について実証されている。 ナノメカニカルマスクでの回折は通常、原子や分子の内部状態から独立していると見なされるが、粒子の分極性と双極子モーメントは格子表面との分散相互作用を引き起こす。 以前の実験では、これらの力は極性分子による物質波の実験をほとんど妨げており、格子にランダムに分散した電荷が存在する場合、物質波が弱まる結果となった。 ここでは、ネオンを用いたイオンビームミリングにより、金被覆窒化ケイ素膜中での低電荷ナノマスクの形成が促進されることを示す。 これにより、従来の実験の4倍の電気双極子モーメントで極性分子の回折を観測することができる。 この新たな能力は、物質波回折実験における極性分子の構造評価への道を開く。

The quantum wave nature of matter is a cornerstone of modern physics, which has been demonstrated for a wide range of fundamental and composite particles. While diffraction at nanomechanical masks is usually regarded to be independent of atomic or molecular internal states, the particles' polarisabilities and dipole moments lead to dispersive interactions with the grating surface. In prior experiments, such forces largely prevented matter-wave experiments with polar molecules, as they led to dephasing of the matter wave in the presence of randomly distributed charges incorporated into the grating. Here we show that ion-beam milling using neon facilitates the fabrication of lowly-charged nanomasks in gold-capped silicon nitride membranes. This allows us to observe the diffraction of polar molecules with a four times larger electric dipole moment than in previous experiments. This new capability opens a path to the assessment of the structure of polar molecules in matter-wave diffraction experiments.
翻訳日:2024-01-12 15:02:11 公開日:2024-01-11
# 加速度計データを用いた対話意図の推定

Inferring Intentions to Speak Using Accelerometer Data In-the-Wild ( http://arxiv.org/abs/2401.05849v1 )

ライセンス: Link先を確認
Litian Li, Jord Molhoek, Jing Zhou(参考訳) 人間は、他人が何か言うことがあることを認識するための自然な直感を持っている。 AIが会話の意図を認識できたら興味深いだろう。 特にAIがグループディスカッションを指導しているシナリオでは、これは有用なスキルになります。 この研究は加速度計のデータから、成功と失敗の意図を推測する。 これは、プライバシーを保護し、スマートバッジに入れられるので、wild設定で実現可能であるため選択される。 実生活のソーシャルネットワークイベントのデータは、話す意図を推論することを目的とした機械学習モデルのトレーニングに使用される。 データ内の意図しないケースのサブセットに注釈を付ける。 モデルは、成功事例と失敗事例の両方について話し、評価する成功した意図に基づいて訓練される。 結論として、加速度計のデータには有用な情報があるが、話す意図を確実に捉えるには不十分である。 例えば、姿勢シフトは話す意図と相関するが、人々は話す意図を持たずに姿勢を変えることも、姿勢を変えることなく話す意図を持つこともしばしばある。 話す意図を確実に推測するためには、より多くのモダリティが必要である。

Humans have good natural intuition to recognize when another person has something to say. It would be interesting if an AI can also recognize intentions to speak. Especially in scenarios when an AI is guiding a group discussion, this can be a useful skill. This work studies the inference of successful and unsuccessful intentions to speak from accelerometer data. This is chosen because it is privacy-preserving and feasible for in-the-wild settings since it can be placed in a smart badge. Data from a real-life social networking event is used to train a machine-learning model that aims to infer intentions to speak. A subset of unsuccessful intention-to-speak cases in the data is annotated. The model is trained on the successful intentions to speak and evaluated on both the successful and unsuccessful cases. In conclusion, there is useful information in accelerometer data, but not enough to reliably capture intentions to speak. For example, posture shifts are correlated with intentions to speak, but people also often shift posture without having an intention to speak, or have an intention to speak without shifting their posture. More modalities are likely needed to reliably infer intentions to speak.
翻訳日:2024-01-12 15:01:57 公開日:2024-01-11
# バンドギャップと誘電率のパレート前部を押す:ML誘導誘電体探索

Pushing the Pareto front of band gap and permittivity: ML-guided search for dielectric materials ( http://arxiv.org/abs/2401.05848v1 )

ライセンス: Link先を確認
Janosh Riebesell, T. Wesley Surta, Rhys Goodall, Michael Gaultois, Alpha A Lee(参考訳) 高誘電率の材料は外部電界下で容易に偏極し、現代の多くの電子デバイスで必須の機能を発揮する。 その実用性は2つの相反する性質によって決定される: 高誘電率は狭帯域の材料に発生する傾向があり、絶縁破壊前の動作電圧が制限される。 本稿では, 元素置換, ML前スクリーニング, アブイニシオシミュレーション, およびヒト専門家の直感を併用して, 潜在的誘電体のための未知物質の広大な空間を効率的に探索し, CsTaTeO6 と Bi2Zr2O7 という2つの新しい誘電体材料の合成とキャラクタリゼーションを行う。 私たちの重要なアイデアは、concave pareto frontによるマルチ目的最適化設定にmlをデプロイすることです。 通常、単目的最適化よりも難しいと考えられるが、バンドギャップと誘電率の1/x$相関が実際に、優れたトレーニング支援の領域における各操作に対するバンドギャップと誘電率の分離モデルを許容し、そのタスクがMLメソッドにとってより有益であることを示す予備的証拠を論じ、提示する。 我々の知る限り、これはML誘導多目的材料最適化が実験的な合成と特性を達成する最初の事例である。 CsTeTeO6は、基準データソースに存在しない要素置換によって生成される構造であり、デノボ材料設計の成功例である。 一方,bi2zr2o7のバンドギャップが2.27 ev,誘電率20.5の高純度合成と誘電特性を報告し,多目的探索のすべての対象指標を満たした。

Materials with high-dielectric constant easily polarize under external electric fields, allowing them to perform essential functions in many modern electronic devices. Their practical utility is determined by two conflicting properties: high dielectric constants tend to occur in materials with narrow band gaps, limiting the operating voltage before dielectric breakdown. We present a high-throughput workflow that combines element substitution, ML pre-screening, ab initio simulation and human expert intuition to efficiently explore the vast space of unknown materials for potential dielectrics, leading to the synthesis and characterization of two novel dielectric materials, CsTaTeO6 and Bi2Zr2O7. Our key idea is to deploy ML in a multi-objective optimization setting with concave Pareto front. While usually considered more challenging than single-objective optimization, we argue and show preliminary evidence that the $1/x$-correlation between band gap and permittivity in fact makes the task more amenable to ML methods by allowing separate models for band gap and permittivity to each operate in regions of good training support while still predicting materials of exceptional merit. To our knowledge, this is the first instance of successful ML-guided multi-objective materials optimization achieving experimental synthesis and characterization. CsTaTeO6 is a structure generated via element substitution not present in our reference data sources, thus exemplifying successful de-novo materials design. Meanwhile, we report the first high-purity synthesis and dielectric characterization of Bi2Zr2O7 with a band gap of 2.27 eV and a permittivity of 20.5, meeting all target metrics of our multi-objective search.
翻訳日:2024-01-12 15:01:43 公開日:2024-01-11
# AIのナッジをデコードする:AIによる意思決定における人間の振る舞いを予測する統一フレームワーク

Decoding AI's Nudge: A Unified Framework to Predict Human Behavior in AI-assisted Decision Making ( http://arxiv.org/abs/2401.05840v1 )

ライセンス: Link先を確認
Zhuoyan Li, Zhuoran Lu, Ming Yin(参考訳) AIベースの意思決定支援の急速な発展に伴い、AI支援のさまざまな形態が、人間の意思決定プロセスに統合されつつある。 意思決定において人間を最善に支援するためには、多種多様なAI支援が人間の意思決定行動にどのように影響するかを定量的に理解することが不可欠である。 この目的のために、現在の研究の多くは『ブラックボックス』モデルを用いた人間の行動のエンドツーエンド予測に焦点を当てており、AI支援が人間の意思決定プロセスに影響を及ぼす微妙な方法の解釈を欠いていることが多い。 一方、人間の行動予測の解釈性を優先する手法は、ある特定の形態のai支援のために調整されることが多く、他の形態の援助への適応が困難になる。 本稿では,AI支援意思決定における意思決定者に対するAI支援のさまざまな形態の影響を解釈可能な評価を行うための計算フレームワークを提案する。 人間の意思決定プロセスにおいて、AIアシストを ‘{\em nudge}’ として概念化することで、私たちのアプローチは、異なる形のAIアシストが人間の戦略をどのように修正するかをモデル化することに集中します。 実際の人間の意思決定者から収集された行動データの評価は、AIによる意思決定における人間の行動の正確な予測において、提案されたフレームワークが様々なベースラインを上回っていることを示している。 提案した枠組みに基づいて、異なる認知スタイルの個人がAI支援によって異なる方法で評価される方法について、さらに洞察を提供する。

With the rapid development of AI-based decision aids, different forms of AI assistance have been increasingly integrated into the human decision making processes. To best support humans in decision making, it is essential to quantitatively understand how diverse forms of AI assistance influence humans' decision making behavior. To this end, much of the current research focuses on the end-to-end prediction of human behavior using ``black-box'' models, often lacking interpretations of the nuanced ways in which AI assistance impacts the human decision making process. Meanwhile, methods that prioritize the interpretability of human behavior predictions are often tailored for one specific form of AI assistance, making adaptations to other forms of assistance difficult. In this paper, we propose a computational framework that can provide an interpretable characterization of the influence of different forms of AI assistance on decision makers in AI-assisted decision making. By conceptualizing AI assistance as the ``{\em nudge}'' in human decision making processes, our approach centers around modelling how different forms of AI assistance modify humans' strategy in weighing different information in making their decisions. Evaluations on behavior data collected from real human decision makers show that the proposed framework outperforms various baselines in accurately predicting human behavior in AI-assisted decision making. Based on the proposed framework, we further provide insights into how individuals with different cognitive styles are nudged by AI assistance differently.
翻訳日:2024-01-12 15:01:04 公開日:2024-01-11
# シルエットの再訪:マイクロからマクロアグリゲーションへ

Revisiting Silhouette: From Micro to Macro Aggregation ( http://arxiv.org/abs/2401.05831v1 )

ライセンス: Link先を確認
Georgios Vardakas and John Pavlopoulos and Aristidis Likas(参考訳) シルエット係数(Silhouette coefficient)は、クラスタリング割り当ての品質を評価し、データポイント当たりのスコアを生成する確立された内部クラスタリング評価尺度である。 データセット全体のクラスタリングの品質を評価するために、データセット内のすべてのポイントのスコアは、通常1つの値に平均化されます。 この研究で示されるように、合成例を用いて、このマイクロ平均戦略は、クラスタの不均衡と異常値(バックグランドノイズ)の両方に敏感である。 これらの問題に対処するために,まず,クラスタレベルでシルエットスコアを平均し,次に(macro)スコアをクラスタ全体で平均する,代替集約戦略を提案する。 同じ合成例に基づいて,提案するマクロ平均シルエットスコアは,クラスタ不均衡とバックグラウンドノイズにロバストであることを示す。 我々は,マクロ平均値の変種が,典型的なマイクロ平均値と比較して,いくつかのケースでクラスターの基底真理数を推定できることを実験的に検証した。

Silhouette coefficient is an established internal clustering evaluation measure that produces a score per data point, assessing the quality of its clustering assignment. To assess the quality of the clustering of the whole dataset, the scores of all the points in the dataset are typically averaged into a single value, a strategy which we call as micro-averaging. As we illustrate in this work, by using a synthetic example, this micro-averaging strategy is sensitive both to cluster imbalance and outliers (background noise). To address these issues, we propose an alternative aggregation strategy, which first averages the silhouette scores at a cluster level and then (macro) averages the scores across the clusters. Based on the same synthetic example, we show that the proposed macro-averaged silhouette score is robust to cluster imbalance and background noise. We have conducted an experimental study showing that our macro-averaged variant provides better estimates of the ground truth number of clusters on several cases compared to the typical micro-averaged score.
翻訳日:2024-01-12 15:00:40 公開日:2024-01-11
# 単一捕捉イオン量子ビットにおけるmpemba効果

The Mpemba effect demonstrated on a single trapped ion qubit ( http://arxiv.org/abs/2401.05830v1 )

ライセンス: Link先を確認
Shahaf Aharony Shapira, Yotam Shapira, Jovan Markov, Gianluca Teza, Nitzan Akerman, Oren Raz and Roee Ozeri(参考訳) mpemba効果(mpemba effect)は、高温系が低温系よりも早い温度に到達する逆直観的な現象である。 ここでは、最も単純な量子系である量子ビット上で、Mpemba効果の量子アナログを提案する。 具体的には,冷量子ビットが熱量子ビットよりも早く高温に達する逆効果を示す。 さらに,本システムでは冷量子ビットが指数関数的に速く加熱され,その効果の強いバージョンが示される。 これは十分なコヒーレントな系に対してのみ起こり、量子力学的効果、すなわち干渉効果によって生じる。 我々は,単一イオン量子ビット$^{88}\text{sr}^+$ caught ion qubit について実験的に実験を行った。

The Mpemba effect is a counter-intuitive phenomena in which a hot system reaches a cold temperature faster than a colder system, under otherwise identical conditions. Here we propose a quantum analog of the Mpemba effect, on the simplest quantum system, a qubit. Specifically, we show it exhibits an inverse effect, in which a cold qubit reaches a hot temperature faster than a hot qubit. Furthermore, in our system a cold qubit can heat up exponentially faster, manifesting the strong version of the effect. This occurs only for sufficiently coherent systems, making this effect quantum mechanical, i.e. due to interference effects. We experimentally demonstrate our findings on a single $^{88}\text{Sr}^+$ trapped ion qubit.
翻訳日:2024-01-12 15:00:22 公開日:2024-01-11
# 医用視覚質問応答における幻覚ベンチマーク

Hallucination Benchmark in Medical Visual Question Answering ( http://arxiv.org/abs/2401.05827v1 )

ライセンス: Link先を確認
Jinge Wu, Yunsoo Kim, Honghan Wu(参考訳) 視覚質問応答(VQA)における大規模言語と視覚モデルの成功、特に医学的応用(Med-VQA)は、医療に有効な視覚アシスタントを実現する大きな可能性を示している。 しかし、これらのモデルは、臨床環境での幻覚現象に対して広範囲に検査されない。 そこで我々は,問答セットと組み合わせた医用画像の幻覚ベンチマークを作成し,最新モデルの包括的評価を行った。 この研究は、現在のモデルの限界を詳細に分析し、様々なプロンプト戦略の有効性を明らかにする。

The recent success of large language and vision models on vision question answering (VQA), particularly their applications in medicine (Med-VQA), has shown a great potential of realizing effective visual assistants for healthcare. However, these models are not extensively tested on the hallucination phenomenon in clinical settings. Here, we created a hallucination benchmark of medical images paired with question-answer sets and conducted a comprehensive evaluation of the state-of-the-art models. The study provides an in-depth analysis of current models limitations and reveals the effectiveness of various prompting strategies.
翻訳日:2024-01-12 15:00:10 公開日:2024-01-11
# CoSSegGaussians:コンパクトでスウィフトなシーンセグメンテーション3Dガウス

CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians ( http://arxiv.org/abs/2401.05925v1 )

ライセンス: Link先を確認
Bin Dou, Tianyu Zhang, Yongjia Ma, Zhaohui Wang, Zejian Yuan(参考訳) 我々は,RGB画像のみを入力した高速レンダリング速度で,コンパクトな3D一貫性シーンセグメンテーションを実現する手法であるCoSSegGaussiansとSwift Segmenting 3D Gaussiansを提案する。 従来のnerfベースの3dセグメンテーション手法は、時間を要する暗黙的またはボクセル的シーン表現とレイマーチングボリュームレンダリングに依存している。 最近の3Dガウス分割法はレンダリング速度を大幅に改善するが、既存のガウス系セグメンテーション法(ガウス群化法)は、特にゼロショットセグメンテーションにおいてコンパクトなセグメンテーションマスクを提供していない。 本手法は,空間的,意味的に意味のある各特徴を浅い復号ネットワークでマッピングすることにより,コンパクトで信頼性の高いゼロショットシーンセグメンテーションを実現することを目的とする。 具体的には、RGB画像の監督の下で、まずガウス点の位置、共分散、色特性を最適化する。 ガウス関数の探索後、画像から抽出した複数スケールの dino 特徴を各ガウス関数に投影して蒸留し、高速点特徴処理ネットワーク、すなわち randla-net から空間的特徴量を取り込む。 そして、浅層復号化MLPを多スケール融合特徴に適用し、コンパクトセグメンテーションを得る。 実験の結果,本モデルはセマンティクスとパンオプティカルセグメンテーションの双方において,他のセグメンテーション手法よりも優れており,一方,nrfセグメンテーションに比べて10%のセグメンテーション時間しか消費しないことがわかった。 コードやその他の結果はhttps://David-Dou.github.io/CoSSegGaussiansで公開される。

We propose Compact and Swift Segmenting 3D Gaussians(CoSSegGaussians), a method for compact 3D-consistent scene segmentation at fast rendering speed with only RGB images input. Previous NeRF-based 3D segmentation methods have relied on implicit or voxel neural scene representation and ray-marching volume rendering which are time consuming. Recent 3D Gaussian Splatting significantly improves the rendering speed, however, existing Gaussians-based segmentation methods(eg: Gaussian Grouping) fail to provide compact segmentation masks especially in zero-shot segmentation, which is mainly caused by the lack of robustness and compactness for straightforwardly assigning learnable parameters to each Gaussian when encountering inconsistent 2D machine-generated labels. Our method aims to achieve compact and reliable zero-shot scene segmentation swiftly by mapping fused spatial and semantically meaningful features for each Gaussian point with a shallow decoding network. Specifically, our method firstly optimizes Gaussian points' position, convariance and color attributes under the supervision of RGB images. After Gaussian Locating, we distill multi-scale DINO features extracted from images through unprojection to each Gaussian, which is then incorporated with spatial features from the fast point features processing network, i.e. RandLA-Net. Then the shallow decoding MLP is applied to the multi-scale fused features to obtain compact segmentation. Experimental results show that our model can perform high-quality zero-shot scene segmentation, as our model outperforms other segmentation methods on both semantic and panoptic segmentation task, meanwhile consumes approximately only 10% segmenting time compared to NeRF-based segmentation. Code and more results will be available at https://David-Dou.github.io/CoSSegGaussians
翻訳日:2024-01-12 14:42:54 公開日:2024-01-11
# 強磁性スピノルBose-Einsteinの量子相転移における仕事統計

Work statistics in ferromagnetic spinor Bose-Einstein condensates across the quantum phase transition ( http://arxiv.org/abs/2401.05921v1 )

ライセンス: Link先を確認
Zhen-Xia Niu(参考訳) 量子多体系を有限時間で量子相転移(英語版)(qpt)で駆動することは、様々な基礎的な問題を探求するために物理学の異なる分野に関係している。 本稿では, 強磁性スピノルボース・アインシュタイン凝縮体の制御パラメータが有限時間における臨界点を通じて調整された場合, qptが作業分布にどのように影響するかを分析し, 作業分布のエントロピーを用いて, 作業分布を増加させることで, 作業分布が劇的な変化を起こすことを示し, エントロピーの3つの異なる領域を, $\tau$ の関数として観測する。 具体的には、エントロピーは非常に短い$\tau$の領域での駆動時間に敏感である。 しかし、中間値$\tau$の領域では、よく知られたキブル・ズレーク機構と一致した普遍的なパワーロー減衰を示す。 大きな$\tau$ を持つ領域において、断熱摂動理論の妥当性は、エントロピー崩壊を $\tau^{-2}\ln\tau$ に導く。 本研究は, 臨界ダイナミクスを理解するための作業分布のエントロピーの有用性を検証し, 量子多体系における非平衡特性を実験的に研究する方法を提供する。

Driving a quantum many-body system across the quantum phase transition (QPT) in finite time has been concerned in different branches of physics to explore various fundamental questions. Here, we analyze how the underlying QPT affects the work distribution, when the controlling parameter of a ferromagnetic spinor Bose-Einstein condensates is tuned through the critical point in finite time.We show that the work distribution undergoes a dramatic change with increasing the driving time $\tau$, which is further captured by employing the entropy of the work distribution.We observe three distinct regions in the evolution of entropy as a function of $\tau$.Specifically, the entropy is insensitive to the driving time in the region of very short $\tau$. However, in the region with intermediate value of $\tau$, it exhibits a universal power-law decay consistent with the well-known Kibble-Zurek mechanism. For the region with large $\tau$, the validity of the adiabatic perturbation theory leads to the entropy decay as $\tau^{-2}\ln\tau$. Our results verify the usefulness of the entropy of the work distribution for understanding the critical dynamics and provide an alternative way to experimentally study nonequilibrium properties in quantum many-body systems.
翻訳日:2024-01-12 14:42:19 公開日:2024-01-11
# 教師が大きな言語モデルとブルームの分類を使って教育用クイズを作る方法

How Teachers Can Use Large Language Models and Bloom's Taxonomy to Create Educational Quizzes ( http://arxiv.org/abs/2401.05914v1 )

ライセンス: Link先を確認
Sabina Elkins, Ekaterina Kochmar, Jackie C.K. Cheung, Iulian Serban(参考訳) 質問生成(QG)は、教育領域における潜在的利益とユースケースの豊富な自然言語処理タスクである。 この可能性を実現するためには、教育的ニーズを念頭においてQGシステムを設計し、検証する必要がある。 しかし、実際の教師や学生の入力によるQGアプローチの評価や設計は、ほとんど研究されていない。 本稿では,Bloomの分類学から得られた学習目標を問う,大規模言語モデルに基づくQGアプローチを適用する。 自動生成された質問は、教師が実際に使う方法を評価するために設計された複数の実験で使用される。 その結果、教師は自動生成された質問でクイズを書くことを好み、手書き版に比べてクイズの品質が損なわれることはないことがわかった。 さらに、いくつかの指標から、自動生成された質問は、生成したクイズの品質も向上し、教室でのQGの大規模利用が期待できることを示している。

Question generation (QG) is a natural language processing task with an abundance of potential benefits and use cases in the educational domain. In order for this potential to be realized, QG systems must be designed and validated with pedagogical needs in mind. However, little research has assessed or designed QG approaches with the input from real teachers or students. This paper applies a large language model-based QG approach where questions are generated with learning goals derived from Bloom's taxonomy. The automatically generated questions are used in multiple experiments designed to assess how teachers use them in practice. The results demonstrate that teachers prefer to write quizzes with automatically generated questions, and that such quizzes have no loss in quality compared to handwritten versions. Further, several metrics indicate that automatically generated questions can even improve the quality of the quizzes created, showing the promise for large scale use of QG in the classroom setting.
翻訳日:2024-01-12 14:41:55 公開日:2024-01-11
# ソーシャルメディアテキストからのプロンプト型メンタルヘルススクリーニング

Prompt-based mental health screening from social media text ( http://arxiv.org/abs/2401.05912v1 )

ライセンス: Link先を確認
Wesley Ramos dos Santos and Ivandre Paraboni(参考訳) 本稿では,ソーシャルメディアテキストの大規模でノイズの多いデータセットから,迅速なメンタルヘルススクリーニング手法を提案する。 我々の方法は GPT 3.5 を使用する。 タスクに関連性のあるパブリッシュを識別し、簡単なbacker-of-wordsテキスト分類器を使用して実際のユーザラベルを予測する。 結果は、専門家の分類器のbert混合とペアになり、計算コストのほんの一部しか発生しないことが判明した。

This article presents a method for prompt-based mental health screening from a large and noisy dataset of social media text. Our method uses GPT 3.5. prompting to distinguish publications that may be more relevant to the task, and then uses a straightforward bag-of-words text classifier to predict actual user labels. Results are found to be on pair with a BERT mixture of experts classifier, and incurring only a fraction of its computational costs.
翻訳日:2024-01-12 14:41:40 公開日:2024-01-11
# EpilepsyLLM: てんかん医学知識を応用したドメイン特化大言語モデル

EpilepsyLLM: Domain-Specific Large Language Model Fine-tuned with Epilepsy Medical Knowledge ( http://arxiv.org/abs/2401.05908v1 )

ライセンス: Link先を確認
Xuyang Zhao and Qibin Zhao and Toshihisa Tanaka(参考訳) 大規模なトレーニングデータセットと大量のコンピューティングソースにより、大規模言語モデル(LLM)は包括的および生成能力において顕著なパフォーマンスを達成する。 これらの強力なLLMに基づいて、ドメイン固有のデータセットで微調整されたモデルは、より専門的な知識を持ち、医用LLMのようにより実用的なものである。 しかし、既存の微調整医療 LLM は英語の一般的な医学知識に限られている。 病気特有の問題では、モデルの反応は不正確であり、特に英語以外の言語を使用する場合、時には完全に無関係である。 本研究では, エピレプシーと日本語の特定の疾患に焦点を当て, エピレプシーLLMと呼ばれる独自のLSMを導入する。 我々のモデルは, てんかん領域からのデータセットを用いた微調整技術により, 予め訓練したLSMから訓練される。 データセットには、疾患に関する基本的な情報、一般的な治療方法や薬物、生活や仕事における重要なメモが含まれている。 実験の結果、てんかんはより信頼性が高く、専門的な医学的知識の応答を提供できることが示された。

With large training datasets and massive amounts of computing sources, large language models (LLMs) achieve remarkable performance in comprehensive and generative ability. Based on those powerful LLMs, the model fine-tuned with domain-specific datasets posseses more specialized knowledge and thus is more practical like medical LLMs. However, the existing fine-tuned medical LLMs are limited to general medical knowledge with English language. For disease-specific problems, the model's response is inaccurate and sometimes even completely irrelevant, especially when using a language other than English. In this work, we focus on the particular disease of Epilepsy with Japanese language and introduce a customized LLM termed as EpilepsyLLM. Our model is trained from the pre-trained LLM by fine-tuning technique using datasets from the epilepsy domain. The datasets contain knowledge of basic information about disease, common treatment methods and drugs, and important notes in life and work. The experimental results demonstrate that EpilepsyLLM can provide more reliable and specialized medical knowledge responses.
翻訳日:2024-01-12 14:41:33 公開日:2024-01-11
# 拡散モデルに基づく効率的な画像分解ネットワーク

Efficient Image Deblurring Networks based on Diffusion Models ( http://arxiv.org/abs/2401.05907v1 )

ライセンス: Link先を確認
Kang Chen, Yuanjie Liu(参考訳) 本稿では,メモリ使用量が非常に少ない場合,これまでで最高の性能を実現するデフォーカスデブラリングのためのスライディングウィンドウモデルを紹介する。 Swintormerという名前のこの方法は拡散モデルを用いて、より詳細な画像の復元を支援する遅延前の特徴を生成する。 また、効率的な推論のために、スライドウィンドウ戦略を特別なTransformerブロックに拡張する。 さらに,Mac (Multiply-Accumulate Operations) も最適化した。 現在最高性能のGRL法と比較して、Swintormerモデルは計算複雑性を140.35 GMACsから8.02 GMacsに大幅に削減し、デフォーカスを27.04 dBから27.07 dBにデフォーカスするSNR(Signal-to-Noise Ratio)を改善した。 この新しい方法では、メモリ制限のあるデバイス上で高解像度画像を処理でき、潜在的なアプリケーションシナリオを大幅に拡張できる。 この記事は、各ネットワークモジュールが最終的なパフォーマンスに与える影響を詳細に分析するアブレーション研究で締めくくります。 ソースコードとモデルは以下のWebサイトで利用可能になる。

This article introduces a sliding window model for defocus deblurring that achieves the best performance to date with extremely low memory usage. Named Swintormer, the method utilizes a diffusion model to generate latent prior features that assist in restoring more detailed images. It also extends the sliding window strategy to specialized Transformer blocks for efficient inference. Additionally, we have further optimized Multiply-Accumulate operations (Macs). Compared to the currently top-performing GRL method, our Swintormer model drastically reduces computational complexity from 140.35 GMACs to 8.02 GMacs, while also improving the Signal-to-Noise Ratio (SNR) for defocus deblurring from 27.04 dB to 27.07 dB. This new method allows for the processing of higher resolution images on devices with limited memory, significantly expanding potential application scenarios. The article concludes with an ablation study that provides an in-depth analysis of the impact of each network module on final performance. The source code and model will be available at the following website: https://github.com/bnm6900030/swintormer.
翻訳日:2024-01-12 14:41:15 公開日:2024-01-11
# PartSTAD: 2D-to-3D 分割タスク適応

PartSTAD: 2D-to-3D Part Segmentation Task Adaptation ( http://arxiv.org/abs/2401.05906v1 )

ライセンス: Link先を確認
Hyunjin Kim, Minhyuk Sung(参考訳) 2D-to-3Dセグメンテーションリフトのタスク適応を目的としたPartSTADを提案する。 最近の研究は、2Dセグメンテーションモデルを利用して、数ショット適応による高品質な3Dセグメンテーションを実現する利点を強調している。 しかし、従来のアプローチでは、3Dセグメンテーションに特化してモデルを最適化するのではなく、レンダリング画像や合成テキスト記述へのドメインシフトのための2次元セグメンテーションモデルの適用に重点を置いていた。 提案手法は,3次元分割のための目的関数を持つ2次元境界ボックス予測モデルを微調整する。 適応マージのための2次元境界ボックスの重み付けを導入し,小さな追加ニューラルネットワークを用いて重み付けを学習する。 さらに,境界ボックス上の前景セグメンテーションモデルであるSAMを組み込んで,2次元セグメンテーションの境界,すなわち3次元セグメンテーションのバウンダリを改善する。 PartNet-Mobilityデータセットを用いた実験では,タスク適応アプローチによる大幅な改善,mIoUの7.0%増加,セマンティックおよびインスタンスセグメンテーションにおけるmAP_50の5.2%向上を実現した。

We introduce PartSTAD, a method designed for the task adaptation of 2D-to-3D segmentation lifting. Recent studies have highlighted the advantages of utilizing 2D segmentation models to achieve high-quality 3D segmentation through few-shot adaptation. However, previous approaches have focused on adapting 2D segmentation models for domain shift to rendered images and synthetic text descriptions, rather than optimizing the model specifically for 3D segmentation. Our proposed task adaptation method finetunes a 2D bounding box prediction model with an objective function for 3D segmentation. We introduce weights for 2D bounding boxes for adaptive merging and learn the weights using a small additional neural network. Additionally, we incorporate SAM, a foreground segmentation model on a bounding box, to improve the boundaries of 2D segments and consequently those of 3D segmentation. Our experiments on the PartNet-Mobility dataset show significant improvements with our task adaptation approach, achieving a 7.0%p increase in mIoU and a 5.2%p improvement in mAP_50 for semantic and instance segmentation compared to the SotA few-shot 3D segmentation model.
翻訳日:2024-01-12 14:40:53 公開日:2024-01-11
# 高電荷イオン中の全前順序核偏極

Full leading-order nuclear polarization in highly charged ions ( http://arxiv.org/abs/2401.05904v1 )

ライセンス: Link先を確認
Igor A. Valuev and Natalia S. Oreshkina (Max-Planck-Institut f\"ur Kernphysik, Heidelberg, Germany)(参考訳) 高電荷イオンのエネルギー準位に対する核偏極補正は、微細構造定数の先頭の順に体系的に研究される。 この目的のために、原子核偏極を挿入した有効光子プロパゲータの概念を用い、ハートリーフォックに基づくランダム位相近似を用いて核励起スペクトルを計算する。 有効なスカイム力は核子間の相互作用を記述するために使われ、モデル依存を解析する。 順序を導くために、形式主義は有効な真空分極と自己エネルギー図によって与えられる2つの寄与を予測する。 真空偏極項に関する既存の曖昧さは、標準有限核サイズの補正に効果的に吸収されていることを示すことで解決される。 自己エネルギー部分は、核3電流の効果の重要性が強調される電磁電子-核相互作用を考慮に入れて評価される。

The nuclear-polarization corrections to the energy levels of highly charged ions are systematically investigated to leading order in the fine-structure constant. To this end, the notion of effective photon propagators with nuclear-polarization insertions is employed, where the nuclear excitation spectrum is calculated by means of the Hartree-Fock-based random-phase approximation. The effective Skyrme force is used to describe the interaction between nucleons, and the model dependence is analyzed. To leading order, the formalism predicts two contributions given by the effective vacuum-polarization and self-energy diagrams. The existing ambiguity around the vacuum-polarization term is resolved by demonstrating that it is effectively absorbed in the standard finite-nuclear-size correction. The self-energy part is evaluated with the full electromagnetic electron-nucleus interaction taken into account, where the importance of the effects of the nuclear three-currents is emphasized.
翻訳日:2024-01-12 14:40:32 公開日:2024-01-11
# conked:keypointベースの網膜画像登録のためのマルチビューコントラスト記述子学習

ConKeD: Multiview contrastive descriptor learning for keypoint-based retinal image registration ( http://arxiv.org/abs/2401.05901v1 )

ライセンス: Link先を確認
David Rivas-Villar, \'Alvaro S. Hervella, Jos\'e Rouco, Jorge Novo(参考訳) 網膜画像登録は医療に広く応用されているため、最も重要である。 本研究では,網膜画像登録のための記述子を学習するための新しい深層学習手法であるConKeDを提案する。 現在の登録方法とは対照的に,本手法では,利用可能なトレーニングサンプルから追加情報を活用することができる,新しい多正多負のコントラスト学習戦略を採用している。 これにより、限られたトレーニングデータから高品質な記述子を学ぶことができる。 conkedを訓練し評価するために、これらの記述子とドメイン固有のキーポイント、特に深層ニューラルネットワークを用いて検出される血管分岐とクロスオーバーを組み合わせる。 実験結果から, 広範に使用されている三重項損失技術(単正・単負)と, 単正の多負の代替手段に勝るものとして, 新規多負戦略の利点が示された。 さらに、ドメイン固有のキーポイントと組み合わせることで、前処理の回避、トレーニングサンプルの削減、検出されたキーポイントの削減といった重要な利点を享受しながら、網膜画像登録に関する最先端の方法と同等の結果が得られる。 したがって、conkedは、網膜画像登録のための深層学習ベースの方法の開発と応用を促進するための有望な可能性を示している。

Retinal image registration is of utmost importance due to its wide applications in medical practice. In this context, we propose ConKeD, a novel deep learning approach to learn descriptors for retinal image registration. In contrast to current registration methods, our approach employs a novel multi-positive multi-negative contrastive learning strategy that enables the utilization of additional information from the available training samples. This makes it possible to learn high quality descriptors from limited training data. To train and evaluate ConKeD, we combine these descriptors with domain-specific keypoints, particularly blood vessel bifurcations and crossovers, that are detected using a deep neural network. Our experimental results demonstrate the benefits of the novel multi-positive multi-negative strategy, as it outperforms the widely used triplet loss technique (single-positive and single-negative) as well as the single-positive multi-negative alternative. Additionally, the combination of ConKeD with the domain-specific keypoints produces comparable results to the state-of-the-art methods for retinal image registration, while offering important advantages such as avoiding pre-processing, utilizing fewer training samples, and requiring fewer detected keypoints, among others. Therefore, ConKeD shows a promising potential towards facilitating the development and application of deep learning-based methods for retinal image registration.
翻訳日:2024-01-12 14:40:19 公開日:2024-01-11
# 悲観的オフライン政策最適化のための最適モデルロールアウト

Optimistic Model Rollouts for Pessimistic Offline Policy Optimization ( http://arxiv.org/abs/2401.05899v1 )

ライセンス: Link先を確認
Yuanzhao Zhai, Yiying Li, Zijian Gao, Xudong Gong, Kele Xu, Dawei Feng, Ding Bo, Huaimin Wang(参考訳) モデルベースオフライン強化学習(RL)は、合成モデルロールアウトによる一般化を改善するための有望な道を提供する。 既存の研究は主に、ペシミズムマルコフ決定プロセス(P-MDP)の構築を通じて、政策最適化に悲観的を取り入れることに焦点を当てている。 しかしながら、P-MDPは、オフラインデータセットのサポート以外の、アウト・オブ・ディストリビューション(OOD)領域での学習からポリシーを回避し、ダイナミックスモデルの一般化能力を過小評価することができる。 対照的に,O-MDP (Optimistic MDP) の構築を提案する。 私たちは当初、OODロールアウトの促進による楽観主義の潜在的なメリットを観察しました。 そこで本研究では,シンプルなモデルベースオフラインRLフレームワークORPOを提案する。 ORPOは、悲観的なオフラインポリシー最適化のための最適モデルロールアウトを生成する。 具体的には、O-MDPにおける楽観的なロールアウトポリシーをトレーニングし、より多くのOODモデルロールアウトをサンプリングする。 次に、サンプル状態-作用対にペナル化報酬を付与し、P-MDPの出力ポリシを最適化する。 理論的には、ORPO で訓練されたポリシーの性能は線形 MDP で低境界にすることができる。 実験の結果,本フレームワークはP-MDPベースラインを30%のマージンで大幅に上回り,広く使用されているベンチマークで最先端性能を達成した。 さらに、ORPOは一般化を必要とする問題において顕著な利点を示す。

Model-based offline reinforcement learning (RL) has made remarkable progress, offering a promising avenue for improving generalization with synthetic model rollouts. Existing works primarily focus on incorporating pessimism for policy optimization, usually via constructing a Pessimistic Markov Decision Process (P-MDP). However, the P-MDP discourages the policies from learning in out-of-distribution (OOD) regions beyond the support of offline datasets, which can under-utilize the generalization ability of dynamics models. In contrast, we propose constructing an Optimistic MDP (O-MDP). We initially observed the potential benefits of optimism brought by encouraging more OOD rollouts. Motivated by this observation, we present ORPO, a simple yet effective model-based offline RL framework. ORPO generates Optimistic model Rollouts for Pessimistic offline policy Optimization. Specifically, we train an optimistic rollout policy in the O-MDP to sample more OOD model rollouts. Then we relabel the sampled state-action pairs with penalized rewards and optimize the output policy in the P-MDP. Theoretically, we demonstrate that the performance of policies trained with ORPO can be lower-bounded in linear MDPs. Experimental results show that our framework significantly outperforms P-MDP baselines by a margin of 30%, achieving state-of-the-art performance on the widely-used benchmark. Moreover, ORPO exhibits notable advantages in problems that require generalization.
翻訳日:2024-01-12 14:39:54 公開日:2024-01-11
# スマートグリッドネットワークの積極的なサイバーセキュリティ対策におけるディープラーニングの役割:調査

The Role of Deep Learning in Advancing Proactive Cybersecurity Measures for Smart Grid Networks: A Survey ( http://arxiv.org/abs/2401.05896v1 )

ライセンス: Link先を確認
Nima Abdi, Abdullatif Albaseer, Mohamed Abdallah(参考訳) スマートグリッド(SG)は、効率的なエネルギー生成、流通、消費のためにセンサーや通信システムのような高度な技術に依存しているため、高度なサイバー攻撃の標的となる。 これらの進化する脅威は、現代のエネルギーシステムの安定性とレジリエンスを維持するために堅牢なセキュリティ対策を要求する。 広範な研究が行われてきたが,[sg}における深層学習(dl)を利用した積極的なサイバー防衛戦略の包括的探究は文献に乏しい。 この調査は、このギャップを埋め、アクティブサイバー防御のための最新のDL技術を研究する。 調査は、SGインフラストラクチャの調査に続いて、関連する作業の概要と、当社独自のコントリビューションから始まります。 次に,サイバー防衛技術の種類を,行動的および積極的なカテゴリに分類する。 本研究は, DL 対応型プロアクティブディフェンスに重点を置いており, DL アプローチの包括的分類を提供し, SG のプロアクティブディフェンスにおける役割と関連性を明らかにする。 次に,現在使用されているDLベースの手法について分析する。 さらに,積極的な防衛戦略である移動目標防衛とそのDL手法との相互作用について検討する。 次に、このドメインで使用されるベンチマークデータセットの概要を説明し、その議論を裏付ける。 これに続いて、スマートグリッドにおけるその実践的意味とサイバーセキュリティに対する広範な影響に関する批判的な議論が続く。 調査では最終的に,SG内にDLベースのセキュリティシステムを展開する上での課題がリストアップされた。

As smart grids (SG) increasingly rely on advanced technologies like sensors and communication systems for efficient energy generation, distribution, and consumption, they become enticing targets for sophisticated cyberattacks. These evolving threats demand robust security measures to maintain the stability and resilience of modern energy systems. While extensive research has been conducted, a comprehensive exploration of proactive cyber defense strategies utilizing Deep Learning (DL) in {SG} remains scarce in the literature. This survey bridges this gap, studying the latest DL techniques for proactive cyber defense. The survey begins with an overview of related works and our distinct contributions, followed by an examination of SG infrastructure. Next, we classify various cyber defense techniques into reactive and proactive categories. A significant focus is placed on DL-enabled proactive defenses, where we provide a comprehensive taxonomy of DL approaches, highlighting their roles and relevance in the proactive security of SG. Subsequently, we analyze the most significant DL-based methods currently in use. Further, we explore Moving Target Defense, a proactive defense strategy, and its interactions with DL methodologies. We then provide an overview of benchmark datasets used in this domain to substantiate the discourse.{ This is followed by a critical discussion on their practical implications and broader impact on cybersecurity in Smart Grids.} The survey finally lists the challenges associated with deploying DL-based security systems within SG, followed by an outlook on future developments in this key field.
翻訳日:2024-01-12 14:39:28 公開日:2024-01-11
# 分散機械学習のためのバイナリリニアツリーコミットメントに基づくオーナシップ保護

Binary Linear Tree Commitment-based Ownership Protection for Distributed Machine Learning ( http://arxiv.org/abs/2401.05895v1 )

ライセンス: Link先を確認
Tianxiu Xie and Keke Gai and Jing Yu and Liehuang Zhu(参考訳) 分散機械学習は、複数のワーカー間でコンピューティングタスクを委譲することで、広範なデータセットの並列トレーニングを可能にする。 分散機械学習のコスト削減の利点にもかかわらず、最終的なモデル重み付けの普及は、労働者がトレーニング計算への関与を実証するのに苦労するため、モデルオーナシップの潜在的な競合につながることが多い。 上記のオーナシップ問題に対処し、偶発的障害や悪意ある攻撃を防止するため、分散機械学習において、労働者の計算的完全性と有効性を検証することが特に重要である。 本稿では,オーバーヘッドが限定された計算完全性を確保し,簡潔な証明を行うための,新しい二項線形木コミットメントに基づく所有権保護モデルを提案する。 トレーニング中のパラメータの頻繁な更新のため,本手法では,証明更新のコストを削減するため,維持可能な木構造を導入する。 snarkベースの検証可能な計算と区別して,本モデルは内部積引数を活用し,効率的な証明集約を実現する。 さらに、モデル重みの証明は、コミットの偽造や複製を防止するために、ワーカーidキーによって透かし付けされる。 SNARKに基づくハッシュコミットメントの性能解析と比較は、分散機械学習における計算整合性を維持する上で、我々のモデルの有効性を検証する。

Distributed machine learning enables parallel training of extensive datasets by delegating computing tasks across multiple workers. Despite the cost reduction benefits of distributed machine learning, the dissemination of final model weights often leads to potential conflicts over model ownership as workers struggle to substantiate their involvement in the training computation. To address the above ownership issues and prevent accidental failures and malicious attacks, verifying the computational integrity and effectiveness of workers becomes particularly crucial in distributed machine learning. In this paper, we proposed a novel binary linear tree commitment-based ownership protection model to ensure computational integrity with limited overhead and concise proof. Due to the frequent updates of parameters during training, our commitment scheme introduces a maintainable tree structure to reduce the costs of updating proofs. Distinguished from SNARK-based verifiable computation, our model achieves efficient proof aggregation by leveraging inner product arguments. Furthermore, proofs of model weights are watermarked by worker identity keys to prevent commitments from being forged or duplicated. The performance analysis and comparison with SNARK-based hash commitments validate the efficacy of our model in preserving computational integrity within distributed machine learning.
翻訳日:2024-01-12 14:39:03 公開日:2024-01-11
# 生態学応用のためのLiDARデータ取得と処理

LiDAR data acquisition and processing for ecology applications ( http://arxiv.org/abs/2401.05891v1 )

ライセンス: Link先を確認
Ion Ciobotari and Adriana Pr\'incipe and Maria Alexandra Oliveira and Jo\~ao Nuno Silva(参考訳) この分野の生態データの収集は、持続可能な方法で生態系の診断、監視、管理に不可欠である。 従来の手法によるこの情報の取得は、短時間で大量のデータを記録できるため、一般的に時間を要するため、データ取得の自動化がトレンドとなっている。 地上レーザースキャナー(tls)、特にライダーセンサーは生態学において用いられており、植生の3次元構造を再構築し、ポイント密度の空間的変動に基づいて生態系特性を推定している。 しかし, ビーム当たりの情報量, データ解析ツールの欠如, 機器の高コスト化により使用が制限された。 このようにして,都市庭園と環境修復対象地域という2つの事例研究で適用可能なデータ取得・処理機構とともに,低コストなtls (<10k$)を開発した。 LiDARの向きは垂直面で観測するために変更され、モーターが回転するために統合され、高解像度で360度データの取得が可能になった。 動きと位置センサーは自動誤差補正とジオレファレンスのために統合された。 得られたデータから,植生高度に沿った点密度変動のヒストグラムを作成し,低木層が樹木層と容易に区別でき,最大樹高と低木被覆が算出された。 これらの結果はフィールドデータと一致し, 植生の構造的複雑さの指標の算出にはtlsが有効であることが判明した。

The collection of ecological data in the field is essential to diagnose, monitor and manage ecosystems in a sustainable way. Since acquisition of this information through traditional methods are generally time-consuming, due to the capability of recording large volumes of data in short time periods, automation of data acquisition sees a growing trend. Terrestrial laser scanners (TLS), particularly LiDAR sensors, have been used in ecology, allowing to reconstruct the 3D structure of vegetation, and thus, infer ecosystem characteristics based on the spatial variation of the density of points. However, the low amount of information obtained per beam, lack of data analysis tools and the high cost of the equipment limit their use. This way, a low-cost TLS (<10k$) was developed along with data acquisition and processing mechanisms applicable in two case studies: an urban garden and a target area for ecological restoration. The orientation of LiDAR was modified to make observations in the vertical plane and a motor was integrated for its rotation, enabling the acquisition of 360 degree data with high resolution. Motion and location sensors were also integrated for automatic error correction and georeferencing. From the data generated, histograms of point density variation along the vegetation height were created, where shrub stratum was easily distinguishable from tree stratum, and maximum tree height and shrub cover were calculated. These results agreed with the field data, whereby the developed TLS has proved to be effective in calculating metrics of structural complexity of vegetation.
翻訳日:2024-01-12 14:38:43 公開日:2024-01-11
# 円錐計画によるマルチパラメータ量子メトロロジーのための cram\'{e}r-rao 型境界のチャネルバージョン

Channel version of Cram\'{e}r-Rao type bounds for multiparameter quantum metrology through conic programming ( http://arxiv.org/abs/2401.05886v1 )

ライセンス: Link先を確認
Masahito Hayashi and Yingkai Ouyang(参考訳) チャネル推定の目的は、量子チャネルに符号化されたパラメータを推定することである。 この目的のために、結果を得るために入力状態と測定値を選択することができる。 状態推定には様々な精度境界が知られている。 チャネル推定では、各境界は入力状態の選択に応じて決定される。 しかし、最適入力プローブ状態とそれに対応する精度境界を決定することは、特にパラメータが相容れないマルチパラメータ設定において、非自明な問題である。 本稿では,対応するマルチパラメータ精度境界に対する最適プローブ状態を決定するための,円錐型プログラミングフレームワークを提案する。 我々が検討する精度境界には, 相関法と非相関法のそれぞれに最適な性能を与える, ホールボ・ナガオカ境界とタイトな精度境界がある。 当社のconicプログラミングフレームワークを用いて,様々な環境での最大絡み合ったプローブ状態の最適性について検討する。 また、この理論を量子プローブ状態を用いた標準場センシング問題の解析にも応用する。

The aim of the channel estimation is to estimate the parameters encoded in a quantum channel. For this aim, it is allowed to choose the input state as well as the measurement to get the outcome. Various precision bounds are known for the state estimation. For the channel estimation, the respective bounds are determined depending on the choice of the input state. However, determining the optimal input probe state and the corresponding precision bounds in estimation is a non-trivial problem, particularly in the multi-parameter setting, where parameters are often incompatible. In this paper, we present a conic programming framework that allows us to determine the optimal probe state for the corresponding multi-parameter precision bounds. The precision bounds we consider include the Holevo-Nagaoka bound and the tight precision bound that give the optimal performances of correlated and uncorrelated measurement strategies, respectively. Using our conic programming framework, we discuss the optimality of a maximally entangled probe state in various settings. We also apply our theory to analyze the canonical field sensing problem using entangled quantum probe states.
翻訳日:2024-01-12 14:38:17 公開日:2024-01-11
# ソシアメディアデータ選択のための生成重複

Generative Deduplication For Socia Media Data Selection ( http://arxiv.org/abs/2401.05883v1 )

ライセンス: Link先を確認
Xianming Li, Jing Li(参考訳) ソーシャルメディアデータは、その騒がしい性質によって生じる冗長性の問題に苦しめられ、トレーニング時間とモデルのバイアスが増大する。 この問題に対処するために、生成重複と呼ばれる新しいアプローチを提案する。 騒がしいソーシャルメディアデータから重複したテキストを削除し、モデルのバイアスを軽減することを目的としている。 これにより、ソーシャルメディアの言語理解のパフォーマンスを改善し、トレーニング時間を短縮できる。 広範囲な実験により,提案手法はトレーニングサンプルを効果的に低減し,性能を向上することを示した。 この証拠は、生成的重複の有効性とソーシャルメディア言語理解における重要性を示唆している。

Social media data is plagued by the redundancy problem caused by its noisy nature, leading to increased training time and model bias. To address this issue, we propose a novel approach called generative duplication. It aims to remove duplicate text from noisy social media data and mitigate model bias. By doing so, it can improve social media language understanding performance and save training time. Extensive experiments demonstrate that the proposed generative deduplication can effectively reduce training samples while improving performance. This evidence suggests the effectiveness of generative deduplication and its importance in social media language understanding.
翻訳日:2024-01-12 14:37:58 公開日:2024-01-11
# 時間非依存ハミルトニアンを用いたユニタリゲート設計のための測地アルゴリズム

Geodesic Algorithm for Unitary Gate Design with Time-Independent Hamiltonians ( http://arxiv.org/abs/2401.05973v1 )

ライセンス: Link先を確認
Dylan Lewis, Roeland Wiersema, Juan Carrasquilla, Sougato Bose(参考訳) より大きなマルチ量子ビット量子ゲートは、より浅く、より効率的な量子回路を可能にし、ノイズの多い中間スケール量子(nisq)デバイスやフォールトトレラント誤り訂正スキームのアルゴリズムに対するノイズの禁止効果を低減できる。 このような多重量子ビットゲートは、物理的(一局所および二局所)相互作用項のみからなる時間に依存しないハミルトニアンによって生成される可能性がある。 ここでは,n$ qubits に対して $\mathrm{su}(2^n)$ のリーマン多様体上の対象量子ゲートへの測地線の方向を用いて,ハミルトニアン項の強みを求めるアルゴリズムを提案する。 微分プログラミングは、目標ユニタリへの測地線をできるだけ近付けるために、ハミルトン項をどのように更新するかを決定するために用いられる。 我々はジオデシックアルゴリズムを勾配降下法と比較し, toffoliやfredkinのような標準的なマルチ量子ビットゲートに対して, かなり少ないステップで解を求める。 ジオデシックアルゴリズムは、多くの量子コードで使用でき、フォールトトレラント量子コンピュータのクロック速度を向上できる高忠実度パリティチェックを実装した、これまで利用できなかったマルチキュービットゲートを見つけるために使用される。

Larger multi-qubit quantum gates allow shallower, more efficient quantum circuits, which could decrease the prohibitive effect of noise on algorithms for noisy intermediate-scale quantum (NISQ) devices and fault-tolerant error correction schemes. Such multi-qubit gates can potentially be generated by time-independent Hamiltonians comprising only physical (one- and two-local) interaction terms. Here, we present an algorithm that finds the strengths of the Hamiltonian terms by using the direction of the geodesic to the target quantum gate on the Riemannian manifold of $\mathrm{SU}(2^n)$ for $n$ qubits. Differential programming is used to determine how the Hamiltonian terms should be updated in order to follow the geodesic to the target unitary as closely as possible. We numerically compare our geodesic algorithm to gradient descent methods and show that it finds solutions with considerably fewer steps for standard multi-qubit gates such as Toffoli and Fredkin. The geodesic algorithm is then used to find previously unavailable multi-qubit gates implementing high fidelity parity checks, which could be used in a wide array of quantum codes and increase the clock speed of fault-tolerant quantum computers.
翻訳日:2024-01-12 14:22:13 公開日:2024-01-11
# 極性分子間の相互作用の回転状態依存性

Rotational state dependence of interactions between polar molecules ( http://arxiv.org/abs/2401.05958v1 )

ライセンス: Link先を確認
Etienne F. Walraven, Tijs Karman(参考訳) 分子間の長距離静電相互作用は相対配向に強く依存しており、回転状態依存として現れる。 同じ回転量子状態の分子間の相互作用は、魅力的なファンデルワールス相互作用である。 1つの量子ショー共鳴双極子-双極子相互作用によって異なる回転状態における相互作用。 分子が1つ以上の量子状態と異なる回転状態にある場合、それらは反発的なファンデルワールス相互作用を示す。 ミリケルビン以下の温度では、この効果は衝突による損失を桁違いに減少させる。 これらの反発相互作用は、超低温極性分子を用いた量子シミュレーションや不純物物理学に応用される。

The long-range electrostatic interactions between molecules depend strongly on their relative orientation, which manifests as a rotational state dependence. Interactions between molecules in the same rotational quantum state are well-known attractive rotational van der Waals interactions. Interactions in rotational states that differ by one quantum show resonant dipole-dipole interactions. We show that where molecules are in rotational states that differ by more than one quantum, they exhibit repulsive van der Waals interactions. At temperatures below a millikelvin, this effect can reduce collisional loss by multiple orders of magnitude. These repulsive interactions lead to applications in quantum simulation and impurity physics with ultracold polar molecules.
翻訳日:2024-01-12 14:21:35 公開日:2024-01-11
# 実空間における量子臨界点を横断するキタエフ鎖の構造とスケーリング

Structure and scaling of Kitaev chain across a quantum critical point in real space ( http://arxiv.org/abs/2401.05954v1 )

ライセンス: Link先を確認
Yan He and Chih-Chun Chien(参考訳) 空間的キブル・ズレーク機構(KZM)は、格子の半分で消滅する不均一なペアリング相互作用を持つキタエフ連鎖に適用され、実空間における超流動相と常ガス相を分離する量子臨界点となる。 弱相互作用bcs理論は、bcs次パラメータの相互作用に対する非解析的依存性により、通常のパワーロー結果とは異なる正規ガス領域への対波動関数の浸透のスケーリング挙動を予測する。 Bogoliubov-de Gennes(BdG)方程式は、スケーリングの挙動を確認する数値結果を生成し、強相互作用系における複雑さを示唆する。 ステップ関数クエンチの制限ケースは、追加の長さスケールがない場合、bcsコヒーレンス長の優位を示す。 さらに、BdG方程式からのエネルギースペクトルと波動関数は、トポロジカルエッジ状態に加えて、通常のガス領域からの豊富なギャップ状態を示す。

The spatial Kibble-Zurek mechanism (KZM) is applied to the Kitaev chain with inhomogeneous pairing interactions that vanish in half of the lattice and result in a quantum critical point separating the superfluid and normal-gas phases in real space. The weakly-interacting BCS theory predicts scaling behavior of the penetration of the pair wavefunction into the normal-gas region different from conventional power-law results due to the non-analytic dependence of the BCS order parameter on the interaction. The Bogoliubov-de Gennes (BdG) equation produces numerical results confirming the scaling behavior and hints complications in the strong-interaction regime. The limiting case of the step-function quench shows the dominance of the BCS coherence length in absence of additional length scale. Furthermore, the energy spectrum and wavefunctions from the BdG equation show abundant in-gap states from the normal-gas region in addition to the topological edge states.
翻訳日:2024-01-12 14:20:39 公開日:2024-01-11
# LLM-as-a-coauthor: The Challenges of Detecting LLM-Human Mixcase

LLM-as-a-Coauthor: The Challenges of Detecting LLM-Human Mixcase ( http://arxiv.org/abs/2401.05952v1 )

ライセンス: Link先を確認
Chujie Gao, Dongping Chen, Qihui Zhang, Yue Huang, Yao Wan, Lichao Sun(参考訳) 大規模言語モデル(LLM)の顕著な開発と普及により、機械生成テキスト(MGT)の使用はますます一般的になりつつある。 この傾向は、特にニュースや教育などの分野の情報の品質と完全性に潜在的なリスクをもたらす。 近年の研究では、AI改訂HWT(Human-Written Text)や人間改訂MGT(Human-Written Text)といった混合シナリオに適切に対処することなく、純粋なMGTの検出に対処している。 この課題に対処すべく,マシン生成とヒューマン生成の両方を含むハイブリッドテキスト形式を表す新しいコンセプトであるmixcaseを紹介する。 複数の日々のテキスト編集シナリオから生成されたmixcaseインスタンスを収集し、これらの混合変更シナリオを研究するための最初のデータセットであるmixsetを組み立てた。 我々は,MGT検出器の有効性を評価し,その有効性,堅牢性,一般化性能を評価する実験を行った。 既存の検出器では,特に微妙な修正やスタイル適応性に対処するために,混合ケースを別のクラス(MGT)として識別することが困難であることが判明した。 この研究は、mixcase用に調整されたより微細な検出器の必要性を緊急に高め、将来の研究に有用な洞察を提供する。 コードとモデルはhttps://github.com/Dongping-Chen/MixSet.comで入手できる。

With the remarkable development and widespread applications of large language models (LLMs), the use of machine-generated text (MGT) is becoming increasingly common. This trend brings potential risks, particularly to the quality and completeness of information in fields such as news and education. Current research predominantly addresses the detection of pure MGT without adequately addressing mixed scenarios including AI-revised Human-Written Text (HWT) or human-revised MGT. To confront this challenge, we introduce mixcase, a novel concept representing a hybrid text form involving both machine-generated and human-generated content. We collected mixcase instances generated from multiple daily text-editing scenarios and composed MixSet, the first dataset dedicated to studying these mixed modification scenarios. We conduct experiments to evaluate the efficacy of popular MGT detectors, assessing their effectiveness, robustness, and generalization performance. Our findings reveal that existing detectors struggle to identify mixcase as a separate class or MGT, particularly in dealing with subtle modifications and style adaptability. This research underscores the urgent need for more fine-grain detectors tailored for mixcase, offering valuable insights for future research. Code and Models are available at https://github.com/Dongping-Chen/MixSet.
翻訳日:2024-01-12 14:20:07 公開日:2024-01-11
# 大規模言語モデルの普遍的脆弱性: コンテキスト内学習バックドア攻撃

Universal Vulnerabilities in Large Language Models: In-context Learning Backdoor Attacks ( http://arxiv.org/abs/2401.05949v1 )

ライセンス: Link先を確認
Shuai Zhao, Meihuizi Jia, Luu Anh Tuan, Jinming Wen(参考訳) In-context Learningは、事前学習と微調整のギャップを埋めるパラダイムであり、いくつかのNLPタスク、特に数ショット設定において高い有効性を示している。 従来の微調整法とは異なり、コンテキスト内学習はパラメータを更新することなく、トレーニング済みのモデルを未確認のタスクに適応させる。 広く適用されているにもかかわらず、コンテキスト内学習は悪意のある攻撃に対して脆弱である。 本研究では,このパラダイムに関するセキュリティ上の懸念を提起する。 本研究は,攻撃者がモデルを微調整することなく,デモンストレーションコンテキストを汚染することにより,大規模言語モデルの動作を操作できることを実証する。 具体的には,テキスト内学習に基づく大規模言語モデルを対象とした新たなバックドア攻撃手法ICLAttackを設計した。 本手法は2種類の攻撃を包含する: 毒殺実証例と毒殺プロンプトであり, 事前定義された意図に従ってモデルが振る舞うことができる。 ICLAttackは、バックドアを埋め込むために追加の微調整を必要としないため、モデルの一般性を保っている。 さらに, 毒性例を正しくラベル付けし, 攻撃方法の自然なステルス性を高めた。 1.3bパラメーターから40bパラメーターの範囲の言語モデルにおける広範囲な実験結果から,オプティモデル上の3つのデータセットに対して,平均攻撃成功率95.0%を例に,攻撃手法の有効性を示す。 我々の研究は言語モデルの脆弱性を浮き彫りにしており、この研究がコンテキスト内学習に関連するセキュリティ脅威の認識を高めることを願っている。

In-context learning, a paradigm bridging the gap between pre-training and fine-tuning, has demonstrated high efficacy in several NLP tasks, especially in few-shot settings. Unlike traditional fine-tuning methods, in-context learning adapts pre-trained models to unseen tasks without updating any parameters. Despite being widely applied, in-context learning is vulnerable to malicious attacks. In this work, we raise security concerns regarding this paradigm. Our studies demonstrate that an attacker can manipulate the behavior of large language models by poisoning the demonstration context, without the need for fine-tuning the model. Specifically, we have designed a new backdoor attack method, named ICLAttack, to target large language models based on in-context learning. Our method encompasses two types of attacks: poisoning demonstration examples and poisoning prompts, which can make models behave in accordance with predefined intentions. ICLAttack does not require additional fine-tuning to implant a backdoor, thus preserving the model's generality. Furthermore, the poisoned examples are correctly labeled, enhancing the natural stealth of our attack method. Extensive experimental results across several language models, ranging in size from 1.3B to 40B parameters, demonstrate the effectiveness of our attack method, exemplified by a high average attack success rate of 95.0% across the three datasets on OPT models. Our findings highlight the vulnerabilities of language models, and we hope this work will raise awareness of the possible security threats associated with in-context learning.
翻訳日:2024-01-12 14:19:43 公開日:2024-01-11
# 部分観測環境における効率的な計画立案のためのトランスフォーマー表現からの認知地図の学習

Learning Cognitive Maps from Transformer Representations for Efficient Planning in Partially Observed Environments ( http://arxiv.org/abs/2401.05946v1 )

ライセンス: Link先を確認
Antoine Dedieu, Wolfgang Lehrach, Guangyao Zhou, Dileep George, Miguel L\'azaro-Gredilla(参考訳) 推論中にのみ明らかとなるコンテキスト内タスクや、次の予測のためにトレーニングされたバニラトランスフォーマー、変種など、幅広いタスクで星間性能が向上しているにも関わらず。 (a) 柔軟にクエリできる環境の明示的な世界モデルを学ぶことができず (b)計画や航法には使用できない。 本稿では,エージェントがナビゲート時に知覚的にエイリアスされた観察を受ける部分観察環境 (poes) を考えることで,経路計画が困難になる。 我々は、(複数の)離散ボトルネックを持つ変換器、TDBを導入し、遅延符号は観測と行動の歴史を圧縮した表現を学習する。 TDBをトレーニングし、その歴史を反映した将来の観測を予測した後、その活動的ボトルネック(s)指標から環境の解釈可能な認知地図を抽出する。 これらのマップは外部のソルバとペアになって、(制約された)経路計画問題を解く。 まず、POEでトレーニングされたTDBを示す。 (a)バニラ変圧器やLSTMのほぼ完全な予測性能を維持している (b)最短経路問題を指数的に高速に解くこと。 第2に、テキストデータセットから解釈可能な表現を抽出し、バニラシーケンスモデルよりもテキスト内精度が高い。 最後に、新しいPOE、TDB a) テキスト内精度がほぼ完全である。 b)文脈内認知地図を正確に学習する (c) コンテキスト内パス計画問題の解決。

Despite their stellar performance on a wide range of tasks, including in-context tasks only revealed during inference, vanilla transformers and variants trained for next-token predictions (a) do not learn an explicit world model of their environment which can be flexibly queried and (b) cannot be used for planning or navigation. In this paper, we consider partially observed environments (POEs), where an agent receives perceptually aliased observations as it navigates, which makes path planning hard. We introduce a transformer with (multiple) discrete bottleneck(s), TDB, whose latent codes learn a compressed representation of the history of observations and actions. After training a TDB to predict the future observation(s) given the history, we extract interpretable cognitive maps of the environment from its active bottleneck(s) indices. These maps are then paired with an external solver to solve (constrained) path planning problems. First, we show that a TDB trained on POEs (a) retains the near perfect predictive performance of a vanilla transformer or an LSTM while (b) solving shortest path problems exponentially faster. Second, a TDB extracts interpretable representations from text datasets, while reaching higher in-context accuracy than vanilla sequence models. Finally, in new POEs, a TDB (a) reaches near-perfect in-context accuracy, (b) learns accurate in-context cognitive maps (c) solves in-context path planning problems.
翻訳日:2024-01-12 14:19:18 公開日:2024-01-11
# LLMのコード理解能力評価のための変異に基づく一貫性テスト

Mutation-based Consistency Testing for Evaluating the Code Understanding Capability of LLMs ( http://arxiv.org/abs/2401.05940v1 )

ライセンス: Link先を確認
Ziyu Li, Donghwan Shin(参考訳) 大規模言語モデル(llm)は自然言語とプログラミング言語の両方の処理において顕著な能力を示しており、要求工学、コード生成、ソフトウェアテストなどソフトウェア工学における様々な応用を可能にしている。 しかし、既存のコード生成ベンチマークは、LLMのコード理解性能を必ずしも評価していない。 本稿では,LLMのコード理解性能を体系的に評価する手法を提案し,特に既存のコード生成データセットにコード変異を導入することで,コードと記述の微妙な差異に着目した。 コード変異は、元のコードの意味を変える小さな変更であり、自然言語の記述とミスマッチを生成する。 演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。 次に、これらのペアを使用して、LLMが不整合を正しく検出する能力をテストする。 我々は,Mutation-based Consistency Testing (MCT)と呼ばれる新しいLCMテスト手法を提案し,最新のコード生成ベンチマークであるHumanEval-X(Python,C++,Java,Go,JavaScript,Rust)を用いて,2つのLLM(GPT-3.5,GPT-4)のケーススタディを行った。 異なる種類のコード変異やプログラミング言語間でLLMの性能を比較し,結果を解析する。 LLMはコード理解性能に大きな変化を示し、変異の種類や言語によって長所と短所が異なることがわかった。

Large Language Models (LLMs) have shown remarkable capabilities in processing both natural and programming languages, which have enabled various applications in software engineering, such as requirement engineering, code generation, and software testing. However, existing code generation benchmarks do not necessarily assess the code understanding performance of LLMs, especially for the subtle inconsistencies that may arise between code and its semantics described in natural language. In this paper, we propose a novel method to systematically assess the code understanding performance of LLMs, particularly focusing on subtle differences between code and its descriptions, by introducing code mutations to existing code generation datasets. Code mutations are small changes that alter the semantics of the original code, creating a mismatch with the natural language description. We apply different types of code mutations, such as operator replacement and statement deletion, to generate inconsistent code-description pairs. We then use these pairs to test the ability of LLMs to correctly detect the inconsistencies. We propose a new LLM testing method, called Mutation-based Consistency Testing (MCT), and conduct a case study on the two popular LLMs, GPT-3.5 and GPT-4, using the state-of-the-art code generation benchmark, HumanEval-X, which consists of six programming languages (Python, C++, Java, Go, JavaScript, and Rust). We compare the performance of the LLMs across different types of code mutations and programming languages and analyze the results. We find that the LLMs show significant variation in their code understanding performance and that they have different strengths and weaknesses depending on the mutation type and language.
翻訳日:2024-01-12 14:18:56 公開日:2024-01-11
# DREQ: エンティティベースのクエリ理解を用いたドキュメントの再ランキング

DREQ: Document Re-Ranking Using Entity-based Query Understanding ( http://arxiv.org/abs/2401.05939v1 )

ライセンス: Link先を確認
Shubham Chatterjee, Iain Mackie, Jeff Dalton(参考訳) エンティティ指向のニューラルIRモデルは大幅に進歩しているが、それらはしばしば重要なニュアンスを見落としている。 このギャップに対処するため、エンティティ指向の高密度ドキュメント再ランクモデルであるDREQを提案する。 文書表現におけるクエリ関連エンティティを強調すると同時に,関連性の低いエンティティを同時に減らし,クエリ固有のエンティティ中心のドキュメント表現を得る。 次に、このエンティティ中心の文書表現と文書のテキスト中心の表現を組み合わせて、文書の"ハイブリッド"表現を得る。 このハイブリッド表現を用いて文書の関連性スコアを学習する。 4つの大規模ベンチマークを用いて、DREQは最先端のニューラルおよび非ニューラルリグレード手法より優れており、エンティティ指向の表現手法の有効性を強調している。

While entity-oriented neural IR models have advanced significantly, they often overlook a key nuance: the varying degrees of influence individual entities within a document have on its overall relevance. Addressing this gap, we present DREQ, an entity-oriented dense document re-ranking model. Uniquely, we emphasize the query-relevant entities within a document's representation while simultaneously attenuating the less relevant ones, thus obtaining a query-specific entity-centric document representation. We then combine this entity-centric document representation with the text-centric representation of the document to obtain a "hybrid" representation of the document. We learn a relevance score for the document using this hybrid representation. Using four large-scale benchmarks, we show that DREQ outperforms state-of-the-art neural and non-neural re-ranking methods, highlighting the effectiveness of our entity-oriented representation approach.
翻訳日:2024-01-12 14:18:26 公開日:2024-01-11
# 正規化流と準モンテカルロを組み合わせる

Combining Normalizing Flows and Quasi-Monte Carlo ( http://arxiv.org/abs/2401.05934v1 )

ライセンス: Link先を確認
Charly Andral(参考訳) 機械学習の最近の進歩は、マルコフ連鎖モンテカルロ(mcmc)や重要サンプリング(is)のようなモンテカルロ法を強化する新しい手法の開発につながった。 そのような方法の1つはフローの正規化であり、ニューラルネットワークを用いて分布をポイントワイズで評価することで分布を近似する。 正規化流はMCMCとISの性能を向上させることが示されている。 一方、(ランダム化された)準モンテカルロ法を用いて数値積分を行う。 モンテカルロのランダムサンプリングは、ハイパーキューブをより均一にカバーする列によって置き換えられ、その結果、モンテカルロの誤差に対する収束率が向上する。 本研究では, この2つの手法を疑似モンテカルロを用いて組み合わせ, フローによって輸送される初期分布をサンプリングする。 数値実験により, この組み合わせは, 古典的なモンテカルロで試料化した場合よりも, かなり低い分散率で推定できることを示した。

Recent advances in machine learning have led to the development of new methods for enhancing Monte Carlo methods such as Markov chain Monte Carlo (MCMC) and importance sampling (IS). One such method is normalizing flows, which use a neural network to approximate a distribution by evaluating it pointwise. Normalizing flows have been shown to improve the performance of MCMC and IS. On the other side, (randomized) quasi-Monte Carlo methods are used to perform numerical integration. They replace the random sampling of Monte Carlo by a sequence which cover the hypercube more uniformly, resulting in better convergence rates for the error that plain Monte Carlo. In this work, we combine these two methods by using quasi-Monte Carlo to sample the initial distribution that is transported by the flow. We demonstrate through numerical experiments that this combination can lead to an estimator with significantly lower variance than if the flow was sampled with a classic Monte Carlo.
翻訳日:2024-01-12 14:18:12 公開日:2024-01-11
# 深層学習によるフィリピンのhiv/aidsの時系列予測:新型コロナの流行は問題か?

Time Series Forecasting of HIV/AIDS in the Philippines Using Deep Learning: Does COVID-19 Epidemic Matter? ( http://arxiv.org/abs/2401.05933v1 )

ライセンス: Link先を確認
Sales G. Aribe Jr., Bobby D. Gerardo, Ruji P. Medina(参考訳) 2010年から2021年にかけてのHIV感染者は676%増加し、フィリピンのHIV/AIDS流行は西太平洋で最も急速に拡大している。 HIVのサービスと開発に対するCOVID-19の完全な影響はまだ分かっていないが、そのような破壊がHIVの犠牲者を著しく増加させる可能性があると予測されている。 そのため、国民は拡散パターンを予見し、政府の予防、治療、テスト、ケアプログラムを強化するためのモデリングと予測技術を必要としている。 本研究では,多層パーセプトロンニューラルネットワークを用いて,フィリピンのHIV/AIDSとARTレジストリから得られた統計を用いて,新型コロナウイルスのパンデミックが全国を襲った期間の時系列を予測する。 データのトレーニング、検証、テストの後、2030年までに国内で予測される累積ケースは145,273件に達する。 さらに、RMSE値、MAE値、MAPE値の減少と判定係数の増大によって証明されるように、観察されたHIVの流行レベルと予測されるHIVの流行レベルにはほとんど差がない。 フィリピンが2030年計画の持続可能な開発目標3を達成するには程遠いことが、さらなる研究で明らかになった。 全国のHIV/AIDS対策に新型コロナウイルス(COVID-19)の有害な影響が拡大しているにもかかわらず、マルコス政権下のフィリピン政府は、ARTプログラムを強化し、すべての重要な医療サービスが容易にアクセス可能であることを保証することで、国連の90-90-90目標に固執し続けなければならない。

With a 676% growth rate in HIV incidence between 2010 and 2021, the HIV/AIDS epidemic in the Philippines is the one that is spreading the quickest in the western Pacific. Although the full effects of COVID-19 on HIV services and development are still unknown, it is predicted that such disruptions could lead to a significant increase in HIV casualties. Therefore, the nation needs some modeling and forecasting techniques to foresee the spread pattern and enhance the governments prevention, treatment, testing, and care program. In this study, the researcher uses Multilayer Perceptron Neural Network to forecast time series during the period when the COVID-19 pandemic strikes the nation, using statistics taken from the HIV/AIDS and ART Registry of the Philippines. After training, validation, and testing of data, the study finds that the predicted cumulative cases in the nation by 2030 will reach 145,273. Additionally, there is very little difference between observed and anticipated HIV epidemic levels, as evidenced by reduced RMSE, MAE, and MAPE values as well as a greater coefficient of determination. Further research revealed that the Philippines seems far from achieving Sustainable Development Goal 3 of Project 2030 due to an increase in the nations rate of new HIV infections. Despite the detrimental effects of COVID-19 spread on HIV/AIDS efforts nationwide, the Philippine government, under the Marcos administration, must continue to adhere to the United Nations 90-90-90 targets by enhancing its ART program and ensuring that all vital health services are readily accessible and available.
翻訳日:2024-01-12 14:17:55 公開日:2024-01-11
# DiffDA:気象データ同化のための拡散モデル

DiffDA: a diffusion model for weather-scale data assimilation ( http://arxiv.org/abs/2401.05932v1 )

ライセンス: Link先を確認
Langwen Huang, Lukas Gianinazzi, Yuejiang Yu, Peter D. Dueben, Torsten Hoefler(参考訳) 正確なデータ同化による初期条件の生成は、信頼できる気象予報と気候モデリングに不可欠である。 予測状態とスパース観測を用いて大気変数を同化できる機械学習に基づくデータ同化手法としてDiffDAを提案する。 我々は,事前学習したグラフキャスト気象予報モデルを音波拡散モデルとして適用する。 本手法は,トレーニングと推論の両方の予測状態と,推論のみのスパース観測について,二相コンディショニングを適用する。 副産物として, この手法は, 観測結果が得られない将来予測のポストプロセッシングも可能であり, 再解析データセットに基づく実験により, この手法が0.25度での観測と整合した大域大気データを生成することができることを確認した。 また,本手法を用いて生成した初期条件を,最先端データ同化スイートの初期条件と比較して,リードタイムが少なくとも24時間失われる予測モデルに適用できることを示した。 これにより、自動回帰データ同化による再分析データセットの作成など、現実世界のアプリケーションにこの方法を適用することができる。

The generation of initial conditions via accurate data assimilation is crucial for reliable weather forecasting and climate modeling. We propose the DiffDA as a machine learning based data assimilation method capable of assimilating atmospheric variables using predicted states and sparse observations. We adapt the pretrained GraphCast weather forecast model as a denoising diffusion model. Our method applies two-phase conditioning: on the predicted state during both training and inference, and on sparse observations during inference only. As a byproduct, this strategy also enables the post-processing of predictions into the future, for which no observations are available.Through experiments based on a reanalysis dataset, we have verified that our method can produce assimilated global atmospheric data consistent with observations at 0.25degree resolution. The experiments also show that the initial conditions that are generated via our approach can be used for forecast models with a loss of lead time of at most 24 hours when compared to initial conditions of state-of-the-art data assimilation suites. This enables to apply the method to real world applications such as the creation of reanalysis datasets with autoregressive data assimilation.
翻訳日:2024-01-12 14:17:26 公開日:2024-01-11
# SH2:自撮り自撮り自撮り機

SH2: Self-Highlighted Hesitation Helps You Decode More Truthfully ( http://arxiv.org/abs/2401.05930v1 )

ライセンス: Link先を確認
Jushi Kai, Tianhang Zhang, Hai Hu, Zhouhan Lin(参考訳) 大規模言語モデル(LLM)はテキスト生成において優れた性能を示す。 しかし、LSMはまだ幻覚に苦しんでいる。 本研究では,LLMがより真に復号するのに役立つ推論時間法,Self-Highlighted Hesitation (SH2)を提案する。 SH2は情報理論に根ざした単純な事実に基づいており、LSMの場合、低い確率で予測されるトークンは他のトークンよりも情報に富む傾向にある。 分析の結果, LLM による確率の低いトークンは, 名詞, 固有名詞, 形容詞などの事実情報と密接に関連している可能性が示唆された。 そこで本研究では,最小確率のトークンを選択して元のコンテキストに結合することにより,これらのトークンを生成前に繰り返し読み書きし,迷わせることによる,事実情報の「ハイライト」を提案する。 復号化の際には, 重み付けによる出力確率の差を強調するために, コントラストデコーディングを採用する。 実験結果から,新たなデータやモデルを必要としないSH2は,LLMが事実知識を抽出し,幻覚的コンテキストを識別するのに役立つことが示された。 sh2はllama-7bとllama2-7bを複数の幻覚タスクで改善した。

Large language models (LLMs) demonstrate great performance in text generation. However, LLMs are still suffering from hallucinations. In this work, we propose an inference-time method, Self-Highlighted Hesitation (SH2), to help LLMs decode more truthfully. SH2 is based on a simple fact rooted in information theory that for an LLM, the tokens predicted with lower probabilities are prone to be more informative than others. Our analysis shows that the tokens assigned with lower probabilities by an LLM are more likely to be closely related to factual information, such as nouns, proper nouns, and adjectives. Therefore, we propose to ''highlight'' the factual information by selecting the tokens with the lowest probabilities and concatenating them to the original context, thus forcing the model to repeatedly read and hesitate on these tokens before generation. During decoding, we also adopt contrastive decoding to emphasize the difference in the output probabilities brought by the hesitation. Experimental results demonstrate that our SH2, requiring no additional data or models, can effectively help LLMs elicit factual knowledge and distinguish hallucinated contexts. Significant and consistent improvements are achieved by SH2 for LLaMA-7b and LLaMA2-7b on multiple hallucination tasks.
翻訳日:2024-01-12 14:17:10 公開日:2024-01-11
# 光キャビティにおける超低温ボソンからの第二高調波発生

Second Harmonic Generation from Ultracold Bosons in an Optical Cavity ( http://arxiv.org/abs/2401.05929v1 )

ライセンス: Link先を確認
Megha Gopalakrishna, Emil Vi\~nas Bostr\"om, and Claudio Verdozzi(参考訳) 空洞の量子電磁力学の記述では、超低温のボソン原子からの蛍光スペクトルを第二高調波発生(SHG)と共鳴の場合で特徴づける。 2つの状況が考えられる。 一 光学格子に装填されたボソン及び 二 ボーゴリューボフ近似がよく用いられる体制において、閉じ込められた二成分のボース=アインシュタイン凝縮物(BEC)において。 原子と光子の自由度は、正確な時間に依存した構成相互作用方式で等しい基底で処理され、古典的な発振器浴を含むキャビティ漏れを含む。 光学格子では, 短鎖内のボソンの数が少なく, サイトごとに2つのレベルを持つBose-Hubbardモデルにより説明され, スペクトル応答は弱い相互作用における原子数の増加に伴って増加するが, 高い相互作用で減少する(鎖点数が原子数を超えない場合)。 BEC系では、スペクトルは粒子数とBEC-キャビティと粒子間相互作用の適切な再スケーリングを伴うスケーリング挙動を顕著に示し、SHGスペクトルは大きな原子-原子相関で再シフトする。 総じて,光キャビティにおける超低温ボソンからの蛍光の一般的な傾向を示し,実験的研究やさらなる理論的研究に言及できる。

Within a cavity quantum electrodynamics description, we characterize the fluorescent spectrum from ultracold bosons atoms, in the second harmonic generation (SHG) and resonant cases. Two situations are considered: i) bosons loaded into an optical lattice and ii) in a trapped two-component dilute Bose-Einstein Condensate (BEC), in the regime where the Bogoliubov approximation is often employed. Atom and photon degrees of freedom are treated on equal footing within an exact time-dependent configuration interaction scheme, and cavity leakage is included by including classical oscillator baths. For optical lattices, we consider few bosons in short chains, described via the Bose-Hubbard model with two levels per site, and we find that the spectral response grows on increasing the number of atoms at weak interactions, but diminishes at high interactions (if the number of chain sites does not exceed the number of atoms), and is shifted to lower frequency. In the BEC regime, the spectra display at noticeable extent a scaling behavior with the number of particles and a suitable rescaling of the BEC-cavity and inter-particle interactions, whilst the SHG spectrum redshifts at large atom-atom correlations. Overall, our results provide some general trends for the fluorescence from ultracold bosons in optical cavities, which can be of reference to experimental studies and further theoretical work.
翻訳日:2024-01-12 14:16:49 公開日:2024-01-11
# マルチフェイスAIフィードバックを用いた感情支援会話における不快感の軽減

Mitigating Unhelpfulness in Emotional Support Conversations with Multifaceted AI Feedback ( http://arxiv.org/abs/2401.05928v1 )

ライセンス: Link先を確認
Jiashuo Wang, Chunpu Xu, Chak Tou Leong, Wenjie Li, Jing Li(参考訳) 情緒的支援会話システムは,ユーザの感情的苦痛を軽減し,彼らの課題への対処を支援することを目的としている。 支援的応答を生成するには, 共感, 支援戦略, 応答コヒーレンスなど複数の要因を, 従来手法で確立したように考慮することが重要である。 それにもかかわらず、以前のモデルは時折、サポートを提供するが、反生産的効果を示す意図のある応答を生成する。 心理学やコミュニケーション理論によれば、たった一つの要因における粗悪なパフォーマンスは、応答が弱くなる可能性がある。 モデルトレーニングの観点からは、これらのモデルがトレーニングフェーズ中に不十分な応答にさらされていないため、トークンが推論中に不必要な応答をもたらすかどうかを区別できない。 この問題に対処するために,多面型aiフィードバックによる感情サポート(muffin)による非効率を緩和する,新たなモデル非依存フレームワークを提案する。 具体的には、muffinは多面的なaiフィードバックモジュールを使用して、複数の要因を考慮して、特定のモデルによって生成された応答の有用性を評価する。 対照的な学習を使用することで、モデルが役に立たない応答を生成する可能性を減らすことができる。 実験結果から,Muffinは応答頻度と応答関連性をわずかに増加させながら,非ヘルペス反応の発生を効果的に軽減することが示された。

An emotional support conversation system aims to alleviate users' emotional distress and assist them in addressing their challenges. To generate supportive responses, it is critical to consider multiple factors such as empathy, support strategies, and response coherence, as established in prior methods. Nonetheless, previous models occasionally generate unhelpful responses, which intend to provide support but display counterproductive effects. According to psychology and communication theories, poor performance in just one contributing factor might cause a response to be unhelpful. From the model training perspective, since these models have not been exposed to unhelpful responses during their training phase, they are unable to distinguish if the tokens they generate might result in unhelpful responses during inference. To address this issue, we introduce a novel model-agnostic framework named mitigating unhelpfulness with multifaceted AI feedback for emotional support (Muffin). Specifically, Muffin employs a multifaceted AI feedback module to assess the helpfulness of responses generated by a specific model with consideration of multiple factors. Using contrastive learning, it then reduces the likelihood of the model generating unhelpful responses compared to the helpful ones. Experimental results demonstrate that Muffin effectively mitigates the generation of unhelpful responses while slightly increasing response fluency and relevance.
翻訳日:2024-01-12 14:16:21 公開日:2024-01-11
# 大規模言語モデルを用いたメッセージ生成 : 予備的検討

Using Large Language Models for Commit Message Generation: A Preliminary Study ( http://arxiv.org/abs/2401.05926v1 )

ライセンス: Link先を確認
Linghao Zhang, Jingshu Zhao, Chong Wang, Peng Liang(参考訳) コミットメッセージ(commit message)は、gitバージョン管理システム(vcs)の重要な部分であるコミットのコード変更のテキスト記述である。 ソフトウェアアップデートの本質を捉えています。 したがって、コードの進化を理解し、開発者間の効率的なコラボレーションを促進するのに役立つ。 しかし、善良で価値のあるコミットメッセージを書くのは時間と労力がかかります。 一部の研究者はコミットメッセージの自動生成に関する広範囲な研究を行い、この目的のために世代ベースや検索ベースモデルといったいくつかの方法を提案した。 しかし、大規模言語モデル(llm)がコミットメッセージの自動生成に効果的に使用できるかどうかについての研究はほとんどない。 そこで本稿は,Llama 2 と ChatGPT のコミットメッセージ生成におけるオープンソースおよびクローズドソース LLM の性能を総合的に評価するための一連の実験を設計・実施した。 その結果,BLEU と Rouge-L の測定値を考えると,LLM は特定の指標において既存の手法を上回り,他の指標では遅れていることがわかった。 しかし、人間による評価の後、LLMはこれらの既存の手法に対して明確な優位性を示している。 特に, 366サンプルの78%では, LLMが生成するコミットメッセージが人間によって最も優れていると評価された。 この作業は、コミットメッセージを生成するためにLLMを使用するという有望な可能性だけでなく、自動生成されたコミットメッセージの品質を評価する上で一般的に使用されるメトリクスの制限についても調査している。

A commit message is a textual description of the code changes in a commit, which is a key part of the Git version control system (VCS). It captures the essence of software updating. Therefore, it can help developers understand code evolution and facilitate efficient collaboration between developers. However, it is time-consuming and labor-intensive to write good and valuable commit messages. Some researchers have conducted extensive studies on the automatic generation of commit messages and proposed several methods for this purpose, such as generation-based and retrieval-based models. However, seldom studies explored whether large language models (LLMs) can be effectively used for the automatic generation of commit messages. To this end, this paper designed and conducted a series of experiments to comprehensively evaluate the performance of popular open-source and closed-source LLMs, i.e., Llama 2 and ChatGPT, in commit message generation. The results indicate that considering the BLEU and Rouge-L metrics, LLMs surpass existing methods in certain indicators but lag behind in others. After human evaluations, however, LLMs show a distinct advantage over all these existing methods. Especially, in 78% of the 366 samples, the commit messages generated by LLMs were evaluated by humans as the best. This work not only reveals the promising potential of using LLMs to generate commit messages, but also explores the limitations of commonly used metrics in evaluating the quality of automatically generated commit messages.
翻訳日:2024-01-12 14:15:57 公開日:2024-01-11
# 現実と仮想の混合シナリオを用いた空港舗装の自動検査

Automatic UAV-based Airport Pavement Inspection Using Mixed Real and Virtual Scenarios ( http://arxiv.org/abs/2401.06019v1 )

ライセンス: Link先を確認
Pablo Alonso, Jon Ander I\~niguez de Gordoa, Juan Diego Ortega, Sara Garc\'ia, Francisco Javier Iriarte, Marcos Nieto(参考訳) 滑走路とタクシー道の舗装は、その生涯に高いストレスにさらされ、必然的に時間とともにその状態が低下する。 空港舗装条件が不断かつ回復力のある運転を確実にするためには、その状況を監視し、定期的な検査を行うことが最重要となる。 UAVベースの検査は、広範囲の監視能力とコスト削減により、最近重要になっている。 本研究では,UAVが捉えた画像を用いて,舗装の難易度を自動的に識別する視覚的アプローチを提案する。 提案手法は,画像の欠陥を分割する深層学習(DL)に基づいている。 DLアーキテクチャは、EfficientNet特徴抽出とFeature Pyramid Networkセグメンテーションの最適化実装を用いて、UAVの組み込みシステムの低計算能力を活用する。 トレーニング用アノテートデータの不足に対処するため、利用可能な難読データセットを拡張するための合成データセット生成手法を開発した。 合成および実訓練画像からなる混合データセットを使用することで、実アプリケーションシナリオでトレーニングモデルをテストする場合、より良い結果が得られることを示す。

Runway and taxiway pavements are exposed to high stress during their projected lifetime, which inevitably leads to a decrease in their condition over time. To make sure airport pavement condition ensure uninterrupted and resilient operations, it is of utmost importance to monitor their condition and conduct regular inspections. UAV-based inspection is recently gaining importance due to its wide range monitoring capabilities and reduced cost. In this work, we propose a vision-based approach to automatically identify pavement distress using images captured by UAVs. The proposed method is based on Deep Learning (DL) to segment defects in the image. The DL architecture leverages the low computational capacities of embedded systems in UAVs by using an optimised implementation of EfficientNet feature extraction and Feature Pyramid Network segmentation. To deal with the lack of annotated data for training we have developed a synthetic dataset generation methodology to extend available distress datasets. We demonstrate that the use of a mixed dataset composed of synthetic and real training images yields better results when testing the training models in real application scenarios.
翻訳日:2024-01-12 13:59:32 公開日:2024-01-11
# MGARD: 高性能でエラー制御されたデータ圧縮とリファクタリングのためのマルチグリッドフレームワーク

MGARD: A multigrid framework for high-performance, error-controlled data compression and refactoring ( http://arxiv.org/abs/2401.05994v1 )

ライセンス: Link先を確認
Qian Gong, Jieyang Chen, Ben Whitney, Xin Liang, Viktor Reshniak, Tania Banerjee, Jaemoon Lee, Anand Rangarajan, Lipeng Wan, Nicolas Vidal, Qing Liu, Ana Gainaru, Norbert Podhorszki, Richard Archibald, Sanjay Ranka, Scott Klasky(参考訳) MGARD(MultiGrid Adaptive Reducing for floating-point scientific data on structured and unstructured grids)について述べる。 例外的なデータ圧縮機能と正確なエラー制御により、MGARDはストレージの削減、高性能I/O、in-situデータ分析など幅広い要件に対処する。 多様なコンピューティングアーキテクチャでシームレスに動作する統一アプリケーションプログラミングインターフェース(API)を備えている。 MGARDは高度にチューニングされたGPUカーネルと、メモリとデバイスの効率的な管理機構に最適化されており、スケーラブルで迅速な操作が保証されている。

We describe MGARD, a software providing MultiGrid Adaptive Reduction for floating-point scientific data on structured and unstructured grids. With exceptional data compression capability and precise error control, MGARD addresses a wide range of requirements, including storage reduction, high-performance I/O, and in-situ data analysis. It features a unified application programming interface (API) that seamlessly operates across diverse computing architectures. MGARD has been optimized with highly-tuned GPU kernels and efficient memory and device management mechanisms, ensuring scalable and rapid operations.
翻訳日:2024-01-12 13:59:15 公開日:2024-01-11
# サービスとしてのリコンストラクション:磁気粒子イメージングにおけるオフサイト画像再構成のためのデータ空間

Reconstruction as a service: a data space for off-site image reconstruction in magnetic particle imaging ( http://arxiv.org/abs/2401.05987v1 )

ライセンス: Link先を確認
Anselm von Gladiss, Amir Shayan Ahmadian, Jan J\"urjens(参考訳) 磁気粒子イメージング(MPI)は、高時間分解能、空間分解能、感度、生体適合性のユニークな組み合わせを提供する新しい医療画像モダリティである。 MPIにおけるシステム行列(SM)に基づく画像再構成には、時間を要する手順で再構築前に膨大なキャリブレーションデータを取得する必要がある。 従来、データはスキャン装置内の現場に記録されており、臨床環境では、スキャン装置が患者医療に利用できる時間を大幅に制限する。 その大きさのため、キャリブレーションデータの処理は困難である。 データの記録と処理のこれらの問題を解決するために、データ空間が利用でき、このキャリブレーションデータはオフサイトの専用デバイスで測定可能であることが示されている。 MPIにおけるSMに基づく画像再構成の効率向上を目的としたデータ空間を提案する。 データ空間は、撮像設備、キャリブレーションデータプロバイダ、レコンストラクション専門家で構成される。 その仕様は国際データ空間(IDS)の参照アーキテクチャモデルに従っている。 MPIにおける画像再構成のユースケースを定式化する。 ステークホルダーとタスクはIDSの用語にリストされ、マッピングされます。 MPI内の信号連鎖は、データ空間で使用される最小情報モデルを特定するために分析される。

Magnetic particle imaging (MPI) is an emerging medical imaging modality which offers a unique combination of high temporal and spatial resolution, sensitivity and biocompatibility. For system-matrix (SM) based image reconstruction in MPI, a huge amount of calibration data needs to be acquired prior to reconstruction in a time-consuming procedure. Conventionally, the data is recorded on-site inside the scanning device, which significantly limits the time that the scanning device is available for patient care in a clinical setting. Due to its size, handling the calibration data can be challenging. To solve these issues of recording and handling the data, data spaces could be used, as it has been shown that the calibration data can be measured in dedicated devices off-site. We propose a data space aimed at improving the efficiency of SM-based image reconstruction in MPI. The data space consists of imaging facilities, calibration data providers and reconstruction experts. Its specifications follow the reference architecture model of international data spaces (IDS). Use-cases of image reconstruction in MPI are formulated. The stakeholders and tasks are listed and mapped to the terminology of IDS. The signal chain in MPI is analysed to identify a minimum information model which is used by the data space.
翻訳日:2024-01-12 13:59:04 公開日:2024-01-11
# LogPTR: ポインタネットワークによる可変アウェアログ解析

LogPTR: Variable-Aware Log Parsing with Pointer Network ( http://arxiv.org/abs/2401.05986v1 )

ライセンス: Link先を確認
Yifan Wu, Bingxu Chai, Siyu Yu, Ying Li, Pinjia He, Wei Jiang, Jianguo Li(参考訳) ソフトウェアログのサイズが大きいため、開発者は自動ログ分析に頼っている。 半構造化ログを構造化形式に解析するログ解析は、自動ログ解析の前提条件である。 しかし, 既存のログパーサは, 実用上不満足である。 1)変数のカテゴリを無視し、 2)一般化能力に乏しい。 既存のアプローチの限界に対処するため,ログ内の静的部分と動的部分を抽出し,変数のカテゴリをさらに特定できる,最初のエンドツーエンド変数認識ログパーサであるLogPTRを提案する。 LogPTRの鍵は、ポインタネットワークを使用してログメッセージから単語をコピーすることだ。 我々は16の公開ログデータセットに対して広範な実験を行い、LogPTRはログテンプレートを抽出する汎用ログ解析と変数のカテゴリをさらに特定する可変ログ解析の両方において、最先端のログ解析よりも優れていることを示した。

Due to the sheer size of software logs, developers rely on automated log analysis. Log parsing, which parses semi-structured logs into a structured format, is a prerequisite of automated log analysis. However, existing log parsers are unsatisfactory when applied in practice because: 1) they ignore categories of variables, and 2) have poor generalization ability. To address the limitations of existing approaches, we propose LogPTR, the first end-to-end variable-aware log parser that can extract the static and dynamic parts in logs, and further identify the categories of variables. The key of LogPTR is using pointer network to copy words from the log message. We have performed extensive experiments on 16 public log datasets and the results show that LogPTR outperforms state-of-the-art log parsers both on general log parsing that extracts the log template and variable-aware log parsing that further identifies the category of variables.
翻訳日:2024-01-12 13:58:45 公開日:2024-01-11
# 木に基づく変動係数モデル

A tree-based varying coefficient model ( http://arxiv.org/abs/2401.05982v1 )

ライセンス: Link先を確認
Henning Zakrisson and Mathias Lindholm(参考訳) 本稿では,delong et al. (2023) の cyclic gradient boosting machine (cgbm) を用いて,変化係数をモデル化する木ベース変動係数モデル (vcm) を提案する。 cgbmを用いた係数関数のモデル化は、次元的に早期停止と特徴重要度スコアを可能にする。 次元の早い停止は、次元固有のオーバーフィッティングのリスクを減らすだけでなく、次元間のモデルの複雑さの違いも明らかにする。 特徴重要度スコアを使用することで、シンプルな特徴選択と簡単なモデル解釈が可能になる。 このモデルは、RichmanとW\'uthrich(2023)で使用されているものと同じシミュレーションと実データ例に基づいて評価され、その結果が、彼らのニューラルネットワークベースのVCMであるLocalGLMnetに匹敵するサンプル損失から結果を生成することを示している。

The paper introduces a tree-based varying coefficient model (VCM) where the varying coefficients are modelled using the cyclic gradient boosting machine (CGBM) from Delong et al. (2023). Modelling the coefficient functions using a CGBM allows for dimension-wise early stopping and feature importance scores. The dimension-wise early stopping not only reduces the risk of dimension-specific overfitting, but also reveals differences in model complexity across dimensions. The use of feature importance scores allows for simple feature selection and easy model interpretation. The model is evaluated on the same simulated and real data examples as those used in Richman and W\"uthrich (2023), and the results show that it produces results in terms of out of sample loss that are comparable to those of their neural network-based VCM called LocalGLMnet.
翻訳日:2024-01-12 13:58:27 公開日:2024-01-11
# 量子電子波束による自然光子放出の形状依存性と結合電子ビーム超放射能のQED起源

Shape-Dependence of Spontaneous Photon Emission by Quantum Electron Wavepackets and the QED Origin of Bunched Electron Beam Superradiance ( http://arxiv.org/abs/2401.05978v1 )

ライセンス: Link先を確認
Bin Zhang, Reuven Ianconescu, Aharon Friedman, Jacob Scheuer, Mikhail Tokman, Yiming Pan, Avraham Gover(参考訳) 自由電子による光子の自発放出速度は、励起放出とは異なり、量子電子波動関数(QEW)の形状や変調には依存していないことが示されている。 しかし、ここでは放出された光子の量子状態が非古典的であり、qew形状に依存することを示す。 この非古典性は、光子密度行列の形状依存オフ対角項に由来する。 これはウィグナー分布関数に現れ、ホモダイン検出法をスクイーズ効果として実験的に観測できる。 単一マイクロキャビティモードと電子相互作用のスキームを考えると、ビルドアッププロセスを通じて複数の変調QEWによる自然放出のQED式を示す。 その結果, 密度変調QEWsビームの場合, 変調QEWsによって放出される光子状態の対角線外項の位相は, N_e^2に比例する重み付きビーム超放射能のハービンジャーであることが示唆された。 この観測は、コヒーレンスと変調の量子特性を持つ変調qewsビームによって量子系と他の量子電子相互作用を増強する可能性を与える。

It has been shown that the spontaneous emission rate of photons by free electrons, unlike stimulated emission, is independent of the shape or modulation of the quantum electron wavefunction (QEW). Nevertheless, here we show that the quantum state of the emitted photons is non-classical and does depend on the QEW shape. This non-classicality originates from the shape dependent off-diagonal terms of the photon density matrix. This is manifested in the Wigner distribution function and would be observable experimentally through Homodyne detection techniques as a squeezing effect. Considering a scheme of electrons interaction with a single microcavity mode, we present a QED formulation of spontaneous emission by multiple modulated QEWs through a build-up process. Our findings indicate that in the case of a density modulated QEWs beam, the phase of the off-diagonal terms of the photon state emitted by the modulated QEWs is the harbinger of bunched beam superradiance, where the spontaneous emission is proportional to N_e^2. This observation offers a potential for enhancement of other quantum electron interactions with quantum systems by a modulated QEWs beam carrying coherence and quantum properties of the modulation.
翻訳日:2024-01-12 13:58:10 公開日:2024-01-11
# 推薦学習のためのエンドツーエンド学習型クラスタリング

End-to-end Learnable Clustering for Intent Learning in Recommendation ( http://arxiv.org/abs/2401.05975v1 )

ライセンス: Link先を確認
Yue Liu, Shihao Zhu, Jun Xia, Yingwei Ma, Jian Ma, Wenliang Zhong, Guannan Zhang, Kejun Zhang, Xinwang Liu(参考訳) ユーザの意図をマイニングすることは、逐次レコメンデーションにおいて重要な役割を果たす。 最近のアプローチであるiclrecは、対照的な学習とクラスタリングを使用して、基礎となるユーザの意図を抽出するために導入された。 有効性を示しているが、既存の手法は複雑で面倒な交互最適化に悩まされており、2つの主要な問題に繋がる。 第一に、一般化期待最大化(EM)フレームワークにおける表現学習とクラスタリング最適化の分離は、しばしば準最適性能をもたらす。 第二に、データセット全体のクラスタリングは、大規模産業データに対するスケーラビリティを損なう。 これらの課題に対処するために、表現学習を \underline{E}nd-to-end \underline{L}earnable \underline{C}lustering framework for \underline{Rec}ommendation に統合する、新しい意図学習手法である \underline{ELCRec} を提案する。 具体的には、ユーザの行動シーケンスをエンコードし、クラスタセンターを学習可能なネットワークパラメータとして初期化する。 さらに、異なるクラスタセンタを区別するネットワークを誘導し、同様のサンプルをそれぞれのクラスタセンタにプルするクラスタリングロスを設計する。 これにより、ミニバッチデータを用いたレコメンデーションとクラスタリングの同時最適化が可能になる。 さらに,学習したクラスタセンタを自己スーパービジョン信号として表現学習に活用し,レコメンデーション性能をさらに向上させる。 オープンベンチマークおよび業界データを用いた大規模実験により,提案手法の優位性,有効性,効率性を検証した。 コードはhttps://github.com/yueliu1999/elcrec。

Mining users' intents plays a crucial role in sequential recommendation. The recent approach, ICLRec, was introduced to extract underlying users' intents using contrastive learning and clustering. While it has shown effectiveness, the existing method suffers from complex and cumbersome alternating optimization, leading to two main issues. Firstly, the separation of representation learning and clustering optimization within a generalized expectation maximization (EM) framework often results in sub-optimal performance. Secondly, performing clustering on the entire dataset hampers scalability for large-scale industry data. To address these challenges, we propose a novel intent learning method called \underline{ELCRec}, which integrates representation learning into an \underline{E}nd-to-end \underline{L}earnable \underline{C}lustering framework for \underline{Rec}ommendation. Specifically, we encode users' behavior sequences and initialize the cluster centers as learnable network parameters. Additionally, we design a clustering loss that guides the networks to differentiate between different cluster centers and pull similar samples towards their respective cluster centers. This allows simultaneous optimization of recommendation and clustering using mini-batch data. Moreover, we leverage the learned cluster centers as self-supervision signals for representation learning, resulting in further enhancement of recommendation performance. Extensive experiments conducted on open benchmarks and industry data validate the superiority, effectiveness, and efficiency of our proposed ELCRec method. Code is available at: https://github.com/yueliu1999/ELCRec.
翻訳日:2024-01-12 13:57:48 公開日:2024-01-11
# 長谷川-若谷方程式のデータから物理に基づく還元モデルを学ぶ

Learning physics-based reduced models from data for the Hasegawa-Wakatani equations ( http://arxiv.org/abs/2401.05972v1 )

ライセンス: Link先を確認
Constatin Gahr, Ionut-Gabriel Farcas, and Frank Jenko(参考訳) 本稿では,非線形・カオスプラズマ乱流シミュレーションのための非侵入型科学機械学習(SciML)低次モデルの構築に焦点をあてる。 特に,演算子推論(OpInf)を用いて,シミュレーションデータから低コストな物理ベースのROMを構築することを提案する。 代表的な例として,2次元静電ドリフト波プラズマ乱流のモデル化に用いる長谷川-若谷方程式(HW)に着目した。 このモデルのための正確なROMを構築するためのOpInfのポテンシャルを包括的に見ていくために、複素・非線形・自己駆動力学の形成につながるHW方程式のセットアップを検討し、2つの実験を行う。 まず,初期条件から始まるHW方程式の直接数値シミュレーションを用いて得られたデータを用いて,トレーニング時地平線を超える予測のためにOpInf ROMを訓練する。 2つ目の挑戦的な実験では、同じデータセットを使ってROMを訓練するが、今回は他の6つの初期条件の予測を行う。 その結果,opinf romは乱流力学の重要な特徴を捉え,新規で未熟な初期条件に一般化し,高忠実度モデルの評価時間を最大5桁まで短縮した。 核融合研究のより広い文脈において、非侵入型SciML ROMは数値研究を劇的に加速する可能性を示し、最終的には最適化された核融合装置の設計やリアルタイム制御などのタスクを可能にする。

This paper focuses on the construction of non-intrusive Scientific Machine Learning (SciML) Reduced-Order Models (ROMs) for nonlinear, chaotic plasma turbulence simulations. In particular, we propose using Operator Inference (OpInf) to build low-cost physics-based ROMs from data for such simulations. As a representative example, we focus on the Hasegawa-Wakatani (HW) equations used for modeling two-dimensional electrostatic drift-wave plasma turbulence. For a comprehensive perspective of the potential of OpInf to construct accurate ROMs for this model, we consider a setup for the HW equations that leads to the formation of complex, nonlinear, and self-driven dynamics, and perform two sets of experiments. We first use the data obtained via a direct numerical simulation of the HW equations starting from a specific initial condition and train OpInf ROMs for predictions beyond the training time horizon. In the second, more challenging set of experiments, we train ROMs using the same dataset as before but this time perform predictions for six other initial conditions. Our results show that the OpInf ROMs capture the important features of the turbulent dynamics and generalize to new and unseen initial conditions while reducing the evaluation time of the high-fidelity model by up to five orders of magnitude in single-core performance. In the broader context of fusion research, this shows that non-intrusive SciML ROMs have the potential to drastically accelerate numerical studies, which can ultimately enable tasks such as the design and real-time control of optimized fusion devices.
翻訳日:2024-01-12 13:57:22 公開日:2024-01-11
# UAVD4L:UAV 6-DoFローカライゼーションのための大規模データセット

UAVD4L: A Large-Scale Dataset for UAV 6-DoF Localization ( http://arxiv.org/abs/2401.05971v1 )

ライセンス: Link先を確認
Rouwan Wu, Xiaoya Cheng, Juelin Zhu, Xuxiang Liu, Maojun Zhang, Shen Yan(参考訳) 無人航空機(UAV)のGPS環境におけるグローバルなローカライゼーションの著しい進歩にもかかわらず、既存の手法はデータセットの可用性に制約を受け続けている。 現在のデータセットは、しばしば小規模のシーンに焦点を当て、視点変数、正確な地上真実(GT)ポーズ、UAVビルトインセンサーデータがない。 これらの制約に対処するため、我々は、オフライン合成データ生成とオンライン視覚的ローカライゼーションからなる2段階の6-DoFローカライゼーションパイプライン(UAVLoc)を開発し、ローカライゼーションのための大規模な6-DoF UAVデータセットを導入している。 さらに,6自由度推定器に基づき,3次元空間における地中目標を追跡する階層システムを設計する。 新しいデータセットにおける実験結果は,提案手法の有効性を示している。 コードとデータセットはhttps://github.com/RingoWRW/UAVD4Lで公開されている。

Despite significant progress in global localization of Unmanned Aerial Vehicles (UAVs) in GPS-denied environments, existing methods remain constrained by the availability of datasets. Current datasets often focus on small-scale scenes and lack viewpoint variability, accurate ground truth (GT) pose, and UAV build-in sensor data. To address these limitations, we introduce a large-scale 6-DoF UAV dataset for localization (UAVD4L) and develop a two-stage 6-DoF localization pipeline (UAVLoc), which consists of offline synthetic data generation and online visual localization. Additionally, based on the 6-DoF estimator, we design a hierarchical system for tracking ground target in 3D space. Experimental results on the new dataset demonstrate the effectiveness of the proposed approach. Code and dataset are available at https://github.com/RingoWRW/UAVD4L
翻訳日:2024-01-12 13:56:55 公開日:2024-01-11
# 旅行者問題に対する空間認識型深層強化学習

Spatial-Aware Deep Reinforcement Learning for the Traveling Officer Problem ( http://arxiv.org/abs/2401.05969v1 )

ライセンス: Link先を確認
Niklas Strau{\ss}, Matthias Schubert(参考訳) 旅行士官問題(TOP)は確率的最適化の課題である。 この問題では、駐車係が駐車センサを備えた街を通り、できるだけ多くの駐車違反者に罰金を科す。 TOPの大きな課題は駐車違反のダイナミックな性質であり、罰金が課されたかどうかに関わらず、しばらく後にランダムに現れて消える。 したがって、現在の駐車違反に対して動的に調整すると同時に、事故発生時に警官が到着する可能性を高めることも計画する必要がある。 様々な解決策が存在するが、これらの手法は将来の駐車違反を考慮に入れておく能力に対する行動の影響に苦慮することが多い。 本稿では,TOPのための空間認識型深層強化学習手法SATOPを提案する。 新しい状態エンコーダは,パーキングスポット,エージェント,アクション間の空間的関係を利用して,各アクションの表現を生成する。 さらに、与えられた環境における将来の相互作用相関を学習するための新しいメッセージパッシングモジュールを提案する。 これにより、エージェントは、アクションを実行した後、さらに駐車違反の可能性を推定することができる。 本手法はメルボルンの実世界データに基づく環境を用いて評価する。 その結果,SATOPは最先端のTOPエージェントを一貫して上回り,駐車違反を最大22%減らすことができることがわかった。

The traveling officer problem (TOP) is a challenging stochastic optimization task. In this problem, a parking officer is guided through a city equipped with parking sensors to fine as many parking offenders as possible. A major challenge in TOP is the dynamic nature of parking offenses, which randomly appear and disappear after some time, regardless of whether they have been fined. Thus, solutions need to dynamically adjust to currently fineable parking offenses while also planning ahead to increase the likelihood that the officer arrives during the offense taking place. Though various solutions exist, these methods often struggle to take the implications of actions on the ability to fine future parking violations into account. This paper proposes SATOP, a novel spatial-aware deep reinforcement learning approach for TOP. Our novel state encoder creates a representation of each action, leveraging the spatial relationships between parking spots, the agent, and the action. Furthermore, we propose a novel message-passing module for learning future inter-action correlations in the given environment. Thus, the agent can estimate the potential to fine further parking violations after executing an action. We evaluate our method using an environment based on real-world data from Melbourne. Our results show that SATOP consistently outperforms state-of-the-art TOP agents and is able to fine up to 22% more parking offenses.
翻訳日:2024-01-12 13:56:30 公開日:2024-01-11
# 資源制約付き群衆計数のための軽量機能融合アーキテクチャ

A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd Counting ( http://arxiv.org/abs/2401.05968v1 )

ライセンス: Link先を確認
Yashwardhan Chaudhuri, Ankit Kumar, Orchid Chetia Phukan, Arun Balaji Buduru(参考訳) クラウドカウントは現実の状況で直接の応用を見つけ、計算効率と性能を重要視する。 しかし、以前の方法のほとんどは、デプロイを制限する重いバックボーンと複雑な下流アーキテクチャに依存していた。 この課題に対処し,クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。 これらのモデルは同じダウンストリームアーキテクチャを維持しながら、mobilenetとmobilevitという2つの異なるバックボーンを組み込んでいる。 隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、それらをシームレスに組み合わせます。 このアプローチは、コンパクトで効率的な設計を維持しながら、モデルのパフォーマンス向上に力を与えます。 提案モデルと上海Tech-A ShanghaiTech-BとUCF-CC-50データセットを用いたSOTA(State-of-the-art)法との比較により,最も計算効率のよいモデルでありながら,同等の結果が得られた。 最後に,本モデルの有効性を示すためのプルーニングとともに,比較研究,広範囲にわたるアブレーション研究を提案する。

Crowd counting finds direct applications in real-world situations, making computational efficiency and performance crucial. However, most of the previous methods rely on a heavy backbone and a complex downstream architecture that restricts the deployment. To address this challenge and enhance the versatility of crowd-counting models, we introduce two lightweight models. These models maintain the same downstream architecture while incorporating two distinct backbones: MobileNet and MobileViT. We leverage Adjacent Feature Fusion to extract diverse scale features from a Pre-Trained Model (PTM) and subsequently combine these features seamlessly. This approach empowers our models to achieve improved performance while maintaining a compact and efficient design. With the comparison of our proposed models with previously available state-of-the-art (SOTA) methods on ShanghaiTech-A ShanghaiTech-B and UCF-CC-50 dataset, it achieves comparable results while being the most computationally efficient model. Finally, we present a comparative study, an extensive ablation study, along with pruning to show the effectiveness of our models.
翻訳日:2024-01-12 13:55:56 公開日:2024-01-11
# 知識グラフ埋め込みのためのブロック対角直交関係と行列エンティティ

Block-Diagonal Orthogonal Relation and Matrix Entity for Knowledge Graph Embedding ( http://arxiv.org/abs/2401.05967v1 )

ライセンス: Link先を確認
Yihua Zhu, Hidetoshi Shimodaira(参考訳) 知識グラフ埋め込み(KGE)の主な目的は、実体と関係性の低次元表現を学習し、行方不明な事実を予測することである。 kgeではローテーションやクエートのようなローテーションベースの手法がうまく機能するが、それらは2つの課題に直面している: 実体次元と関係の大きさの比例増加を必要とするモデルの柔軟性の制限と、高次元回転のモデル一般化の難しさである。 これらの問題に対処するために、エンティティの行列と関係のリーマン最適化を伴うブロック対角直交行列を用いた新しい kge モデルである orthogonale を紹介する。 このアプローチはKGEモデルの一般化と柔軟性を高める。 実験結果から,我々の新しいKGEモデルOrthogonalEは汎用的かつ柔軟であり,最先端のKGEモデルよりも優れており,関係パラメータの大幅な削減が期待できる。

The primary aim of Knowledge Graph embeddings (KGE) is to learn low-dimensional representations of entities and relations for predicting missing facts. While rotation-based methods like RotatE and QuatE perform well in KGE, they face two challenges: limited model flexibility requiring proportional increases in relation size with entity dimension, and difficulties in generalizing the model for higher-dimensional rotations. To address these issues, we introduce OrthogonalE, a novel KGE model employing matrices for entities and block-diagonal orthogonal matrices with Riemannian optimization for relations. This approach enhances the generality and flexibility of KGE models. The experimental results indicate that our new KGE model, OrthogonalE, is both general and flexible, significantly outperforming state-of-the-art KGE models while substantially reducing the number of relation parameters.
翻訳日:2024-01-12 13:55:26 公開日:2024-01-11
# PixelCNNの潜在空間から新しいブリッジタイプを生成する試み

An attempt to generate new bridge types from latent space of PixelCNN ( http://arxiv.org/abs/2401.05964v1 )

ライセンス: Link先を確認
Hongjun Zhang(参考訳) 生成人工知能技術を用いた新しいブリッジタイプの作成。 Pythonプログラミング言語、TensorFlowとKerasのディープラーニングプラットフォームフレームワークをベースとして、3つのスパンビームブリッジ、アーチブリッジ、ケーブルステイドブリッジ、サスペンションブリッジの対称構造イメージデータセットを使用して、PixelCNNを構築し、訓練する。 モデルは、画像の統計的構造をキャプチャし、前の画素が与えられると次の画素の確率分布を計算することができる。 得られた潜在空間サンプリングから、トレーニングデータセットとは異なる新しいブリッジタイプを生成することができる。 PixelCNNは、人間のオリジナルブリッジタイプに基づいて異なる構造成分を有機的に組み合わせ、ある程度の人間のオリジナル能力を持つ新しいブリッジタイプを作成することができる。 自己回帰モデルはシーケンスの意味を理解できないが、マルチモーダルモデルは回帰モデルと自己回帰モデルを組み合わせてシーケンスを理解する。 マルチモーダルモデルは、将来的に人工知能を実現するための方法であるべきです。

Try to generate new bridge types using generative artificial intelligence technology. Using symmetric structured image dataset of three-span beam bridge, arch bridge, cable-stayed bridge and suspension bridge , based on Python programming language, TensorFlow and Keras deep learning platform framework , PixelCNN is constructed and trained. The model can capture the statistical structure of the images and calculate the probability distribution of the next pixel when the previous pixels are given. From the obtained latent space sampling, new bridge types different from the training dataset can be generated. PixelCNN can organically combine different structural components on the basis of human original bridge types, creating new bridge types that have a certain degree of human original ability. Autoregressive models cannot understand the meaning of the sequence, while multimodal models combine regression and autoregressive models to understand the sequence. Multimodal models should be the way to achieve artificial general intelligence in the future.
翻訳日:2024-01-12 13:54:29 公開日:2024-01-11
# OptVerse AIソルバーの内部に機械学習 - 設計原則と応用

Machine Learning Insides OptVerse AI Solver: Design Principles and Applications ( http://arxiv.org/abs/2401.05960v1 )

ライセンス: Link先を確認
Xijun Li, Fangzhou Zhu, Hui-Ling Zhen, Weilin Luo, Meng Lu, Yimin Huang, Zhenan Fan, Zirui Zhou, Yufei Kuang, Zhihai Wang, Zijie Geng, Yang Li, Haoyang Liu, Zhiwu An, Muming Yang, Jianshu Li, Jie Wang, Junchi Yan, Defeng Sun, Tao Zhong, Yong Zhang, Jia Zeng, Mingxuan Yuan, Jianye Hao, Jun Yao, Kun Mao(参考訳) デジタルユビキティの時代には、効率的な資源管理と意思決定が多くの産業で最重要である。 そこで、本研究では、機械学習(ml)技術をhuawei cloudのoptiverse ai solverに統合することに関する包括的研究を行い、実世界の数学プログラミングインスタンスの不足を軽減し、従来の最適化技術の能力を超えることを目的としている。 本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATおよびMILPインスタンスを生成する手法を紹介する。 さらに,動的環境における解法の有効性を維持するために,拡張ポリシーを活用した学習フレームワークを提案する。 データ生成と拡張に加えて、我々はパーソナライズされた問題解決戦略のための新しいML主導のポリシーも提案し、初期ベース選択のためのグラフ畳み込みネットワークや高度な事前解法とカット選択のための強化学習などの応用に重点を置いている。 さらに,ソルバ性能を著しく向上させる最先端パラメータチューニングアルゴリズムの導入について詳述する。 Gurobi や SCIP といった従来の解法と比較して,ML を拡張した OptVerse AI Solver は,確立したベンチマークと実世界のシナリオの両方において,より優れたスピードと精度を示し,数学的プログラミングの解法における機械学習技術の実践的命令性と有効性を補強する。

In an era of digital ubiquity, efficient resource management and decision-making are paramount across numerous industries. To this end, we present a comprehensive study on the integration of machine learning (ML) techniques into Huawei Cloud's OptVerse AI Solver, which aims to mitigate the scarcity of real-world mathematical programming instances, and to surpass the capabilities of traditional optimization techniques. We showcase our methods for generating complex SAT and MILP instances utilizing generative models that mirror multifaceted structures of real-world problem. Furthermore, we introduce a training framework leveraging augmentation policies to maintain solvers' utility in dynamic environments. Besides the data generation and augmentation, our proposed approaches also include novel ML-driven policies for personalized solver strategies, with an emphasis on applications like graph convolutional networks for initial basis selection and reinforcement learning for advanced presolving and cut selection. Additionally, we detail the incorporation of state-of-the-art parameter tuning algorithms which markedly elevate solver performance. Compared with traditional solvers such as Gurobi and SCIP, our ML-augmented OptVerse AI Solver demonstrates superior speed and precision across both established benchmarks and real-world scenarios, reinforcing the practical imperative and effectiveness of machine learning techniques in mathematical programming solvers.
翻訳日:2024-01-12 13:54:07 公開日:2024-01-11
# 開量子系におけるページカーブ様絡み合いダイナミクス

Page-curve-like entanglement dynamics in open quantum systems ( http://arxiv.org/abs/2401.06042v1 )

ライセンス: Link先を確認
Jonas Glatthard(参考訳) ブラックホールの絡み合いエントロピーとそのホーキング放射のエントロピーは、いわゆるページ曲線に従うことが期待されており、ホーキングの計算と一致して、ユニタリティーによって要求されるようにブラックホールが完全に蒸発した後は、ゼロに戻ることが期待されている。 近年,同様の行動を示す単純なシステムプラスバスモデルが提案されている。 ここでは, 系が平衡から遠い純粋な状態に初期化される場合, システム+バスモデルに対して, システム+バスモデルに対して, 一般にそのようなページ曲線的絡み合いのダイナミクスが維持されるべき理由を概説する。 浴槽との相互作用によって絡み合いエントロピーが生じるが、最終的には対応する平均力ギブズ状態の値に減少する。 これらの条件下では、システム基底状態に近い。 数値的に解くことができる高調波量子ブラウン運動とスピンボーソンモデルという2つのパラダイム的開量子系モデルについて述べる。 最初の例では、不純物状態が全進化中に基底状態に近づいたとしても、絡み合いエントロピーは中間時間でピークとなる。 第二の例では、励起状態において初期化された不純物の場合、エントロピーが最大値に達するページタイムは、励起が半減した時に発生する。

The entanglement entropy of a black hole, and that of its Hawking radiation, are expected to follow the so-called Page curve: After an increase in line with Hawking's calculation, it is expected to decrease back to zero once the black hole has fully evaporated, as demanded by unitarity. Recently, a simple system-plus-bath model has been proposed which shows a similar behaviour. Here, we make a general argument as to why such a Page-curve-like entanglement dynamics should be expected to hold generally for system-plus-bath models at small coupling and low temperatures, when the system is initialised in a pure state far from equilibrium. The interaction with the bath will then generate entanglement entropy, but it eventually has to decrease to the value prescribed by the corresponding mean-force Gibbs state. Under those conditions, it is close to the system ground state. We illustrate this on two paradigmatic open-quantum-system models, the exactly solvable harmonic quantum Brownian motion and the spin-boson model, which we study numerically. In the first example we find that the entanglement entropy peaks at intermediate times even if the impurity state stays close to the ground state during the whole evolution. In the second example, for an impurity initialised in the excited state, the Page time--when the entropy reaches its maximum--occurs when the excitation has half decayed.
翻訳日:2024-01-12 13:47:45 公開日:2024-01-11
# ウェーブレットによる交通予測のためのマルチスケールグラフ畳み込みリカレントネットワーク

Wavelet-Inspired Multiscale Graph Convolutional Recurrent Network for Traffic Forecasting ( http://arxiv.org/abs/2401.06040v1 )

ライセンス: Link先を確認
Qipeng Qian, Tanwi Mallick(参考訳) 交通予測はインテリジェントな交通システムの基盤である。 時空間グラフニューラルネットワークは、交通予測における最先端の性能を示している。 しかしながら、これらの手法は、粒度やスケールの異なるレベルでの空間的および時間的変化を包含するマルチスケール構造など、交通データにおける自然特性のいくつかを明示的にモデル化していない。 そこで我々は,マルチスケール解析(MSA)法と深層学習(DL)法を組み合わせたWavelet-Inspired Graph Convolutional Recurrent Network (WavGCRN)を提案する。 WavGCRNでは、トラフィックデータを離散ウェーブレット変換(DWT)で時間周波数成分に分解し、マルチストリーム入力構造を構築し、次にグラフ畳み込みリカレントネットワーク(GCRN)を各ストリームのエンコーダとして使用し、異なるスケールの時空間的特徴を抽出し、最終的に学習可能な逆DWTとGCRNをデコーダとして結合し、トラフィックメトリクスの再構成と予測のために全てのストリームから情報を融合する。 さらに,道路網のインフォームドグラフとデータ駆動グラフ学習を組み合わせて空間相関を正確に捉える。 提案手法は,現実のトラフィックデータセット上での解釈可能性,強力な学習能力,および競合予測性能を提供する。

Traffic forecasting is the foundation for intelligent transportation systems. Spatiotemporal graph neural networks have demonstrated state-of-the-art performance in traffic forecasting. However, these methods do not explicitly model some of the natural characteristics in traffic data, such as the multiscale structure that encompasses spatial and temporal variations at different levels of granularity or scale. To that end, we propose a Wavelet-Inspired Graph Convolutional Recurrent Network (WavGCRN) which combines multiscale analysis (MSA)-based method with Deep Learning (DL)-based method. In WavGCRN, the traffic data is decomposed into time-frequency components with Discrete Wavelet Transformation (DWT), constructing a multi-stream input structure; then Graph Convolutional Recurrent networks (GCRNs) are employed as encoders for each stream, extracting spatiotemporal features in different scales; and finally the learnable Inversed DWT and GCRN are combined as the decoder, fusing the information from all streams for traffic metrics reconstruction and prediction. Furthermore, road-network-informed graphs and data-driven graph learning are combined to accurately capture spatial correlation. The proposed method can offer well-defined interpretability, powerful learning capability, and competitive forecasting performance on real-world traffic data sets.
翻訳日:2024-01-12 13:47:21 公開日:2024-01-11
# 新しい「金標準」:ユニタリ結合クラスター理論における摂動三重項補正と量子コンピューティングへの展望

A new "gold standard": perturbative triples corrections in unitary coupled cluster theory and prospects for quantum computing ( http://arxiv.org/abs/2401.06036v1 )

ライセンス: Link先を確認
Zachary W. Windom, Daniel Claudino, Rodney J. Bartlett(参考訳) 量子シミュレーションの大きな困難は、電子構造理論における電子相関と同義の、絡み合った粒子の大規模な集合を適切に扱うことであり、この問題に対処する主要な枠組みはクラスタ(CC)理論である。 cc理論における計算量的に手頃な低ランク近似を高ランク励起の摂動計算で補うことは、これらの近似における欠落電子相関を計算可能かつ効果的に計算する方法である。 これは、多体摂動理論(MBPT)から考慮して三重励起の影響でベースラインCCSDを活性化させる「ゴールドスタンダード」CCSD(T)法によって最もよく例示されている。 このような成功にもかかわらず、MBPTとCC理論のユニタリアナログ(UCC)の相乗効果は研究されていない。 本研究では,量子コンピュータ上で得られる収束したutcsd振幅を古典コンピュータで活用し,三重励起に伴うエネルギー補正を評価する手法を提案し,utcsd[t]とutcsd(t*)法を導出する。 これらの選択の理論的根拠は、有限次UCCエネルギー汎函数の性質を研究することによって厳密であることが示されている。 本研究は, (T) 補正のように第5次コントリビューションの追加を支持するものではないが, ハイブリッド UCCSD(T) アプローチを用いて比較を行う。 小分子集合におけるこれらの手法の性能評価を行い,MBPT理論とUCC理論の相乗効果の利点を実証する。

A major difficulty in quantum simulation is the adequate treatment of a large collection of entangled particles, synonymous with electron correlation in electronic structure theory, with coupled cluster (CC) theory being the leading framework in dealing with this problem. Augmenting computationally affordable low-rank approximations in CC theory with a perturbative account of higher-rank excitations is a tractable and effective way of accounting for the missing electron correlation in those approximations. This is perhaps best exemplified by the "gold standard" CCSD(T) method, which bolsters the baseline CCSD with effects of triple excitations using considerations from many-body perturbation theory (MBPT). Despite this established success, such a synergy between MBPT and the unitary analog of CC theory (UCC) has not been explored. In this work, we propose a similar approach wherein converged UCCSD amplitudes, which can be obtained on a quantum computer, are leveraged by a classical computer to evaluate energy corrections associated with triple excitations - leading to the UCCSD[T] and UCCSD(T*) methods. The rationale behind these choices is shown to be rigorous by studying the properties of finite-order UCC energy functionals. Although our efforts do not support the addition of the fifth-order contribution as in the (T) correction, comparisons are nevertheless made using a hybrid UCCSD(T) approach. We assess the performance of these approaches on a collection of small molecules, and demonstrate the benefits of harnessing the inherent synergy between MBPT and UCC theories.
翻訳日:2024-01-12 13:46:55 公開日:2024-01-11
# raven: 効率的なトライプレーンネットワークによる敵対的ビデオ生成の再考

RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks ( http://arxiv.org/abs/2401.06035v1 )

ライセンス: Link先を確認
Partha Ghosh, Soubhik Sanyal, Cordelia Schmid, Bernhard Sch\"olkopf(参考訳) 本研究では,長期的空間的および時間的依存に対処する新しい非条件ビデオ生成モデルを提案する。 これらの依存関係を捉えるために,3次元オブジェクト表現用に開発された3d認識生成フレームワークにインスパイアされたハイブリッドな明示的三面表現を取り入れ,ビデオシーケンス全体をモデル化するために特異な潜在コードを用いる。 その後、個々のビデオフレームは中間三面表現から合成され、それはそれ自体が一次潜在コードから派生している。 この新しい戦略は計算の複雑さをフロップで測定した2ドル程度削減する。 提案手法は,映像の効率的かつ時間的コヒーレントな生成を促進する。 さらに,ジョイントフレームモデリングアプローチは,自己回帰的な手法とは対照的に,視覚的アーティファクトの生成を緩和する。 我々は、GAN(Generative Adversarial Network)ベースのジェネレータアーキテクチャに光フローベースモジュールを統合することにより、より小さなジェネレータサイズによる制約を補償することで、モデルの性能をさらに向上させる。 その結果、このモデルは256\times256$の解像度で高精細なビデオクリップを合成でき、フレームレート30fpsで5ドル(約5,700円)以上もする。 本手法の有効性と汎用性は,合成ビデオクリップと実映像クリップの両方からなる3つのデータセットの質的および定量的評価を通じて実証的に検証される。

We present a novel unconditional video generative model designed to address long-term spatial and temporal dependencies. To capture these dependencies, our approach incorporates a hybrid explicit-implicit tri-plane representation inspired by 3D-aware generative frameworks developed for three-dimensional object representation and employs a singular latent code to model an entire video sequence. Individual video frames are then synthesized from an intermediate tri-plane representation, which itself is derived from the primary latent code. This novel strategy reduces computational complexity by a factor of $2$ as measured in FLOPs. Consequently, our approach facilitates the efficient and temporally coherent generation of videos. Moreover, our joint frame modeling approach, in contrast to autoregressive methods, mitigates the generation of visual artifacts. We further enhance the model's capabilities by integrating an optical flow-based module within our Generative Adversarial Network (GAN) based generator architecture, thereby compensating for the constraints imposed by a smaller generator size. As a result, our model is capable of synthesizing high-fidelity video clips at a resolution of $256\times256$ pixels, with durations extending to more than $5$ seconds at a frame rate of 30 fps. The efficacy and versatility of our approach are empirically validated through qualitative and quantitative assessments across three different datasets comprising both synthetic and real video clips.
翻訳日:2024-01-12 13:46:24 公開日:2024-01-11
# lingualchemy:unseen言語一般化のための類型的および地理的要素の使用

LinguAlchemy: Fusing Typological and Geographical Elements for Unseen Language Generalization ( http://arxiv.org/abs/2401.06034v1 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, Samuel Cahyawijaya, Alham Fikri Aji, Genta Indra Winata, Ayu Purwarianti(参考訳) 事前訓練言語モデル(PLM)は、複数のタスクや言語に対する顕著な一般化を示している。 それでも、PLMの未確認言語への一般化は貧弱であり、言語性能は著しく悪化し、ランダムなベースラインに匹敵する非感覚的な応答も生成する。 この制限はplmの長年の問題であり、多様性と言語モデリング技術への平等なアクセスの問題を提起している。 そこで本研究では,plmの表現を定型的,地理的,系統的に制約し,対応する言語的制約をよりよく特徴付けるための多面的言語を包含する正規化手法であるlingualchemyを導入することで,この制限を解消する。 LinguAlchemyは、完全に微調整されたモデルと比較して、mBERT と XLM-R の未確認言語での精度を ~18% と ~2% に向上させる。 さらに,言語規則化の重み付けを自動的に調整するLinguAlchemyの拡張であるAlchemyScaleとAlchemyTuneを導入し,ハイパーパラメータ検索の必要性を軽減する。 LinguAlchemyは、PLMのより優れたアクセシビリティとアクセシビリティのために欠かせない言語に対して、より優れた言語間一般化を可能にする。

Pretrained language models (PLMs) have shown remarkable generalization toward multiple tasks and languages. Nonetheless, the generalization of PLMs towards unseen languages is poor, resulting in significantly worse language performance, or even generating nonsensical responses that are comparable to a random baseline. This limitation has been a longstanding problem of PLMs raising the problem of diversity and equal access to language modeling technology. In this work, we solve this limitation by introducing LinguAlchemy, a regularization technique that incorporates various aspects of languages covering typological, geographical, and phylogenetic constraining the resulting representation of PLMs to better characterize the corresponding linguistics constraints. LinguAlchemy significantly improves the accuracy performance of mBERT and XLM-R on unseen languages by ~18% and ~2%, respectively compared to fully finetuned models and displaying a high degree of unseen language generalization. We further introduce AlchemyScale and AlchemyTune, extension of LinguAlchemy which adjusts the linguistic regularization weights automatically, alleviating the need for hyperparameter search. LinguAlchemy enables better cross-lingual generalization to unseen languages which is vital for better inclusivity and accessibility of PLMs.
翻訳日:2024-01-12 13:45:59 公開日:2024-01-11
# GE-AdvGAN:勾配編集に基づく逆数生成モデルによる逆数サンプルの転送性の向上

GE-AdvGAN: Improving the transferability of adversarial samples by gradient editing-based adversarial generative model ( http://arxiv.org/abs/2401.06031v1 )

ライセンス: Link先を確認
Zhiyu Zhu, Huaming Chen, Xinyi Wang, Jiayu Zhang, Zhibo Jin, Kim-Kwang Raymond Choo(参考訳) GAN(Generative Adversarial Networks)のような逆生成モデルは、画像、テキスト、オーディオなどの様々な種類のデータを生成するために広く応用されている。 そのため、その有望なパフォーマンスは、ホワイトボックスとブラックボックスの攻撃シナリオにおけるGANベースの敵攻撃手法につながった。 転送可能なブラックボックス攻撃の重要性は、さまざまなモデルや設定にまたがって効果的で、現実のアプリケーションとより緊密に連携できる能力にある。 しかし、そのような方法の移譲可能な逆例の観点で性能を維持することは依然として困難である。 一方,いくつかの改良された勾配に基づく移動可能な対向攻撃アルゴリズムは,対向サンプル生成に長時間を要する。 そこで本研究では,アルゴリズムの効率向上を図りながら,逆サンプルの転送性を向上させるため,ge-advganと呼ばれる新しいアルゴリズムを提案する。 主なアプローチは、ジェネレータパラメータのトレーニングプロセスを最適化することである。 機能的および特性的類似性解析により,新しい勾配編集 (ge) 機構を導入し,様々なモデル上で転送可能なサンプルを生成する際にその実現可能性を検証する。 さらに、周波数領域情報を探索して勾配編集方向を決定することにより、GE-AdvGANは、最先端の転送可能な敵攻撃アルゴリズムと比較して、実行時間を最小化しつつ、高い転送可能な対向サンプルを生成することができる。 GE-AdvGANの性能は、異なるデータセットの大規模実験により総合的に評価され、アルゴリズムの優位性を示す。 私たちのアルゴリズムのコードは、https://github.com/LMBTough/GE-advGANで利用可能です。

Adversarial generative models, such as Generative Adversarial Networks (GANs), are widely applied for generating various types of data, i.e., images, text, and audio. Accordingly, its promising performance has led to the GAN-based adversarial attack methods in the white-box and black-box attack scenarios. The importance of transferable black-box attacks lies in their ability to be effective across different models and settings, more closely aligning with real-world applications. However, it remains challenging to retain the performance in terms of transferable adversarial examples for such methods. Meanwhile, we observe that some enhanced gradient-based transferable adversarial attack algorithms require prolonged time for adversarial sample generation. Thus, in this work, we propose a novel algorithm named GE-AdvGAN to enhance the transferability of adversarial samples whilst improving the algorithm's efficiency. The main approach is via optimising the training process of the generator parameters. With the functional and characteristic similarity analysis, we introduce a novel gradient editing (GE) mechanism and verify its feasibility in generating transferable samples on various models. Moreover, by exploring the frequency domain information to determine the gradient editing direction, GE-AdvGAN can generate highly transferable adversarial samples while minimizing the execution time in comparison to the state-of-the-art transferable adversarial attack algorithms. The performance of GE-AdvGAN is comprehensively evaluated by large-scale experiments on different datasets, which results demonstrate the superiority of our algorithm. The code for our algorithm is available at: https://github.com/LMBTough/GE-advGAN
翻訳日:2024-01-12 13:45:34 公開日:2024-01-11
# レーザー冷却分子の光トウェザへの決定論的負荷法

A scheme for deterministic loading of laser-cooled molecules into optical tweezers ( http://arxiv.org/abs/2401.06028v1 )

ライセンス: Link先を確認
Etienne F. Walraven, Michael R. Tarbutt, Tijs Karman(参考訳) レーザー冷却分子を光トウィーザに繰り返しロードし,2つの量子分極により回転励起された貯蔵状態に移動させる。 これらの貯蔵状態における分子の衝突損失は抑制され、双極子遮断は複数の分子の蓄積を防ぐ。 3サイクルを施すことで、1つの分子でツイーザーを80~\%の成功率でロードする。 この負荷効率の改善により、ツイーザー配列の再構成に要する時間を短縮し、それ以外は中性分子量子コンピュータのスケーラビリティを制限した。

We propose to repeatedly load laser-cooled molecules into optical tweezers, and transfer them to storage states that are rotationally excited by two additional quanta. Collisional loss of molecules in these storage states is suppressed, and a dipolar blockade prevents the accumulation of more than one molecule. Applying three cycles loads tweezers with single molecules at an 80~\% success rate, limited by residual collisional loss. This improved loading efficiency reduces the time needed for rearrangement of tweezer arrays, which would otherwise limit the scalability of neutral molecule quantum computers.
翻訳日:2024-01-12 13:45:06 公開日:2024-01-11
# 内視鏡下手術における深度推定のための基礎モデルの適応学習

Surgical-DINO: Adapter Learning of Foundation Model for Depth Estimation in Endoscopic Surgery ( http://arxiv.org/abs/2401.06013v1 )

ライセンス: Link先を確認
Cui Beilei, Islam Mobarakol, Bai Long, Ren Hongliang(参考訳) 目的: ロボット手術における深度推定は, 三次元再建, 手術ナビゲーション, 拡張現実の可視化において不可欠である。 基礎モデルは、深さ推定(例えば、DINOv2)を含む多くの視覚タスクにおいて優れた性能を示すが、最近の研究は、医学および外科領域固有の応用においてその限界を観察した。 本研究は手術深度推定のための基礎モデルの低ランク適応(LoRA)を示す。 方法: 内視鏡下手術における深度推定のためのDINOv2の低ランク適応として, 基礎モデルに基づく深度推定法を設計する。 従来の微調整ではなく,手術固有のドメイン知識に適応するため,LoRA層を構築してDINOに統合する。 トレーニング中、優れた視覚表現能力を示すDINO画像エンコーダを凍結し、手術シーンの特徴を統合するためにLoRA層と深度デコーダのみを最適化する。 結果:本モデルはDan Vinci Xi内視鏡手術から収集したSCAREDのMICCAIチャレンジデータセットで広範囲に検証された。 術中DINOは内視鏡的深度推定作業において,最先端のすべてのモデルよりも有意に優れていることを示す。 アブレーションによる解析は、我々のLoRA層と適応の顕著な影響の証拠となっている。 結論: 外科的DINOは, 深度推定のための基礎モデルの外科領域への適応を成功に導いた。 コンピュータビジョンデータセットのトレーニング済み重量のゼロショット予測やナイーブ微調整は外科領域の基盤モデルを直接使用するには不十分であるという明確な証拠がある。 コードはhttps://github.com/BeileiCui/SurgicalDINOで入手できる。

Purpose: Depth estimation in robotic surgery is vital in 3D reconstruction, surgical navigation and augmented reality visualization. Although the foundation model exhibits outstanding performance in many vision tasks, including depth estimation (e.g., DINOv2), recent works observed its limitations in medical and surgical domain-specific applications. This work presents a low-ranked adaptation (LoRA) of the foundation model for surgical depth estimation. Methods: We design a foundation model-based depth estimation method, referred to as Surgical-DINO, a low-rank adaptation of the DINOv2 for depth estimation in endoscopic surgery. We build LoRA layers and integrate them into DINO to adapt with surgery-specific domain knowledge instead of conventional fine-tuning. During training, we freeze the DINO image encoder, which shows excellent visual representation capacity, and only optimize the LoRA layers and depth decoder to integrate features from the surgical scene. Results: Our model is extensively validated on a MICCAI challenge dataset of SCARED, which is collected from da Vinci Xi endoscope surgery. We empirically show that Surgical-DINO significantly outperforms all the state-of-the-art models in endoscopic depth estimation tasks. The analysis with ablation studies has shown evidence of the remarkable effect of our LoRA layers and adaptation. Conclusion: Surgical-DINO shed some light on the successful adaptation of the foundation models into the surgical domain for depth estimation. There is clear evidence in the results that zero-shot prediction on pre-trained weights in computer vision datasets or naive fine-tuning is not sufficient to use the foundation model in the surgical domain directly. Code is available at https://github.com/BeileiCui/SurgicalDINO.
翻訳日:2024-01-12 13:44:54 公開日:2024-01-11
# 詳細への注意:解決間知識蒸留

Attention to detail: inter-resolution knowledge distillation ( http://arxiv.org/abs/2401.06010v1 )

ライセンス: Link先を確認
Roc\'io del Amor, Julio Silva-Rodr\'iguez, Adri\'an Colomer and Valery Naranjo(参考訳) デジタル病理学におけるギガピクセル画像のためのコンピュータビジョンソリューションの開発は、スライド画像全体のサイズが大きいことによる計算上の制限によって妨げられている。 特に,高分解能での生検のデジタル化は時間を要するプロセスであり,画像のディテールの低下による悪化が原因で必要である。 この問題を軽減するため、近年の文献では、画像解像度の低減によるモデル性能の向上に知識蒸留を用いることが提案されている。 特に、最も高い倍率レベルで抽出された軟質なラベルと特徴を、低画像を入力とするモデルに蒸留する。 しかし、このアプローチでは分類過程における最も識別的な画像領域に関する知識の伝達に失敗し、解像度が低下すると失われる可能性がある。 本研究では,トレーニング中に注意マップを組み込むことにより,この情報を蒸留することを提案する。 特に,目標クラスの給与マップをgrad-camsで活用し,l2距離を最小化することにより,教師分布に適合する低分解能学生モデルを指導する。 前立腺組織像グレーディングに関する総合的な実験により,提案手法は過去の文献と比較して,画像解像度の異なるモデル性能を大幅に向上することを示した。

The development of computer vision solutions for gigapixel images in digital pathology is hampered by significant computational limitations due to the large size of whole slide images. In particular, digitizing biopsies at high resolutions is a time-consuming process, which is necessary due to the worsening results from the decrease in image detail. To alleviate this issue, recent literature has proposed using knowledge distillation to enhance the model performance at reduced image resolutions. In particular, soft labels and features extracted at the highest magnification level are distilled into a model that takes lower-magnification images as input. However, this approach fails to transfer knowledge about the most discriminative image regions in the classification process, which may be lost when the resolution is decreased. In this work, we propose to distill this information by incorporating attention maps during training. In particular, our formulation leverages saliency maps of the target class via grad-CAMs, which guides the lower-resolution Student model to match the Teacher distribution by minimizing the l2 distance between them. Comprehensive experiments on prostate histology image grading demonstrate that the proposed approach substantially improves the model performance across different image resolutions compared to previous literature.
翻訳日:2024-01-12 13:44:28 公開日:2024-01-11
# 同時マルチスペクトル・合成開口レーダ画像による海氷検出

Sea ice detection using concurrent multispectral and synthetic aperture radar imagery ( http://arxiv.org/abs/2401.06009v1 )

ライセンス: Link先を確認
Martin S J Rogers, Maria Fox, Andrew Fleming, Louisa van Zeeland, Jeremy Wilkinson, and J. Scott Hosking(参考訳) 合成開口レーダ(SAR)画像は、時空間被覆と雲や照明条件に依存しない海氷の検出能力により、海氷マッピングに使用される主要なデータタイプである。 sar画像を用いた海氷の自動検出は、画像内のあいまいな信号とノイズの存在によって問題となっている。 逆に、氷と水はマルチスペクトル画像(msi)を用いて容易に区別できるが、極域では海の表面はしばしば雲によって遮られるか、太陽が地平線の上に何ヶ月も現れることはない。 そこで本稿では,海氷検出(ViSual\_IceD)のためのマルチスペクトル可視画像とSAR画像の同時学習ツールを提案する。 visual\_icedは畳み込みニューラルネットワーク(cnn)であり、2つの並列エンコーダステージを含む古典的なu-netアーキテクチャに基づいて構築され、異なる空間解像度を含むmsiとsarイメージの融合と結合を可能にする。 visual\_icedの性能は、連結されたmsiおよびsar画像を用いて訓練されたu-netモデルと、msiまたはsar画像のみに訓練されたモデルと比較される。 ViSual\_IceDは他のネットワークよりも優れており、F1スコアは次のベストネットワークよりも1.60ポイント高い。 ビジュアル\_icedからの出力を、amsr2パッシブマイクロ波(pmw)センサから得られる海氷濃度生成物と比較する。 ViSual\_IceDは,特に沿岸部において,PMWデータと併用する上で有用なツールである。 MSI と SAR 画像の時空間被覆が増加し続けるにつれ、ViSual\_IceD は極域におけるロバストで正確な海氷被覆検出の新しい機会を提供する。

Synthetic Aperture Radar (SAR) imagery is the primary data type used for sea ice mapping due to its spatio-temporal coverage and the ability to detect sea ice independent of cloud and lighting conditions. Automatic sea ice detection using SAR imagery remains problematic due to the presence of ambiguous signal and noise within the image. Conversely, ice and water are easily distinguishable using multispectral imagery (MSI), but in the polar regions the ocean's surface is often occluded by cloud or the sun may not appear above the horizon for many months. To address some of these limitations, this paper proposes a new tool trained using concurrent multispectral Visible and SAR imagery for sea Ice Detection (ViSual\_IceD). ViSual\_IceD is a convolution neural network (CNN) that builds on the classic U-Net architecture by containing two parallel encoder stages, enabling the fusion and concatenation of MSI and SAR imagery containing different spatial resolutions. The performance of ViSual\_IceD is compared with U-Net models trained using concatenated MSI and SAR imagery as well as models trained exclusively on MSI or SAR imagery. ViSual\_IceD outperforms the other networks, with a F1 score 1.60\% points higher than the next best network, and results indicate that ViSual\_IceD is selective in the image type it uses during image segmentation. Outputs from ViSual\_IceD are compared to sea ice concentration products derived from the AMSR2 Passive Microwave (PMW) sensor. Results highlight how ViSual\_IceD is a useful tool to use in conjunction with PMW data, particularly in coastal regions. As the spatial-temporal coverage of MSI and SAR imagery continues to increase, ViSual\_IceD provides a new opportunity for robust, accurate sea ice coverage detection in polar regions.
翻訳日:2024-01-12 13:44:07 公開日:2024-01-11
# 霊長類の脳は、視覚における生成的および識別的計算をどのように組み合わせるか?

How does the primate brain combine generative and discriminative computations in vision? ( http://arxiv.org/abs/2401.06005v1 )

ライセンス: Link先を確認
Benjamin Peters, James J. DiCarlo, Todd Gureckis, Ralf Haefner, Leyla Isik, Joshua Tenenbaum, Talia Konkle, Thomas Naselaris, Kimberly Stachenfeld, Zenna Tavares, Doris Tsao, Ilker Yildirim, Nikolaus Kriegeskorte(参考訳) ビジョンは推論問題として広く理解されている。 しかし、推論過程の2つの対照的な概念は、それぞれが生体視覚の研究や機械ビジョンの工学に影響を与えている。 1つ目はボトムアップ信号の流れを強調し、視覚を主にフィードフォワードの識別的推論プロセスとして表現し、視覚情報をフィルタリングし変換して無関係な変化を除去し、認知と行動制御の下流機能に適したフォーマットで行動関連情報を表現している。 この概念では、視覚は知覚データによって駆動され、その処理がデータから潜在変数へと進行するので、知覚は直接的である。 この概念における「干渉」の概念は、画像を処理するフィードフォワード畳み込み畳み込みニューラルネットワークが推論を行うと言われる、ニューラルネットワークに関する工学文献である。 オルタナティブな概念は、ヘルムホルツの意味での推論過程としての視覚であり、そこでは感覚的証拠が因果過程の生成モデル(英語版)の文脈で評価される。 この概念では、視覚は、しばしば、代替仮説の可能性を評価するために感覚データのトップダウン予測を含むと考えられるプロセスにおいて、証拠の尋問を通じて生成モデルを反転させる。 著者らは、各概念のほぼ等しい数に根ざし、それらの間の誤った二分法を克服し、理論と実験の領域で他の視点に取り組みたいという動機を持っている。 霊長類の脳は、両方の概念の利点を組み合わせた未知のアルゴリズムを用いる。 本稿では,この用語を説明し,重要な実証的証拠を検証し,二分法を超越し,霊長類視覚の謎のハイブリッドアルゴリズムを明らかにするための実験的な研究プログラムを提案する。

Vision is widely understood as an inference problem. However, two contrasting conceptions of the inference process have each been influential in research on biological vision as well as the engineering of machine vision. The first emphasizes bottom-up signal flow, describing vision as a largely feedforward, discriminative inference process that filters and transforms the visual information to remove irrelevant variation and represent behaviorally relevant information in a format suitable for downstream functions of cognition and behavioral control. In this conception, vision is driven by the sensory data, and perception is direct because the processing proceeds from the data to the latent variables of interest. The notion of "inference" in this conception is that of the engineering literature on neural networks, where feedforward convolutional neural networks processing images are said to perform inference. The alternative conception is that of vision as an inference process in Helmholtz's sense, where the sensory evidence is evaluated in the context of a generative model of the causal processes giving rise to it. In this conception, vision inverts a generative model through an interrogation of the evidence in a process often thought to involve top-down predictions of sensory data to evaluate the likelihood of alternative hypotheses. The authors include scientists rooted in roughly equal numbers in each of the conceptions and motivated to overcome what might be a false dichotomy between them and engage the other perspective in the realm of theory and experiment. The primate brain employs an unknown algorithm that may combine the advantages of both conceptions. We explain and clarify the terminology, review the key empirical evidence, and propose an empirical research program that transcends the dichotomy and sets the stage for revealing the mysterious hybrid algorithm of primate vision.
翻訳日:2024-01-12 13:43:33 公開日:2024-01-11
# trips:リアルタイムラミアンスフィールドレンダリングのためのトリリニア点スプレーティング

TRIPS: Trilinear Point Splatting for Real-Time Radiance Field Rendering ( http://arxiv.org/abs/2401.06003v1 )

ライセンス: Link先を確認
Linus Franke, Darius R\"uckert, Laura Fink, Marc Stamminger(参考訳) 点ベースの放射場レンダリングは、新しいビュー合成の印象的な結果を示し、レンダリング品質と計算効率のブレンドを提供する。 しかし、このドメインにおける最新のアプローチには欠点がないわけではない。 3D Gaussian Splatting [Kerbl and Kopanas et al. 2023]は、ぼやけや曇りのアーティファクトのために、非常に詳細なシーンをレンダリングする作業に苦労している。 一方、adop [r\"uckert et al. 2022] はより鮮明な画像に対応できるが、ニューラルネットワークは性能を低下させ、時間的不安定さに陥り、ポイントクラウドの大きなギャップに効果的に対応できない。 本稿では,ガウス版とADOP版の両方のアイデアを組み合わせたTRIPS(Trilinear Point Splatting)を提案する。 提案手法の背後にある基本的な概念は,スクリーン空間像ピラミッドに点をラスタライズし,投影された点の大きさでピラミッド層を選択することである。 このアプローチでは、1つのトリ線形書き込みを使って任意の大きなポイントをレンダリングできる。 次に、軽量ニューラルネットワークを使用して、スプラッター解像度を超える詳細を含む穴のないイメージを再構築する。 重要なことに、レンダリングパイプラインは完全に微分可能で、ポイントサイズと位置の両方を自動的に最適化できます。 本評価は, リアルタイムフレームレートを60フレーム/秒に維持しつつ, レンダリング品質の観点から, TRIPSが既存の最先端手法を上回ることを示す。 このパフォーマンスは、複雑な幾何学、広大な風景、自動露光映像など、困難なシナリオにまで拡張されている。

Point-based radiance field rendering has demonstrated impressive results for novel view synthesis, offering a compelling blend of rendering quality and computational efficiency. However, also latest approaches in this domain are not without their shortcomings. 3D Gaussian Splatting [Kerbl and Kopanas et al. 2023] struggles when tasked with rendering highly detailed scenes, due to blurring and cloudy artifacts. On the other hand, ADOP [R\"uckert et al. 2022] can accommodate crisper images, but the neural reconstruction network decreases performance, it grapples with temporal instability and it is unable to effectively address large gaps in the point cloud. In this paper, we present TRIPS (Trilinear Point Splatting), an approach that combines ideas from both Gaussian Splatting and ADOP. The fundamental concept behind our novel technique involves rasterizing points into a screen-space image pyramid, with the selection of the pyramid layer determined by the projected point size. This approach allows rendering arbitrarily large points using a single trilinear write. A lightweight neural network is then used to reconstruct a hole-free image including detail beyond splat resolution. Importantly, our render pipeline is entirely differentiable, allowing for automatic optimization of both point sizes and positions. Our evaluation demonstrate that TRIPS surpasses existing state-of-the-art methods in terms of rendering quality while maintaining a real-time frame rate of 60 frames per second on readily available hardware. This performance extends to challenging scenarios, such as scenes featuring intricate geometry, expansive landscapes, and auto-exposed footage.
翻訳日:2024-01-12 13:43:03 公開日:2024-01-11
# 人間活動認識と人-コンピュータインタラクションのための体-領域容量または電場センシング:総合的調査

Body-Area Capacitive or Electric Field Sensing for Human Activity Recognition and Human-Computer Interaction: A Comprehensive Survey ( http://arxiv.org/abs/2401.06000v1 )

ライセンス: Link先を確認
Sizhen Bian and Mengxi Liu and Bo Zhou and Paul Lukowicz and Michele Magno(参考訳) 人体の約60%が本質的に水で構成されているという事実から、人体は本質的に導電性のある物体であり、第一に、身体から周囲への固有の電界を形成でき、第二に、体の近くの既存の電界の分布を変形させることができる。 体圏静電容量センシング(体圏電場センシング)は、人間の活動認識や人間とコンピュータの相互作用において、ウェアラブルデバイスが特定のタスクを達成するための、有望な代替手段になりつつある。 過去10年間で、研究者は体圏の電場に支えられた多くの新しいセンシングシステムを調査してきた。 一方, 全身電界探査は広く行われているが, 啓蒙ガイドラインについては総合的な調査は行われていない。 さらに、様々なハードウェア実装、応用アルゴリズム、および対象とするアプリケーションにより、主題を体系的に概観する困難なタスクがもたらされる。 本研究の目的は,既存の身体領域静電容量センシングの成果を包括的に要約することで,研究者が現在の探査状況をよりよく把握できるようにすることである。 そこで本研究では,まず,身体部分電界,全身電界,体間電界の3つの領域に分類し,支援されたセンシング手法と対象とする応用の詳細な調査を行い,各領域における最先端の工芸品を列挙した。 次に,身体領域の静電容量センシングの最も重要な部分である回路設計における3種類のセンシングフロントエンドを要約し,データ処理パイプラインを3種類のアプローチに分類した。 最後に,身体領域電気センシングの課題と展望について述べる。

Due to the fact that roughly sixty percent of the human body is essentially composed of water, the human body is inherently a conductive object, being able to, firstly, form an inherent electric field from the body to the surroundings and secondly, deform the distribution of an existing electric field near the body. Body-area capacitive sensing, also called body-area electric field sensing, is becoming a promising alternative for wearable devices to accomplish certain tasks in human activity recognition and human-computer interaction. Over the last decade, researchers have explored plentiful novel sensing systems backed by the body-area electric field. On the other hand, despite the pervasive exploration of the body-area electric field, a comprehensive survey does not exist for an enlightening guideline. Moreover, the various hardware implementations, applied algorithms, and targeted applications result in a challenging task to achieve a systematic overview of the subject. This paper aims to fill in the gap by comprehensively summarizing the existing works on body-area capacitive sensing so that researchers can have a better view of the current exploration status. To this end, we first sorted the explorations into three domains according to the involved body forms: body-part electric field, whole-body electric field, and body-to-body electric field, and enumerated the state-of-art works in the domains with a detailed survey of the backed sensing tricks and targeted applications. We then summarized the three types of sensing frontends in circuit design, which is the most critical part in body-area capacitive sensing, and analyzed the data processing pipeline categorized into three kinds of approaches. Finally, we described the challenges and outlooks of body-area electric sensing.
翻訳日:2024-01-12 13:42:32 公開日:2024-01-11
# マルチエージェント・ディベートによる敵攻撃

Combating Adversarial Attacks with Multi-Agent Debate ( http://arxiv.org/abs/2401.05998v1 )

ライセンス: Link先を確認
Steffi Chern, Zhen Fan, Andy Liu(参考訳) 最先端の言語モデルは印象的な成果を上げているが、赤チームが生成する敵のプロンプトなど、推論時の敵攻撃の影響を受けやすいままである。 言語モデル生成の一般的な品質を改善するための1つのアプローチは、言語モデルが議論とフィードバックを通じて自己評価を行うマルチエージェントの議論である。 我々は、現在の最先端言語モデル間のマルチエージェントの議論を実装し、シングルエージェントとマルチエージェントの両方でレッドチーム攻撃に対するモデルの感受性を評価する。 マルチエージェントの議論は、ジェイルブレイクまたはあまり有能でないモデルが非ジェイルブレイクまたはより有能なモデルで議論せざるを得ない場合、モデル毒性を減らすことができる。 また,マルチエージェントインタラクションの一般利用による限界改善も見出す。 さらに, 組込みクラスタリングにより, 敵対的プロンプトコンテンツ分類を行い, 異なる種類の攻撃トピックに対する異なるモデルの感受性を解析する。

While state-of-the-art language models have achieved impressive results, they remain susceptible to inference-time adversarial attacks, such as adversarial prompts generated by red teams arXiv:2209.07858. One approach proposed to improve the general quality of language model generations is multi-agent debate, where language models self-evaluate through discussion and feedback arXiv:2305.14325. We implement multi-agent debate between current state-of-the-art language models and evaluate models' susceptibility to red team attacks in both single- and multi-agent settings. We find that multi-agent debate can reduce model toxicity when jailbroken or less capable models are forced to debate with non-jailbroken or more capable models. We also find marginal improvements through the general usage of multi-agent interactions. We further perform adversarial prompt content classification via embedding clustering, and analyze the susceptibility of different models to different types of attack topics.
翻訳日:2024-01-12 13:41:59 公開日:2024-01-11
# PANDORA:GPU上の単一リンククラスタリングのための並列デンドログラム構築アルゴリズム

PANDORA: A Parallel Dendrogram Construction Algorithm for Single Linkage Clustering on GPU ( http://arxiv.org/abs/2401.06089v1 )

ライセンス: Link先を確認
Piyush Sao, Andrey Prokopenko, Damien Lebrun-Grandi\'e(参考訳) 本稿では,hdbscanを含む単一リンク階層クラスタリングのためのデンドログラムを効率的に構築する並列アルゴリズムである \pandora を提案する。 最小分散木(MST)からの伝統的なデンドログラム構築法は、特に実世界のデータに共通する歪んだデンドログラムにおいて、凝集法や分割法のような効率よく並列化できないことが多い。 \pandoraは、最初のデンドログラム構築のためにツリーを単純化し、それから徐々に完全なデンドログラムを再構築するユニークな再帰的木収縮法によってこれらの課題に対処する。 このプロセスは、デンドログラムの歪みから独立して、漸近的に作業最適化を行う。 \pandoraのすべてのステップは完全に並列であり、GPUのような大規模スレッドのアクセラレータに適している。 実装はKokkosで記述されており、CPUとマルチベンダGPU(Nvidia、AMDなど)の両方をサポートしています。 マルチスレッドバージョンの \pandora は現在のベストマルチスレッド実装よりも2.2$\times$ 速く、GPU \pandora の実装は \amdgpu 上で 6-20$\times$ と 10-37$\times$ を達成している。 これらの進歩は、GPU上での \hdbscan の6倍のスピードアップにつながり、これはGPUに MST の構築をオフロードし、マルチスレッドのdendrogram 構築を実行するだけである。

This paper presents \pandora, a novel parallel algorithm for efficiently constructing dendrograms for single-linkage hierarchical clustering, including \hdbscan. Traditional dendrogram construction methods from a minimum spanning tree (MST), such as agglomerative or divisive techniques, often fail to efficiently parallelize, especially with skewed dendrograms common in real-world data. \pandora addresses these challenges through a unique recursive tree contraction method, which simplifies the tree for initial dendrogram construction and then progressively reconstructs the complete dendrogram. This process makes \pandora asymptotically work-optimal, independent of dendrogram skewness. All steps in \pandora are fully parallel and suitable for massively threaded accelerators such as GPUs. Our implementation is written in Kokkos, providing support for both CPUs and multi-vendor GPUs (e.g., Nvidia, AMD). The multithreaded version of \pandora is 2.2$\times$ faster than the current best-multithreaded implementation, while the GPU \pandora implementation achieved 6-20$\times$ on \amdgpu and 10-37$\times$ on \nvidiagpu speed-up over multithreaded \pandora. These advancements lead to up to a 6-fold speedup for \hdbscan on GPUs over the current best, which only offload MST construction to GPUs and perform multithreaded dendrogram construction.
翻訳日:2024-01-12 13:35:44 公開日:2024-01-11
# 大規模言語モデルを用いた電子健康記録における主訴のオートコンプリート

Autocompletion of Chief Complaints in the Electronic Health Records using Large Language Models ( http://arxiv.org/abs/2401.06088v1 )

ライセンス: Link先を確認
K M Sajjadul Islam, Ayesha Siddika Nipu, Praveen Madiraju, Priya Deshpande(参考訳) The Chief Complaint (CC)は、患者の医療記録の重要な要素であり、医療を求める主な理由や関心を記述している。 医療提供者に対して、患者のケアに関する情報的な決定を行うための重要な情報を提供する。 しかし、CCの文書化は医療提供者、特に救急医療機関にとって時間を要する可能性がある。 この問題に対処するために, 正確な語句や文章を臨床ノートとして提示する自動補完ツールは, 看護婦にとって貴重な資源となる。 本研究では,ccデータを用いた機械学習モデルの構築にテキスト生成手法を用いた。 提案手法では,バイオメディカル・ジェネレーティブ・プレトレーニング・トランスフォーマー(BioGPT),マイクロソフト/バイオグラフィ,マイクロソフト/ビオGPT-ラージ,マイクロソフト/ビオGPT-ラージ-PubMedQAの3種類の長短期記憶(LSTM)モデルを訓練する。 さらに, GPT-4 の OpenAI API を利用して, CC 文を組み込むことにより, プロンプトの調整を行う。 モデルの性能をパープレキシティスコア,修正bertscoreスコア,コサイン類似度スコアに基づいて評価した。 その結果,BioGPT-Largeは他のモデルに比べて優れた性能を示した。 CCを生成する際、非常に低いパープレキシティスコアは1.65で、ベースラインLSTMモデルは170で最高のパープレキシティスコアを得る。 さらに,提案したモデルの性能と GPT-4.0 の結果を評価し,評価する。 本研究は,BioGPTなどのLCMを利用することで,医療環境におけるCCドキュメンテーション生成に有効な自動補完ツールの開発につながることを示す。

The Chief Complaint (CC) is a crucial component of a patient's medical record as it describes the main reason or concern for seeking medical care. It provides critical information for healthcare providers to make informed decisions about patient care. However, documenting CCs can be time-consuming for healthcare providers, especially in busy emergency departments. To address this issue, an autocompletion tool that suggests accurate and well-formatted phrases or sentences for clinical notes can be a valuable resource for triage nurses. In this study, we utilized text generation techniques to develop machine learning models using CC data. In our proposed work, we train a Long Short-Term Memory (LSTM) model and fine-tune three different variants of Biomedical Generative Pretrained Transformers (BioGPT), namely microsoft/biogpt, microsoft/BioGPT-Large, and microsoft/BioGPT-Large-PubMedQA. Additionally, we tune a prompt by incorporating exemplar CC sentences, utilizing the OpenAI API of GPT-4. We evaluate the models' performance based on the perplexity score, modified BERTScore, and cosine similarity score. The results show that BioGPT-Large exhibits superior performance compared to the other models. It consistently achieves a remarkably low perplexity score of 1.65 when generating CC, whereas the baseline LSTM model achieves the best perplexity score of 170. Further, we evaluate and assess the proposed models' performance and the outcome of GPT-4.0. Our study demonstrates that utilizing LLMs such as BioGPT, leads to the development of an effective autocompletion tool for generating CC documentation in healthcare settings.
翻訳日:2024-01-12 13:35:15 公開日:2024-01-11
# XGBoost Learning of Dynamic Wager Placement for In-Play Bentting on a Agent-based model of a Sports Bentting Exchange (特集 スポーツベッティング)

XGBoost Learning of Dynamic Wager Placement for In-Play Betting on an Agent-Based Model of a Sports Betting Exchange ( http://arxiv.org/abs/2401.06086v1 )

ライセンス: Link先を確認
Chawin Terawong and Dave Cliff(参考訳) 本稿では,競馬などのトラックレースイベントにおいて,現代のスポーツ・ベッティング交換を模擬したオープンソースのエージェントベースモデル(ABM)であるブリストル・ベッティング・エクスチェンジ(BBE)において,機械学習(ML)手法であるXGBoostを用いた最初の結果を示す。 我々はBBE ABMとその最小限のベクターエージェントの配列を、我々のXGBoost MLシステムに供給する合成データジェネレータとして使用し、BBEベクターエージェントのより利益率の高いベクターから学習することで、XGBoostが利益率の高い動的ベッティング戦略を発見することを意図している。 1つ以上の決定木を生じるこのxgboostトレーニングの後、xgboost主導決定木(s)によって決定される賭け戦略を持つベクターエージェントをbbe abmに追加し、様々な条件と賭け市場シナリオにおける一連のレースに賭け、利益性が比較評価の第一の基準となるようにした。 この方法でトレーニングされたXGBoostは、実際に収益性のあるベッティング戦略を学習でき、トレーニングデータの作成に使用する戦略のセットよりも優れた戦略を学習できるように一般化できることを示す。 さらなる研究と強化を促進するため、XGBoost統合を含む拡張されたBBEの完全なバージョンが、GitHubでオープンソースリリースとして無償公開されている。

We present first results from the use of XGBoost, a highly effective machine learning (ML) method, within the Bristol Betting Exchange (BBE), an open-source agent-based model (ABM) designed to simulate a contemporary sports-betting exchange with in-play betting during track-racing events such as horse races. We use the BBE ABM and its array of minimally-simple bettor-agents as a synthetic data generator which feeds into our XGBoost ML system, with the intention that XGBoost discovers profitable dynamic betting strategies by learning from the more profitable bets made by the BBE bettor-agents. After this XGBoost training, which results in one or more decision trees, a bettor-agent with a betting strategy determined by the XGBoost-learned decision tree(s) is added to the BBE ABM and made to bet on a sequence of races under various conditions and betting-market scenarios, with profitability serving as the primary metric of comparison and evaluation. Our initial findings presented here show that XGBoost trained in this way can indeed learn profitable betting strategies, and can generalise to learn strategies that outperform each of the set of strategies used for creation of the training data. To foster further research and enhancements, the complete version of our extended BBE, including the XGBoost integration, has been made freely available as an open-source release on GitHub.
翻訳日:2024-01-12 13:34:44 公開日:2024-01-11
# 最小編集制約によるきめ細かい強化学習による大規模言語モデルの改善

Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint ( http://arxiv.org/abs/2401.06081v1 )

ライセンス: Link先を確認
Zhipeng Chen, Kun Zhou, Wayne Xin Zhao, Junchen Wan, Fuzheng Zhang, Di Zhang and Ji-Rong Wen(参考訳) 強化学習(RL)は、予期せぬアウトプットを防止し、有害性とエラーを減らすために、大規模言語モデルのトレーニングに広く用いられている。 しかし、既存のRLメソッドは、主にインスタンスレベルの報酬を採用しており、複雑な推論タスクのきめ細かい監督を提供することができず、不正につながるいくつかのキートークンに集中できない。 そこで本研究では,生成モデルを報酬モデルとして組み込んだ新しいRL手法を提案する。これは,最小編集制約下での誤解書き換えタスクによってトレーニングされ,RLトレーニングのためのトークンレベル報酬を生成することができる。 生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。 両方の目的は、誤った解に対するキートークンの学習に集中し、他の重要でないトークンの影響を減らします。 数学的タスクと質問応答タスクの実験結果から,本手法の有効性が示された。 私たちのコードとデータは、 \url{https://github.com/RUCAIBox/RLMEC}で利用可能です。

Reinforcement learning (RL) has been widely used in training large language models~(LLMs) for preventing unexpected outputs, \eg reducing harmfulness and errors. However, existing RL methods mostly adopt the instance-level reward, which is unable to provide fine-grained supervision for complex reasoning tasks, and can not focus on the few key tokens that lead to the incorrectness. To address it, we propose a new RL method named \textbf{RLMEC} that incorporates a generative model as the reward model, which is trained by the erroneous solution rewriting task under the minimum editing constraint, and can produce token-level rewards for RL training. Based on the generative reward model, we design the token-level RL objective for training and an imitation-based regularization for stabilizing RL process. And the both objectives focus on the learning of the key tokens for the erroneous solution, reducing the effect of other unimportant tokens. The experiment results on mathematical tasks and question-answering tasks have demonstrated the effectiveness of our approach. Our code and data are available at \url{https://github.com/RUCAIBox/RLMEC}.
翻訳日:2024-01-12 13:34:10 公開日:2024-01-11
# 大言語モデルにおけるrlhfの秘密 その2:報酬モデリング

Secrets of RLHF in Large Language Models Part II: Reward Modeling ( http://arxiv.org/abs/2401.06080v1 )

ライセンス: Link先を確認
Binghai Wang, Rui Zheng, Lu Chen, Yan Liu, Shihan Dou, Caishuang Huang, Wei Shen, Senjie Jin, Enyu Zhou, Chenyu Shi, Songyang Gao, Nuo Xu, Yuhao Zhou, Xiaoran Fan, Zhiheng Xi, Jun Zhao, Xiao Wang, Tao Ji, Hang Yan, Lixing Shen, Zhan Chen, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang(参考訳) Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の価値観と意図を整合させる重要な技術となり、モデルがより有用で無害な応答を生成できるようにする。 報酬モデルは強化学習最適化を推進するために人間の好みのプロキシとして訓練される。 報酬モデルはしばしば高いパフォーマンスを達成する上で重要であると考えられているが、(1)データセット内の不正確で曖昧な選好ペアは、報酬モデルが人間の意図を正確に捉えるのを妨げる可能性がある。 2)特定の分布のデータに基づいてトレーニングされたリワードモデルは,その分布外の例に一般化するのに苦労することが多く,反復的なRLHFトレーニングには適さない。 本稿では,この2つの問題に対処する。 1)データの観点から,複数の報酬モデルの投票機構に基づいて,データ内の嗜好の強さを測定する手法を提案する。 実験の結果,選好強度の異なるデータは報奨モデルの性能に異なる影響を与えることがわかった。 本稿では,データセットにおける不正確かつ曖昧な選好の影響を緩和し,高品質な選好データを完全に活用する手法を提案する。 2)アルゴリズムの観点からは,報酬モデルが選択された応答と拒否された応答を区別する能力を高め,モデル一般化を改善するために,コントラッシブラーニングを導入する。 さらに,報奨モデルを用いたメタラーニングにより,配布外サンプルの微妙な差異を識別する能力を維持し,本手法を反復的RLHF最適化に利用することができる。

Reinforcement Learning from Human Feedback (RLHF) has become a crucial technology for aligning language models with human values and intentions, enabling models to produce more helpful and harmless responses. Reward models are trained as proxies for human preferences to drive reinforcement learning optimization. While reward models are often considered central to achieving high performance, they face the following challenges in practical applications: (1) Incorrect and ambiguous preference pairs in the dataset may hinder the reward model from accurately capturing human intent. (2) Reward models trained on data from a specific distribution often struggle to generalize to examples outside that distribution and are not suitable for iterative RLHF training. In this report, we attempt to address these two issues. (1) From a data perspective, we propose a method to measure the strength of preferences within the data, based on a voting mechanism of multiple reward models. Experimental results confirm that data with varying preference strengths have different impacts on reward model performance. We introduce a series of novel methods to mitigate the influence of incorrect and ambiguous preferences in the dataset and fully leverage high-quality preference data. (2) From an algorithmic standpoint, we introduce contrastive learning to enhance the ability of reward models to distinguish between chosen and rejected responses, thereby improving model generalization. Furthermore, we employ meta-learning to enable the reward model to maintain the ability to differentiate subtle differences in out-of-distribution samples, and this approach can be utilized for iterative RLHF optimization.
翻訳日:2024-01-12 13:33:52 公開日:2024-01-11
# 歴史の連鎖: 時間知識グラフ補完のためのLLMによる学習と予測

Chain of History: Learning and Forecasting with LLMs for Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2401.06072v1 )

ライセンス: Link先を確認
Ruilin Luo, Tianle Gu, Haoling Li, Junzhe Li, Zicheng Lin, Jiayi Li, Yujiu Yang(参考訳) 時間的知識グラフ補完(tkgc)は、確立された時間的構造的知識を活用し、将来のタイムスタンプにおけるイベントリンクの欠落を予測する困難なタスクである。 本稿では,LLM(LLMs)に固有の強い生成能力を考慮し,時系列リンク予測を歴史的イベントチェーンの文脈内でイベント生成タスクとして概念化する手法を提案する。 我々は,LLMを時間的時系列で発見された特定のグラフテキスト情報やパターンに適応させるために,効率的な微調整手法を用いる。 さらに,構造に基づく歴史的データ拡張とリバース知識の統合を導入し,構造情報の認識を強調することで,その推論能力を高める。 我々は、広く使われている複数のデータセットの徹底的な実験を行い、微調整されたモデルが既存の埋め込みベースのモデルを複数のメトリクスで上回り、SOTA結果を達成することを発見した。 また,LLMが構造化時間的知識推論タスクを行う際の重要な要因について,十分なアブレーション実験を行った。

Temporal Knowledge Graph Completion (TKGC) is a challenging task of predicting missing event links at future timestamps by leveraging established temporal structural knowledge. Given the formidable generative capabilities inherent in LLMs (LLMs), this paper proposes a novel approach to conceptualize temporal link prediction as an event generation task within the context of a historical event chain. We employ efficient fine-tuning methods to make LLMs adapt to specific graph textual information and patterns discovered in temporal timelines. Furthermore, we introduce structure-based historical data augmentation and the integration of reverse knowledge to emphasize LLMs' awareness of structural information, thereby enhancing their reasoning capabilities. We conduct thorough experiments on multiple widely used datasets and find that our fine-tuned model outperforms existing embedding-based models on multiple metrics, achieving SOTA results. We also carry out sufficient ablation experiments to explore the key influencing factors when LLMs perform structured temporal knowledge inference tasks.
翻訳日:2024-01-12 13:33:26 公開日:2024-01-11
# lego:言語拡張マルチモーダルグラウンドモデル

LEGO:Language Enhanced Multi-modal Grounding Model ( http://arxiv.org/abs/2401.06071v1 )

ライセンス: Link先を確認
Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai, Qi Qi, Ran Zhou, Junting Pan, Zefeng Li, Van Tu Vu, Zhida Huang, Tao Wang(参考訳) マルチモーダルな大規模言語モデルは、様々なタスクにおいて異なるモーダルで印象的なパフォーマンスを示している。 しかし、既存のマルチモーダルモデルは、各モーダル内でのグローバルな情報の収集に重点を置いている。 したがって、これらのモデルは入力データの詳細な詳細を効果的に理解する能力がなく、より微妙な理解を必要とするタスクのパフォーマンスを制限している。 この制限に対処するためには、複数のモダリティをまたいできめ細かな理解を可能にし、幅広いタスクに適用性を高めるモデルを開発する必要がある。 本稿では,言語拡張型マルチモーダルグラウンドモデルであるLEGOを提案する。 他のマルチモーダルモデルのようなグローバルな情報をキャプチャする以外に、提案モデルでは、入力内のローカル情報の詳細な理解を要求するタスクに優れています。 ビデオ内の画像や瞬間における特定の領域の正確な識別と位置決定を示す。 この目的を達成するために,多様なデータセット構築パイプラインを設計し,モデルトレーニングのためのマルチモーダル・マルチグラニュラ性データセットを作成する。 私たちのモデルのコード、データセット、デモは、https: //github.com/lzw-lzw/LEGOにある。

Multi-modal large language models have demonstrated impressive performance across various tasks in different modalities. However, existing multi-modal models primarily emphasize capturing global information within each modality while neglecting the importance of perceiving local information across modalities. Consequently, these models lack the ability to effectively understand the fine-grained details of input data, limiting their performance in tasks that require a more nuanced understanding. To address this limitation, there is a compelling need to develop models that enable fine-grained understanding across multiple modalities, thereby enhancing their applicability to a wide range of tasks. In this paper, we propose LEGO, a language enhanced multi-modal grounding model. Beyond capturing global information like other multi-modal models, our proposed model excels at tasks demanding a detailed understanding of local information within the input. It demonstrates precise identification and localization of specific regions in images or moments in videos. To achieve this objective, we design a diversified dataset construction pipeline, resulting in a multi-modal, multi-granularity dataset for model training. The code, dataset, and demo of our model can be found at https: //github.com/lzw-lzw/LEGO.
翻訳日:2024-01-12 13:33:08 公開日:2024-01-11
# peridynamic neural operators: 複雑な材料応答のためのデータ駆動型非局所構成モデル

Peridynamic Neural Operators: A Data-Driven Nonlocal Constitutive Model for Complex Material Responses ( http://arxiv.org/abs/2401.06070v1 )

ライセンス: Link先を確認
Siavash Jafarzadeh, Stewart Silling, Ning Liu, Zhongqiang Zhang, Yue Yu(参考訳) 隠れた支配方程式の暗黙の解演算子として機能するニューラルネットワークは最近、複雑な実世界の物理システムの応答を学ぶための一般的なツールになっている。 それでも、これまでのニューラル演算子アプリケーションはデータ駆動であり、データの基本物理法則の保存を無視している。 本研究では,データから非局所構成則を学習するperiondynamic neural operator (pno) と呼ばれる新しい積分型ニューラルネットワークアーキテクチャを提案する。 このニューラル作用素は、客観性と運動量バランス法則が自動的に保証される状態ベースペリダイナミックスという形でフォワードモデルを提供する。 応用として,合成データと実験データの両方から複雑な物質挙動を学習する際のモデルの有効性と有効性を示す。 複雑な応答を捉える能力により、学習したニューラル演算子は、事前定義された構成法則を使用するベースラインモデルと比較して、精度と効率を向上させる。 さらに、ニューラルネットワークアーキテクチャにおける必須物理法則を保存することにより、PNOはノイズの多いデータを扱う上で堅牢である。 この方法は、異なるドメイン構成、外部ローディング、および離散化に対する一般化性を示す。

Neural operators, which can act as implicit solution operators of hidden governing equations, have recently become popular tools for learning the responses of complex real-world physical systems. Nevertheless, most neural operator applications have thus far been data-driven and neglect the intrinsic preservation of fundamental physical laws in data. In this work, we introduce a novel integral neural operator architecture called the Peridynamic Neural Operator (PNO) that learns a nonlocal constitutive law from data. This neural operator provides a forward model in the form of state-based peridynamics, with objectivity and momentum balance laws automatically guaranteed. As applications, we demonstrate the expressivity and efficacy of our model in learning complex material behaviors from both synthetic and experimental data sets. We show that, owing to its ability to capture complex responses, our learned neural operator achieves improved accuracy and efficiency compared to baseline models that use predefined constitutive laws. Moreover, by preserving the essential physical laws within the neural network architecture, the PNO is robust in treating noisy data. The method shows generalizability to different domain configurations, external loadings, and discretizations.
翻訳日:2024-01-12 13:32:49 公開日:2024-01-11
# DeepSeekMoE:Mixture-of-Experts言語モデルの究極的な専門家スペシャライゼーションを目指して

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models ( http://arxiv.org/abs/2401.06066v1 )

ライセンス: Link先を確認
Damai Dai, Chengqi Deng, Chenggang Zhao, R.X. Xu, Huazuo Gao, Deli Chen, Jiashi Li, Wangding Zeng, Xingkai Yu, Y. Wu, Zhenda Xie, Y.K. Li, Panpan Huang, Fuli Luo, Chong Ruan, Zhifang Sui, Wenfeng Liang(参考訳) 大規模言語モデルの時代において、Mixture-of-Experts (MoE) はモデルパラメータをスケールアップする際の計算コストを管理するための有望なアーキテクチャである。 しかし、GShardのような従来のMoEアーキテクチャは、$N$のエキスパートのうち最高額のK$を活性化し、専門家の専門化を保証するという課題に直面している。 本稿では,DeepSeekMoEアーキテクチャを究極的専門化に向けて提案する。 1) 専門家をmn$ 1 に細かく分割し、それらから $mk$ を活性化し、活性化された専門家のより柔軟な組み合わせを可能にする。 2Bパラメータを持つ控えめなスケールから始めて、DeepSeekMoE 2Bは、エキスパートパラメータと計算の1.5倍のGShard 2.9Bで同等のパフォーマンスを達成することを示した。 さらに、DeepSeekMoE 2Bは、MoEモデルの上限を設定できる合計パラメータの数と同じで、その密度の高い性能にほぼ近づいた。 次に、DeepSeekMoEを16Bパラメータにスケールアップし、LLaMA2 7Bと同等の性能を示し、計算の約40%しか処理しない。 さらに、DeepSeekMoEを145Bパラメータにスケールアップするための予備的な取り組みは、GShardアーキテクチャに対するその実質的な優位性を一貫して評価し、28.5%(18.2%)の計算しか使用せず、DeepSeek 67Bに匹敵する性能を示した。

In the era of large language models, Mixture-of-Experts (MoE) is a promising architecture for managing computational costs when scaling up model parameters. However, conventional MoE architectures like GShard, which activate the top-$K$ out of $N$ experts, face challenges in ensuring expert specialization, i.e. each expert acquires non-overlapping and focused knowledge. In response, we propose the DeepSeekMoE architecture towards ultimate expert specialization. It involves two principal strategies: (1) finely segmenting the experts into $mN$ ones and activating $mK$ from them, allowing for a more flexible combination of activated experts; (2) isolating $K_s$ experts as shared ones, aiming at capturing common knowledge and mitigating redundancy in routed experts. Starting from a modest scale with 2B parameters, we demonstrate that DeepSeekMoE 2B achieves comparable performance with GShard 2.9B, which has 1.5 times the expert parameters and computation. In addition, DeepSeekMoE 2B nearly approaches the performance of its dense counterpart with the same number of total parameters, which set the upper bound of MoE models. Subsequently, we scale up DeepSeekMoE to 16B parameters and show that it achieves comparable performance with LLaMA2 7B, with only about 40% of computations. Further, our preliminary efforts to scale up DeepSeekMoE to 145B parameters consistently validate its substantial advantages over the GShard architecture, and show its performance comparable with DeepSeek 67B, using only 28.5% (maybe even 18.2%) of computations.
翻訳日:2024-01-12 13:32:30 公開日:2024-01-11
# 回転共分散は利用可能な量子状態を制限する

Rotational covariance restricts available quantum states ( http://arxiv.org/abs/2401.06064v1 )

ライセンス: Link先を確認
Fynn Otto and Konrad Szyma\'nski(参考訳) 角運動量とスピンの量子状態は、一般に基準フレームの回転の下で不変ではない。 したがって、それらは、考慮中の状態の非対称性にエンコードされる相対配向の資源として使用できる。 本稿では, 群特性関数を多項式関数でパラメータ化することにより, 回転情報の解析的特徴付けを行う。 これにより、$SU(2)$-共変チャネルを通じて達成可能な状態の集合が解析的特性を認め、半定値最適化手法を用いて研究できることが示される。 開発した手法を例に示す。

Quantum states of angular momentum and spin generally are not invariant under rotations of the reference frame. Therefore, they can be used as a resource of relative orientation, which is encoded in the asymmetry of the state under consideration. In this paper we introduce the analytical characterization of the rotational information by parameterizing the group characteristic function by polynomial functions. By doing so, we show that the set of states achievable through $SU(2)$-covariant channels admits an analytical characterization and can be studied through the use of semidefinite optimization techniques. We demonstrate the developed methods via examples.
翻訳日:2024-01-12 13:31:57 公開日:2024-01-11
# 事前学習言語モデルのためのデータ汚染の調査

Investigating Data Contamination for Pre-training Language Models ( http://arxiv.org/abs/2401.06059v1 )

ライセンス: Link先を確認
Minhao Jiang, Ken Ziyu Liu, Ming Zhong, Rylan Schaeffer, Siru Ouyang, Jiawei Han, Sanmi Koyejo(参考訳) webスケールコーパスで事前トレーニングされた言語モデルは、さまざまな下流タスクで印象的な能力を示している。 しかし、事前学習されたコーパスに含まれている評価データセット -- \textit{data contamination} と呼ばれる現象 -- が、人工的にパフォーマンスを向上させる方法で、そのような能力が生ずるのではないかという懸念が高まっている。 この汚染が下流タスクにおけるLMの性能に与える影響についてはほとんど理解されていない。 本稿では,一連の GPT-2 モデル textit{from scratch} を事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。 評価データから,テキスト汚染(評価サンプルの入力テキスト)と地中汚染(入力に対して要求されたプロンプトと所望の出力)の両方の効果を強調する。 また,様々な下流課題に対する繰り返し汚染の影響についても検討した。 さらに,現状のllm報告におけるn-gramに基づく汚染の定義について検討し,その限界と不備を指摘する。 本研究は, 言語モデル能力に対するデータ汚染の影響に関する新たな知見を提供し, LLM研究における独立した包括的汚染評価の必要性を浮き彫りにした。

Language models pre-trained on web-scale corpora demonstrate impressive capabilities on diverse downstream tasks. However, there is increasing concern whether such capabilities might arise from evaluation datasets being included in the pre-training corpus -- a phenomenon known as \textit{data contamination} -- in a manner that artificially increases performance. There has been little understanding of how this potential contamination might influence LMs' performance on downstream tasks. In this paper, we explore the impact of data contamination at the pre-training stage by pre-training a series of GPT-2 models \textit{from scratch}. We highlight the effect of both text contamination (\textit{i.e.}\ input text of the evaluation samples) and ground-truth contamination (\textit{i.e.}\ the prompts asked on the input and the desired outputs) from evaluation data. We also investigate the effects of repeating contamination for various downstream tasks. Additionally, we examine the prevailing n-gram-based definitions of contamination within current LLM reports, pinpointing their limitations and inadequacy. Our findings offer new insights into data contamination's effects on language model capabilities and underscore the need for independent, comprehensive contamination assessments in LLM studies.
翻訳日:2024-01-12 13:31:48 公開日:2024-01-11
# matsynth: 現代のpbr材料データセット

MatSynth: A Modern PBR Materials Dataset ( http://arxiv.org/abs/2401.06056v1 )

ライセンス: Link先を確認
Giuseppe Vecchio, Valentin Deschaintre(参考訳) 我々は4000ドル以上のCC0超高分解能PBR材料からなるデータセットであるMatSynthを紹介する。 物質は、ジオメトリーの表面における光の相互作用を定義する、仮想的な照準可能な資産の重要な構成要素である。 その重要性から、その表現、創造、獲得に多大な研究が費やされた。 しかし、過去6年間で、ほとんどの材料買収や世代の研究は、同じユニークなデータセットか、会社が所有する巨大な手続き資料ライブラリに頼っていた。 このデータセットでは、以前よりはるかに大きく、より多様性があり、高解像度の材料セットを提案する。 我々は,データ収集プロセスについて慎重に議論し,本データセットが物質取得および生成アプリケーションにもたらすメリットを実証する。 完全なデータには、各材料の起源、ライセンス、カテゴリ、タグ、作成方法、利用可能な場合、説明と物理サイズ、および様々な環境照明の下で1Kの3M+レンダリングを含むメタデータが含まれる。 MatSynthデータセットは、プロジェクトページからリリースされている。

We introduce MatSynth, a dataset of $4,000+$ CC0 ultra-high resolution PBR materials. Materials are crucial components of virtual relightable assets, defining the interaction of light at the surface of geometries. Given their importance, significant research effort was dedicated to their representation, creation and acquisition. However, in the past 6 years, most research in material acquisiton or generation relied either on the same unique dataset, or on company-owned huge library of procedural materials. With this dataset we propose a significantly larger, more diverse, and higher resolution set of materials than previously publicly available. We carefully discuss the data collection process and demonstrate the benefits of this dataset on material acquisition and generation applications. The complete data further contains metadata with each material's origin, license, category, tags, creation method and, when available, descriptions and physical size, as well as 3M+ renderings of the augmented materials, in 1K, under various environment lightings. The MatSynth dataset is released through the project page at: https://www.gvecchio.com/matsynth.
翻訳日:2024-01-12 13:31:29 公開日:2024-01-11
# ダイナミックシーンのための高速高ダイナミックレンジ放射場

Fast High Dynamic Range Radiance Fields for Dynamic Scenes ( http://arxiv.org/abs/2401.06052v1 )

ライセンス: Link先を確認
Guanjun Wu, Taoran Yi, Jiemin Fang, Wenyu Liu, Xinggang Wang(参考訳) Neural Radiances Fields (NeRF)とその拡張は、3Dシーンの表現とノベルビュー画像の合成で大きな成功を収めている。 しかし、ほとんどのNeRF法は低ダイナミックレンジ(LDR)画像を取り込んでいるため、特に一様でない照明では詳細が失われる可能性がある。 以前のNeRF法では、高ダイナミックレンジ(HDR)技術を導入しようとしたが、主に静的シーンをターゲットとしていた。 HDR-HexPlaneという動的2次元画像から3次元シーンを学習できる動的HDRNeRFフレームワークを提案する。 学習可能な露光マッピング機能を構築し、各画像の適応露光値を求める。 単調に増大する先行に基づいて,安定学習のためにカメラ応答関数を設計する。 提案モデルでは,任意の時点における高品質のノベルビュー画像を任意の露出で描画することができる。 さらに,様々な露光で捉えた複数の動的シーンを含むデータセットを構築し,評価を行った。 すべてのデータセットとコードは、 \url{https://guanjunwu.github.io/HDR-HexPlane/}で利用可能である。

Neural Radiances Fields (NeRF) and their extensions have shown great success in representing 3D scenes and synthesizing novel-view images. However, most NeRF methods take in low-dynamic-range (LDR) images, which may lose details, especially with nonuniform illumination. Some previous NeRF methods attempt to introduce high-dynamic-range (HDR) techniques but mainly target static scenes. To extend HDR NeRF methods to wider applications, we propose a dynamic HDR NeRF framework, named HDR-HexPlane, which can learn 3D scenes from dynamic 2D images captured with various exposures. A learnable exposure mapping function is constructed to obtain adaptive exposure values for each image. Based on the monotonically increasing prior, a camera response function is designed for stable learning. With the proposed model, high-quality novel-view images at any time point can be rendered with any desired exposure. We further construct a dataset containing multiple dynamic scenes captured with diverse exposures for evaluation. All the datasets and code are available at \url{https://guanjunwu.github.io/HDR-HexPlane/}.
翻訳日:2024-01-12 13:31:14 公開日:2024-01-11
# グラフニューラルネットワークのパワーとソーシャルネットワーク分類のための特徴強化戦略について

On the Power of Graph Neural Networks and Feature Augmentation Strategies to Classify Social Networks ( http://arxiv.org/abs/2401.06048v1 )

ライセンス: Link先を確認
Walid Guettala and L\'aszl\'o Guly\'as(参考訳) 本稿では,ネットワーク科学の古典的な生成モデルを用いて作成した合成データセット上のグラフ分類タスクのための4つのグラフニューラルネットワークアーキテクチャ(gnns)について述べる。 合成ネットワークは(ノードまたはエッジ)特徴を含まないため、5つの異なる拡張戦略(人工的特徴型)がノードに適用される。 4つのGNN (GCN with Hierarchical and Global aggregate, GIN and GATv2) と5つの特徴タイプ (Constant 1, noise, degree, normalized degree and ID -- a vector of the cycles of various lengths) の組合せについて検討し、その性能をGNNで使用される人工ニューラルネットワークの隠れ次元の関数として比較した。 これらのモデルの一般化能力は、第2の合成ネットワークデータセット(異なるサイズのネットワークを含む)を用いて分析される。 本研究は,GNNアーキテクチャの計算能力のバランスの取れた重要性と,人工的な特徴によって提供される情報レベルに着目した。 GINやGATv2のような高い計算能力を持つGNNアーキテクチャは、ほとんどの拡張戦略でうまく機能する。 一方、IDや次数などの高い情報コンテンツを持つ人工的な機能は、他の拡張戦略を一貫して上回るだけでなく、計算能力の低いGNNアーキテクチャにも役立ち、優れたパフォーマンスを実現することができる。

This paper studies four Graph Neural Network architectures (GNNs) for a graph classification task on a synthetic dataset created using classic generative models of Network Science. Since the synthetic networks do not contain (node or edge) features, five different augmentation strategies (artificial feature types) are applied to nodes. All combinations of the 4 GNNs (GCN with Hierarchical and Global aggregation, GIN and GATv2) and the 5 feature types (constant 1, noise, degree, normalized degree and ID -- a vector of the number of cycles of various lengths) are studied and their performances compared as a function of the hidden dimension of artificial neural networks used in the GNNs. The generalisation ability of these models is also analysed using a second synthetic network dataset (containing networks of different sizes).Our results point towards the balanced importance of the computational power of the GNN architecture and the the information level provided by the artificial features. GNN architectures with higher computational power, like GIN and GATv2, perform well for most augmentation strategies. On the other hand, artificial features with higher information content, like ID or degree, not only consistently outperform other augmentation strategies, but can also help GNN architectures with lower computational power to achieve good performance.
翻訳日:2024-01-12 13:30:56 公開日:2024-01-11
# Oracleの逸脱に対するDeFiスマートコントラクトの保護

Safeguarding DeFi Smart Contracts against Oracle Deviations ( http://arxiv.org/abs/2401.06044v1 )

ライセンス: Link先を確認
Xun Deng, Sidi Mohamed Beillahi, Cyrus Minwalla, Han Du, Andreas Veneris and Fan Long(参考訳) 本稿では,oracle の "skewed" 入力を受けると,分散ファイナンス (defi) プロトコルの挙動を自動的に解析するフレームワークである over を提案する。 まず、与えられた契約についてシンボリック解析を行い、制約のモデルを構築する。 次に、SMTソルバを利用して、セキュアな操作を可能にするパラメータを識別する。 さらに、oracleの値を使用するスマートコントラクトに対してガードステートメントを生成することで、oracleの操作攻撃を効果的に防止することができる。 実験の結果、さまざまなdefiプロトコルを包含する10のベンチマークがすべて解析に成功していることがわかった。 さらに,本論文では,多くのベンチマークで使用されている現在のパラメータが,大きなオラクル偏差に直面した場合の安全性確保に不十分であることを示す。

This paper presents OVer, a framework designed to automatically analyze the behavior of decentralized finance (DeFi) protocols when subjected to a "skewed" oracle input. OVer firstly performs symbolic analysis on the given contract and constructs a model of constraints. Then, the framework leverages an SMT solver to identify parameters that allow its secure operation. Furthermore, guard statements may be generated for smart contracts that may use the oracle values, thus effectively preventing oracle manipulation attacks. Empirical results show that OVer can successfully analyze all 10 benchmarks collected, which encompass a diverse range of DeFi protocols. Additionally, this paper also illustrates that current parameters utilized in the majority of benchmarks are inadequate to ensure safety when confronted with significant oracle deviations.
翻訳日:2024-01-12 13:30:12 公開日:2024-01-11
# 何百万もの動画の視覚・言語モデル

Distilling Vision-Language Models on Millions of Videos ( http://arxiv.org/abs/2401.06129v1 )

ライセンス: Link先を確認
Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Kr\"ahenb\"uhl, Liangzhe Yuan(参考訳) 近年の視覚言語モデルの進歩は、画像テキストデータの豊富さによるところが大きい。 私たちは、この成功をビデオ言語モデルで再現したいと考えていますが、単に、利用可能な人間によるビデオテキストデータがないだけです。 したがって,合成した指導データを用いて,強力な画像言語ベースラインから映像言語モデルを微調整する。 結果として得られるビデオ言語モデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。 我々は,適応型ビデオ言語モデルが幅広いビデオ言語ベンチマークで良好に機能することを示す。 例えば、open-ended next-qaの最高の先行結果を2.8%上回っている。 また,本モデルでは未確認映像の詳細な記述が生成され,既存の手法よりもテキスト管理が優れている。 実験によると、これらの自動生成キャプションで対照的に訓練されたビデオ言語二重エンコーダモデルは、視覚言語モデルも活用する最強のベースラインよりも3.8%良い。 MSR-VTTゼロショットテキスト・ビデオ検索の最先端手法を6%向上させる。

The recent advance in vision-language models is largely attributed to the abundance of image-text data. We aim to replicate this success for video-language models, but there simply is not enough human-curated video-text data available. We thus resort to fine-tuning a video-language model from a strong image-language baseline with synthesized instructional data. The resulting video-language model is then used to auto-label millions of videos to generate high-quality captions. We show the adapted video-language model performs well on a wide range of video-language benchmarks. For instance, it surpasses the best prior result on open-ended NExT-QA by 2.8%. Besides, our model generates detailed descriptions for previously unseen videos, which provide better textual supervision than existing methods. Experiments show that a video-language dual-encoder model contrastively trained on these auto-generated captions is 3.8% better than the strongest baseline that also leverages vision-language models. Our best model outperforms state-of-the-art methods on MSR-VTT zero-shot text-to-video retrieval by 6%.
翻訳日:2024-01-12 13:12:40 公開日:2024-01-11
# E$^{2}$GAN:画像間翻訳のための効率的なGANの効率的な訓練

E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation ( http://arxiv.org/abs/2401.06127v1 )

ライセンス: Link先を確認
Yifan Gong, Zheng Zhan, Qing Jin, Yanyu Li, Yerlan Idelbayev, Xian Liu, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren(参考訳) フレキシブル・リアルタイム・デバイス・オン・デバイス・イメージ編集を実現するための非常に有望な方向の1つは、安定拡散のような大規模テキスト・画像拡散モデルを利用して、生成的敵ネットワーク(GAN)のトレーニングに使用されるペアデータセットを生成することである。 このアプローチは、拡散モデルで画像編集を行うためのハイエンドの商用GPUによって課される厳しい要件を特に緩和する。 しかし, テキストから画像への拡散モデルとは異なり, 蒸留したGANは特定の画像編集作業に特化しており, 様々な概念のモデルを得るためには, コストのかかる訓練が必要である。 本研究は, 拡散モデルからGANを蒸留するプロセスをより効率的にすることができるか? この目的を達成するために,我々は一連の革新的な技術を提案する。 まず,汎用的な機能を備えたベースganモデルを構築し,微調整によって異なる概念に適応し,スクラッチからトレーニングを不要にする。 第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。 第3に,微調整に必要なデータ量を最小限に抑え,トレーニング時間の短縮を図る。 大規模な実験により,モバイル端末上でリアルタイムな高品質な画像編集を,各コンセプトのトレーニングコストとストレージを著しく削減し,効率よくGANを活用できることが示されている。

One highly promising direction for enabling flexible real-time on-device image editing is utilizing data distillation by leveraging large-scale text-to-image diffusion models, such as Stable Diffusion, to generate paired datasets used for training generative adversarial networks (GANs). This approach notably alleviates the stringent requirements typically imposed by high-end commercial GPUs for performing image editing with diffusion models. However, unlike text-to-image diffusion models, each distilled GAN is specialized for a specific image editing task, necessitating costly training efforts to obtain models for various concepts. In this work, we introduce and address a novel research direction: can the process of distilling GANs from diffusion models be made significantly more efficient? To achieve this goal, we propose a series of innovative techniques. First, we construct a base GAN model with generalized features, adaptable to different concepts through fine-tuning, eliminating the need for training from scratch. Second, we identify crucial layers within the base GAN model and employ Low-Rank Adaptation (LoRA) with a simple yet effective rank search process, rather than fine-tuning the entire base model. Third, we investigate the minimal amount of data necessary for fine-tuning, further reducing the overall training time. Extensive experiments show that we can efficiently empower GANs with the ability to perform real-time high-quality image editing on mobile devices with remarkable reduced training cost and storage for each concept.
翻訳日:2024-01-12 13:12:24 公開日:2024-01-11
# 全員のダビング:ニューラルレンダリングプリミティブを用いたデータ効率の良いビジュアルダビング

Dubbing for Everyone: Data-Efficient Visual Dubbing using Neural Rendering Priors ( http://arxiv.org/abs/2401.06126v1 )

ライセンス: Link先を確認
Jack Saunders and Vinay Namboodiri(参考訳) ビジュアルダビング(Visual dubbing)は、ビデオ内のアクターの唇の動きを生成し、特定のオーディオと同期する過程である。 近年の進歩はこの目標に向かって進んでいるが、大量導入に適したアプローチは得られていない。 既存の方法は、個人固有のモデルまたは個人固有のモデルに分けられる。 個人固有のモデルは、現実とほとんど区別できない結果を生み出すが、大きな個人データセットを使用して長いトレーニング時間に依存する。 パーソナライズ・ジェネリック・ワークは、さらなる訓練なしにどんなビデオでも視覚的にダビングすることができるが、これらは個人固有のニュアンスを捉えられず、しばしば視覚的なアーティファクトに苦しむ。 提案手法は,データ効率のよいニューラルレンダリングに先立って,既存のアプローチの限界を克服する。 我々のパイプラインは、遅延ニューラルレンダリング前のネットワークと、ニューラルテクスチャを用いたアクター固有の適応を学習する。 この方法は$\textbf{high-quality visual dubbing with just few seconds of data}$で、Aリストの有名人からバックグラウンドの俳優まで、あらゆる俳優のためのビデオダビングを可能にする。 定量的かつ定性的に2つのユーザスタディを通して,$\textbf{visual quality}$ と $\textbf{recognisability}$ の両面で最先端の成果が得られることを示す。 我々の事前学習および適応メソッド $\textbf{ Generalises to limited data}$より良く、既存の個人固有のモデルよりも$\textbf{scalable}$である。 実世界の限られたデータシナリオに関する我々の実験では、私たちのモデルは他のすべてよりも好まれることがわかった。 プロジェクトページはhttps://dubbingforeveryone.github.io/にある。

Visual dubbing is the process of generating lip motions of an actor in a video to synchronise with given audio. Recent advances have made progress towards this goal but have not been able to produce an approach suitable for mass adoption. Existing methods are split into either person-generic or person-specific models. Person-specific models produce results almost indistinguishable from reality but rely on long training times using large single-person datasets. Person-generic works have allowed for the visual dubbing of any video to any audio without further training, but these fail to capture the person-specific nuances and often suffer from visual artefacts. Our method, based on data-efficient neural rendering priors, overcomes the limitations of existing approaches. Our pipeline consists of learning a deferred neural rendering prior network and actor-specific adaptation using neural textures. This method allows for $\textbf{high-quality visual dubbing with just a few seconds of data}$, that enables video dubbing for any actor - from A-list celebrities to background actors. We show that we achieve state-of-the-art in terms of $\textbf{visual quality}$ and $\textbf{recognisability}$ both quantitatively, and qualitatively through two user studies. Our prior learning and adaptation method $\textbf{generalises to limited data}$ better and is more $\textbf{scalable}$ than existing person-specific models. Our experiments on real-world, limited data scenarios find that our model is preferred over all others. The project page may be found at https://dubbingforeveryone.github.io/
翻訳日:2024-01-12 13:11:59 公開日:2024-01-11
# グラディエントスリングショットによる特徴可視化の操作

Manipulating Feature Visualizations with Gradient Slingshots ( http://arxiv.org/abs/2401.06122v1 )

ライセンス: Link先を確認
Dilyara Bareeva, Marina M.-C. H\"ohne, Alexander Warnecke, Lukas Pirch, Klaus-Robert M\"uller, Konrad Rieck, Kirill Bykov(参考訳) ディープニューラルネットワーク(DNN)は複雑で汎用的な表現を学習することができるが、学習概念の意味的性質はいまだ不明である。 DNNで学んだ概念を説明するのに使われる一般的な方法は、ネットワーク内の特定のニューロンを最大に活性化する合成入力信号を生成するActivation Maximization (AM)である。 本稿では,本手法の敵対的モデル操作に対する脆弱性を調査し,モデルアーキテクチャを変更したり,モデルの意思決定プロセスに大きな影響を与えることなく,特徴の可視化を行う新しい手法を提案する。 提案手法の有効性をいくつかのニューラルネットワークモデルで評価し,モデル監査中に選択した目的説明でニューロンの本来の説明を隠蔽することにより,特定のニューロンの機能を隠す能力を示す。 治療薬として,このような操作に対する保護措置を提案し,その結果を裏付ける定量的証拠を提供する。

Deep Neural Networks (DNNs) are capable of learning complex and versatile representations, however, the semantic nature of the learned concepts remains unknown. A common method used to explain the concepts learned by DNNs is Activation Maximization (AM), which generates a synthetic input signal that maximally activates a particular neuron in the network. In this paper, we investigate the vulnerability of this approach to adversarial model manipulations and introduce a novel method for manipulating feature visualization without altering the model architecture or significantly impacting the model's decision-making process. We evaluate the effectiveness of our method on several neural network models and demonstrate its capabilities to hide the functionality of specific neurons by masking the original explanations of neurons with chosen target explanations during model auditing. As a remedy, we propose a protective measure against such manipulations and provide quantitative evidence which substantiates our findings.
翻訳日:2024-01-12 13:11:28 公開日:2024-01-11
# TOFU:LLMの架空のアンラーニングの課題

TOFU: A Task of Fictitious Unlearning for LLMs ( http://arxiv.org/abs/2401.06121v1 )

ライセンス: Link先を確認
Pratyush Maini, Zhili Feng, Avi Schwarzschild, Zachary C. Lipton, J. Zico Kolter(参考訳) Webからの大量のデータコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを記憶し、再現することができる。 トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。 このような未学習の手法はいくつか存在するが、そもそも忘れるべきデータが決して学習されなかったものと同等のモデルが得られるかは定かではない。 この課題に対処するために、未学習の理解を深めるためのベンチマークとして、Factitious UnlearningのタスクであるTOFUを紹介します。 我々は200種類の多彩な合成著者プロファイルのデータセットを提供し、それぞれが20の質問応答ペアで構成され、これらのプロファイルのサブセットは、未学習のターゲットとして機能します。 非学習の有効性の全体像を提供するために、一緒に働くメトリクスの集合をコンパイルする。 最後に、既存の未学習アルゴリズムのベースライン結果のセットを提供する。 重要なのは、私たちが検討しているベースラインのどれも、モデルを効果的にチューニングするアンラーニングのアプローチを開発するための効果的なアンラーニングのモチベーションを示していないことです。

Large language models trained on massive corpora of data from the web can memorize and reproduce sensitive or private data raising both legal and ethical concerns. Unlearning, or tuning models to forget information present in their training data, provides us with a way to protect private data after training. Although several methods exist for such unlearning, it is unclear to what extent they result in models equivalent to those where the data to be forgotten was never learned in the first place. To address this challenge, we present TOFU, a Task of Fictitious Unlearning, as a benchmark aimed at helping deepen our understanding of unlearning. We offer a dataset of 200 diverse synthetic author profiles, each consisting of 20 question-answer pairs, and a subset of these profiles called the forget set that serves as the target for unlearning. We compile a suite of metrics that work together to provide a holistic picture of unlearning efficacy. Finally, we provide a set of baseline results from existing unlearning algorithms. Importantly, none of the baselines we consider show effective unlearning motivating continued efforts to develop approaches for unlearning that effectively tune models so that they truly behave as if they were never trained on the forget data at all.
翻訳日:2024-01-12 13:11:13 公開日:2024-01-11
# ブロードバンドアップコンバージョンによるプログラム可能なスペクトル相関を持つ高多重モード可視光

Highly multimode visible squeezed light with programmable spectral correlations through broadband up-conversion ( http://arxiv.org/abs/2401.06119v1 )

ライセンス: Link先を確認
Federico Presutti, Logan G. Wright, Shi-Yuan Ma, Tianyu Wang, Benjamin K. Malia, Tatsuhiro Onodera, Peter L. McMahon(参考訳) 光の多モード圧縮状態は、計算とセンシングにおいて量子的優位性を達成するための資源として提案されている。 この目的のマルチモードガウス状態を示す最近の実験では、一般に空間モードや時間モードが選択されているが、周波数モードに基づく完全なシステムはまだ実現されていない。 代わりに、超短パルス励起時の周波数モードを従来の単一空間モード光パラメトリック増幅器で同時に使用する方法を示す。 特に、断熱周波数変換は、赤外線から可視波長への量子状態変換だけでなく、結合スペクトルを同時操作するためにどのように用いられるかを示す。 この量子周波数変換は、帯域幅 >45 THz 以上であり、我々の知る限り、電子多重化CCD(EMCCD)カメラベースの分光計で非低温温度で状態を測定することができる。 約700個の可視光子を持つ400以上の周波数モードのスクイーズを実演する。 我々の研究は、1つのパルスレーザー、2つの非線形結晶、1つのカメラを用いて、いかに多モードの光の量子状態を生成し、操作し、効率的にハードウェアリソースを使用して測定できるかを示しています。 控えめなハードウェアリソースで、部分的にプログラム可能な大きなマルチモード圧縮状態を生成する能力は、フォトニクスベースの量子情報処理に周波数符号化を使用する動機となっている。

Multimode squeezed states of light have been proposed as a resource for achieving quantum advantage in computing and sensing. Recent experiments that demonstrate multimode Gaussian states to this end have most commonly opted for spatial or temporal modes, whereas a complete system based on frequency modes has yet to be realized. Instead, we show how to use the frequency modes simultaneously squeezed in a conventional, single-spatial-mode, optical parametric amplifier when pumped by ultrashort pulses. Specifically, we show how adiabatic frequency conversion can be used not only to convert the quantum state from infrared to visible wavelengths, but to concurrently manipulate the joint spectrum. This near unity-efficiency quantum frequency conversion, over a bandwidth >45 THz and, to our knowledge, the broadest to date, allows us to measure the state with an electron-multiplying CCD (EMCCD) camera-based spectrometer, at non-cryogenic temperatures. We demonstrate the squeezing of >400 frequency modes, with a mean of approximately 700 visible photons per shot. Our work shows how many-mode quantum states of light can be generated, manipulated, and measured with efficient use of hardware resources -- in our case, using one pulsed laser, two nonlinear crystals, and one camera. This ability to produce, with modest hardware resources, large multimode squeezed states with partial programmability motivates the use of frequency encoding for photonics-based quantum information processing.
翻訳日:2024-01-12 13:10:50 公開日:2024-01-11
# 付加量子化による大規模言語モデルの極端圧縮

Extreme Compression of Large Language Models via Additive Quantization ( http://arxiv.org/abs/2401.06118v1 )

ライセンス: Link先を確認
Vage Egiazarian, Andrei Panferov, Denis Kuznedelev, Elias Frantar, Artem Babenko, Dan Alistarh(参考訳) 正確なオープン大言語モデル(LLM)の出現は、エンドユーザーデバイス上での実行を可能にするようなモデルの量子化技術への競争につながった。 本稿では,Multi-Codebook Quantization(MCQ)における古典的手法の観点から,パラメータあたり2ビットから3ビットといった,極めて低ビット数を対象として定義されたLLM圧縮の問題を再考する。 我々の研究は、MCQファミリーの古典的なアルゴリズムであるAdditive Quantizationの上に構築され、言語モデルの量子化に適応する。 結果として得られたアルゴリズムは、LLM圧縮の最先端を推し進め、与えられた圧縮予算の精度において、最近提案されたすべての技術より優れている。 例えば、Llama 2モデルをパラメータあたり2ビットに圧縮する場合、我々のアルゴリズムは、7Bモデルを6.93パープレキシティ(最高の先行処理に対して1.29改善、FP16から1.81ポイント)、13Bモデルを5.70パープレキシティ(.36改善)、70Bモデルを3.94パープレキシティ(.22改善)に量子化する。 我々は,LLM量子化の今後の研究を促進するために,言語モデル AQLM をベースラインとして追加量子化の実装をリリースする。

The emergence of accurate open large language models (LLMs) has led to a race towards quantization techniques for such models enabling execution on end-user devices. In this paper, we revisit the problem of "extreme" LLM compression--defined as targeting extremely low bit counts, such as 2 to 3 bits per parameter, from the point of view of classic methods in Multi-Codebook Quantization (MCQ). Our work builds on top of Additive Quantization, a classic algorithm from the MCQ family, and adapts it to the quantization of language models. The resulting algorithm advances the state-of-the-art in LLM compression, outperforming all recently-proposed techniques in terms of accuracy at a given compression budget. For instance, when compressing Llama 2 models to 2 bits per parameter, our algorithm quantizes the 7B model to 6.93 perplexity (a 1.29 improvement relative to the best prior work, and 1.81 points from FP16), the 13B model to 5.70 perplexity (a .36 improvement) and the 70B model to 3.94 perplexity (a .22 improvement) on WikiText2. We release our implementation of Additive Quantization for Language Models AQLM as a baseline to facilitate future research in LLM quantization.
翻訳日:2024-01-12 13:10:26 公開日:2024-01-11
# ニューラルキャラクタのためのガウスシャドウキャスティング

Gaussian Shadow Casting for Neural Characters ( http://arxiv.org/abs/2401.06116v1 )

ライセンス: Link先を確認
Luis Bolanos, Shih-Yang Su, Helge Rhodin(参考訳) ニューラルキャラクタモデルは、ビデオから詳細な幾何学やテクスチャを再構築できるようになったが、明確な影やシェーディングが欠如しており、新たなビューやポーズの生成やリライト時のアーティファクトに繋がる。 影は地球規模の効果であり、二次光線の必要な鋳造にはコストがかかるため、特に困難である。 本稿では,サンプリングを単純な解析式に置き換えるガウス密度プロキシを用いた新しい影モデルを提案する。 動的運動をサポートし、シャドウ計算用に調整されているため、近縁なガウススプラッティングで必要とされるアフィン射影近似やソートを避けることができる。 遅延ニューラルレンダリングモデルと組み合わせることで、ガウスの影は最小限のオーバーヘッドでランベルトシェーディングと影キャストを可能にする。 直射日光と硬い影で屋外に挑戦する場面において,アルベド,シェーディング,シャドウの分離性が向上し,復元性が向上した。 本手法はユーザからの入力なしに光方向を最適化することができる。 その結果、新しいポーズは影のアーティファクトが少なく、新しいシーンでのリライティングは最先端の手法よりも現実的であり、新しい環境でニューラルキャラクタをポーズする方法を提供し、適用性を高めている。

Neural character models can now reconstruct detailed geometry and texture from video, but they lack explicit shadows and shading, leading to artifacts when generating novel views and poses or during relighting. It is particularly difficult to include shadows as they are a global effect and the required casting of secondary rays is costly. We propose a new shadow model using a Gaussian density proxy that replaces sampling with a simple analytic formula. It supports dynamic motion and is tailored for shadow computation, thereby avoiding the affine projection approximation and sorting required by the closely related Gaussian splatting. Combined with a deferred neural rendering model, our Gaussian shadows enable Lambertian shading and shadow casting with minimal overhead. We demonstrate improved reconstructions, with better separation of albedo, shading, and shadows in challenging outdoor scenes with direct sun light and hard shadows. Our method is able to optimize the light direction without any input from the user. As a result, novel poses have fewer shadow artifacts and relighting in novel scenes is more realistic compared to the state-of-the-art methods, providing new ways to pose neural characters in novel environments, increasing their applicability.
翻訳日:2024-01-12 13:09:59 公開日:2024-01-11
# アクシスツアー:ICA変換埋め込みにおける軸の順序を決定するワードツアー

Axis Tour: Word Tour Determines the Order of Axes in ICA-transformed Embeddings ( http://arxiv.org/abs/2401.06112v1 )

ライセンス: Link先を確認
Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira(参考訳) 単語埋め込みは自然言語処理において最も重要な要素の1つであるが、高次元埋め込みを解釈することは難しい問題である。 この問題に対処するため,独立成分分析(ICA)を有効解として同定する。 ICA変換された単語埋め込みは解釈可能な意味軸を示すが、これらの軸の順序は任意である。 本研究では,この特性に着目し,軸の順序を最適化する新しい手法であるAxis Tourを提案する。 1次元の単語埋め込み手法であるWord Tourにインスパイアされた我々は、軸のセマンティックな連続性を最大化し、単語埋め込み空間の明瞭さを向上させることを目指している。 さらに,axis tour が pca と ica に比較して低次元埋め込みを構築できることを下流タスク実験を通して示す。

Word embedding is one of the most important components in natural language processing, but interpreting high-dimensional embeddings remains a challenging problem. To address this problem, Independent Component Analysis (ICA) is identified as an effective solution. ICA-transformed word embeddings reveal interpretable semantic axes; however, the order of these axes are arbitrary. In this study, we focus on this property and propose a novel method, Axis Tour, which optimizes the order of the axes. Inspired by Word Tour, a one-dimensional word embedding method, we aim to improve the clarity of the word embedding space by maximizing the semantic continuity of the axes. Furthermore, we show through experiments on downstream tasks that Axis Tour constructs better low-dimensional embeddings compared to both PCA and ICA.
翻訳日:2024-01-12 13:09:34 公開日:2024-01-11
# PALP:テキスト・画像モデルのパーソナライズ

PALP: Prompt Aligned Personalization of Text-to-Image Models ( http://arxiv.org/abs/2401.06105v1 )

ライセンス: Link先を確認
Moab Arar, Andrey Voynov, Amir Hertz, Omri Avrahami, Shlomi Fruchter, Yael Pritch, Daniel Cohen-Or, Ariel Shamir(参考訳) コンテンツクリエーターは、従来のテキスト・ツー・イメージ・モデルの能力を超越したパーソナライズされた画像を作ることがしばしばある。 さらに、結果の画像が特定の場所、スタイル、あいまいさなどを含むようにしたい場合もあります。 既存のパーソナライズ手法は、パーソナライズ能力や複雑なテキストプロンプトへのアライメントを損なう可能性がある。 このトレードオフは、ユーザのプロンプトの履行と忠実さを損なう可能性がある。 本稿では,この問題に対処するために,emph{single}プロンプトのパーソナライズ手法に着目した新しいアプローチを提案する。 われわれのアプローチを即席のパーソナライズと呼ぶ。 これは制限的であるように思えるが、本手法はテキストアライメントの改善に優れており、複雑で複雑なプロンプトによる画像作成が可能であり、現在の技術に挑戦する可能性がある。 特に,本手法では,個別モデルと目標プロンプトとの整合性を,追加のスコア蒸留サンプリング項を用いて維持する。 マルチショットとシングルショットの設定において,本手法の汎用性を実証し,複数の主題を合成したり,アートワークなどの参照画像からインスピレーションを得られることを示す。 既存のベースラインや最先端技術と定量的・質的に比較した。

Content creators often aim to create personalized images using personal subjects that go beyond the capabilities of conventional text-to-image models. Additionally, they may want the resulting image to encompass a specific location, style, ambiance, and more. Existing personalization methods may compromise personalization ability or the alignment to complex textual prompts. This trade-off can impede the fulfillment of user prompts and subject fidelity. We propose a new approach focusing on personalization methods for a \emph{single} prompt to address this issue. We term our approach prompt-aligned personalization. While this may seem restrictive, our method excels in improving text alignment, enabling the creation of images with complex and intricate prompts, which may pose a challenge for current techniques. In particular, our method keeps the personalized model aligned with a target prompt using an additional score distillation sampling term. We demonstrate the versatility of our method in multi- and single-shot settings and further show that it can compose multiple subjects or use inspiration from reference images, such as artworks. We compare our approach quantitatively and qualitatively with existing baselines and state-of-the-art techniques.
翻訳日:2024-01-12 13:09:21 公開日:2024-01-11
# トランスフォーマーはマルチステートRNNである

Transformers are Multi-State RNNs ( http://arxiv.org/abs/2401.06104v1 )

ライセンス: Link先を確認
Matanel Oren, Michael Hassid, Yossi Adi, Roy Schwartz(参考訳) トランスフォーマーは、前世代の最先端nlpモデルであるrecurrent neural networks(rnn)とは概念的に異なると考えられている。 本研究では,デコーダのみの変圧器を無限多状態RNN(無限の隠れ状態サイズを持つRNN)として概念化できることを実証する。 さらに、事前学習されたトランスフォーマーは、隠れた状態のサイズを固定することで、$\textit{finite}$ multi-state rnnに変換できることを示した。 既存のトランスフォーマーキャッシュ圧縮手法のいくつかは、そのような変換ポリシーとしてフレーム化でき、これらのポリシーよりも簡単な新しいポリシーであるtovaを導入する。 当社の実験では、tovaが他のすべてのベースラインポリシーよりも優れており、完全な(無限の)モデルとほぼ同等であり、場合によっては元のキャッシュサイズの$\frac{1}{8}$しか使用していないことを示している。 この結果から, トランスデコーダLLMは, 実際にRNNとして動作することが多かった。 彼らはまた、最も苦しい計算ボトルネックの1つ、すなわちキャッシュメモリのサイズを緩和するオプションをレイアウトした。 コードをhttps://github.com/schwartz-lab-NLP/TOVAで公開しています。

Transformers are considered conceptually different compared to the previous generation of state-of-the-art NLP models - recurrent neural networks (RNNs). In this work, we demonstrate that decoder-only transformers can in fact be conceptualized as infinite multi-state RNNs - an RNN variant with unlimited hidden state size. We further show that pretrained transformers can be converted into $\textit{finite}$ multi-state RNNs by fixing the size of their hidden state. We observe that several existing transformers cache compression techniques can be framed as such conversion policies, and introduce a novel policy, TOVA, which is simpler compared to these policies. Our experiments with several long range tasks indicate that TOVA outperforms all other baseline policies, while being nearly on par with the full (infinite) model, and using in some cases only $\frac{1}{8}$ of the original cache size. Our results indicate that transformer decoder LLMs often behave in practice as RNNs. They also lay out the option of mitigating one of their most painful computational bottlenecks - the size of their cache memory. We publicly release our code at https://github.com/schwartz-lab-NLP/TOVA.
翻訳日:2024-01-12 13:09:00 公開日:2024-01-11
# Patchscope: 隠れた言語モデルの表現を検査するための統一フレームワーク

Patchscope: A Unifying Framework for Inspecting Hidden Representations of Language Models ( http://arxiv.org/abs/2401.06102v1 )

ライセンス: Link先を確認
Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva(参考訳) 大規模言語モデル(LLM)の隠れ表現に符号化された情報を検査することで、モデルの振る舞いを説明し、人間の値との整合性を検証することができる。 人間の理解可能なテキストを生成する上でのLLMの能力を考えると、モデル自体を利用して自然言語の内部表現を説明する。 我々は、Patchscopesと呼ばれるフレームワークを導入し、LLMの計算に関する幅広い研究課題にどのように答えられるかを示す。 本稿では,このフレームワークの特別な例として,語彙空間への射影表現と LLM 計算の介入に基づく事前解釈可能性手法について述べる。 さらに、初期層検査の失敗や表現力の欠如など、いくつかの欠点をパッチスコープによって緩和することができる。 Patchscopesは、事前検査技術を統一するだけでなく、より有能なモデルを使用してより小さなモデルの表現を説明し、マルチホップ推論における自己補正のような新しいアプリケーションをアンロックするといった新しい可能性も開きます。

Inspecting the information encoded in hidden representations of large language models (LLMs) can explain models' behavior and verify their alignment with human values. Given the capabilities of LLMs in generating human-understandable text, we propose leveraging the model itself to explain its internal representations in natural language. We introduce a framework called Patchscopes and show how it can be used to answer a wide range of research questions about an LLM's computation. We show that prior interpretability methods based on projecting representations into the vocabulary space and intervening on the LLM computation, can be viewed as special instances of this framework. Moreover, several of their shortcomings such as failure in inspecting early layers or lack of expressivity can be mitigated by a Patchscope. Beyond unifying prior inspection techniques, Patchscopes also opens up new possibilities such as using a more capable model to explain the representations of a smaller model, and unlocks new applications such as self-correction in multi-hop reasoning.
翻訳日:2024-01-12 13:08:41 公開日:2024-01-11
# 炭化ケイ素導波路繊維界面の精密キャラクタリゼーション

Precise characterization of a silicon carbide waveguide fiber interface ( http://arxiv.org/abs/2401.06096v1 )

ライセンス: Link先を確認
Marcel Krumrein, Raphael Nold, Flavie Davidson-Marquis, Arthur Bourama, Lukas Niechziol, Timo Steidl, Ruoming Peng, Jonathan K\"orber, Rainer St\"ohr, Nils Gross, Jurgen Smet, Jawad Ul-Hassan, P\'eter Udvarhelyi, Adam Gali, Florian Kaiser, J\"org Wrachtrup(参考訳) 4H-SiCのような高屈折率材料中のエミッタは、内部反射による損失により光子の検出が減少する。 したがって、光子の放出をよく定義された導波路モードに結合する効率的なナノフォトニック構造への統合は、光子検出効率を大幅に向上させることができる。 さらに、この導波路を古典的なファイバーネットワークに対向させることは、光子を検出し実験を行うためにも同様に重要である。 ここではSiCの導波路繊維界面について述べる。 慎重な測定により、SiCナノビームから繊維への光子の移動効率は93%を超える。 我々はこのインタフェースを用いて4H-SiCにおける導波路集積V2欠陥に基づく明るい単一光子源を作成し、181,000カウント/秒の総光子カウント率を得る。 我々は、基底状態スピン状態のひずみ誘起シフトを観察し、T2=42.5$\rm\mu$sのコヒーレンス時間で電子スピンのコヒーレント制御を示す。

Emitters in high refractive index materials like 4H-SiC suffer from reduced detection of photons because of losses caused by total internal reflection. Thus, integration into efficient nanophotonic structures which couple the emission of photons to a well defined waveguide mode can significantly enhance the photon detection efficiency. In addition, interfacing this waveguide to a classical fiber network is of similar importance to detect the photons and perform experiments. Here, we show a waveguide fiber interface in SiC. By careful measurements we determine efficiencies exceeding 93 % for the transfer of photons from SiC nanobeams to fibers. We use this interface to create a bright single photon source based on waveguide integrated V2 defects in 4H-SiC and achieve an overall photon count rate of 181,000 counts/s, the highest value so far achieved for this system. We observe and quantify the strain induced shift of the ground state spin states and demonstrate coherent control of the electron spin with a coherence time of T2=42.5 $\rm\mu$s.
翻訳日:2024-01-12 13:08:25 公開日:2024-01-11
# 強度のみの測定によるプログラマブル干渉計の高速再構成

Fast reconstruction of programmable interferometers with intensity-only measurements ( http://arxiv.org/abs/2401.06093v1 )

ライセンス: Link先を確認
B. I. Bantysh, A. Yu. Chernyavskiy, S. A. Fldzhyan, Yu. I. Bogdanov(参考訳) プログラム可能な線形光干渉計は古典的および量子的応用に期待できる。 統合された設計により、よりスケーラブルで安定したデバイスの開発が可能になる。 実際に使用するには、製造エラーを考慮したデバイスモデル全体を再構築する必要がある。 個々の干渉計要素に対処できないことは、再構成問題を複雑化する。 ナイーブなアプローチは、複雑な最適化手順を通じてモデルをトレーニングすることだ。 より高速な最適化フリーなアルゴリズムが最近提案されている [opt. express 31 16729 (2023)]。 しかし、フルトランスファーマトリクストモグラフィが必要であり、より実用的な設定では干渉計出力の磁場強度のみを測定する。 本稿では,強度のみの測定を行う場合のモデル再構築のために,追加の干渉計構成を用いた高速アルゴリズムの修正を提案する。 提案手法は,従来の高速アルゴリズムより若干悪い性能を示すが,より実用的であり,数値最適化は必要としない。

Programmable linear optical interferometers are promising for classical and quantum applications. Their integrated design makes it possible to create more scalable and stable devices. To use them in practice, one has to reconstruct the whole device model taking the manufacturing errors into account. The inability to address individual interferometer elements complicates the reconstruction problem. A naive approach is to train the model via some complex optimization procedure. A faster optimization-free algorithm has been recently proposed [Opt. Express 31, 16729 (2023)]. However, it requires the full transfer matrix tomography while a more practical setup measures only the fields intensities at the interferometer output. In this paper, we propose the modification of the fast algorithm, which uses additional set of interferometer configurations in order to reconstruct the model in the case of intensity-only measurements. We show that it performs slightly worse than the original fast algorithm but it is more practical and still does not require intensive numerical optimization.
翻訳日:2024-01-12 13:08:05 公開日:2024-01-11
# クラス不均衡下におけるAUROCとAUPRCの概観

A Closer Look at AUROC and AUPRC under Class Imbalance ( http://arxiv.org/abs/2401.06091v1 )

ライセンス: Link先を確認
Matthew B. A. McDermott (1), Lasse Hyldig Hansen (2), Haoran Zhang (3), Giovanni Angelotti (4), Jack Gallifant (3) ((1) Harvard Medical School, (2) Aarhus University, (3) Massachusetts Institute of Technology, (4) IRCCS Humanitas Research Hospital)(参考訳) 機械学習(ML)において、精度-リコール曲線(AUPRC)の下の領域は、クラス不均衡のバイナリ分類タスクにおいて、受信操作特性(AUROC)の下の領域とモデルの比較において優れた指標である。 本稿では, AUROC と AUPRC が確率論的用語で簡潔に関連できることを示す, 新たな数学的解析を通じて, この概念に挑戦する。 AUPRCは、一般的な信念に反して、クラス不均衡の場合には優れておらず、より頻繁に陽性なラベルを持つサブポピュレーションのモデル改善を不当に支持する傾向にあるため、有害な指標である可能性もある。 このバイアスはアルゴリズムの格差を必然的に高めることができる。 これらの知見から,大規模言語モデルを用いてarXivから150万以上の論文を分析し,既存のML文献の徹底的なレビューを行った。 本研究は, AUPRC の優越性に関する有病率と実証に焦点をあてた。 その結果、経験的支援の重大な欠陥と、AUPRCの持つ利点が広く受け入れられるきっかけとなった誤解の傾向が明らかになった。 我々の発見は、計量行動の理解における重要な技術的進歩と、MLコミュニティにおける未確認仮定に対する厳しい警告という2つの貢献を表している。 すべての実験はhttps://github.com/mmcdermott/auc_is_all_you_needから利用できる。

In machine learning (ML), a widespread adage is that the area under the precision-recall curve (AUPRC) is a superior metric for model comparison to the area under the receiver operating characteristic (AUROC) for binary classification tasks with class imbalance. This paper challenges this notion through novel mathematical analysis, illustrating that AUROC and AUPRC can be concisely related in probabilistic terms. We demonstrate that AUPRC, contrary to popular belief, is not superior in cases of class imbalance and might even be a harmful metric, given its inclination to unduly favor model improvements in subpopulations with more frequent positive labels. This bias can inadvertently heighten algorithmic disparities. Prompted by these insights, a thorough review of existing ML literature was conducted, utilizing large language models to analyze over 1.5 million papers from arXiv. Our investigation focused on the prevalence and substantiation of the purported AUPRC superiority. The results expose a significant deficit in empirical backing and a trend of misattributions that have fuelled the widespread acceptance of AUPRC's supposed advantages. Our findings represent a dual contribution: a significant technical advancement in understanding metric behaviors and a stark warning about unchecked assumptions in the ML community. All experiments are accessible at https://github.com/mmcdermott/AUC_is_all_you_need.
翻訳日:2024-01-12 13:07:53 公開日:2024-01-11
# 重み付き問題の量子近似最適化におけるパラメータ設定

Parameter Setting in Quantum Approximate Optimization of Weighted Problems ( http://arxiv.org/abs/2305.15201v3 )

ライセンス: Link先を確認
Shree Hari Sureshbabu, Dylan Herman, Ruslan Shaydulin, Joao Basso, Shouvanik Chakrabarti, Yue Sun, and Marco Pistoia(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、量子コンピュータにおける組合せ最適化問題を解くための主要な候補アルゴリズムである。 しかし、多くの場合、QAOAは計算集約的なパラメータ最適化を必要とする。 パラメータ最適化の課題は、位相演算子の固有値が非整数であり、QAOAエネルギーランドスケープが周期的でない重み付き問題の場合において特に顕著である。 本研究では,重み付き問題の一般クラスに適用したQAOAのパラメータ設定ヒューリスティックスを開発する。 まず、重み付けされたMaxCut問題に適用した深さ$p=1$のQAOAに対する最適パラメータを、重み付けの異なる仮定の下で導出する。 特に、平均的な場合、ゼロに近い最初の局所最適値が世界最適QAOAパラメータを与えるという従来の知恵を厳密に証明する。 第二に、$p\geq 1$ の場合、重み付き MaxCut の QAOA エネルギーランドスケープが、パラメータの単純な再スケーリングの下での未重み付きケースにアプローチすることを証明する。 したがって、未重み付きMaxCutで得られたパラメータを重み付き問題に使用することができる。 最後に、$p=1$のQAOAの目的が期待値に集中していることが証明され、これはパラメータ設定規則がランダムな重み付きインスタンスに対して高い確率で保持されることを意味する。 一般重み付きグラフ上でこのアプローチを数値的に検証し、提案した固定パラメータのQAOAエネルギーが最適化パラメータのQAOAからわずか1.1$%離れていることを示す。 第3に,重み付きmaxcutの解析結果に着想を得た一般ヒューリスティックリスケーリングスキームを提案し,ポートフォリオ最適化問題に適用したxyハミング重み保存ミキサーを用いたqaoaの有効性を示す。 我々のヒューリスティックは局所最適化器の収束を改善し、平均7.4倍のイテレーション数を減らす。

Quantum Approximate Optimization Algorithm (QAOA) is a leading candidate algorithm for solving combinatorial optimization problems on quantum computers. However, in many cases QAOA requires computationally intensive parameter optimization. The challenge of parameter optimization is particularly acute in the case of weighted problems, for which the eigenvalues of the phase operator are non-integer and the QAOA energy landscape is not periodic. In this work, we develop parameter setting heuristics for QAOA applied to a general class of weighted problems. First, we derive optimal parameters for QAOA with depth $p=1$ applied to the weighted MaxCut problem under different assumptions on the weights. In particular, we rigorously prove the conventional wisdom that in the average case the first local optimum near zero gives globally-optimal QAOA parameters. Second, for $p\geq 1$ we prove that the QAOA energy landscape for weighted MaxCut approaches that for the unweighted case under a simple rescaling of parameters. Therefore, we can use parameters previously obtained for unweighted MaxCut for weighted problems. Finally, we prove that for $p=1$ the QAOA objective sharply concentrates around its expectation, which means that our parameter setting rules hold with high probability for a random weighted instance. We numerically validate this approach on general weighted graphs and show that on average the QAOA energy with the proposed fixed parameters is only $1.1$ percentage points away from that with optimized parameters. Third, we propose a general heuristic rescaling scheme inspired by the analytical results for weighted MaxCut and demonstrate its effectiveness using QAOA with the XY Hamming-weight-preserving mixer applied to the portfolio optimization problem. Our heuristic improves the convergence of local optimizers, reducing the number of iterations by 7.4x on average.
翻訳日:2024-01-12 11:23:19 公開日:2024-01-11
# アルゴリズム生成ミススペルを用いた深層ニューラルネットワークを用いたペルシャタイポグラフィー型誤り検出

Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings ( http://arxiv.org/abs/2305.11731v4 )

ライセンス: Link先を確認
Mohammad Dehghani, Heshaam Faili(参考訳) スペル補正は自然言語処理の分野において顕著な課題である。 スペル訂正タスクの目的は、スペルエラーを自動的に認識し修正することである。 ペルシャ語のスペルや文法上の誤りを効果的に診断・修正できるアプリケーションの開発は、ペルシア語のテキストの品質を向上させるためにますます重要になっている。 タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。 そこで本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。 私たちの研究には、FarsTypoという、時系列で並べられた340万語からなる、公開データセットのプレゼンテーションが含まれています。 これらの言葉は幅広い話題や言語スタイルをカバーしている。 我々は,これらの単語のスケーラブルな部分にペルシャ特有の誤りを適用するアルゴリズムを開発し,その結果として,正しい単語と間違った単語の並列データセットを生成する。 farstypoを活用することで,強固な基盤を確立し,異なるアーキテクチャを用いた様々な方法論を徹底的に比較する。 さらに,単語と文字の埋め込みと双方向のLSTMレイヤを併用して,51の異なるクラスにまたがるタイポグラフィ的誤りの検出を目的としたトークン分類を行う,画期的なDeep Sequential Neural Networkを導入する。 本研究と異なり,本手法は多種多様な資源を用いて開発されている高度産業システムとは対照的である。 最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。

Spelling correction is a remarkable challenge in the field of natural language processing. The objective of spelling correction tasks is to recognize and rectify spelling errors automatically. The development of applications that can effectually diagnose and correct Persian spelling and grammatical errors has become more important in order to improve the quality of Persian text. The Typographical Error Type Detection in Persian is a relatively understudied area. Therefore, this paper presents a compelling approach for detecting typographical errors in Persian texts. Our work includes the presentation of a publicly available dataset called FarsTypo, which comprises 3.4 million words arranged in chronological order and tagged with their corresponding part-of-speech. These words cover a wide range of topics and linguistic styles. We develop an algorithm designed to apply Persian-specific errors to a scalable portion of these words, resulting in a parallel dataset of correct and incorrect words. By leveraging FarsTypo, we establish a strong foundation and conduct a thorough comparison of various methodologies employing different architectures. Additionally, we introduce a groundbreaking Deep Sequential Neural Network that utilizes both word and character embeddings, along with bidirectional LSTM layers, for token classification aimed at detecting typographical errors across 51 distinct classes. Our approach is contrasted with highly advanced industrial systems that, unlike this study, have been developed using a diverse range of resources. The outcomes of our final method proved to be highly competitive, achieving an accuracy of 97.62%, precision of 98.83%, recall of 98.61%, and surpassing others in terms of speed.
翻訳日:2024-01-12 11:22:47 公開日:2024-01-11
# 乱れた寒冷原子雲に散乱した光の相互性破壊とパンチャラトナム・ベリー相

Breaking of reciprocity and the Pancharatnam-Berry phase for light scattered by a disordered cold atom cloud ( http://arxiv.org/abs/2401.05297v2 )

ライセンス: Link先を確認
P. H. N. Magnani, P. G. S. Dias, M. Frometa, M. A. Martins, N. Piovella, R. Kaiser, Ph. W. Courteille, M. Hugbart, R. Bachelard, R. C. Teixeira(参考訳) アンダーソン局在やコヒーレント後方散乱といった不規則媒質が散乱する光に対する集団的影響は、干渉光路間の相互性に依存する。 本研究では,干渉経路の偏光を制御した光学素子の非可換性を利用して,不規則な低温原子配置によって散乱した光の相互性破壊について検討する。 この対称性の破れは、雲が散乱する光が鏡像からのそれと干渉するため、フリンジのコントラストの低減に現れている。 我々はパンカラトナム・ベリー相の観点で幾何学的解釈を行い, フリンジの変位から直接アクセスする。 我々の研究は、無秩序な媒体によって散乱された光に対する経路の相互操作と干渉への道を開く。

Collective effects on the light scattered by disordered media such as Anderson localization and coherent backscattering critically depend on the reciprocity between interfering optical paths. In this work, we explore the breaking of reciprocity for the light scattered by a disordered cold atom setup, taking advantage of the non-commutation of optical elements that manipulate the polarization of the interfering paths. This breaking of symmetry manifests itself in the reduction of the fringes contrast as the light scattered by the cloud interferes with that from its mirror image. We provide a geometrical interpretation in terms of the Pancharatnam-Berry phase, which we directly access from the fringes displacement. Our work paves the way toward the manipulation of path reciprocity and interference for light scattered by disordered media.
翻訳日:2024-01-12 11:19:44 公開日:2024-01-11
# 米国と中国の言語に基づくヴァレンスと覚醒表現--文化横断的考察

Language-based Valence and Arousal Expressions between the United States and China: a Cross-Cultural Examination ( http://arxiv.org/abs/2401.05254v2 )

ライセンス: Link先を確認
Young-Min Cho, Dandan Pang, Stuti Thapa, Garrick Sherman, Lyle Ungar, Louis Tay, Sharath Chandra Guntuku(参考訳) 個人の感情表現はソーシャルメディアで広く研究されているが、研究は主に西洋の文脈に焦点を当てている。 感情表現に寄与する文化には実質的な違いがある。 本稿は、米国におけるTwitter(X)と中国のSina Weibo投稿の違いを、価値と覚醒の2つの主要な側面について検討する。 本研究は,米国と中国の個人における覚醒と原子価(いわゆるV字型)の機能的関係の差異について検討し,関連性について検討した。 さらに,両プラットフォームの単語使用状況と話題を関連付け,それらの差異を解釈する。 また,Twitter利用者の感情強度の変動は,Weibo利用者に比べて否定的感情と肯定的感情の差が小さく,感情の高揚に対応する覚醒のエスカレーションが顕著であることがわかった。 言語的特徴から,感情表現はtwitter上での個人的生活や感情と関連しているのに対し,weiboでは社会政治的な話題について議論している。 これらの結果から,ソーシャルメディア上での感情表現のヴァレンスと覚醒の関係は,コンテンツの差異に左右される。 本研究は,感情表現の文化的差異に関する応用と理論に影響を及ぼすものである。

Although affective expressions of individuals have been extensively studied using social media, research has primarily focused on the Western context. There are substantial differences among cultures that contribute to their affective expressions. This paper examines the differences between Twitter (X) in the United States and Sina Weibo posts in China on two primary dimensions of affect - valence and arousal. We study the difference in the functional relationship between arousal and valence (so-called V-shaped) among individuals in the US and China and explore the associated content differences. Furthermore, we correlate word usage and topics in both platforms to interpret their differences. We observe that for Twitter users, the variation in emotional intensity is less distinct between negative and positive emotions compared to Weibo users, and there is a sharper escalation in arousal corresponding with heightened emotions. From language features, we discover that affective expressions are associated with personal life and feelings on Twitter, while on Weibo such discussions are about socio-political topics in the society. These results suggest a West-East difference in the V-shaped relationship between valence and arousal of affective expressions on social media influenced by content differences. Our findings have implications for applications and theories related to cultural differences in affective expressions.
翻訳日:2024-01-12 11:19:30 公開日:2024-01-11
# 文書画像中のウォーターマークテキストパターンスポッティング

Watermark Text Pattern Spotting in Document Images ( http://arxiv.org/abs/2401.05167v2 )

ライセンス: Link先を確認
Mateusz Krubi\'nski, Stefan Matcovici, Diana Grigore, Daniel Voinea and Alin-Ionut Popa(参考訳) 文書画像中のウォーターマークのテキストスポッティングは、しばしば探索されていない情報ソースにアクセスでき、レコードの範囲、観客、時には真偽に関する重要な証拠を提供する。 テキストのスポッティング、文書中のウォーターマークの検出、理解という問題から生まれたのは同じ難題を継承している。 本稿では,この分野の資源不足に対処し,さらに研究を進めるために,wrender を用いて生成した 65,447 個のデータサンプルを含む新しいベンチマーク (k-watermark) を提案する。 人間のレーダを用いた妥当性調査では、予め作成された透かし文書に対する信頼性スコアが0.11である。 データセットとレンダリング技術の有用性を証明するため,図面テキストを予測しながら透かしテキストのバウンディングボックスインスタンスを検出するエンド・ツー・エンド・ソリューション(Wextract)を開発した。 この課題に対処するために,分散最小化損失と階層的自己認識機構を導入する。 我々の知識を最大限に活用するため,我々はまず評価ベンチマークと,検出基準が5点,文字精度が4点を超える文書からウォーターマークを取得するための完全なソリューションを提案する。

Watermark text spotting in document images can offer access to an often unexplored source of information, providing crucial evidence about a record's scope, audience and sometimes even authenticity. Stemming from the problem of text spotting, detecting and understanding watermarks in documents inherits the same hardships - in the wild, writing can come in various fonts, sizes and forms, making generic recognition a very difficult problem. To address the lack of resources in this field and propel further research, we propose a novel benchmark (K-Watermark) containing 65,447 data samples generated using Wrender, a watermark text patterns rendering procedure. A validity study using humans raters yields an authenticity score of 0.51 against pre-generated watermarked documents. To prove the usefulness of the dataset and rendering technique, we developed an end-to-end solution (Wextract) for detecting the bounding box instances of watermark text, while predicting the depicted text. To deal with this specific task, we introduce a variance minimization loss and a hierarchical self-attention mechanism. To the best of our knowledge, we are the first to propose an evaluation benchmark and a complete solution for retrieving watermarks from documents surpassing baselines by 5 AP points in detection and 4 points in character accuracy.
翻訳日:2024-01-12 11:19:08 公開日:2024-01-11
# 一般化等張再帰的分割アルゴリズムの正しさについて

On the Correctness of the Generalized Isotonic Recursive Partitioning Algorithm ( http://arxiv.org/abs/2401.04847v2 )

ライセンス: Link先を確認
Joong-Ho Won and Jihan Jung(参考訳) 本稿では,Luss and Rosset [J. Comput. Graph. Statist., 23 (2014), pp. 192--201] によって提案され,Painsky and Rosset [IEEE Trans. Pattern Anal. Mach. Intell., 38 (2016), pp. 308-321] によって拡張された,分離凸損失下でのイソトニックモデル適合のための一般化イソトニック再帰分割(GIRP)アルゴリズムの詳細な解析を行う。 GIRPアルゴリズムはアルゴリズムの各ステップにおいて、中間解が等調性制約を満たすような魅力的な特徴を示す。 論文は、文献に記述されているガープアルゴリズムが等張的モデルの作成に失敗していることを示す例から始まり、等張的回帰問題に対する解の存在と一意性について慎重に取り組まなければならないことを示唆する。 これは、おそらく多くの解のうち、観測されたデータの再帰的なバイナリ分割によって見つかる解が存在することを示すことから始まる。 GIRPアルゴリズムの小さな修正は正しい解を得るのに十分であり、すべての中間解が等方性であることの望ましい性質を保存する。 この修正は、中間解の適切な選択と、3次から2次への分割ステップの単純化を含む。

This paper presents an in-depth analysis of the generalized isotonic recursive partitioning (GIRP) algorithm for fitting isotonic models under separable convex losses, proposed by Luss and Rosset [J. Comput. Graph. Statist., 23 (2014), pp. 192--201] for differentiable losses and extended by Painsky and Rosset [IEEE Trans. Pattern Anal. Mach. Intell., 38 (2016), pp. 308-321] for nondifferentiable losses. The GIRP algorithm poseses an attractive feature that in each step of the algorithm, the intermediate solution satisfies the isotonicity constraint. The paper begins with an example showing that the GIRP algorithm as described in the literature may fail to produce an isotonic model, suggesting that the existence and uniqueness of the solution to the isotonic regression problem must be carefully addressed. It proceeds with showing that, among possibly many solutions, there indeed exists a solution that can be found by recursive binary partitioning of the set of observed data. A small modification of the GIRP algorithm suffices to obtain a correct solution and preserve the desired property that all the intermediate solutions are isotonic. This proposed modification includes a proper choice of intermediate solutions and a simplification of the partitioning step from ternary to binary.
翻訳日:2024-01-12 11:18:46 公開日:2024-01-11
# マイクロ波光子のパラメトリックプログラマブル遅延線

A parametrically programmable delay line for microwave photons ( http://arxiv.org/abs/2401.04724v2 )

ライセンス: Link先を確認
Takuma Makihara, Nathan Lee, Yudan Guo, Wenyan Guan, Amir H. Safavi-Naeini(参考訳) 量子情報を格納できる遅延線は、量子リピータやハードウェア効率のよい量子コンピュータの進化に不可欠である。 伝統的に、それらは導波路のような波動伝播をサポートする拡張システムとして物理的に実現されている。 しかし、そのような遅延線は通常、伝播場を限定的に制御する。 本稿では,マイクロ波光子に対するパラメトリック対応遅延線(PADL)を導入し,保存パルスのダイナミクスを高レベルに制御し,パルスを任意に遅延あるいは交換することを可能にする。 共振器のアンサンブルと弱ハイブリダイズされた三振混合超伝導回路素子をパラメトリックに駆動することにより、遅延線路の特性を高速に制御し、内部モードへのアクセスを許可しながら、物理的遅延線路の特性をシミュレートするスペクトル応答を設計できる。 我々は、光子を1つの光子の順にエネルギーで動作させ、どの光子エコーを放射するかを選択すること、パルスを時間に翻訳すること、2つのパルスを交換することを含む一連の実験を通じて、パデルの主な特徴を説明する。 また、パラメトリック相互作用から遅延線に付加されるノイズを測定し、付加されるノイズが1光子よりもはるかに小さいことを確認する。

Delay lines capable of storing quantum information are crucial for advancing quantum repeaters and hardware efficient quantum computers. Traditionally, they are physically realized as extended systems that support wave propagation, such as waveguides. But such delay lines typically provide limited control over the propagating fields. Here, we introduce a parametrically addressed delay line (PADL) for microwave photons that provides a high level of control over the dynamics of stored pulses, enabling us to arbitrarily delay or even swap pulses. By parametrically driving a three-waving mixing superconducting circuit element that is weakly hybridized with an ensemble of resonators, we engineer a spectral response that simulates that of a physical delay line, while providing fast control over the delay line's properties and granting access to its internal modes. We illustrate the main features of the PADL, operating on pulses with energies on the order of a single photon, through a series of experiments, which include choosing which photon echo to emit, translating pulses in time, and swapping two pulses. We also measure the noise added to the delay line from our parametric interactions and find that the added noise is much less than one photon.
翻訳日:2024-01-12 11:18:16 公開日:2024-01-11
# 音声頭のためのジャンプカット平滑化

Jump Cut Smoothing for Talking Heads ( http://arxiv.org/abs/2401.04718v2 )

ライセンス: Link先を確認
Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang(参考訳) ジャンプカットは、視聴体験が突然、時には望ましくない変化をもたらす。 本稿では,これらのジャンプカットをスムースにするための新しいフレームワークを提案する。 DensePoseキーポイントと顔のランドマークによって駆動される中間レベルの表現と融合することで、ビデオ内の他のソースフレームから被写体の外観を活用する。 動作を達成するために、カット周辺の端フレーム間でキーポイントとランドマークを補間する。 次に、キーポイントとソースフレームから画像翻訳ネットワークを使用してピクセルを合成する。 キーポイントはエラーを含むことができるため、キーポイントごとに複数の選択肢の中から最も適切なソースを選択し選択するクロスモーダル注意スキームを提案する。 この中間表現を利用することで,強力な映像補間ベースラインよりも強い結果が得られる。 提案手法は,音声ヘッドビデオの様々なジャンプカット,例えば,フィラーワードのカット,ポーズ,さらにはランダムカットについて実証する。 実験の結果,ジャンプカット時に頭部が回転する,あるいは大きく動くといった困難な場合であっても,シームレスな遷移が可能であった。

A jump cut offers an abrupt, sometimes unwanted change in the viewing experience. We present a novel framework for smoothing these jump cuts, in the context of talking head videos. We leverage the appearance of the subject from the other source frames in the video, fusing it with a mid-level representation driven by DensePose keypoints and face landmarks. To achieve motion, we interpolate the keypoints and landmarks between the end frames around the cut. We then use an image translation network from the keypoints and source frames, to synthesize pixels. Because keypoints can contain errors, we propose a cross-modal attention scheme to select and pick the most appropriate source amongst multiple options for each key point. By leveraging this mid-level representation, our method can achieve stronger results than a strong video interpolation baseline. We demonstrate our method on various jump cuts in the talking head videos, such as cutting filler words, pauses, and even random cuts. Our experiments show that we can achieve seamless transitions, even in the challenging cases where the talking head rotates or moves drastically in the jump cut.
翻訳日:2024-01-12 11:17:55 公開日:2024-01-11
# RoSA:ロバスト適応による高精度パラメータ効率ファインチューニング

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation ( http://arxiv.org/abs/2401.04679v3 )

ライセンス: Link先を確認
Mahdi Nikdan, Soroush Tabesh, Dan Alistarh(参考訳) 本研究では,大規模言語モデル (LLM) の文脈において,限られた計算・メモリ予算の下で高い精度を達成できるパラメータ効率細調整法について検討する。 本稿では,ロバスト適応 (RoSA) と呼ばれる新しいPEFT手法を提案する。ロバスト適応 (RoSA) はロバストな主成分分析 (PCA) にインスパイアされ,固定された事前学習重みのセットの上に$\textit{low-rank}$と$\textit{highly-sparse}$コンポーネントを共同でトレーニングし,フルファインチューニング (FFT) ソリューションの性能を効率的に近似する。 小学校数学やSQLクエリ生成など,優れたパフォーマンスのために微調整を必要とする一連の課題生成タスクにおいて,RoSAがLoRAと純粋スパース細調整の両方を同じパラメータ予算で上回ることを示す。 我々は、トレーニングアルゴリズム、特にメモリと計算効率のトレーニングを可能にするスパースGPUカーネルを補完するRoSAのシステムサポートを提供する。 私たちのコードは$\href{https://github.com/IST-DASLab/RoSA}{\text{our github page}}$で利用可能になります。

We investigate parameter-efficient fine-tuning (PEFT) methods that can provide good accuracy under limited computational and memory budgets in the context of large language models (LLMs). We present a new PEFT method called Robust Adaptation (RoSA) inspired by robust principal component analysis (PCA) that jointly trains $\textit{low-rank}$ and $\textit{highly-sparse}$ components on top of a set of fixed pretrained weights to efficiently approximate the performance of a full-fine-tuning (FFT) solution. Across a series of challenging generative tasks such as grade-school math and SQL query generation, which require fine-tuning for good performance, we show that RoSA outperforms both LoRA and pure sparse fine-tuning, at the same parameter budget. We provide system support for RoSA to complement the training algorithm, specifically in the form of sparse GPU kernels which enable memory- and computationally-efficient training. Our code will be made available at $\href{https://github.com/IST-DASLab/RoSA}{\text{our github page}}$.
翻訳日:2024-01-12 11:17:38 公開日:2024-01-11
# debugbench: 大きな言語モデルのデバッグ能力を評価する

DebugBench: Evaluating Debugging Capability of Large Language Models ( http://arxiv.org/abs/2401.04621v2 )

ライセンス: Link先を確認
Runchu Tian, Yining Ye, Yujia Qin, Xin Cong, Yankai Lin, Yinxu Pan, Yesai Wu, Zhiyuan Liu, Maosong Sun(参考訳) 大きな言語モデル(LLM)は、例外的なコーディング能力を示している。 しかし、プログラミング能力のもう1つの重要な要素として、llmsのデバッグ能力は比較的未検討である。 LLMのデバッグ能力のこれまでの評価は、データ漏洩のリスク、データセットのスケール、さまざまなテストバグによって大幅に制限されている。 これらの欠陥を克服するために,4,253インスタンスからなるLLMデバッグベンチマークである‘DebugBench’を導入する。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。 DebugBenchを構築するために、LeetCodeコミュニティからコードスニペットを収集し、GPT-4でバグをソースデータに埋め込み、厳格な品質チェックを保証します。 ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。 1) GPT-4のようなクローズドソースモデルは人間に比べてデバッグ性能が劣るが,Code Llamaのようなオープンソースモデルではパスレートスコアが得られず,(2)デバッグの複雑さはバグカテゴリによって顕著に変動する。 拡張として、LLMデバッグとコード生成を比較し、クローズドソースモデルに対するそれらの相関関係を強く明らかにする。 これらの発見は、デバッグにおけるLLMの開発に役立つだろう。

Large Language Models (LLMs) have demonstrated exceptional coding capability. However, as another critical component of programming proficiency, the debugging capability of LLMs remains relatively unexplored. Previous evaluations of LLMs' debugging ability are significantly limited by the risk of data leakage, the scale of the dataset, and the variety of tested bugs. To overcome these deficiencies, we introduce `DebugBench', an LLM debugging benchmark consisting of 4,253 instances. It covers four major bug categories and 18 minor types in C++, Java, and Python. To construct DebugBench, we collect code snippets from the LeetCode community, implant bugs into source data with GPT-4, and assure rigorous quality checks. We evaluate two commercial and three open-source models in a zero-shot scenario. We find that (1) while closed-source models like GPT-4 exhibit inferior debugging performance compared to humans, open-source models such as Code Llama fail to attain any pass rate scores; (2) the complexity of debugging notably fluctuates depending on the bug category; (3) incorporating runtime feedback has a clear impact on debugging performance which is not always helpful. As an extension, we also compare LLM debugging and code generation, revealing a strong correlation between them for closed-source models. These findings will benefit the development of LLMs in debugging.
翻訳日:2024-01-12 11:17:10 公開日:2024-01-11
# Tiny Time Mixers (TTMs):多変量時系列のZero/Few-Shot予測のための高速事前学習モデル

Tiny Time Mixers (TTMs): Fast Pretrained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series ( http://arxiv.org/abs/2401.03955v2 )

ライセンス: Link先を確認
Vijay Ekambaram, Arindam Jati, Nam H. Nguyen, Pankaj Dayama, Chandra Reddy, Wesley M. Gifford, Jayant Kalagnanam(参考訳) zero/few-shot学習のための大規模事前学習モデルは、言語領域や視覚領域で優れているが、多変量時系列(ts)での課題に遭遇する。 その結果,事前学習された大規模言語モデル (LLM) の時系列予測への適応が活発化している。 これらのアプローチはクロスドメイン転送学習を採用しており、驚くべき結果をもたらす。 しかしながら、これらのモデルは典型的には非常に遅く、大きな(\sim$billion parameters)であり、チャネル間の相関を考慮しない。 そこで本稿では,軽量tsmixerアーキテクチャに基づく非常に小型のモデルであるttm(multi-level tiny time mixer)を提案する。 TTMは、予測に効果的な転送学習機能を備えたわずか4-8時間で、公開TSデータセットにのみトレーニングされた、小さな汎用事前トレーニングモデル($100万のパラメータ)を開発する最初の成功である。 時間分解能の異なる複数のデータセットにおける事前トレーニングの複雑さに対処するために,適応パッチ処理,ダウンサンプリングによるデータセット拡張,解像度プレフィックスチューニングなど,いくつかの新しい拡張を導入する。 さらに,チャネル相関を効果的にモデル化し,既存のベンチマークに欠落する重要な機能である微調整時に外因性シグナルを組み込むためのマルチレベルモデリング手法を用いる。 TTMは少数/ゼロショットの予測に優れており、既存のベンチマークよりも相当な精度(12-38%)向上を示している。 さらに、モデルパラメータの14-106倍の削減を実現し、LCM-TSベンチマークと比較して54-65倍高速な微調整/推論を実現している。 実際、ttmのゼロショットは、多くの人気のあるベンチマークで数少ない結果を超え、我々のアプローチの有効性を強調しています。 CodeとPretrained Modelsはオープンソースになる。

Large Pretrained models for zero/few-shot learning excel in language and vision domains but encounter challenges in multivariate time series (TS) due to the diverse nature and scarcity of publicly available pretraining data. Consequently, there has been a recent surge in utilizing pretrained large language models (LLMs) with various adaptations for time series forecasting. These approaches employ cross-domain transfer learning and surprisingly yield impressive results. However, these models are typically very slow and large ($\sim$billion parameters) and do not consider cross-channel correlations. To address this, we present Multi-level Tiny Time Mixers (TTM), a significantly small model based on the lightweight TSMixer architecture. TTM marks the first success in developing tiny general-pretrained models ($\le$1 million parameters), exclusively trained on public TS datasets in a flash of just 4-8 hrs with effective transfer learning capabilities for forecasting. To tackle the complexity of pretraining on multiple datasets with varied temporal resolutions, we introduce several novel enhancements such as adaptive patching, dataset augmentation via downsampling, and resolution prefix tuning. Moreover, we employ a multi-level modeling strategy to effectively model channel correlations and incorporate exogenous signals during fine-tuning, a crucial capability lacking in existing benchmarks. TTM excels in few/zero-shot forecasting, demonstrating significant accuracy gains (12-38%) over existing benchmarks. Further, it achieves a remarkable 14-106X reduction in model parameters, enabling 54-65X faster finetuning/inference as compared to the LLM-TS benchmarks. In fact, TTM's zero-shot often surpasses the few-shot results in many popular benchmarks, highlighting the efficacy of our approach. Code and Pretrained Models will be open-sourced.
翻訳日:2024-01-12 11:15:51 公開日:2024-01-11
# TIER:AIGC画像品質評価のためのテキストエンコーダに基づく回帰

TIER: Text-Image Encoder-based Regression for AIGC Image Quality Assessment ( http://arxiv.org/abs/2401.03854v2 )

ライセンス: Link先を確認
Jiquan Yuan, Xinyan Cao, Jinming Che, Qinyuan Wang, Sen Liang, Wei Ren, Jinlong Lin, Xixin Cao(参考訳) 近年,人間知覚の観点からai生成画像(aigis)の品質評価を目的としたaigc画像品質アセスメント(aigciqa)が,コンピュータビジョンの新しいトピックとして登場した。 画像がノイズ、ぼやけ、圧縮によって歪められたオリジナル画像から派生する一般的な画質評価タスクとは異なり、\textit{etc。 AIGCIQAタスクでは、画像は通常、テキストプロンプトを使用して生成モデルによって生成される。 近年,AIGCIQAの推進に向けた重要な取り組みが行われている。 しかし、既存のほとんどのAIGCIQAメソッドは、予測されたスコアを直接生成した画像から取り除き、これらの画像のテキストプロンプトに含まれる情報を見渡す。 この監視はAIGCIQA法の性能を部分的に制限する。 この問題に対処するため,テキスト画像エンコーダに基づく回帰(TIER)フレームワークを提案する。 具体的には、生成された画像と対応するテキストプロンプトを入力として処理し、テキストエンコーダと画像エンコーダを用いて、これらのテキストプロンプトと生成された画像から特徴を抽出する。 提案手法の有効性を実証するため, AGIQA-1K, AGIQA-3K, AIGCIQA2023 など,いくつかの主要なAIGCIQAデータベース上で実験を行った。 実験結果から,提案手法は一般にベースラインよりも優れた性能を示すことが示唆された。

Recently, AIGC image quality assessment (AIGCIQA), which aims to assess the quality of AI-generated images (AIGIs) from a human perception perspective, has emerged as a new topic in computer vision. Unlike common image quality assessment tasks where images are derived from original ones distorted by noise, blur, and compression, \textit{etc.}, in AIGCIQA tasks, images are typically generated by generative models using text prompts. Considerable efforts have been made in the past years to advance AIGCIQA. However, most existing AIGCIQA methods regress predicted scores directly from individual generated images, overlooking the information contained in the text prompts of these images. This oversight partially limits the performance of these AIGCIQA methods. To address this issue, we propose a text-image encoder-based regression (TIER) framework. Specifically, we process the generated images and their corresponding text prompts as inputs, utilizing a text encoder and an image encoder to extract features from these text prompts and generated images, respectively. To demonstrate the effectiveness of our proposed TIER method, we conduct extensive experiments on several mainstream AIGCIQA databases, including AGIQA-1K, AGIQA-3K, and AIGCIQA2023. The experimental results indicate that our proposed TIER method generally demonstrates superior performance compared to baseline in most cases.
翻訳日:2024-01-12 11:15:17 公開日:2024-01-11
# 二元フィードバックによる長期安全強化学習

Long-term Safe Reinforcement Learning with Binary Feedback ( http://arxiv.org/abs/2401.03786v2 )

ライセンス: Link先を確認
Akifumi Wachi, Wataru Hashimoto, Kazumune Hashimoto(参考訳) 安全は実問題に強化学習(RL)を適用する上で必須の要件である。 近年、安全なRLアルゴリズムが提案されているが、ほとんどの既存の研究は概ねそうである。 1) 数値的安全フィードバックの受信に依存している。 2) 学習過程における安全性は保証されない。 3) 問題を既知の決定論的遷移力学に限定する; および/または 4) いかなる州に対しても既知の安全政策の存在を前提とする。 そこで我々は,二項安全性フィードバックと未知の確率的状態遷移関数を有する制約付きマルコフ決定プロセス(cmdps)のための安全性rlアルゴリズムであるlobisarlを提案する。 lobisarlは報酬を最大化するポリシーを最適化し、エージェントが各エピソードを通して安全な状態-アクションペアだけを高い確率で実行する長期的な安全性を保証する。 具体的には、LoBiSaRLは一般化線形モデル(GLM)を介して二項安全関数をモデル化し、適切な仮定の下での将来の安全性への影響を推論しながら、各ステップで保守的にのみ安全な行動をとる。 理論的には,LoBiSaRLは長期安全制約を高い確率で保証している。 最後に,提案手法は既存の手法よりも安全であり,報奨効果を著しく損なわないことを示す。

Safety is an indispensable requirement for applying reinforcement learning (RL) to real problems. Although there has been a surge of safe RL algorithms proposed in recent years, most existing work typically 1) relies on receiving numeric safety feedback; 2) does not guarantee safety during the learning process; 3) limits the problem to a priori known, deterministic transition dynamics; and/or 4) assume the existence of a known safe policy for any states. Addressing the issues mentioned above, we thus propose Long-term Binaryfeedback Safe RL (LoBiSaRL), a safe RL algorithm for constrained Markov decision processes (CMDPs) with binary safety feedback and an unknown, stochastic state transition function. LoBiSaRL optimizes a policy to maximize rewards while guaranteeing a long-term safety that an agent executes only safe state-action pairs throughout each episode with high probability. Specifically, LoBiSaRL models the binary safety function via a generalized linear model (GLM) and conservatively takes only a safe action at every time step while inferring its effect on future safety under proper assumptions. Our theoretical results show that LoBiSaRL guarantees the long-term safety constraint, with high probability. Finally, our empirical results demonstrate that our algorithm is safer than existing methods without significantly compromising performance in terms of reward.
翻訳日:2024-01-12 11:14:55 公開日:2024-01-11
# 外傷性脳損傷における機械学習の応用 - Mild TBIのスポットライト

Machine Learning Applications in Traumatic Brain Injury: A Spotlight on Mild TBI ( http://arxiv.org/abs/2401.03621v2 )

ライセンス: Link先を確認
Hanem Ellethy, Shekhar S. Chandra, and Viktor Vegh(参考訳) 外傷性脳損傷(TBI)は、世界的な公衆衛生上の大きな課題となり、高い死亡率と死亡率をもたらし、世界中の医療システムに重大な経済的負担を負う。 TBIの診断はCTスキャンとともに臨床情報に依存する。 TBIによって引き起こされる多面的課題に対処するために、この複雑な状態に対して革新的なデータ駆動アプローチが開発されている。 特に特筆すべきは、伝統的な方法がしばしば不足するtbiのケースの大部分を占めるmtbi(mtbi)の流行である。 そこで我々は,TBIにおける臨床情報とCTスキャンに応用された最先端機械学習(ML)技術について,特にmTBIに注目した。 データソースに基づいてmlアプリケーションを分類し、現在まで使用されているmlテクニックのスペクトルがある。 これらの技術のほとんどは診断に重点を置いており、予後を予測する試みは比較的少ない。 このレビューは、データ駆動アプローチと標準診断データを用いてtbiの診断を改善することを目的とした将来の研究のインスピレーションとなるかもしれない。

Traumatic Brain Injury (TBI) poses a significant global public health challenge, contributing to high morbidity and mortality rates and placing a substantial economic burden on healthcare systems worldwide. The diagnosis of TBI relies on clinical information along with Computed Tomography (CT) scans. Addressing the multifaceted challenges posed by TBI has seen the development of innovative, data-driven approaches, for this complex condition. Particularly noteworthy is the prevalence of mild TBI (mTBI), which constitutes the majority of TBI cases where conventional methods often fall short. As such, we review the state-of-the-art Machine Learning (ML) techniques applied to clinical information and CT scans in TBI, with a particular focus on mTBI. We categorize ML applications based on their data sources, and there is a spectrum of ML techniques used to date. Most of these techniques have primarily focused on diagnosis, with relatively few attempts at predicting the prognosis. This review may serve as a source of inspiration for future research studies aimed at improving the diagnosis of TBI using data-driven approaches and standard diagnostic data.
翻訳日:2024-01-12 11:14:34 公開日:2024-01-11
# IODeep:DICOM標準でのディープラーニング導入のためのIOD

IODeep: an IOD for the introduction of deep learning in the DICOM standard ( http://arxiv.org/abs/2311.16163v3 )

ライセンス: Link先を確認
Salvatore Contino, Luca Cruciata, Orazio Gambino and Roberto Pirrone(参考訳) 背景と目的:近年、人工知能(AI)、特にディープニューラルネットワーク(DNN)は、よく知られた競争の確立とともに、より多くのデータセットが利用可能になったため、バイオメディカルイメージセグメンテーションにおいて、関連する研究トピックとなった。 研究側のDNNベースのセグメンテーションの人気にもかかわらず、これらの技術は診断過程において医師を効果的に支援できるとしても、日常臨床ではほとんど使われていない。 神経モデルの予測の説明可能性に関する問題とは別に、そのようなシステムは診断ワークフローに統合されておらず、この目標を達成するためにはそれらの使用の標準化が必要である。 方法:本稿では,dnn の重みとアーキテクチャを,取得形態,解剖学的領域,および調査中の疾患についてラベル付けされた特定の画像データセットに格納することを目的とした,新しい dicom information object definition (iod) を提案する。 結果: IODアーキテクチャは,上述したラベルに基づくPACSサーバからのDNN選択アルゴリズムと,DICOM統合の有効性を示すために設計されたシンプルなPACSビューアとともに提示されるが,PACSサーバ側では変更は不要である。 また、ワークフロー全体をサポートするサービスベースのアーキテクチャも実装されている。 結論: IODeepは、トレーニングされたAIモデルをDICOMインフラストラクチャに完全に統合することを保証すると同時に、トレーニングされたモデルを病院データで微調整するか、異なる病院が共有するフェデレーション学習スキームでトレーニングすることが可能である。 これにより、AIモデルは、Radiology病棟が生成する実際のデータに合わせて調整され、医師の意思決定プロセスが改善される。 ソースコードはhttps://github.com/CHILab1/IODeep.gitで無料で入手できる。

Background and Objective: In recent years, Artificial Intelligence (AI) and in particular Deep Neural Networks (DNN) became a relevant research topic in biomedical image segmentation due to the availability of more and more data sets along with the establishment of well known competitions. Despite the popularity of DNN based segmentation on the research side, these techniques are almost unused in the daily clinical practice even if they could support effectively the physician during the diagnostic process. Apart from the issues related to the explainability of the predictions of a neural model, such systems are not integrated in the diagnostic workflow, and a standardization of their use is needed to achieve this goal. Methods: This paper presents IODeep a new DICOM Information Object Definition (IOD) aimed at storing both the weights and the architecture of a DNN already trained on a particular image dataset that is labeled as regards the acquisition modality, the anatomical region, and the disease under investigation. Results: The IOD architecture is presented along with a DNN selection algorithm from the PACS server based on the labels outlined above, and a simple PACS viewer purposely designed for demonstrating the effectiveness of the DICOM integration, while no modifications are required on the PACS server side. Also a service based architecture in support of the entire workflow has been implemented. Conclusion: IODeep ensures full integration of a trained AI model in a DICOM infrastructure, and it is also enables a scenario where a trained model can be either fine-tuned with hospital data or trained in a federated learning scheme shared by different hospitals. In this way AI models can be tailored to the real data produced by a Radiology ward thus improving the physician decision making process. Source code is freely available at https://github.com/CHILab1/IODeep.git
翻訳日:2024-01-12 11:14:14 公開日:2024-01-11
# ConViTを用いた静止画像における人間の行動認識

Human Action Recognition in Still Images Using ConViT ( http://arxiv.org/abs/2307.08994v3 )

ライセンス: Link先を確認
Seyed Rohollah Hosseyni, Sanaz Seyedin, Hasan Taheri(参考訳) 画像の異なる部分間の関係を理解することは、オブジェクト認識、シーン理解、画像分類など、さまざまなアプリケーションにおいて重要である。 畳み込みニューラルネットワーク(CNN)は、物体の分類と検出において顕著な結果を示したが、人間の行動認識(HAR)において重要な要素である画像の異なる部分間の関係を抽出する能力は欠如している。 この問題に対処するために,視覚変換器(ViT)を用いた畳み込み層のように機能する新しいモジュールを提案する。 提案したモデルでは、視覚変換器は、画像の様々な部分間の関係を効果的に抽出することにより、様々なタスクにおいて畳み込みニューラルネットワークを補完することができる。 提案手法は,単純なCNNと比較して,画像の意味的な部分を抽出し,誤解を招く部分を抑えることができる。 提案したモデルは、Stanford40とPASCAL VOC 2012のアクションデータセットで評価され、平均精度(mAP)が95.5%、平均精度(mAP)が91.5%に達した。

Understanding the relationship between different parts of an image is crucial in a variety of applications, including object recognition, scene understanding, and image classification. Despite the fact that Convolutional Neural Networks (CNNs) have demonstrated impressive results in classifying and detecting objects, they lack the capability to extract the relationship between different parts of an image, which is a crucial factor in Human Action Recognition (HAR). To address this problem, this paper proposes a new module that functions like a convolutional layer that uses Vision Transformer (ViT). In the proposed model, the Vision Transformer can complement a convolutional neural network in a variety of tasks by helping it to effectively extract the relationship among various parts of an image. It is shown that the proposed model, compared to a simple CNN, can extract meaningful parts of an image and suppress the misleading parts. The proposed model has been evaluated on the Stanford40 and PASCAL VOC 2012 action datasets and has achieved 95.5% mean Average Precision (mAP) and 91.5% mAP results, respectively, which are promising compared to other state-of-the-art methods.
翻訳日:2024-01-12 11:13:40 公開日:2024-01-11